Ғаламтор желіcіндегі ақпараттарды іздестіру
КІРІСПЕ ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ..
8
1. Ғаламтор желіcіндегі ақпараттарды іздестіру негіздері ... ... ... ... ...
10
1.1 Ақпараттық.іздестіру үдерісінің негізгі түсініктері ... ... ... ... ... ...
10
1.2 Қазіргі заман ақпараттық.іздестіру жүйелері ... ... ... ... ... ... ... ... ...
19
1.3 Ақпараттық.іздестіру үдерісінің моделдері ... ... ... ... ... ... ... ... ... ..
24
2. Ғаламтор ресурстарын ақпараттық іздестіру әдістемесі ... ... ... ... ... 35
2.1 Ғаламтор ресурстарын іздестіру әдістері ... ... ... ... ... ... ... ... ... ... .. 35
2.2 Ғаламтор ресурстарын ақпараттық іздестіру әдістемесі ... ... ... ... .
40
2.3 Ғаламтор ресурстарын іздестіру үдерісінің бағдарламалық қамтамасы және олардан пайдалану нұсқаулығы ... ... ... ... ... ... ...
45
ҚОРЫТЫНДЫ ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...
60
ПАЙДАЛАНҒАН ӘДЕБИЕТТЕР ТІЗІМІ ... ... ... ... ... ... ... ... ... ... ... ... .. 61
8
1. Ғаламтор желіcіндегі ақпараттарды іздестіру негіздері ... ... ... ... ...
10
1.1 Ақпараттық.іздестіру үдерісінің негізгі түсініктері ... ... ... ... ... ...
10
1.2 Қазіргі заман ақпараттық.іздестіру жүйелері ... ... ... ... ... ... ... ... ...
19
1.3 Ақпараттық.іздестіру үдерісінің моделдері ... ... ... ... ... ... ... ... ... ..
24
2. Ғаламтор ресурстарын ақпараттық іздестіру әдістемесі ... ... ... ... ... 35
2.1 Ғаламтор ресурстарын іздестіру әдістері ... ... ... ... ... ... ... ... ... ... .. 35
2.2 Ғаламтор ресурстарын ақпараттық іздестіру әдістемесі ... ... ... ... .
40
2.3 Ғаламтор ресурстарын іздестіру үдерісінің бағдарламалық қамтамасы және олардан пайдалану нұсқаулығы ... ... ... ... ... ... ...
45
ҚОРЫТЫНДЫ ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...
60
ПАЙДАЛАНҒАН ӘДЕБИЕТТЕР ТІЗІМІ ... ... ... ... ... ... ... ... ... ... ... ... .. 61
Зерттеу тақырыбының өзектілігі. Ғаламтор желісіндегі ғылыми-білімдік ресурстарды ақпараттық іздестіру үдерісін ұйымдастыру барысында, автоматтандырылған ақпараттық жүйелерінде орын алған заманауи ақпараттық технологиялардың даму тенденцияларымен таныс болу, оларды оқып-үйрену мен тиімді пайдалану және олардан ақпараттық ресурстарды интеграциялау мен кооперациялауда үнемді пайдалану, бүгінгі күннің өзекті мәселелерінен саналады. Бұларға – қоғамның ақпараттануы, ақпараттық технологиялардың корпоративтік негізде дамуы, қолданыстағы кітапханалық жүйелердің электрондық-ақпараттық ресурс орталықтарына айналуы, автоматтандырылған электрондық кітапханалардағы жұмыс орындарын жасақтау және олардағы ғылыми-білімдік ресурстарды іздестіру үдерісінің әдістемесін жетілдіру тенденциялары жатады.
1. Амамра Рушди Ахмад. Разработка методов и алгоритмов тематически ориентированного распределенного поиска информации в глобальных сетях типа Интернет: Дис.... канд. техн. наук. - СПб., 2002. - 209 с.
2. Башмаков А.И., Старых В.А. Систематизация информационных ресурсов для сферы образования: классификация и метаданные. - М: Мир, 2003. -160-212с.
3. Браславский П.И. Методы повышения эффективности поиска научной информации (на материале internet): Дис.... канд. техн. наук. -Екатеринбург, 2000. - 159 с.
4. Волков С. С. Теоретическое обоснование и разработка интеллектуальной русскоязычной информационно-поисковой системы: Дис....канд. техн. наук. - Краснодар, 2002. - 180 с.
5. Гитер Д.М., Лавринович М.Б. Использование Интернета для эффективного доступа к электронным и традиционным источникам информации: Доклад. НТБ. - 2009.- № 2.- С. 37-42.
6. Дубинский А.Г. Некоторые вопросы применения векторной модели представления документов в информационном поиске // Управляющие системы и машины. - 2011. -№4. - С. 77-83.
7. Ермаков А.Е. Полнотекстовый поиск: проблемы и их решение // Мир ПК. -2010.-N5.-С. 23-28.
8. Киселева Г.Н. Лингвистическая теория информационно-поисковых языков: Дис.... канд. филол. наук. - М., 1995. - 288 с.
9. Когаловский М. Р. Перспективные технологии информационных систем.М.: Компания АйТи, 2003. - 288 с.
10. Кристиан Нейгел и др. C# 5.0 и платформа .NET 4.5 для профессионалов = Professional C# 5.0 and .NET 4.5. — М.: «Диалектика», 2013. — 1440 с. —ISBN 978-5-8459-1850-5
11. .Қасымбеков А.С. Интернетте білім-ғылым ақпараттарын іздестіру әдістемесі // М.Өтемісов атындағы Батыс Қазақстан мемлекеттік университетінің Хабаршысы.-2009.-№2.-Б.131-135
2. Башмаков А.И., Старых В.А. Систематизация информационных ресурсов для сферы образования: классификация и метаданные. - М: Мир, 2003. -160-212с.
3. Браславский П.И. Методы повышения эффективности поиска научной информации (на материале internet): Дис.... канд. техн. наук. -Екатеринбург, 2000. - 159 с.
4. Волков С. С. Теоретическое обоснование и разработка интеллектуальной русскоязычной информационно-поисковой системы: Дис....канд. техн. наук. - Краснодар, 2002. - 180 с.
5. Гитер Д.М., Лавринович М.Б. Использование Интернета для эффективного доступа к электронным и традиционным источникам информации: Доклад. НТБ. - 2009.- № 2.- С. 37-42.
6. Дубинский А.Г. Некоторые вопросы применения векторной модели представления документов в информационном поиске // Управляющие системы и машины. - 2011. -№4. - С. 77-83.
7. Ермаков А.Е. Полнотекстовый поиск: проблемы и их решение // Мир ПК. -2010.-N5.-С. 23-28.
8. Киселева Г.Н. Лингвистическая теория информационно-поисковых языков: Дис.... канд. филол. наук. - М., 1995. - 288 с.
9. Когаловский М. Р. Перспективные технологии информационных систем.М.: Компания АйТи, 2003. - 288 с.
10. Кристиан Нейгел и др. C# 5.0 и платформа .NET 4.5 для профессионалов = Professional C# 5.0 and .NET 4.5. — М.: «Диалектика», 2013. — 1440 с. —ISBN 978-5-8459-1850-5
11. .Қасымбеков А.С. Интернетте білім-ғылым ақпараттарын іздестіру әдістемесі // М.Өтемісов атындағы Батыс Қазақстан мемлекеттік университетінің Хабаршысы.-2009.-№2.-Б.131-135
Пән: Информатика, Программалау, Мәліметтер қоры
Жұмыс түрі: Дипломдық жұмыс
Тегін: Антиплагиат
Көлемі: 62 бет
Таңдаулыға:
Жұмыс түрі: Дипломдық жұмыс
Тегін: Антиплагиат
Көлемі: 62 бет
Таңдаулыға:
АННОТАЦИЯ
Araştırma kağıtinternette bilgi alma araştırma ve eğitim
kaynaklarınınyöntem tartışılmaktadır. Bir arama strateji oluşturma ve arama
sorgusu binanın temel aşamaları: formülasyonu ve bilgi istek (hedeflenen
kısıtlama ve ortak arama hedeflerin özellik) arıtma; planlama arama
prosedürü (yollar ve akılcı çözümler arama sorunun araçları tanımlamak);
gereksinimleri tespit setleriuygulanması için çağrıda, arama stratejileri
geliştirmek; arama ( nihai çözüm arama sorun ) uygulanması. Onlarkullanıcı
yeni bilgi ortamında bilimsel ve eğitsel kaynakların bir arama yapmak için
izin verir. Bu bilgi içinçıkan aramakalitesini artırmak, aynı zamanda
bütünlüğü geliştirmek için mümkün değil sadece yapar.
В дипломной работе рассмотрена методика информационного поиска научно-
образовательных ресурсов в Интернет. Приведены основные этапы построения
стратегии поиска и формулировка поискового запроса: формулировка и
уточнение информационного запроса (целенаправленное ограничение и
конкретизация общей цели поиска); планирование поисковой процедуры
(определение путей и способов рационального решения поисковой задачи);
разработка поисковых стратегий, предусматривающих выполнение выявленных
наборов требований; реализация поиска (окончательное решение поисковой
задачи), которые позволяют пользователю самостоятельно проводить поиск
научно-образовательных ресурсов в новой информационной среде и дает
возможность не только улучшить качество получаемой в результате поиска
информации, но и повысить ее полноту.
In the research, paper discusses the methodology of information retrieval
research and educational resources on the Internet. The main stages of
building a search strategy formulation and search query: formulation and
refinement of information request (targeted restriction and specification
of common search targets); planning search procedure (identify ways and
means of rational solutions search problem); develop search strategies,
calling for the implementation of identified sets of requirements;
implementation of search (final solution search problem). They allow the
user to conduct a search of scientific and educational resources in the new
information environment. This makes it possible to not only improve the
quality of the resulting search for information, but also enhance its
completeness.
МАЗМҰНЫ
КІРІСПЕ 8
... ... ... ... ... ... ... ... .. ... ... ... ... ... ... ... ... ...
... ... ... ... ... ... ... ... .. ...
1. Ғаламтор желіcіндегі ақпараттарды іздестіру негіздері 10
... ... ... ... ...
1.1 Ақпараттық-іздестіру үдерісінің негізгі түсініктері 10
... ... ... ... ... ...
1.2 Қазіргі заман ақпараттық-іздестіру жүйелері 19
... ... ... ... ... ... ... ... .. .
1.3 Ақпараттық-іздестіру үдерісінің 24
моделдері ... ... ... ... ... ... . ... ... ... .
2. Ғаламтор ресурстарын ақпараттық іздестіру әдістемесі 35
... ... ... ... ...
2.1 Ғаламтор ресурстарын іздестіру әдістері 35
... ... ... ... ... ... ... ... .. ... ...
2.2 Ғаламтор ресурстарын ақпараттық іздестіру әдістемесі 40
... ... ... ... .
2.3 Ғаламтор ресурстарын іздестіру үдерісінің бағдарламалық
қамтамасы және олардан пайдалану нұсқаулығы 45
... ... ... ... ... ... ...
ҚОРЫТЫНДЫ 60
... ... ... ... ... ... ... ... .. ... ... ... ... ... ... ... ... ...
... ... ... ... ... ... ...
ПАЙДАЛАНҒАН ӘДЕБИЕТТЕР ТІЗІМІ 61
... ... ... ... ... ... ... ... .. ... ... ... ...
НОРМАТИВТІК СІЛТЕМЕЛЕР
Диплом жұмысын орындау барысында келесі нормативтік құжаттарға
сілтемелер жасалынған:
• Қазақстан Республикасының Ғылым-білім туралы Заңы;
• ҚП ХҚТУ-4.2.3-2009 Құжаттаманы басқару;
• ҚП ХҚТУ-4.2.4-2009 Жазбаларды басқару;
• УС-ХҚТУ-022-2013 Мамандықтар мен пәндердің оқу-әдістемелік кешендерінің
құрылымы, мазмұны, дайындау және бекіту тәртібі;
• УЕ-ХҚТУ-030-2013 Мамандық бойынша ғылым-білім беру бағдарламаларының
педагогикалық стратегиясын әзірлеу ережесі;
• ЖН-СМЖ-065-2013 Мамандықтың негізгі оқу жоспарын дайындау.
АНЫҚТАМАЛАР
Диплом жұмысында төмендегі анықтамалар қолданылды:
Ақпараттық ресурстар — кітапханалар, мұрағаттар, қорларда, мәліметтер
бланкілерінде және басқа да ақпараттық жүйелерде жеке құжаттар немесе
олардың жиымдары түрінде шоғырланған мағлұматтар жиынтығы.
Автоматтандырылған оқыту жүйесі - оқытуды дербестендіру үшін арнайы
компьютерлік негіздегі техникалық, оқу-әдістемелік, лингвистикалық,
бағдарламалық, ұйымдастыру және т.б. қызметтік қамтамасыз ету кешені болып,
келесі функциялар: бастапқы ғылым-білім деңгейін, үйренуші іскерліктерін,
олардың дербес ерекшеліктерін анықтау; оқу материалдарын даярлау –
түсіндірілетін мәтіндер мен оқылатын мәселе бойынша, оқу және бақылау
тапсырмалары бойынша иллюстрациялар; оқу материалын көрсету, оның
күрделілік деңгейі және ақпаратты беру қарқыны бойынша адаптациясы;
оқушының танымдық іс-әрекетін басқару; олардың жұмыс істеу қабілеттілік
көрсеткішін анықтау; меңгеру сапасына қорытынды бақылау жасау; материал
меңгеру процесінің көрсеткіштерін тіркеу және оған статистикалық талдаулар
жасалады.
БЕЛГІЛЕУЛЕР МЕН ҚЫСҚАРТУЛАР
Диплом жұмысында төмендегі қысқартулар қолданылады:
АҒБР – ақпараттық ғылым-білім ресурстары;
ААІЖ – автоматтандырылған ақпараттық-іздестіру жүйелері;
АІЖ – ақпараттық-іздестіру жүйелері;
ҒБР – ғылым-білім ресурстары;
ҒЗАЖ – ғылыми-зерттеулерді автоматтандыру жүйелері;
IM – іздестіру машиналары (МIM – мета іздестіру машиналары).
КІРІСПЕ
Зерттеу тақырыбының өзектілігі. Ғаламтор желісіндегі ғылыми-білімдік
ресурстарды ақпараттық іздестіру үдерісін ұйымдастыру барысында,
автоматтандырылған ақпараттық жүйелерінде орын алған заманауи ақпараттық
технологиялардың даму тенденцияларымен таныс болу, оларды оқып-үйрену мен
тиімді пайдалану және олардан ақпараттық ресурстарды интеграциялау мен
кооперациялауда үнемді пайдалану, бүгінгі күннің өзекті мәселелерінен
саналады. Бұларға – қоғамның ақпараттануы, ақпараттық технологиялардың
корпоративтік негізде дамуы, қолданыстағы кітапханалық жүйелердің
электрондық-ақпараттық ресурс орталықтарына айналуы, автоматтандырылған
электрондық кітапханалардағы жұмыс орындарын жасақтау және олардағы ғылыми-
білімдік ресурстарды іздестіру үдерісінің әдістемесін жетілдіру
тенденциялары жатады.
Диплом тақырыбының маңыздылығы бүгінгі күндегі ақпараттық-іздестіру
үдерісінің қоғамдағы тек қана адамзат іс-әрекетіндегі өндірістік,
техникалық және технологиялық орталарды ғана емес, сонымен қатар ақпараттық
кеңістіктердегі – кітапханалар, мұражайлар, ақпараттық орталарға да енуіне
байланысты болып, ендігі қоғам өмірін Ғаламтор, телекоммуникация
құралдарынсыз елестету мүмкін емес. Ақпараттық-іздестіру бәрінен бұрын
ақпараттық орталықтардағы ақпараттарды дер кезінде іздеп тауып сақтау,
сұрыптап, өңдеу және тиімді шешім қабылдау үшін, пайдаланушылармен
байланысты қамтамасыз етуге себепші болуда. ЖОО кітапхана жүйелері, негізгі
ақпараттық ресурс орталықтар ретінде, автоматтандыру үдерісіндегі
нысандардың бірі болып, бүгінгі күндегі ғылыми-білімдік ақпараттық
ресурстарыд іздестіру әдістемесін жетілдірудегі өзекті мәселелердің
қатарында.
Ақпараттық-іздеcтіру үдерісі бойынша зерттеулер – Д.Лахути, И.Попов,
В.Решетников, А.Черный, Э.Гасанов, Ю.Шрейдер, И.Некрестьянов, L.Gravano,
және т.б. ғалымдардың теориялық және әдістемелік қағидаларына негізделген.
Ақпараттық және телекоммуникациялық технологиялардың өндіріске етене
ендірілуіне байланысты Бірыңғай ақпараттық ғылым-білім беру ортасының
даму бағдарламасында ғылым-білім беруді ақпараттандырудың келесі негізгі
бағыттары: электрондық ғылым-білім ресурстары мен кадрларды ақпараттық
қоғамға дайындау, білім беруді компьютерлендіру және телекоммуникациялық
қамтамасыз ету, регионалдық ақпараттандыру бағдарламаларына қолдау көрсету,
білім саласындағы ақпараттық басқару жүйелерін дамыту және т.б.
айқындалған.
Ақпараттандыру бағыты бойынша айшықталған Электрондық ресурстар,
ресурс орталықтары арқылы – ақпараттық ғылым-білім ресурстарын, ғылым-білім
порталдар жүйесін, электрондық кітапханаларды (депозитарийлерді) және т.б.
жетілдіру жұмыстары жедел дамып, біршама жұмыстар орындалуда.
Қажет электрондық ресурстарды іздестіру үдерісін жетілдіру қажеттілігі –
Ғаламтор желісінің келіп шығуы мен оның белсенді түрде қолданысқа ену
үрдісінде ақпараттық іздестіру жұмыстарының түрленулерімен түсіндіріледі.
Ақпараттық іздестіру аумағы бойынша зерттеулердің өзектілігі сонымен қатар,
ғаламтор желісіндегі ақпараттар іздестірудегі сұраныстардың қуаттылығы мен
ондағы сәйкес емес құжаттардың жиындарына сай еселене түседі. Бұл құбылыс
іздестіру үдерісің қолданыстағы үлгілері мен әдістері сапаларын арттыру
қажеттілігін туындатып, оларды шешуді, бүгінгі күндегі кезек күттірмейтін
мәселелер қатарына қояды.
Әртүрлі әдістердің тиімділігін салыстыру үшін қолданыстағы маңызды
көрсеткіші ретінде іздестіру нәтижелері сапалық бағамдарын (критерияларын)
атауға болады. Мұндай көрсеткіштерге – дәлдік (precision) – іздестіру
жүйесі жауабындағы релеванттық материалдар мен толықтық (recall) –
релевантты құжат жинағы жалпы санындағы табылған релеванттық құжаттар
үлестерін жатқызуға болады.
Алайда, толық жүз пайыздық сапалы іздестіру мүмкін емес, сондықтан
берілгендердің сипатын арттыру әдістері – ақпараттық ресурстар (АР) мета
сипатталу спецификациялары элементтерінің толықтығы мен іздестіру
әдістерінің интелектуалдану дәрежесіне тікелей тәуелді.
Жоғарыда айтылғандардың барлығы, ақпараттық іздестірудің сапасын арттыру
мәселелері бойынша зерттеулер жүргізу қажеттігін тұжырымдайды. Олар мета
каталогтар мен АР депозитарийлерінің іздестіру жүйесін құру үшін өте
маңызды.
Зерттеу жұмысының мақсаты ақпараттық жүйелердегі электрондық ресурстарды
іздестіру үдерісінің әдістемесін қолданыстағы ақпараттық іздестіру үлгілері
мен әдістері негізінде жетілдіру болып табылады.
Мақсатқа жету үшін келесі бағыттар бойынша зерттеулер жүргізілді:
ғаламтор желісіндегі заманауи ақпараттық-іздестіру жүйелеріне жасалған
шолулар мен талдаулар негізінде, қолданыстағы іздестіру моделдері мен
әдістерін пайдаланып, ақпараттық ресурстарды іздестіру үдерісінің
әдістемесін жетілдіру.
Зерттеу нысаны ретінде толық мәтіндік құжат түріндегі АР іздестіру
үдерісінің әдістемесін жасау таңдап алынып, зерттеудің әдістемелік және
теориялық негіздеріне – жиындар, графтар, ақпараттық-іздестіру үдерісі
әдіснамасы мен жасанды зияткерлік жүйелері теорияларының математикалық
аппараты алынды.
Дипломдық жұмыс нәтижесінің ғылыми жаңалығы ретінде – ғылыми-білімдік
ресурстардың толық мәтіндік құжаттарын индекстеу, ақпараттық-іздестіру
үлгілері мен әдістеріне негізделген іздестіру үдерісінің әдістемесін атап
өтуге болады.
Зерттеудің практикалық маңыздылығы – ғылыми-білімдік ресурстарды
іздестіру үдерісінің жетілдірілген әдістемесі негізінде, сұранысқа сай
шынайы релеванттық құжаттарға қол жеткізу болып табылады.
Дипломдық жұмыс көлемі мен құрылымы. Дипломдық жұмыс кіріспеден, екі
тарау мен қорытындыдан және әдебиеттер тізімінен тұрады.
1. Ғаламтор жүйесіндегі ақпараттарды іздестіру негіздері
1. Ақпараттық-іздестіру үдерісінің негізгі түсініктері
Автоматтандырылған ақпараттық жүйені техникалық, бағдарламалық,
алгоритмдік және тілдік құралдардың, сондай-ақ белгілі бір ақпараттық
үдерістерді тұрақты орындау үшін жасалатын, арнайы ұйымдастырылған жүйе
ретінде анықтауға болады [1,3].
Тікелей ақпараттық жүйеде жүзеге асырылатын ақпаратты қайта құруды бес
негізгі үдеріске: енгізу, өңдеу, сақтау, іздестіру, шығаруға келтіруге
болады. Алғашқы екі үдеріс ақпараттың көздері және алушылармен жүйелі
байланысты қамтамасыз етеді, келесі екеуі ішкі болып табылады. Өңдеуші жүйе
ішіндегі ақпаратты алушылармен де жүзеге асырылады.
Ақпараттық жүйені екі топқа бөлуге болады: арнайы тағайындалған
автоматтандырылған жүйе шеңберіндегі ақпараттық қамтамасыздандыру жүйесі
және дербес мақсаттық ақпараттық тағайындау және қолдану саласында бар
жүйе. Біріншінің мысалы болып басқару жүйелері (автоматтандырылған басқару
жүйелері – АБЖ (АСУ, АСУ, АСУТП), ғылыми-зерттеулерді автоматтандыру
жүйелері – ҒЗАЖ (АСНИ), жобалау жүйелері (Жобалауды автоматтандыру жүйелері
– ЖАЖ (САПР), шешімдер қабылдау жүйесі және т.б.. Дербес тағайындалуы бар
ақпараттық жүйелер – автоматтандырылған ақпараттық-іздестіру жүйелері
(ААІЖ) болып табылады.
Ақпараттық-іздестіру жүйесі (АІЖ) – бұл реттелген құжаттар (құжат
массивтері) жиынтығы және ақпаратты сақтау және іздестіру үшін арналған
ақпараттық технология-мәтіндер (құжаттар) немесе мәліметтер (фактілер).
Ақпараттық-іздестіру жүйесі кез-келген белгілі бір түрде ұйымдастырылған
ақпаратты ұйымдасқан түрде сақтау. Оның үстіне ақпараттық-іздестіру жүйесі
автоматтандырылмаған бола алады. Бастысы бұл мақсатты функция: ақпаратты
сақтау мен іздестіру.
Сақтау нысанасы және сұраныс типіне байланысты ақпараттық-іздестіру екі
түрге бөлінеді: құжаттық және фактографиялық. Сондай-ақ соңғысын ақпараттық-
анықтамалық АІЖ деп те атайды.
Құжаттық АІЖ деп аталады, егер мұнда құжаттар массивіне тақырыптық сұрақ
бойынша іздестіру іске асырылса, пайдаланушыға бұл құжаттардың көпшілігін
немесе олардың көшірмелері жеткізілсе. Құжат ұғымы жүйеден жүйеге өзгеруі
мүмкін. Жалпы жағдайда бұл әлдебір материалдық иеленушіде (қағаз, фото,
кинопленка, магниттік жад т.б) белгіленген (әдетте біршама белгі жүйесі
арқылы) әлдебір ақпараттық нысан және әлеуметтік коммуникациялар жүйесінде
кеңістікпен және уақытпен ұзату үшін тағайындалған.
Фактографиялық АІЖ тікелей нақты мәліметтерді (ғылыми техникалық
нысандардың экономикалық сипаттамасымен, қасиеті, үдерістер, құбылыстар
мекен-жай, атау сандық мәліметтер, т.б) сақтауды, іздестіру мен ұзатуды
іске асырады.
Құжаттық және фактографиялық ең алдымен материалдарды интеллектуалды
алдын ала өңдеу дәрежесімен ерекшеленеді. Құжаттық жүйеде сақтау мен ұзату
нысандар жүйесі - тұтастай құжаттар. Фактографиялық іздестіруде сақтау мен
ұзату нысандары - бұл белгілі бір нысан немесе нысандар класы жөнінде
мәлімет (фактілер) ұсынылатын арнайы формасы. Бұл мәліметтер енуде тікелей
тіркеледі, немесе құжаттардан (мәтіндерден) жазып алынады.
Мысалы, жарықтың жылдамдығы қандай сұрағына құжаттық АІЖ мақалалар
мен кітаптар берілетін болады, оларда жарықтың жылдамдығы туралы айтылады
және мүмкін қойылған сұраққа жауап болады. Фактографиялық жүйеде әлдебір
формада оның қандай екендігі туралы хабар беріледі (секундына үш жүз мың
километр).
Құжаттық және фактографиялық іздестірудің арасындағы басты мәнді
айырмашылық, біздің көзқарасымызша, құжаттардың семантикасына баруымен
түзіледі және сәйкесінше одан әрі іздестіру қажеттілігі үшін құжаттарды
алдын ала өңдеу сипатталады. Құжаттық жүйеде құжатта не айтылатыны туралы
ал фактографиялық жүйеде құжатта нақты не хабарланатыны талданады және
жазылады. Сәйкесінше, сұрақтың екі типін ажырату керек: құжаттық
(тақырыптық) ( жарықтың жылдамдығы туралы құжаттарды табу керек) және
фактографиялық (жарықтың жылдамдығы қандай екенін табу).
Құжаттық жүйеде құжаттар тұтастай олардың тақырыптық, пәндік мазмұны
тұрғысынан мәні жазылады. Бұл жағдайда құжат арналған негізгі тақырыптар
мен нысандарды тауып, нысандар атауы маңызды фактографиялық жүйеде
жазылады, олардың белгілері мен бұл белгілердің мағынасы белгіленеді. Осы
жерден жүйедегі жазу тілі мен жазуды сақтау әдістеріндегі айырмашылық
туады. Сәйкесінше, іздестірудің әрбір түрі үшін өзінің іздестіру құралдары
қолданылады.
Фактографиялық жүйе құжаттар массивінде қатаң реттелген құрылғымен
жинақтау мен іздестіруді көздейді. Мұндай құрылым ақпараттық жүйеге енгенде
құжаттарды алдын ала интеллектуалды өңдейді немесе мұндай құжаттардың дайын
күйінде нақты адам қызметінің саласында бар болуы, мысалы, есептік форма,
бланкілер, анықтамалықтар, кестелер т.б., фактографиялық АІЖ ақпарат пен
іздестіруді жинақтауды тек нысанның бір типі бойынша және тек сұрақтың бір
типі бойынша қамтамасыз етеді. Мазмұны мен құрылымы бойынша сан алуан,
бірақ бұл сан алуандылық әрдайым түпкі мәліметтерді сақтау мен іздестіруді
қамтамасыз ететін мейлінше дамыған фактографиялық жүйе қолданылады [12].
Сонымен бір мезгілде, құжаттық және фактографиялық жүйелер арасында
елеулі айырмашылық жоқ. Көбіне нақты АІЖ аралас жүйелер үлгісін көрсетеді.
Мұнда фактографиялық ақпарат құжаттық іздестірудің қосымша құралы ретінде
және керсінше пайдаланылады. Құжаттық жүйеде мәтіндер (құжаттар)
фрагменттерге немесе өрістерге бөлініп құрылымдануы мүмкін, құжаттық
ақпаратты өңдеу мен ұзату жекеленген өрістер деңгейінде жүргізіле алады.
Құжаттық-фактографиялық іздестірудің фактографиялық элементтермен сан
түрлілігі деп құжаттарды библиография элементтері бойынша жүзеге асыратын
библиографиялық іздестіруді санауға болады (автор, жылы, баспа орны, баспа
түрі, баспа, т.б). Библиографиялық сұраныс толығымен фактографиялық сипат
алады: мысалы, Атамұра баспасы 2004 жылы Мәдени мұра сериясымен
шығарған кітаптар. Мұндай сұраныс берілетін нысандар, мәлімет сияқты
бірыңғай сипатталатын белгілеуге жататын кітаптар (библиографиялық жазу,
сақтау шифрлары) мәліметтері сияқты кітаптардың өзі де бола алады. Сонда
бірінші жағдайда библиографиялық жүйе туралы, екіншіден кітапханалық
құжаттығы туралы айтылады. Іс жүзінде нақты кітапханалық жүйе әрдайым
құжаттық сияқты фактографиялық түрлі типтегі бірнеше АІЖ бірігуін
көрсетеді.
Сонымен қатар жүйенің ақпараттық-логикалық деп аталатын үшінші типіне де
бөлінеді. Бұл жүйелер сұраныстарға жауап беруші, олардың ақпараттық базада
айқын түріндегі жауабы жоқ. Жауап алуға әзірдің өзінде қолда бар құжаттық
немесе фактографиялық-алгоритмдік туындайтын ғылым-білім мен ақпараттың
экстралингвистикалық базасына жауап алуға көмектеседі. Бұл жаңа ақпарат
немесе сұранысқа жауап ретінде беріледі немесе іздестіру үшін қосымша
пайдаланылады. Бұл типтің теориялық жүйесі класс сияқты бұрыннан зерттеліп,
өңделеді. Практикада олар салыстырмалы түрде сирек және олардың кейбірі АІЖ
дәстүрлі құжаттық және фактографиялық дамуын көрсетеді. Тұтастай бұл жүйе
мүлдем әртүрлі. Олардың арасынан интелектуальды-диалогтық АІЖ , эксперттік
жүйені, есептік және қисындық шешімдер қабылдау жүйесі (қолдануы), ғылым-
білім базасы, жасанды интеллект жүйесін атауға болады. Одан басқа мұндай
парасатты жүйелер автоматтандырылған сан алуан жүйелер құрамында ақпараттық
жүйесі ретінде қолданылады және компьютермен табиғи тілде
(қатынас)өңделеді.
Ақпараттық-іздестіру жүйелерінің даму кезеңдері. Автоматтандырылған АІЖ
даму тарихы бірнеше негізгі кезеңге бөлінеді.
АІЖ дамуының бірінші кезеңі 1955-1965 жылдарға сәйкес келіп, әсіресе
ақпараттық жарылыстың басты проблемасы – есептеу техникалары мен
құралдарының дамуымен бірге ақпаратты өңдеу, сақтау мен ұзату және
іздестірудің жаңа әдістеріне қызығушылыққа түрткі болды. Алғашқы
автоматтандырылған АІЖ 60-шы жылдардың басында-ақ пайда болды. Ақпараттық
іздестіру саласына компьютерлерді ендіру үлкен перспективаларға жол ашты.
Алайда бұл бастапқы буырхану кезеңі ұзақ болған жоқ, эйфория сауығуға
алмасты. Толығымен автоматтандырылған интелектуалдық іздестіру жүйесін
жедел алу мүмкін болмай шықты. Шектеулі, бірақ пайдалы іздестіру жүйесін
жасауға практикалық жұмыстар басталып, құжаттық іздестіру өз пәні мен
әдістері бар жекеленген, айрықша міндеттерді жүктеді.
Екінші кезеңді шартты түрде ХХ-ғасырдың 60-70 жылдар аралығына
орналастыруға болады. Бұл жылдары компьютерлерді кітапхана жұмысына ендіру
басталды. Бұл ендіру қарапайым дағдылы операцияларды автоматтандырудан
басталды. Алайда, қауымдастықтың кітапханалық қазынасында MEDLARS жүйесі
және MARC форматы сияқты ірі өзіндік жобалар пайда болды [4]. Бұл кезең
үшін ақпараттық іздестіру тілі (AIT) және индекстік әдіске жоғары
қызығушылық тән болып, қолмен жүзеге асырылды.
Сол жылдары типтік АІЖ – адам-машиналық жүйедегі құжаттардың мазмұнын
талдау мен индекстеу қолмен орындалып, іздестіру машинамен жүргізілді. Бұл
іздестірулер құжаттардың іздестіру бейнелерін және дескрипторлық сөздіктер
немесе тезаурустардың негізінде жасалған сұраныстың іздестіру бейнелерін
автоматты салыстырудан тұрды.
Бұл АІЖ ақпаратты іріктеу, тарату тәртібін пайдаланды және
кітапханаларға байланыссыз автономды жүйе ретінде қызмет етті. Әсіресе бұл
кеңестер одағы үшін тән. Мұнда сол жылдары мемлекеттік ғылыми-техникалық
ақпараттың автоматтандырылған жүйесі (ГАСНТИ) құрылды.
Тұтастай бұл кезеңдегі жұмыс үшін АІЖ және АІТ дамуына АІТ-ді табиғи
тілмен салыстыру арқылы табиғи тіл, нақты тілдер өңдеуге, индекстеу
әдістемесін өңдеу мен пайдалануға көп көңіл бөлінді. Зерттеудің негізгі
тақырыбы – автоматтандырылған ақпараттық іздестіру мүмкіндігі немесе мүмкін
еместігінің дәлелі емес, құжаттардың ақпараттық массивінен, релеванттық
сұраныстан табу міндетін мейлінше тиімді шешуді қамтамасыз ететін құралдар
мен әдістерді табу мен өңдеу болды. Мұнда екінші Крэнфилдтік эксперимент
үлкен мәнге ие болды [5]. Оның мақсаты іздестірудің түрлі құралдары мен
стратегиясының тиімділігін салыстырмалы бағалау болды. Көптеген іздестіру
құралдары бос сөз емес парадигматикалық және синтаматикалық қатынастарды
белгілеу, синтаксистік байланыстарды тіркеу еді. Олар із көрсеткіштерінің
жақсаруына әкелмейді, не негізгі сипаттамалардың (толықтық дәлдік) бірін
елеусіз жақсарта отырып, екішісін байқаларлықтай нашарлатады.
Құжаттық АІЖ дамуының үшінші кезеңі шартты түрде 1975-1995жж. жатқызуға
болады. Бұл жылдары, ғылыми пікірсайыстан соң және сыртқы технологиялық
факторлардың ықпалымен тезаурус емес деп аталатын жүйе немесе еркін мәтін
бойынша іздестіру жүйесі кеңінен таралды (free-text searching systems).
Олардың ерекшелігі бір жағынан, лексикалық бақылаудан бас тарту және
сонымен қатар парадигматикалық тіркеуден бас тарту, ал екішіден, контексті
кеңінен пайдалану және синтагматикалық байланыстарды кеңінен пайдалану
болып табылады.
Сырқы технологиялық факторлар машина оқитын мәліметтер базасы (МБ)
мәтіндік өрісті қоса отырып, құжаттардың қысқаша библиографиялық жазуын
мазмұндайды.
Әдеттегідей, бұл мәліметтер қоры құжаттардың қысқаша библиографиялық
сипаттамасын табиғи тілде тақырып, аннотация, реферат көрінісінде мәтіндік
өрісті де қоса мазмұндайды. Және керісінше бірқалыптандырылған лексикамен
құжаттардың іздестіру бейнелерін мазмұндамайды. МБ әдетте бір орында
мамандандырылған мәліметтер базасын ұйымдастырушы–генераторларда құрылды,
бірақ басқаларында пайдаланылды, өйткені құжаттарды бастапқы семантикалық
өңдеу мен сұраныстарды өңдеу үдерістері үзілген болып шықты. Бұл жағдайда
ең тиімді болып жоғарыда аталған жүйелер өзін көрсетті. Автоматты индекстеу
саласында жақсы нәтижелерге қол жеткізілді. Жүйелер пайда болды, мұнда
автоматты индекстеу енді өнеркәптік тәртіпте жүзеге аса бастады (мысалы,
Скоби) [6].
Бұл кезеңнің зерттелуінің басқа бағыты – бұл іздестіру моделі (мәніне
сәйкес өлшемді таңдау) және жүйені бағалау әдістері. Ықтималдық
статистикалық моделге арналған зерттеулердің үлкен санына қарамастан,
практикада негізінен АІЖ булевтік операторлар пайдалана бастады. Булевтік
жүйенің басымдығын оның қарапайымдылығымен түсіндіруге болады. Булевтік
іздестірудің айқындығы іздестірудің диалогтық құралдарының дамуымен сәйкес
келеді. Іздестірудің аралық нәтижелерін алу мүмкіндігі іздестірудің кері
байланыс бойынша ұйғарымды түзеу мүмкіндігін қолданылған жүйенің көмегімен
іздестіру нәтижелерін қанағаттандыруға жеткілікті болып шықты.
Осылайша, 70-ші жылдар ортасында ең көп таралған және өнеркәсіпте
пайдалану тәртібімен жұмыс істейтін жүйелер класының басымдығы қалыптасты
және ұзақ жылдар тұрды.
Бұл жүйелер класы келесі ерекшеліктермен ажыратылады:
1. АІТ кілтті сөздер негізіндегі бұрынғы үйлестіруші типі.
2. Булевтік логика негізінде мәндік сәйкес логикалық өлшем.
3. Синтагматиканы тіркеу үшін арнайы контекстік операторлар.
4. Еркін мәтін бойынша іздестіру (әдетте, ұсынылған рефераттар).
5. Іздестірудің диалогтық тәртібі.
6. Іздестірудің толықтығы мен дәлдігінің тиімділігін бағалау.
7. Мәтіндердің кері байланысы негізінде іздестірудің басқару
көрсеткіштері.
8. Ақпаратты саралап тарату режиміндегі іздестіру жүйесінің кең
таралуы.
Бұл кезең үшін АІЖ өндіріс құралына айналуы тән: мәліметтер құжаттық
базасы және сұраныс бойынша іздестіру машинамен оқуды жинақтауды жүзеге
асырды, қуатты коммерциялық ақпараттық қызмет пайда болды. АІЖ-ін
бағдарламалық қамтамасыздандыру нақты пайдаланушылар мен ұйымдар шарттарына
тез бейімделетін салыстырмалы, қолданбалы бағдарламалар пакеттері түрінде
тарала бастады. Тіл құралдарын бірқалыпқа келтіру құжаттық массивтерді
алмастырудың бірыңғай қалыптарын жасауда (Кеңестар одағында 1978-1979
жылдары коммуникативтік ГКФ [7], ал одан кейінгі 1984-1985 жылдары МЕКОФ
[8] форматтары жасалды). Бірыңғай коммандалық тіл жасау мақсатында сұраныс
тілдерін бірқалыпқа келтіруге әрекет жасалды. Түптің түбірінде мұндай тіл
жасалды, бірақ кейінірек, жеке тіл ретінде емес, Z39.50 іздестіру хаттамасы
құрамында жасалғанын айтуға болады [9].
Құжаттық АІЖ дамуының төртінші кезеңі 1990 жылдардың ортасында басталды.
Ақпараттық салада түбегейлі өзгерістер Ғаламтор желісінің дамуымен
байланысты және электрондық түрде құжаттық ақпараттар көлемінің шұғыл
көшкіні түрінде өсті.
Бұл кезең үшін мыналар тән:
1. Біртұтас ақпараттық кеңістік негізіндегі гипермәтін желілік
технологиялары;
2. Бұл базада жаһандық АІЖ пайда болуы.
3. Электрондық құжаттарды ұсынудың арнайы тілдері.
4. Ақпараттық массивтердің түрлік, тақырыптық, тілдік сан-алуандылығы.
5. Толық мәтіндік іздестіруге бейімделуі.
6. Өткен кезеңнің лингвистикалық қамтамасын мұраландандыру.
Қазіргі АІЖ лингвистикалық компоненті техникалық және бағдарламалықтан
артта қалуда. АІЖ-ін өңдеу көбірек компьютерлік техника бойынша
бағдарламашылар мен мамандардың ісіне айналуда. Лингвистикалық
қамтамасыздандыруды жасау семантиканың, қолданбалы лингвистиканың және
ақпараттық іздестіру теориясының көптеген мәселелерін зерттеу мен шешуді
талап ететін күрделі және кешенді мәселе болып табылады. Құжаттық
іздестірудің бағдарламалық, техникалық қамтамасыздандыру саласындағы
жетістіктері түбегейлі түрде қазіргі ақпараттық жүйе өзгерген бейнесімен
әсер қалдыратындай көрінеді. Алайда бұл жетістік іздестірудің сапалы жағын
бейнелейтін функционалды тиімділіктің көрсеткіштеріне сай келмейді. Қазіргі
кездегі құжаттық ағымның қуаттылық ерекшеліктері–ақпараттық жүйенің тиімді
қызмет етуі ескі лингвистикалық базада мүмкін емес және жаңа тілдік
құралдар жасауға бағытталған зерттеулерді талап етеді. ХХ-ғасырдың соңында
электрондық құжат айналымына толық құқығымен табиғи тіл енді. Бұл, сондай-
ақ ақпараттық жүйе саласында, бірінші кезекте, оларды интелектуалдандыру
бағытындағы жаңа теориялық және практикалық өңдеуді талап етеді [4].
Релеванттық және пертиненттік. Құжаттық типтегі ақпараттық іздестіру
жүйесі реттелген құжаттар жиынтығын сондай-ақ құжаттық ақпарат сұранысы
бойынша сақтау, іздестіру және ұзату үшін белгіленген құралдар мен әдістер
жиынтығын көрсетеді. Құжаттық іздестірудің сан алуандығы пәндік немесе
тақырыптық іздестіру болып табылады. Құжаттық АІЖ тақырыбы, пәні бойынша
сұранысқа сай келетін құжаттарды береді. Құжат, оның орталық пәні немесе
тақырыбы тұтастай ақпараттық сұраныстың ойлы мазмұнына сай келуі
релеванттық деп аталады, ал екі және одан да көп мәтінді ой-пікір жақындығы
қасиеті (бұл жағдайда–құжаттық және ақпараттық сұраныс арасында)-
релеванттылық деп аталады. (ағылшынша relevant - тиісті, сәйкес келуші).
Релеванттық – бұл ақпаратты іздестіру теориясының іргелі ұғымы. Бір
жағынан, оны жай аксиома сияқты анықтамасыз қалдырады.
Екінші жағынан, барлық ғылымдардағы іргелі ұғымдар сияқты АІЖ пайда
болуынан бастап қазірге күнге дейін пікірталас толастамаған. Релеванттық
оның анықталуы, оның есептелуі ақпараттық іздестірудің негізгі мәселесі
болды және болып келеді. Бірінші болып бәлкім релеванттық туралы пәндік
мақаланы Р.Брэдфорд айтты [10]. Бұл тақырыпқа бұрынғы пікір сайысты
мақаланы ақпараттық іздестірудің негізін қалаушылардың біріне жататын
М.Таубу Релеванттық псевдоматематикасы туралы деп аталатыны терминнен
мүлде бас тартуға шақырады [14].
Релеванттық – бұл екі топтарға жататынын екі нысанның арасындағы қатынас
деп санау қабылданды. Ақпараттық іздестіруде бұл құжатар мен сұраныстар
топтары және АІЖ негізгі тағайындалуы құжаттар мен сұраныстардың мазмұнын
салыстырудан және олардың сәйкестігі немесе сәйкес еместігі туралы шешім
қабылдаудан тұрады. Бірақ АІЖ бұл үшін құжаттар мен сұраныстардың
мазмұнының формальді түсінігі қалыптастырылады. Олар құжатты іздестіру
үлгісі (ҚIҮ) мен сұраныс іздестіру үлгісі (СIҮ) атауын алады және бір-
бірімен салыстырылады. Сонда релеванттық бұл екі іздестіру бейнелерінің
арасындағы қатынас деп қорытынды жасауға болады. Екінші жағынан жоғарыда
келтірілген релеванттықты анықтау әлдебір екінші машиналық бейнелер емес
құжаттар мен сұраныстардың өзін олардың пайдаланушы белгілі және қол
жеткізерлік түрінде сәйкестігі туралы айтылады. Бұл ұғым объективті ме, не
субъективті ме деген пікірсайыс пайда болады. Сондықтан релеванттықтың екі
түрі: мәндік және формальдік туралы айта бастады. Ақпараттық сұраныстың
құжаттық мазмұнына сәйкестігін мәндік релеванттық деп атайды, ал бұл
құжаттық іздестіру бейнесі берілген ақпараттық сұранысты білдіретін
іздестіру нұсқауына сай келуі-формалды релеванттықты құжаттық
релеванттықтық деп аталады. Сондайақ формалды релеванттықты құжаттық
релеванттық, мәндік релеванттықты-ақпараттың релеванттық (құжат
мазмұнындағы ақпарат түрін алады) деп атайды.
Алайда пайдаланушы құжаттық ақпаратын (мазмұнын) неден туындатып
бағалайтын болады деген сұрақ пайда болады. Ол үшін сұраныстың жасақталуы
бастапқы емес, іздестіру үшін себепші ақпараттық қажеттілік бастапқы.
Осылайша құжаттардың ақпараттық қажеттігіне сәйкес қасиеті сияқты тағыда
бір релеванттылық пайда болады. Ф.Ланкастер [14] оны ақиқат релеванттылық
деп атады. У.Гоффман мен В.Ньюил [15] оны пайдалығына немесе жай
релеванттығына қарама-қарсы пертиненттігі деп атауды ұсынды (мәндік
релеванттық) (ағыл pertinent-орынды, сай келетін).
Ақпараттық қажеттілік – ақпараттық іздестірудің тағы да бір негіз
қалаушы ұғымы. Іздестіруге сұраныс адамдардың ақпараттық қажеттілігінен
туындайды, ол оларға әлдебір міндеттер мен мәселелерді шешу үшін қажет
(өзінің жеке қызығушылығын қанағаттандыруды қоса отырып). Өзінің шынайы
ақпараттық қажеттілігін бірден білдіре алмау немесе соған қабілетсіз болу
қасиеті түрлі дәрежеде болса да, барлық адамдарға тән екендігі белгілі.
Сондықтан нақты АІЖ негізінен, пайдаланушы ойындағы ақпараттық қажеттілікті
емес, жүйеде қалыпасқан түрдегі ақпараттық сұраныстарға жауап беретін
құжаттарды іздеп табуды қамтамасыз ете алады.
Ақпараттық сұраныс мұнда көрсетілген ақпараттық қажеттіліктен едәуір
ерекшелене алады. Көптеген жағдайларда пайдаланушылар өзінің қажеттігін дәл
бейнелеуге қабілетсіз болып келеді. Мысалы паралельдік алгоритмдер сияқты
сұраныс жеткілікті түрде дәл емес болып шығады. Біріншіден пайдаланушыға
паралельдік алгоритмдер немесе олар туралы ақпарат үлгілері ме, нақты не
қажет екені түсініксіз. Екіншіден авторға барлық қолда бар ақпарат қажет пе
немесе тек бірнеше үлгілері қажет пе және соңында қай сала-теориялық немесе
практикалық па пайдаланушыны қызықтыратыны. Осылайша пайдаланушы
релеванттық туралы пікірді шығара отырып меншікті ақпараттық тұтынушылығы
негізінде оны анықтайтын болады, ол өте жиі тек оның санасында болады, сол
кезде АІЖ сияқты релеванттық туралы пікірді пайдаланушы қалыптастырған
сұрақ мәтіні негізінде шығарылады. Осылайша релеванттық болу әлі де шын
мәнінде сол немесе басқа адамның қажеттігіне сай келеді дегенді
білдірмейді. Кез-келген жүйе берген құжатты екі аспектіде: сұраныс берген
пайдаланушының субьективті көзқарасы тұрғысынан (прагматикалық әдіс) және
оның табиғи тілде қалыптасқанындай сұраныс мәніне сай көзқарасы тұрғысынан
(семантикалық әдіс) қарастыруға болады. Семантика терминінде релеванттықтың
семантикалық қатынасы сияқты, пертиненттікті прагматикалық қатынас сияқты
анықтауға болады [15]. Алайда пертиненттік пен релеванттықты шектеу барлық
проблемаларды шешпейді. Іс жүзінде жағдай әлі күрделірек, жалпы жағдайда
ақпараттық іздестіруде бірінші топтың нысандарындағы құжаттарда келесі
мәнді бөліп ұсынуға болады:
1. құжат (физикалық мән, оны пайдаланушы ақпарат іздестіруде алады);
2. ақпарат (пайдаланушы құжатты оқи отырып білетіні);
3. құжаттық іздестіру бейнесі (ҚІБ).
Бінші топ – құжаттың формалды көрінісі, ол іздестіруде пайдаланылады
және түрлі форманы қабылдауы мүмкін – тақырыптан, кілтті сөздер тізімінен,
авторлар атынан, библиографиялық мәліметтерден, аннотациялардан,
үзінділерден, т.б. тұруы мүмкін);
Екінші топтың нысандарында, сұраныстарда, келесі мәндерді бөлуге болады:
• проблема (пайдаланушы әлденемен қақтығысқан жағдайда өзінің шешімін табу
үшін ақпарат талап ететін әлдене);
• ақпараттық қажеттілік (пайдаланушының санасында мәселенің көрінісі, оның
үстіне пайдаланушы мәселені көз алдына дұрыс елестетпеуі мүмкін);
• ақпараттық сұраныс (табиғи тілде пайдаланушының ақпараттық қажеттігінің
көрінісі);
• іздестіру нұсқаулығы (сұраныстың іздестіру бейнесі (СІБ) түріндегі
ақпараттық сұраныстың көрінісі және сұраныс тіліндегі іздестіруге
тапсырма).
Сонда релеванттық құжаттық іздеу бейнесінің іздестіру нұсқауына
(формальды релеванттық) немесе құжаттық ақпараттық сұранысқа (мәндік
релеванттық) немесе ақпарат пайдаланушы алған ақпараттық тұтынушылық
(пертиненттік) қатынасы сияқты қарастыруға болады. Релеванттылықтың әрбір
түрі туралы пікір қандай деңгейде қалған мәніне ықпал жасайды, деген сұрақ
туады.
Одан басқа, екінші топтағы жоғарыда аталған әрбір мәнге келесі
компонентті қосуға болады:
• тақырып (пайдаланушыны қызықтыратын пәндік салаға жатады);
• есеп (табылған құжат бойынша пайдаланушының қызметіне жатады);
• контекст (тақырып пен есепке жататыны, бірақ сонымен қатар іздестіру және
іздестіру нәтижелерін бағалауға ықпал етеді).
Әдеттегідей, ақпараттық іздестіру тақырыптық компонентке
шоғырландырылған, алайда тақырыптық сәйкестік жеткіліксіз болып ұсынылуы
мүмкін: мысалы, пайдаланушыға есепті орындау үшін пайдалануға болмайтын,
немесе оған белгілі сол ақпарат қажет емес. Немесе, бір жағдайда ол үшін
жалғыз құжат жеткілікті болады, басқа пайдаланушы өзінің сұраныс пәні
бойынша барынша көп әдебиетті алуға ұмтылады.
Сонда, басқа сөзбен айтқанда, құжаттық іздестіру бейнесі (құжат,
ақпарат) бір (бірнеше) компонентке қатысты іздестіру нұсқауына
(пайдаланушылық сұраныс, ақпараттық қажеттілік, мәселе) релевантты болуы
мүмкін: тақырыпқа жататын, есепттер мен тақырыпқа жататынын релеванттық
туралы, немесе барлық үш компонентке жататын релеванттық туралы айтуға
болады.
Одан басқа уақыт факторы ескерілуі тиіс. Ақпараттық сұранысты
қалыптастыруда адам әрдайым өзіне қандай ақпарат шын мәнінде керек екенін
ұғына бермейді. Сондықтан оған берілген ақпараттық сұранысқа жауапты АІЖ
беретін құжаттардың мазмұны, бұл адамның өзінің ақпараттық тұтынушылығы
туралы түсінігін өзгерте алады немесе бұл қажеттілікті өрнектер формасымен
оның өзгертуіне мәжбүр етеді және оның өзімен релеванттық туралы пікірді
өзгертеді. Релеванттық - динамикалық құбылыс: бір және сол сарапшы үшін
құжат уақыттың белгілі бір сәтінде релевантты бола алады және кейіннен
релевантты емес, және керсінше. Құжаттардың арасында тәуелділік бар:
бірінші көрінген құжат келесісінің релеванттылығына ықпалдандыруы мүмкін.
Демек, релеванттықтың әрбір түрі төрт өлшемді кеңістіктегі нүкте сияқты
келесі мәндерімен қарастырылады:
• іздестіру бейнесі, құжат, ақпарат;
• іздестіру нұсқауы, пайдаланушылық сұраныс, ақпараттық қажеттілік;
• пайдаланушы, тақырып, есеп, контекст және олардың комбинациясы;
• түрлі уақыттық интервалдар – мәселенің пайда болуы және шешілуі.
Релеванттықты анықтау әдістері. Релеванттықтың түрлі түрлерін анықтаудың
әдістері туралы мәселе ашық күйінде қалуда. Пертинентікке қатынастылығы
айқын: оны ақпарат тұтынушы бағалауы тиіс, немесе сол басқа құжат
қаншалықты оның ақпараттық қажеттігіне сай келеді. Мұнда тұтынушының бағасы
оның алдында тұрған практикалық сипатына, оның ғылыми квалификациясының
деңгейі мен басқа факторларына тәуелді.
Бірақ кім, қандай түрде релеванттықты анықтауы тиіс? Бұл тұрғыда түрлі
пікірлер бар. Релеванттық туралы бұрынғы тарауда айтылғанды ескере отырып,
релеванттық туралы пікірде уақыттың белгілі бір сәтінде адам-сарапшының
релеванттығының бірінің әлдебір мағынасының иеленуі бар. Релеванттық туралы
бұл пікірді бес өлшем бойынша жіктеуге болады:
1. құжаттық мәні, оның негізінде пікір шығады (ІБ, құжат немесе ақпарат);
2. сұраныстық мәні, оны сарапшы пікір шығару үшін пайдаланады (іздестіру
нұсқауы, пайдалану сұранысы, ақпараттық қажеттілік, мәселе);
3. пікір шығарылатын компонент (тақырып, есеп, контекст);
4. релеванттық туралы пікір шығатын уақыт сәті;
5. сарапшы типі (пайдаланушы және маман).
Релеванттық – субъективті ұғым: түрлі сарапшылар релеванттық туралы
түрлі пікір айтады. Релеванттықты бағалау үшін, бағалауда жетерлі
бірыңғайлықты қамтамасыз ететін формальды ережелер бойынша жүзеге асырылуы
қажет.
2. Қазіргі заманауи ақпараттық-іздестіру жүйелері
ХХІ ғасырдың ақпараттық қоғамына өту жаһандық компьютерлік желі
көлемінің өлшеусіз өсуін және ақпараттық шоғырлануын тудырды. Бұл
ақпараттық іздестіру жүйесін (АІЖ) жасау мен оны тиімді пайдалану
проблемасын шұғыл шиеленістірді.
Автоматтандырылған ақпараттық-іздестіру жүйесінің тарихы жарты ғасырмен
есептеледі. Алғашқы жылдарға тән АІЖ – бұл адам-машина жүйесі, мұнда
құжаттардың мазмұнын талдау мен жазу (индекстеу) қолмен атқарылады, ал
іздестіру машинамен жүргізіледі. АІЖ бастапқы негізін ақпараттық іздестіру
тілдері (АІТ) құрады, оның негізгі элементтері дескрипторлық сөздіктер мен
тезаурустар болып табылады. Бұл күндері АІЖ жұмыс істейтіндердің көпшілігі
тезауруссыз типтегі вербальды жүйе тобына жатады. Мұнда индекстік терминдер
тікелей құжаттар мәтінінен алынады. Электронды құжаттық ақпарат көлемінің
тасқынды түрде өсуі, оның түрлік, тақырыптық және тілдік саналуандығы,
қазіргі ақпараттық іздестірудегі дағдарыс себебі ретінде, сондай-ақ оны
жетілдірудің ынталандырушысы да болып табылады.
Ғаламтор желісіндегі ресурсты іздестіру проблемасы танылысымен-ақ, бұған
жауап ретінде түрлі жүйелер мен бағдарламалық жасақтамалар пайда болды.
Олардың арасында Gopher, Archil, Veronica, WAIS, WAOIS және т.б. жүйелерді
атауға болады. Соңғы уақытта бұларды ауыстыруға бүкіл әлемдік WWW тордың
“клиенттер” және “серверлер” келді.
Ғаламтор желісіндегі АІЖ-ін келесі негізгі типтерге бөлуге болады:
1) Вербальды типтегі АІЖ (іздестіру жүйесі – search engines);
2) Классификациялық АІЖ (каталогтар – directories);
3) Электронды анықтамалықтар (“сары” беттер, т.б.);
4) Жекелеген ресурстар түрі бойынша мамандандырылған АІЖ;
5) Интеллектуалды агенттер;
6) Мета іздестіру жүйлері
Вербальды типтегі ақпараттық іздестіру жүйелері
Негізгі вербальды ақпараттық іздестіру жүйесі. Ғаламтор желісіндегі АІЖ
тарихы 1994 жылдан бастау алып, қысқа мерзімге қарамастан, өте бай және
жалпы ақпараттық іздестіру жүйесінің тарихы сияқты спираль бойынша
дамуда. Алғашқы жылдары сұраныс тілдері мен соған сәйкес мағыналық
сәйкестік бағамдарының және іздестіру құралдарының саны мен қуатының үнемі
артып отыруы байқалады. Соңғы жылдары көптеген “нәзік” құралдар өзінің
тиімсіздігін немесе сұрамсыздығын көрсетті. Бір жүйелер бәсекеге төтеп бере
алмай, сахнадан кетеді (оның ішінде ең белгілісі InfoSeeK, ол осы күнге
дейін желідегі АІЖ тақырыбындағы барлық жарияланымда еске алынады),
басқалары оның орнына келеді. Бүгінгі күндегі қолданыстағы жүйелердің
табыстылар қатарындағы Google жүйесі 2002жылдың басында ғана пайда болды.
Вербальды типтегі басты іздестіру жүйесінің қатарына (бірінші кезекте,
мәліметтер базасының көлемі бойынша) 2002жылдың соңындағы жағдай бойынша
төмендегілерді жатқызуға болады: Fast Search (AllTheWeb&Lycos), AltaVista,
Direct Hit, Excite, Fast Search, Google, HotBot, Inktomi, iWon, Lycos, MSN,
NBCI (бұрын Snap), Northern Light, Teoma, WiseNut. Олардың барлығы
мәліметтер базасының көлемімен, сұраныс тілімен, маңызына қарай
алгоритмдерімен және басқа ерекшеліктерімен ажыратылады.
Ресейлік жүйе арасында бастысы – Яндекс (Яandex), Рамблер (Rambler),
Апорт (Aport). Ақпараттың толықтығы үшін тағы да TELA-поиск
(http:tela.dux.ru) және Орыстың іздестіру машина жүйесін атауға
болады.
Яндекс – Россиялық Ғаламтордың (Рунет) ең ірі ақпараттық іздестіру
жүйесі. Яндекс CompTek фирмасының түпнұсқалық жұмысы болып табылады.
Іздестіруді орыс морфологиясын ескере отырып орындайды. Сұраныстың өте
қуатты тіліне ие.
Апорт. Апорт! іздестіру жүйесін Aгама компаниясы жасады. Барлық
кириллицалық кодтауды түсініп, морфологиялық талдауды ескере отырып
іздестіруді орындайды. Сұраныстардың икемді тілі, сұранысты орысшадан
ағылшын тіліне және керісінше аудару мүмкіндігіне ие.
Рамблер. Stack Ltd компаниясына тиісті. Тор 100 орыс бетінің рейтингін
қолдайды. Веб – беттер тізімі рейтингте тақырыптық топтарға бөлінген, және
көптеген пайдаланушылар бұл рейтингті каталог ретінде пайдаланады.
Басты шетелдік іздестіру жүйесінің негізгі айрықша ерекшеліктері.
Google. Мәліметтердің ең үлкен іздестіру базаларының бірі. Оны
толықтырудың жоғары жылдамдығы. Мазмұнына қарай сәтті әдістер. Төтенше
жедел іздестіру. Құжаттарды PDF форматында индекстей алады. КЭШ-жадта веб-
беттер бейнесін оларды индекстеу сәтінде байқайды.
Fast (Allthe Web and Lycos). Мәліметтердің ең үлкен іздестіру
базаларының бірі. Жақсы іздестіру мүмкіндіктері (бірақ логикалық
операторларды қолдамайды). Басқа АІЖ таба алмайтын құжаттарды табады.
Northern Light. Мәліметтердің үлкен іздестіру базасы. Мәліметтердің
арнайы базасы (телеконференция, геоақпарат, электронды басылымдардың
мақалалары). Сұраныстардың қуатты тілі. Іздестіру нәтижелерін ұсынудың
қызықты әдісі (тақырыптық папкалар ).
Alta Vista. Мәліметтердің ең үлкен базаларының бірі. Оңтайлы іздестіру
мүмкіндіктері мен сұраныстардың қуаттылығы. Табылған құжаттарды аудару
тәртібі.
Вербальды АІЖ функционалдық құрылғылары
Вербальды ақпараттық іздестіру жүйесінің архитектурасы. Ғаламтордағы
негізгі іздестіру құралдарын вербальды іздестіру жүйелері деп санау
қалыптасқан. Жергілікті АІЖ сияқты, бұл жүйелердің типтері бұрынғы
координаттық тип болып, олар алдын ала үйлестірілетін жіктелу АІЖ е
(тақырыптық каталогтарға) қарама-қарсы тұрады (ағылшын әдебиеттерінде –
search enginе). Мұндай жүйенің типтік схема элементтері ретінде
төмендегілерді атап көрсетуге болады.
Веб-сайттар – бұл Ғаламтордағы барлық ақпараттық ресурстар, дәлірек
айтқанда, оны көру бағдарлама-роботпен қамтамасыз етіледі.
Робот – Ғаламторды көруді (сканерлеуді) қамтамасыз ететін және өзекті
жағдайда инвертацияланған файлды қолдайтын (мәліметтердің индекстік
базасын) жүйе. Бұл бағдарламалық кешен желінің ақпараттық ресурстары,
шарттары туралы ақпараттың негізгі көзі болып табылады.
Мәліметтерді іздестіру базасы – осылай аталатын индекс – арнайы түрде
ұйымдастырылған база (ағыл. index database) ең алдымен инвертацияланған
файлды қосатын, яғни индекстелген веб-құжаттардың лексикалық бірлігінен
тұрады және лексема, құжаттар, сайттар туралы толық басқада түрлі
ақпараттармен қамтамасыз етеді (жекелей алғанда, олардың құжаттардағы
позициясы).
Клиент – бұл веб-сервисте ақпараттық ресурстарды көру бағдарламасы,
басқаша айтқанда, веб-клиент. (Қазіргі кездегі ең танымал мультихаттамалық
бағдарламалар Internet Explorer және Netscape Navigator). Бұл бағдарлама
түрлі сервистер құжаттарын көру мен іздестіру жүйесімен қатысуды қамтамасыз
етеді.
Пайдаланушы – 1) пайдаланушының іздеу интерфейсі арқылы ендірілген
іздестірудің алдын ала жазылған нұсқасы кейбір жүйелерде пайдаланушының
жеке базасында іздестіру жүйесінде сақталады. 2) іздеудің нәтижелері.
Пайдаланушылық (іздестіру) интерфейстері – пайдаланушының іздестіру
ақпаратымен қатысуының экрандық форматы: сұраныстарды және іздестіру
нәтижелерін көруді қалыптастыру жүйесі.
Іздестіру жүйесі – пайдаланушының іздестіруде алдын ала жазғанын
өңдеуді, іздестіру мәліметтер базасынан іздеу және пайдаланушыға ұсынуды
қамтамасыз ететін төменгі іздестіру жүйесі.
Робот – индексаторлар. Робот (robot, сондай-ақ spider – өрмекші ,
crawler – жүзуші, worm – құрт) – Ғаламторды жүйелі түрде зерттейтін
бағдарлама немесе бағдарламалар жиынтығы, веб-сайттарды тексеріп шығады,
құжаттар табады, оларды оқиды және сілтемеге сай, құжатта көрсетілген
берілген сайттың немесе басқа сайттың беттерін табады. Веб-кеңістік
құрылымы бейімделген граф құрылымына ұқсас, сондықтан мұнда графты тексеріп
шығу алгоритмі қолданылады.
Мұндай тексеріп шығудың үш түрлі әдісі бар:
а) іздестірудің атауы үшін бағдарлама – роботпен URL – адресінің
біріншісін кездейсоқ таңдау. Бағдарлама бастапқы құжатты индекстеп, URL-
адресті бөледі, ол басқа құжаттарды көрсетеді, одан соң көбінесе енінен
немесе көбінесе тереңінен іздестіру үшін бұл URL-ді рекурсивті талдайды;
б) Іздестіру веб-тораптың белгілілігіне байланысты URL-адресті
енгізгеннен кейін басталады және рекурсивті түрде жалғаса береді. Титул
бетінде (бірінші бет) берілген және басқа да веб-түйіндерде ең жиі
сұралатын ақпаратқа сәйкес келетін белгілі URL-адрестердің болатыны
түсінікті.
в) веб-кеңістік белгілі бір бөліктерге бөлінеді, мысалы Ғаламтор немесе
елдің кодтарының атауларының негізінде және бұл тарауларды толық зерттеу
үшін жекелеген бағдарлама-робот немесе бірнешесі бөлінеді. (Мұндай әдіс
алғашқы екеуіне қарағанда жиі пайдаланылады).
Құжаттарды өңдеу принципінде файлдың автоматты индекстеу элементтерімен
инвертациялау үдерісіне ұқсас. Соңғысы болмауы да мүмкін, бірақ бұл үдеріс
бәрібір индекстелген деп аталады, тіпті егер ол инвертацияланған файл
құрастырумен шектелсе де, мұнда индекстеудің әрбір терминіне құжаттар
тізіміне сәйкес қойылады, мұнда ол кездеседі. Мұндай үдеріс тек жеке
жағдай, дәлірек айтқанда АІЖ іздестіру ақпаратын құрудың техникалық аспекті
болып табылады. Индекстеумен байланысты проблема құжаттық іздестіру
бейнесін жазып алудан немесе ақпараттық ресурстар сөздік туралы
(бақыланатын немесе еркін) ұғымға арқа сүйейді, одан бұл терминдер
іріктеледі. Бақыланатын сөздік мәліметтердің лексикалық базасын жүргізуді
көздейді, оған терминдерді қосу әкімшілік жүйемен жүргізіледі, және барлық
жаңа құжаттар тек сол дескрипторлармен индекстелетін бола алады, олар
мәліметтердің осы базасында болады. Ғаламторда бұл технология мүмкін
еместігі ақиқат. Еркін сөздік не жаңа терминдердің пайда болу шарасы
бойынша автоматты түрде толығады, не мүлдем виртуальды, инверстік файлдың
барлық терминдері АІТ-нің лексикалық бірлігі саналатын бейнелеу болып
табылады (көбіне инверстік файл осылайша сөздік аталады).
Роботтарды жасау еш уақытта өз көкейкестілігін жоғалтқан емес; жұмыстың
циклға кіріп қалу қауіпі бар. Ең негізгі мәселе роботтардың жылдам
әрекеттілігі.
Іздестіру жүйесінде робот-индексаторлармен өз веб-сайтын индекстеуге
тапсырыс ұзату мен жеделдендіру іздестіру жүйесінің сайтында ADD URL немесе
Submit your URL типіне сілтеме арқылы болады. Ауысатын ресурстарды қайта
индекстеуді қалай қамтамасыздандыруға болады деген мәселе бар. Соңғы
уақытта белгілі бір төлемақыға басым индекстеу барған сайын көбірек
таралуда.
Индекстеуде басты мазмұнды проблема құжаттарға қандай терминдер жазу
керек, оларды қайдан алу керектігімен қорытындыланады. Мұнда ресурстардың
бөлігі мүлде мәтін болып табылмайтынын ескеру қажет, мәтіндік ресурстар
өзімен тұтастай кітаптарда ұсынылуы мүмкін. Түрлі жүйенің роботтары бұл
мәселені түрліше шешеді. Құжаттардан барлық терминдер олардың іздестіру
бейнесіне түседі деп ойлауға болмайды. Индекске түспейтін тыйым салынған
сөздер тізімі (stop words) өте белсенді қолданылады-бұл жалпы, қызметтік
сөздер (көмекші сөз, жалғаулық, т.б.) және мағынасыз сөздер. Көптеген жүйе
тек құжаттық бөлігін ғана индекстейді (әдетте бастапқы), бір және сол
сайттың веб-бетінің тек бөлігін ғана өңдейтін роботтар бар және оның үстіне
жаһандық АІЖ іздестіру индекстерінің көлемі қазірдің өзінде терабайтпен
өлшенуде.
Әдетте индекстеуде гипермәтіндік белгілер: сілтемелер, тақырыпшалар,
аннотациялар, кілтті сөздердің тізімі және т.б. түрлі мағыналық
элементтер міндетті пайдаланылады. telnet, gopher, ftp ресурстарын, сондай-
ақ мәтіндік емес ақпаратты индекстеу үшін ең бастысы URL, файлдар атауы,
Usenet жаңалықтары мен сілтеменің пошталық тізімі үшін Subject және
Keywords өрісі пайдаланады.
Роботтар қалай жұмыс істейтінін, олардың техникалық сипаттамасы қандай
екенін білу веб-құжаттарды құру үшін де, іздестіру жүргізуде сұранысты
құрастырушылар үшін де пайдалы.
Индекстеуді басқару құралдары. Іздестіру жүйесінің роботтарын басқаруға
мүмкіндік беретін негізгі құралдар небәрі екеу: арнайы robots.txt атауымен
файл сайтындағы түбірлі каталогқа орналастыру және жеке құжаттық HEAD
секциясындағы META-элементтерді қолдану.
Robots.txt файлы сайттың жекелеген каталогтарын индекстеуден жабуға
мүмкіндік беретін бұйрықтар жиынтығынан тұрады. Әдетте суреттер, ... жалғасы
Araştırma kağıtinternette bilgi alma araştırma ve eğitim
kaynaklarınınyöntem tartışılmaktadır. Bir arama strateji oluşturma ve arama
sorgusu binanın temel aşamaları: formülasyonu ve bilgi istek (hedeflenen
kısıtlama ve ortak arama hedeflerin özellik) arıtma; planlama arama
prosedürü (yollar ve akılcı çözümler arama sorunun araçları tanımlamak);
gereksinimleri tespit setleriuygulanması için çağrıda, arama stratejileri
geliştirmek; arama ( nihai çözüm arama sorun ) uygulanması. Onlarkullanıcı
yeni bilgi ortamında bilimsel ve eğitsel kaynakların bir arama yapmak için
izin verir. Bu bilgi içinçıkan aramakalitesini artırmak, aynı zamanda
bütünlüğü geliştirmek için mümkün değil sadece yapar.
В дипломной работе рассмотрена методика информационного поиска научно-
образовательных ресурсов в Интернет. Приведены основные этапы построения
стратегии поиска и формулировка поискового запроса: формулировка и
уточнение информационного запроса (целенаправленное ограничение и
конкретизация общей цели поиска); планирование поисковой процедуры
(определение путей и способов рационального решения поисковой задачи);
разработка поисковых стратегий, предусматривающих выполнение выявленных
наборов требований; реализация поиска (окончательное решение поисковой
задачи), которые позволяют пользователю самостоятельно проводить поиск
научно-образовательных ресурсов в новой информационной среде и дает
возможность не только улучшить качество получаемой в результате поиска
информации, но и повысить ее полноту.
In the research, paper discusses the methodology of information retrieval
research and educational resources on the Internet. The main stages of
building a search strategy formulation and search query: formulation and
refinement of information request (targeted restriction and specification
of common search targets); planning search procedure (identify ways and
means of rational solutions search problem); develop search strategies,
calling for the implementation of identified sets of requirements;
implementation of search (final solution search problem). They allow the
user to conduct a search of scientific and educational resources in the new
information environment. This makes it possible to not only improve the
quality of the resulting search for information, but also enhance its
completeness.
МАЗМҰНЫ
КІРІСПЕ 8
... ... ... ... ... ... ... ... .. ... ... ... ... ... ... ... ... ...
... ... ... ... ... ... ... ... .. ...
1. Ғаламтор желіcіндегі ақпараттарды іздестіру негіздері 10
... ... ... ... ...
1.1 Ақпараттық-іздестіру үдерісінің негізгі түсініктері 10
... ... ... ... ... ...
1.2 Қазіргі заман ақпараттық-іздестіру жүйелері 19
... ... ... ... ... ... ... ... .. .
1.3 Ақпараттық-іздестіру үдерісінің 24
моделдері ... ... ... ... ... ... . ... ... ... .
2. Ғаламтор ресурстарын ақпараттық іздестіру әдістемесі 35
... ... ... ... ...
2.1 Ғаламтор ресурстарын іздестіру әдістері 35
... ... ... ... ... ... ... ... .. ... ...
2.2 Ғаламтор ресурстарын ақпараттық іздестіру әдістемесі 40
... ... ... ... .
2.3 Ғаламтор ресурстарын іздестіру үдерісінің бағдарламалық
қамтамасы және олардан пайдалану нұсқаулығы 45
... ... ... ... ... ... ...
ҚОРЫТЫНДЫ 60
... ... ... ... ... ... ... ... .. ... ... ... ... ... ... ... ... ...
... ... ... ... ... ... ...
ПАЙДАЛАНҒАН ӘДЕБИЕТТЕР ТІЗІМІ 61
... ... ... ... ... ... ... ... .. ... ... ... ...
НОРМАТИВТІК СІЛТЕМЕЛЕР
Диплом жұмысын орындау барысында келесі нормативтік құжаттарға
сілтемелер жасалынған:
• Қазақстан Республикасының Ғылым-білім туралы Заңы;
• ҚП ХҚТУ-4.2.3-2009 Құжаттаманы басқару;
• ҚП ХҚТУ-4.2.4-2009 Жазбаларды басқару;
• УС-ХҚТУ-022-2013 Мамандықтар мен пәндердің оқу-әдістемелік кешендерінің
құрылымы, мазмұны, дайындау және бекіту тәртібі;
• УЕ-ХҚТУ-030-2013 Мамандық бойынша ғылым-білім беру бағдарламаларының
педагогикалық стратегиясын әзірлеу ережесі;
• ЖН-СМЖ-065-2013 Мамандықтың негізгі оқу жоспарын дайындау.
АНЫҚТАМАЛАР
Диплом жұмысында төмендегі анықтамалар қолданылды:
Ақпараттық ресурстар — кітапханалар, мұрағаттар, қорларда, мәліметтер
бланкілерінде және басқа да ақпараттық жүйелерде жеке құжаттар немесе
олардың жиымдары түрінде шоғырланған мағлұматтар жиынтығы.
Автоматтандырылған оқыту жүйесі - оқытуды дербестендіру үшін арнайы
компьютерлік негіздегі техникалық, оқу-әдістемелік, лингвистикалық,
бағдарламалық, ұйымдастыру және т.б. қызметтік қамтамасыз ету кешені болып,
келесі функциялар: бастапқы ғылым-білім деңгейін, үйренуші іскерліктерін,
олардың дербес ерекшеліктерін анықтау; оқу материалдарын даярлау –
түсіндірілетін мәтіндер мен оқылатын мәселе бойынша, оқу және бақылау
тапсырмалары бойынша иллюстрациялар; оқу материалын көрсету, оның
күрделілік деңгейі және ақпаратты беру қарқыны бойынша адаптациясы;
оқушының танымдық іс-әрекетін басқару; олардың жұмыс істеу қабілеттілік
көрсеткішін анықтау; меңгеру сапасына қорытынды бақылау жасау; материал
меңгеру процесінің көрсеткіштерін тіркеу және оған статистикалық талдаулар
жасалады.
БЕЛГІЛЕУЛЕР МЕН ҚЫСҚАРТУЛАР
Диплом жұмысында төмендегі қысқартулар қолданылады:
АҒБР – ақпараттық ғылым-білім ресурстары;
ААІЖ – автоматтандырылған ақпараттық-іздестіру жүйелері;
АІЖ – ақпараттық-іздестіру жүйелері;
ҒБР – ғылым-білім ресурстары;
ҒЗАЖ – ғылыми-зерттеулерді автоматтандыру жүйелері;
IM – іздестіру машиналары (МIM – мета іздестіру машиналары).
КІРІСПЕ
Зерттеу тақырыбының өзектілігі. Ғаламтор желісіндегі ғылыми-білімдік
ресурстарды ақпараттық іздестіру үдерісін ұйымдастыру барысында,
автоматтандырылған ақпараттық жүйелерінде орын алған заманауи ақпараттық
технологиялардың даму тенденцияларымен таныс болу, оларды оқып-үйрену мен
тиімді пайдалану және олардан ақпараттық ресурстарды интеграциялау мен
кооперациялауда үнемді пайдалану, бүгінгі күннің өзекті мәселелерінен
саналады. Бұларға – қоғамның ақпараттануы, ақпараттық технологиялардың
корпоративтік негізде дамуы, қолданыстағы кітапханалық жүйелердің
электрондық-ақпараттық ресурс орталықтарына айналуы, автоматтандырылған
электрондық кітапханалардағы жұмыс орындарын жасақтау және олардағы ғылыми-
білімдік ресурстарды іздестіру үдерісінің әдістемесін жетілдіру
тенденциялары жатады.
Диплом тақырыбының маңыздылығы бүгінгі күндегі ақпараттық-іздестіру
үдерісінің қоғамдағы тек қана адамзат іс-әрекетіндегі өндірістік,
техникалық және технологиялық орталарды ғана емес, сонымен қатар ақпараттық
кеңістіктердегі – кітапханалар, мұражайлар, ақпараттық орталарға да енуіне
байланысты болып, ендігі қоғам өмірін Ғаламтор, телекоммуникация
құралдарынсыз елестету мүмкін емес. Ақпараттық-іздестіру бәрінен бұрын
ақпараттық орталықтардағы ақпараттарды дер кезінде іздеп тауып сақтау,
сұрыптап, өңдеу және тиімді шешім қабылдау үшін, пайдаланушылармен
байланысты қамтамасыз етуге себепші болуда. ЖОО кітапхана жүйелері, негізгі
ақпараттық ресурс орталықтар ретінде, автоматтандыру үдерісіндегі
нысандардың бірі болып, бүгінгі күндегі ғылыми-білімдік ақпараттық
ресурстарыд іздестіру әдістемесін жетілдірудегі өзекті мәселелердің
қатарында.
Ақпараттық-іздеcтіру үдерісі бойынша зерттеулер – Д.Лахути, И.Попов,
В.Решетников, А.Черный, Э.Гасанов, Ю.Шрейдер, И.Некрестьянов, L.Gravano,
және т.б. ғалымдардың теориялық және әдістемелік қағидаларына негізделген.
Ақпараттық және телекоммуникациялық технологиялардың өндіріске етене
ендірілуіне байланысты Бірыңғай ақпараттық ғылым-білім беру ортасының
даму бағдарламасында ғылым-білім беруді ақпараттандырудың келесі негізгі
бағыттары: электрондық ғылым-білім ресурстары мен кадрларды ақпараттық
қоғамға дайындау, білім беруді компьютерлендіру және телекоммуникациялық
қамтамасыз ету, регионалдық ақпараттандыру бағдарламаларына қолдау көрсету,
білім саласындағы ақпараттық басқару жүйелерін дамыту және т.б.
айқындалған.
Ақпараттандыру бағыты бойынша айшықталған Электрондық ресурстар,
ресурс орталықтары арқылы – ақпараттық ғылым-білім ресурстарын, ғылым-білім
порталдар жүйесін, электрондық кітапханаларды (депозитарийлерді) және т.б.
жетілдіру жұмыстары жедел дамып, біршама жұмыстар орындалуда.
Қажет электрондық ресурстарды іздестіру үдерісін жетілдіру қажеттілігі –
Ғаламтор желісінің келіп шығуы мен оның белсенді түрде қолданысқа ену
үрдісінде ақпараттық іздестіру жұмыстарының түрленулерімен түсіндіріледі.
Ақпараттық іздестіру аумағы бойынша зерттеулердің өзектілігі сонымен қатар,
ғаламтор желісіндегі ақпараттар іздестірудегі сұраныстардың қуаттылығы мен
ондағы сәйкес емес құжаттардың жиындарына сай еселене түседі. Бұл құбылыс
іздестіру үдерісің қолданыстағы үлгілері мен әдістері сапаларын арттыру
қажеттілігін туындатып, оларды шешуді, бүгінгі күндегі кезек күттірмейтін
мәселелер қатарына қояды.
Әртүрлі әдістердің тиімділігін салыстыру үшін қолданыстағы маңызды
көрсеткіші ретінде іздестіру нәтижелері сапалық бағамдарын (критерияларын)
атауға болады. Мұндай көрсеткіштерге – дәлдік (precision) – іздестіру
жүйесі жауабындағы релеванттық материалдар мен толықтық (recall) –
релевантты құжат жинағы жалпы санындағы табылған релеванттық құжаттар
үлестерін жатқызуға болады.
Алайда, толық жүз пайыздық сапалы іздестіру мүмкін емес, сондықтан
берілгендердің сипатын арттыру әдістері – ақпараттық ресурстар (АР) мета
сипатталу спецификациялары элементтерінің толықтығы мен іздестіру
әдістерінің интелектуалдану дәрежесіне тікелей тәуелді.
Жоғарыда айтылғандардың барлығы, ақпараттық іздестірудің сапасын арттыру
мәселелері бойынша зерттеулер жүргізу қажеттігін тұжырымдайды. Олар мета
каталогтар мен АР депозитарийлерінің іздестіру жүйесін құру үшін өте
маңызды.
Зерттеу жұмысының мақсаты ақпараттық жүйелердегі электрондық ресурстарды
іздестіру үдерісінің әдістемесін қолданыстағы ақпараттық іздестіру үлгілері
мен әдістері негізінде жетілдіру болып табылады.
Мақсатқа жету үшін келесі бағыттар бойынша зерттеулер жүргізілді:
ғаламтор желісіндегі заманауи ақпараттық-іздестіру жүйелеріне жасалған
шолулар мен талдаулар негізінде, қолданыстағы іздестіру моделдері мен
әдістерін пайдаланып, ақпараттық ресурстарды іздестіру үдерісінің
әдістемесін жетілдіру.
Зерттеу нысаны ретінде толық мәтіндік құжат түріндегі АР іздестіру
үдерісінің әдістемесін жасау таңдап алынып, зерттеудің әдістемелік және
теориялық негіздеріне – жиындар, графтар, ақпараттық-іздестіру үдерісі
әдіснамасы мен жасанды зияткерлік жүйелері теорияларының математикалық
аппараты алынды.
Дипломдық жұмыс нәтижесінің ғылыми жаңалығы ретінде – ғылыми-білімдік
ресурстардың толық мәтіндік құжаттарын индекстеу, ақпараттық-іздестіру
үлгілері мен әдістеріне негізделген іздестіру үдерісінің әдістемесін атап
өтуге болады.
Зерттеудің практикалық маңыздылығы – ғылыми-білімдік ресурстарды
іздестіру үдерісінің жетілдірілген әдістемесі негізінде, сұранысқа сай
шынайы релеванттық құжаттарға қол жеткізу болып табылады.
Дипломдық жұмыс көлемі мен құрылымы. Дипломдық жұмыс кіріспеден, екі
тарау мен қорытындыдан және әдебиеттер тізімінен тұрады.
1. Ғаламтор жүйесіндегі ақпараттарды іздестіру негіздері
1. Ақпараттық-іздестіру үдерісінің негізгі түсініктері
Автоматтандырылған ақпараттық жүйені техникалық, бағдарламалық,
алгоритмдік және тілдік құралдардың, сондай-ақ белгілі бір ақпараттық
үдерістерді тұрақты орындау үшін жасалатын, арнайы ұйымдастырылған жүйе
ретінде анықтауға болады [1,3].
Тікелей ақпараттық жүйеде жүзеге асырылатын ақпаратты қайта құруды бес
негізгі үдеріске: енгізу, өңдеу, сақтау, іздестіру, шығаруға келтіруге
болады. Алғашқы екі үдеріс ақпараттың көздері және алушылармен жүйелі
байланысты қамтамасыз етеді, келесі екеуі ішкі болып табылады. Өңдеуші жүйе
ішіндегі ақпаратты алушылармен де жүзеге асырылады.
Ақпараттық жүйені екі топқа бөлуге болады: арнайы тағайындалған
автоматтандырылған жүйе шеңберіндегі ақпараттық қамтамасыздандыру жүйесі
және дербес мақсаттық ақпараттық тағайындау және қолдану саласында бар
жүйе. Біріншінің мысалы болып басқару жүйелері (автоматтандырылған басқару
жүйелері – АБЖ (АСУ, АСУ, АСУТП), ғылыми-зерттеулерді автоматтандыру
жүйелері – ҒЗАЖ (АСНИ), жобалау жүйелері (Жобалауды автоматтандыру жүйелері
– ЖАЖ (САПР), шешімдер қабылдау жүйесі және т.б.. Дербес тағайындалуы бар
ақпараттық жүйелер – автоматтандырылған ақпараттық-іздестіру жүйелері
(ААІЖ) болып табылады.
Ақпараттық-іздестіру жүйесі (АІЖ) – бұл реттелген құжаттар (құжат
массивтері) жиынтығы және ақпаратты сақтау және іздестіру үшін арналған
ақпараттық технология-мәтіндер (құжаттар) немесе мәліметтер (фактілер).
Ақпараттық-іздестіру жүйесі кез-келген белгілі бір түрде ұйымдастырылған
ақпаратты ұйымдасқан түрде сақтау. Оның үстіне ақпараттық-іздестіру жүйесі
автоматтандырылмаған бола алады. Бастысы бұл мақсатты функция: ақпаратты
сақтау мен іздестіру.
Сақтау нысанасы және сұраныс типіне байланысты ақпараттық-іздестіру екі
түрге бөлінеді: құжаттық және фактографиялық. Сондай-ақ соңғысын ақпараттық-
анықтамалық АІЖ деп те атайды.
Құжаттық АІЖ деп аталады, егер мұнда құжаттар массивіне тақырыптық сұрақ
бойынша іздестіру іске асырылса, пайдаланушыға бұл құжаттардың көпшілігін
немесе олардың көшірмелері жеткізілсе. Құжат ұғымы жүйеден жүйеге өзгеруі
мүмкін. Жалпы жағдайда бұл әлдебір материалдық иеленушіде (қағаз, фото,
кинопленка, магниттік жад т.б) белгіленген (әдетте біршама белгі жүйесі
арқылы) әлдебір ақпараттық нысан және әлеуметтік коммуникациялар жүйесінде
кеңістікпен және уақытпен ұзату үшін тағайындалған.
Фактографиялық АІЖ тікелей нақты мәліметтерді (ғылыми техникалық
нысандардың экономикалық сипаттамасымен, қасиеті, үдерістер, құбылыстар
мекен-жай, атау сандық мәліметтер, т.б) сақтауды, іздестіру мен ұзатуды
іске асырады.
Құжаттық және фактографиялық ең алдымен материалдарды интеллектуалды
алдын ала өңдеу дәрежесімен ерекшеленеді. Құжаттық жүйеде сақтау мен ұзату
нысандар жүйесі - тұтастай құжаттар. Фактографиялық іздестіруде сақтау мен
ұзату нысандары - бұл белгілі бір нысан немесе нысандар класы жөнінде
мәлімет (фактілер) ұсынылатын арнайы формасы. Бұл мәліметтер енуде тікелей
тіркеледі, немесе құжаттардан (мәтіндерден) жазып алынады.
Мысалы, жарықтың жылдамдығы қандай сұрағына құжаттық АІЖ мақалалар
мен кітаптар берілетін болады, оларда жарықтың жылдамдығы туралы айтылады
және мүмкін қойылған сұраққа жауап болады. Фактографиялық жүйеде әлдебір
формада оның қандай екендігі туралы хабар беріледі (секундына үш жүз мың
километр).
Құжаттық және фактографиялық іздестірудің арасындағы басты мәнді
айырмашылық, біздің көзқарасымызша, құжаттардың семантикасына баруымен
түзіледі және сәйкесінше одан әрі іздестіру қажеттілігі үшін құжаттарды
алдын ала өңдеу сипатталады. Құжаттық жүйеде құжатта не айтылатыны туралы
ал фактографиялық жүйеде құжатта нақты не хабарланатыны талданады және
жазылады. Сәйкесінше, сұрақтың екі типін ажырату керек: құжаттық
(тақырыптық) ( жарықтың жылдамдығы туралы құжаттарды табу керек) және
фактографиялық (жарықтың жылдамдығы қандай екенін табу).
Құжаттық жүйеде құжаттар тұтастай олардың тақырыптық, пәндік мазмұны
тұрғысынан мәні жазылады. Бұл жағдайда құжат арналған негізгі тақырыптар
мен нысандарды тауып, нысандар атауы маңызды фактографиялық жүйеде
жазылады, олардың белгілері мен бұл белгілердің мағынасы белгіленеді. Осы
жерден жүйедегі жазу тілі мен жазуды сақтау әдістеріндегі айырмашылық
туады. Сәйкесінше, іздестірудің әрбір түрі үшін өзінің іздестіру құралдары
қолданылады.
Фактографиялық жүйе құжаттар массивінде қатаң реттелген құрылғымен
жинақтау мен іздестіруді көздейді. Мұндай құрылым ақпараттық жүйеге енгенде
құжаттарды алдын ала интеллектуалды өңдейді немесе мұндай құжаттардың дайын
күйінде нақты адам қызметінің саласында бар болуы, мысалы, есептік форма,
бланкілер, анықтамалықтар, кестелер т.б., фактографиялық АІЖ ақпарат пен
іздестіруді жинақтауды тек нысанның бір типі бойынша және тек сұрақтың бір
типі бойынша қамтамасыз етеді. Мазмұны мен құрылымы бойынша сан алуан,
бірақ бұл сан алуандылық әрдайым түпкі мәліметтерді сақтау мен іздестіруді
қамтамасыз ететін мейлінше дамыған фактографиялық жүйе қолданылады [12].
Сонымен бір мезгілде, құжаттық және фактографиялық жүйелер арасында
елеулі айырмашылық жоқ. Көбіне нақты АІЖ аралас жүйелер үлгісін көрсетеді.
Мұнда фактографиялық ақпарат құжаттық іздестірудің қосымша құралы ретінде
және керсінше пайдаланылады. Құжаттық жүйеде мәтіндер (құжаттар)
фрагменттерге немесе өрістерге бөлініп құрылымдануы мүмкін, құжаттық
ақпаратты өңдеу мен ұзату жекеленген өрістер деңгейінде жүргізіле алады.
Құжаттық-фактографиялық іздестірудің фактографиялық элементтермен сан
түрлілігі деп құжаттарды библиография элементтері бойынша жүзеге асыратын
библиографиялық іздестіруді санауға болады (автор, жылы, баспа орны, баспа
түрі, баспа, т.б). Библиографиялық сұраныс толығымен фактографиялық сипат
алады: мысалы, Атамұра баспасы 2004 жылы Мәдени мұра сериясымен
шығарған кітаптар. Мұндай сұраныс берілетін нысандар, мәлімет сияқты
бірыңғай сипатталатын белгілеуге жататын кітаптар (библиографиялық жазу,
сақтау шифрлары) мәліметтері сияқты кітаптардың өзі де бола алады. Сонда
бірінші жағдайда библиографиялық жүйе туралы, екіншіден кітапханалық
құжаттығы туралы айтылады. Іс жүзінде нақты кітапханалық жүйе әрдайым
құжаттық сияқты фактографиялық түрлі типтегі бірнеше АІЖ бірігуін
көрсетеді.
Сонымен қатар жүйенің ақпараттық-логикалық деп аталатын үшінші типіне де
бөлінеді. Бұл жүйелер сұраныстарға жауап беруші, олардың ақпараттық базада
айқын түріндегі жауабы жоқ. Жауап алуға әзірдің өзінде қолда бар құжаттық
немесе фактографиялық-алгоритмдік туындайтын ғылым-білім мен ақпараттың
экстралингвистикалық базасына жауап алуға көмектеседі. Бұл жаңа ақпарат
немесе сұранысқа жауап ретінде беріледі немесе іздестіру үшін қосымша
пайдаланылады. Бұл типтің теориялық жүйесі класс сияқты бұрыннан зерттеліп,
өңделеді. Практикада олар салыстырмалы түрде сирек және олардың кейбірі АІЖ
дәстүрлі құжаттық және фактографиялық дамуын көрсетеді. Тұтастай бұл жүйе
мүлдем әртүрлі. Олардың арасынан интелектуальды-диалогтық АІЖ , эксперттік
жүйені, есептік және қисындық шешімдер қабылдау жүйесі (қолдануы), ғылым-
білім базасы, жасанды интеллект жүйесін атауға болады. Одан басқа мұндай
парасатты жүйелер автоматтандырылған сан алуан жүйелер құрамында ақпараттық
жүйесі ретінде қолданылады және компьютермен табиғи тілде
(қатынас)өңделеді.
Ақпараттық-іздестіру жүйелерінің даму кезеңдері. Автоматтандырылған АІЖ
даму тарихы бірнеше негізгі кезеңге бөлінеді.
АІЖ дамуының бірінші кезеңі 1955-1965 жылдарға сәйкес келіп, әсіресе
ақпараттық жарылыстың басты проблемасы – есептеу техникалары мен
құралдарының дамуымен бірге ақпаратты өңдеу, сақтау мен ұзату және
іздестірудің жаңа әдістеріне қызығушылыққа түрткі болды. Алғашқы
автоматтандырылған АІЖ 60-шы жылдардың басында-ақ пайда болды. Ақпараттық
іздестіру саласына компьютерлерді ендіру үлкен перспективаларға жол ашты.
Алайда бұл бастапқы буырхану кезеңі ұзақ болған жоқ, эйфория сауығуға
алмасты. Толығымен автоматтандырылған интелектуалдық іздестіру жүйесін
жедел алу мүмкін болмай шықты. Шектеулі, бірақ пайдалы іздестіру жүйесін
жасауға практикалық жұмыстар басталып, құжаттық іздестіру өз пәні мен
әдістері бар жекеленген, айрықша міндеттерді жүктеді.
Екінші кезеңді шартты түрде ХХ-ғасырдың 60-70 жылдар аралығына
орналастыруға болады. Бұл жылдары компьютерлерді кітапхана жұмысына ендіру
басталды. Бұл ендіру қарапайым дағдылы операцияларды автоматтандырудан
басталды. Алайда, қауымдастықтың кітапханалық қазынасында MEDLARS жүйесі
және MARC форматы сияқты ірі өзіндік жобалар пайда болды [4]. Бұл кезең
үшін ақпараттық іздестіру тілі (AIT) және индекстік әдіске жоғары
қызығушылық тән болып, қолмен жүзеге асырылды.
Сол жылдары типтік АІЖ – адам-машиналық жүйедегі құжаттардың мазмұнын
талдау мен индекстеу қолмен орындалып, іздестіру машинамен жүргізілді. Бұл
іздестірулер құжаттардың іздестіру бейнелерін және дескрипторлық сөздіктер
немесе тезаурустардың негізінде жасалған сұраныстың іздестіру бейнелерін
автоматты салыстырудан тұрды.
Бұл АІЖ ақпаратты іріктеу, тарату тәртібін пайдаланды және
кітапханаларға байланыссыз автономды жүйе ретінде қызмет етті. Әсіресе бұл
кеңестер одағы үшін тән. Мұнда сол жылдары мемлекеттік ғылыми-техникалық
ақпараттың автоматтандырылған жүйесі (ГАСНТИ) құрылды.
Тұтастай бұл кезеңдегі жұмыс үшін АІЖ және АІТ дамуына АІТ-ді табиғи
тілмен салыстыру арқылы табиғи тіл, нақты тілдер өңдеуге, индекстеу
әдістемесін өңдеу мен пайдалануға көп көңіл бөлінді. Зерттеудің негізгі
тақырыбы – автоматтандырылған ақпараттық іздестіру мүмкіндігі немесе мүмкін
еместігінің дәлелі емес, құжаттардың ақпараттық массивінен, релеванттық
сұраныстан табу міндетін мейлінше тиімді шешуді қамтамасыз ететін құралдар
мен әдістерді табу мен өңдеу болды. Мұнда екінші Крэнфилдтік эксперимент
үлкен мәнге ие болды [5]. Оның мақсаты іздестірудің түрлі құралдары мен
стратегиясының тиімділігін салыстырмалы бағалау болды. Көптеген іздестіру
құралдары бос сөз емес парадигматикалық және синтаматикалық қатынастарды
белгілеу, синтаксистік байланыстарды тіркеу еді. Олар із көрсеткіштерінің
жақсаруына әкелмейді, не негізгі сипаттамалардың (толықтық дәлдік) бірін
елеусіз жақсарта отырып, екішісін байқаларлықтай нашарлатады.
Құжаттық АІЖ дамуының үшінші кезеңі шартты түрде 1975-1995жж. жатқызуға
болады. Бұл жылдары, ғылыми пікірсайыстан соң және сыртқы технологиялық
факторлардың ықпалымен тезаурус емес деп аталатын жүйе немесе еркін мәтін
бойынша іздестіру жүйесі кеңінен таралды (free-text searching systems).
Олардың ерекшелігі бір жағынан, лексикалық бақылаудан бас тарту және
сонымен қатар парадигматикалық тіркеуден бас тарту, ал екішіден, контексті
кеңінен пайдалану және синтагматикалық байланыстарды кеңінен пайдалану
болып табылады.
Сырқы технологиялық факторлар машина оқитын мәліметтер базасы (МБ)
мәтіндік өрісті қоса отырып, құжаттардың қысқаша библиографиялық жазуын
мазмұндайды.
Әдеттегідей, бұл мәліметтер қоры құжаттардың қысқаша библиографиялық
сипаттамасын табиғи тілде тақырып, аннотация, реферат көрінісінде мәтіндік
өрісті де қоса мазмұндайды. Және керісінше бірқалыптандырылған лексикамен
құжаттардың іздестіру бейнелерін мазмұндамайды. МБ әдетте бір орында
мамандандырылған мәліметтер базасын ұйымдастырушы–генераторларда құрылды,
бірақ басқаларында пайдаланылды, өйткені құжаттарды бастапқы семантикалық
өңдеу мен сұраныстарды өңдеу үдерістері үзілген болып шықты. Бұл жағдайда
ең тиімді болып жоғарыда аталған жүйелер өзін көрсетті. Автоматты индекстеу
саласында жақсы нәтижелерге қол жеткізілді. Жүйелер пайда болды, мұнда
автоматты индекстеу енді өнеркәптік тәртіпте жүзеге аса бастады (мысалы,
Скоби) [6].
Бұл кезеңнің зерттелуінің басқа бағыты – бұл іздестіру моделі (мәніне
сәйкес өлшемді таңдау) және жүйені бағалау әдістері. Ықтималдық
статистикалық моделге арналған зерттеулердің үлкен санына қарамастан,
практикада негізінен АІЖ булевтік операторлар пайдалана бастады. Булевтік
жүйенің басымдығын оның қарапайымдылығымен түсіндіруге болады. Булевтік
іздестірудің айқындығы іздестірудің диалогтық құралдарының дамуымен сәйкес
келеді. Іздестірудің аралық нәтижелерін алу мүмкіндігі іздестірудің кері
байланыс бойынша ұйғарымды түзеу мүмкіндігін қолданылған жүйенің көмегімен
іздестіру нәтижелерін қанағаттандыруға жеткілікті болып шықты.
Осылайша, 70-ші жылдар ортасында ең көп таралған және өнеркәсіпте
пайдалану тәртібімен жұмыс істейтін жүйелер класының басымдығы қалыптасты
және ұзақ жылдар тұрды.
Бұл жүйелер класы келесі ерекшеліктермен ажыратылады:
1. АІТ кілтті сөздер негізіндегі бұрынғы үйлестіруші типі.
2. Булевтік логика негізінде мәндік сәйкес логикалық өлшем.
3. Синтагматиканы тіркеу үшін арнайы контекстік операторлар.
4. Еркін мәтін бойынша іздестіру (әдетте, ұсынылған рефераттар).
5. Іздестірудің диалогтық тәртібі.
6. Іздестірудің толықтығы мен дәлдігінің тиімділігін бағалау.
7. Мәтіндердің кері байланысы негізінде іздестірудің басқару
көрсеткіштері.
8. Ақпаратты саралап тарату режиміндегі іздестіру жүйесінің кең
таралуы.
Бұл кезең үшін АІЖ өндіріс құралына айналуы тән: мәліметтер құжаттық
базасы және сұраныс бойынша іздестіру машинамен оқуды жинақтауды жүзеге
асырды, қуатты коммерциялық ақпараттық қызмет пайда болды. АІЖ-ін
бағдарламалық қамтамасыздандыру нақты пайдаланушылар мен ұйымдар шарттарына
тез бейімделетін салыстырмалы, қолданбалы бағдарламалар пакеттері түрінде
тарала бастады. Тіл құралдарын бірқалыпқа келтіру құжаттық массивтерді
алмастырудың бірыңғай қалыптарын жасауда (Кеңестар одағында 1978-1979
жылдары коммуникативтік ГКФ [7], ал одан кейінгі 1984-1985 жылдары МЕКОФ
[8] форматтары жасалды). Бірыңғай коммандалық тіл жасау мақсатында сұраныс
тілдерін бірқалыпқа келтіруге әрекет жасалды. Түптің түбірінде мұндай тіл
жасалды, бірақ кейінірек, жеке тіл ретінде емес, Z39.50 іздестіру хаттамасы
құрамында жасалғанын айтуға болады [9].
Құжаттық АІЖ дамуының төртінші кезеңі 1990 жылдардың ортасында басталды.
Ақпараттық салада түбегейлі өзгерістер Ғаламтор желісінің дамуымен
байланысты және электрондық түрде құжаттық ақпараттар көлемінің шұғыл
көшкіні түрінде өсті.
Бұл кезең үшін мыналар тән:
1. Біртұтас ақпараттық кеңістік негізіндегі гипермәтін желілік
технологиялары;
2. Бұл базада жаһандық АІЖ пайда болуы.
3. Электрондық құжаттарды ұсынудың арнайы тілдері.
4. Ақпараттық массивтердің түрлік, тақырыптық, тілдік сан-алуандылығы.
5. Толық мәтіндік іздестіруге бейімделуі.
6. Өткен кезеңнің лингвистикалық қамтамасын мұраландандыру.
Қазіргі АІЖ лингвистикалық компоненті техникалық және бағдарламалықтан
артта қалуда. АІЖ-ін өңдеу көбірек компьютерлік техника бойынша
бағдарламашылар мен мамандардың ісіне айналуда. Лингвистикалық
қамтамасыздандыруды жасау семантиканың, қолданбалы лингвистиканың және
ақпараттық іздестіру теориясының көптеген мәселелерін зерттеу мен шешуді
талап ететін күрделі және кешенді мәселе болып табылады. Құжаттық
іздестірудің бағдарламалық, техникалық қамтамасыздандыру саласындағы
жетістіктері түбегейлі түрде қазіргі ақпараттық жүйе өзгерген бейнесімен
әсер қалдыратындай көрінеді. Алайда бұл жетістік іздестірудің сапалы жағын
бейнелейтін функционалды тиімділіктің көрсеткіштеріне сай келмейді. Қазіргі
кездегі құжаттық ағымның қуаттылық ерекшеліктері–ақпараттық жүйенің тиімді
қызмет етуі ескі лингвистикалық базада мүмкін емес және жаңа тілдік
құралдар жасауға бағытталған зерттеулерді талап етеді. ХХ-ғасырдың соңында
электрондық құжат айналымына толық құқығымен табиғи тіл енді. Бұл, сондай-
ақ ақпараттық жүйе саласында, бірінші кезекте, оларды интелектуалдандыру
бағытындағы жаңа теориялық және практикалық өңдеуді талап етеді [4].
Релеванттық және пертиненттік. Құжаттық типтегі ақпараттық іздестіру
жүйесі реттелген құжаттар жиынтығын сондай-ақ құжаттық ақпарат сұранысы
бойынша сақтау, іздестіру және ұзату үшін белгіленген құралдар мен әдістер
жиынтығын көрсетеді. Құжаттық іздестірудің сан алуандығы пәндік немесе
тақырыптық іздестіру болып табылады. Құжаттық АІЖ тақырыбы, пәні бойынша
сұранысқа сай келетін құжаттарды береді. Құжат, оның орталық пәні немесе
тақырыбы тұтастай ақпараттық сұраныстың ойлы мазмұнына сай келуі
релеванттық деп аталады, ал екі және одан да көп мәтінді ой-пікір жақындығы
қасиеті (бұл жағдайда–құжаттық және ақпараттық сұраныс арасында)-
релеванттылық деп аталады. (ағылшынша relevant - тиісті, сәйкес келуші).
Релеванттық – бұл ақпаратты іздестіру теориясының іргелі ұғымы. Бір
жағынан, оны жай аксиома сияқты анықтамасыз қалдырады.
Екінші жағынан, барлық ғылымдардағы іргелі ұғымдар сияқты АІЖ пайда
болуынан бастап қазірге күнге дейін пікірталас толастамаған. Релеванттық
оның анықталуы, оның есептелуі ақпараттық іздестірудің негізгі мәселесі
болды және болып келеді. Бірінші болып бәлкім релеванттық туралы пәндік
мақаланы Р.Брэдфорд айтты [10]. Бұл тақырыпқа бұрынғы пікір сайысты
мақаланы ақпараттық іздестірудің негізін қалаушылардың біріне жататын
М.Таубу Релеванттық псевдоматематикасы туралы деп аталатыны терминнен
мүлде бас тартуға шақырады [14].
Релеванттық – бұл екі топтарға жататынын екі нысанның арасындағы қатынас
деп санау қабылданды. Ақпараттық іздестіруде бұл құжатар мен сұраныстар
топтары және АІЖ негізгі тағайындалуы құжаттар мен сұраныстардың мазмұнын
салыстырудан және олардың сәйкестігі немесе сәйкес еместігі туралы шешім
қабылдаудан тұрады. Бірақ АІЖ бұл үшін құжаттар мен сұраныстардың
мазмұнының формальді түсінігі қалыптастырылады. Олар құжатты іздестіру
үлгісі (ҚIҮ) мен сұраныс іздестіру үлгісі (СIҮ) атауын алады және бір-
бірімен салыстырылады. Сонда релеванттық бұл екі іздестіру бейнелерінің
арасындағы қатынас деп қорытынды жасауға болады. Екінші жағынан жоғарыда
келтірілген релеванттықты анықтау әлдебір екінші машиналық бейнелер емес
құжаттар мен сұраныстардың өзін олардың пайдаланушы белгілі және қол
жеткізерлік түрінде сәйкестігі туралы айтылады. Бұл ұғым объективті ме, не
субъективті ме деген пікірсайыс пайда болады. Сондықтан релеванттықтың екі
түрі: мәндік және формальдік туралы айта бастады. Ақпараттық сұраныстың
құжаттық мазмұнына сәйкестігін мәндік релеванттық деп атайды, ал бұл
құжаттық іздестіру бейнесі берілген ақпараттық сұранысты білдіретін
іздестіру нұсқауына сай келуі-формалды релеванттықты құжаттық
релеванттықтық деп аталады. Сондайақ формалды релеванттықты құжаттық
релеванттық, мәндік релеванттықты-ақпараттың релеванттық (құжат
мазмұнындағы ақпарат түрін алады) деп атайды.
Алайда пайдаланушы құжаттық ақпаратын (мазмұнын) неден туындатып
бағалайтын болады деген сұрақ пайда болады. Ол үшін сұраныстың жасақталуы
бастапқы емес, іздестіру үшін себепші ақпараттық қажеттілік бастапқы.
Осылайша құжаттардың ақпараттық қажеттігіне сәйкес қасиеті сияқты тағыда
бір релеванттылық пайда болады. Ф.Ланкастер [14] оны ақиқат релеванттылық
деп атады. У.Гоффман мен В.Ньюил [15] оны пайдалығына немесе жай
релеванттығына қарама-қарсы пертиненттігі деп атауды ұсынды (мәндік
релеванттық) (ағыл pertinent-орынды, сай келетін).
Ақпараттық қажеттілік – ақпараттық іздестірудің тағы да бір негіз
қалаушы ұғымы. Іздестіруге сұраныс адамдардың ақпараттық қажеттілігінен
туындайды, ол оларға әлдебір міндеттер мен мәселелерді шешу үшін қажет
(өзінің жеке қызығушылығын қанағаттандыруды қоса отырып). Өзінің шынайы
ақпараттық қажеттілігін бірден білдіре алмау немесе соған қабілетсіз болу
қасиеті түрлі дәрежеде болса да, барлық адамдарға тән екендігі белгілі.
Сондықтан нақты АІЖ негізінен, пайдаланушы ойындағы ақпараттық қажеттілікті
емес, жүйеде қалыпасқан түрдегі ақпараттық сұраныстарға жауап беретін
құжаттарды іздеп табуды қамтамасыз ете алады.
Ақпараттық сұраныс мұнда көрсетілген ақпараттық қажеттіліктен едәуір
ерекшелене алады. Көптеген жағдайларда пайдаланушылар өзінің қажеттігін дәл
бейнелеуге қабілетсіз болып келеді. Мысалы паралельдік алгоритмдер сияқты
сұраныс жеткілікті түрде дәл емес болып шығады. Біріншіден пайдаланушыға
паралельдік алгоритмдер немесе олар туралы ақпарат үлгілері ме, нақты не
қажет екені түсініксіз. Екіншіден авторға барлық қолда бар ақпарат қажет пе
немесе тек бірнеше үлгілері қажет пе және соңында қай сала-теориялық немесе
практикалық па пайдаланушыны қызықтыратыны. Осылайша пайдаланушы
релеванттық туралы пікірді шығара отырып меншікті ақпараттық тұтынушылығы
негізінде оны анықтайтын болады, ол өте жиі тек оның санасында болады, сол
кезде АІЖ сияқты релеванттық туралы пікірді пайдаланушы қалыптастырған
сұрақ мәтіні негізінде шығарылады. Осылайша релеванттық болу әлі де шын
мәнінде сол немесе басқа адамның қажеттігіне сай келеді дегенді
білдірмейді. Кез-келген жүйе берген құжатты екі аспектіде: сұраныс берген
пайдаланушының субьективті көзқарасы тұрғысынан (прагматикалық әдіс) және
оның табиғи тілде қалыптасқанындай сұраныс мәніне сай көзқарасы тұрғысынан
(семантикалық әдіс) қарастыруға болады. Семантика терминінде релеванттықтың
семантикалық қатынасы сияқты, пертиненттікті прагматикалық қатынас сияқты
анықтауға болады [15]. Алайда пертиненттік пен релеванттықты шектеу барлық
проблемаларды шешпейді. Іс жүзінде жағдай әлі күрделірек, жалпы жағдайда
ақпараттық іздестіруде бірінші топтың нысандарындағы құжаттарда келесі
мәнді бөліп ұсынуға болады:
1. құжат (физикалық мән, оны пайдаланушы ақпарат іздестіруде алады);
2. ақпарат (пайдаланушы құжатты оқи отырып білетіні);
3. құжаттық іздестіру бейнесі (ҚІБ).
Бінші топ – құжаттың формалды көрінісі, ол іздестіруде пайдаланылады
және түрлі форманы қабылдауы мүмкін – тақырыптан, кілтті сөздер тізімінен,
авторлар атынан, библиографиялық мәліметтерден, аннотациялардан,
үзінділерден, т.б. тұруы мүмкін);
Екінші топтың нысандарында, сұраныстарда, келесі мәндерді бөлуге болады:
• проблема (пайдаланушы әлденемен қақтығысқан жағдайда өзінің шешімін табу
үшін ақпарат талап ететін әлдене);
• ақпараттық қажеттілік (пайдаланушының санасында мәселенің көрінісі, оның
үстіне пайдаланушы мәселені көз алдына дұрыс елестетпеуі мүмкін);
• ақпараттық сұраныс (табиғи тілде пайдаланушының ақпараттық қажеттігінің
көрінісі);
• іздестіру нұсқаулығы (сұраныстың іздестіру бейнесі (СІБ) түріндегі
ақпараттық сұраныстың көрінісі және сұраныс тіліндегі іздестіруге
тапсырма).
Сонда релеванттық құжаттық іздеу бейнесінің іздестіру нұсқауына
(формальды релеванттық) немесе құжаттық ақпараттық сұранысқа (мәндік
релеванттық) немесе ақпарат пайдаланушы алған ақпараттық тұтынушылық
(пертиненттік) қатынасы сияқты қарастыруға болады. Релеванттылықтың әрбір
түрі туралы пікір қандай деңгейде қалған мәніне ықпал жасайды, деген сұрақ
туады.
Одан басқа, екінші топтағы жоғарыда аталған әрбір мәнге келесі
компонентті қосуға болады:
• тақырып (пайдаланушыны қызықтыратын пәндік салаға жатады);
• есеп (табылған құжат бойынша пайдаланушының қызметіне жатады);
• контекст (тақырып пен есепке жататыны, бірақ сонымен қатар іздестіру және
іздестіру нәтижелерін бағалауға ықпал етеді).
Әдеттегідей, ақпараттық іздестіру тақырыптық компонентке
шоғырландырылған, алайда тақырыптық сәйкестік жеткіліксіз болып ұсынылуы
мүмкін: мысалы, пайдаланушыға есепті орындау үшін пайдалануға болмайтын,
немесе оған белгілі сол ақпарат қажет емес. Немесе, бір жағдайда ол үшін
жалғыз құжат жеткілікті болады, басқа пайдаланушы өзінің сұраныс пәні
бойынша барынша көп әдебиетті алуға ұмтылады.
Сонда, басқа сөзбен айтқанда, құжаттық іздестіру бейнесі (құжат,
ақпарат) бір (бірнеше) компонентке қатысты іздестіру нұсқауына
(пайдаланушылық сұраныс, ақпараттық қажеттілік, мәселе) релевантты болуы
мүмкін: тақырыпқа жататын, есепттер мен тақырыпқа жататынын релеванттық
туралы, немесе барлық үш компонентке жататын релеванттық туралы айтуға
болады.
Одан басқа уақыт факторы ескерілуі тиіс. Ақпараттық сұранысты
қалыптастыруда адам әрдайым өзіне қандай ақпарат шын мәнінде керек екенін
ұғына бермейді. Сондықтан оған берілген ақпараттық сұранысқа жауапты АІЖ
беретін құжаттардың мазмұны, бұл адамның өзінің ақпараттық тұтынушылығы
туралы түсінігін өзгерте алады немесе бұл қажеттілікті өрнектер формасымен
оның өзгертуіне мәжбүр етеді және оның өзімен релеванттық туралы пікірді
өзгертеді. Релеванттық - динамикалық құбылыс: бір және сол сарапшы үшін
құжат уақыттың белгілі бір сәтінде релевантты бола алады және кейіннен
релевантты емес, және керсінше. Құжаттардың арасында тәуелділік бар:
бірінші көрінген құжат келесісінің релеванттылығына ықпалдандыруы мүмкін.
Демек, релеванттықтың әрбір түрі төрт өлшемді кеңістіктегі нүкте сияқты
келесі мәндерімен қарастырылады:
• іздестіру бейнесі, құжат, ақпарат;
• іздестіру нұсқауы, пайдаланушылық сұраныс, ақпараттық қажеттілік;
• пайдаланушы, тақырып, есеп, контекст және олардың комбинациясы;
• түрлі уақыттық интервалдар – мәселенің пайда болуы және шешілуі.
Релеванттықты анықтау әдістері. Релеванттықтың түрлі түрлерін анықтаудың
әдістері туралы мәселе ашық күйінде қалуда. Пертинентікке қатынастылығы
айқын: оны ақпарат тұтынушы бағалауы тиіс, немесе сол басқа құжат
қаншалықты оның ақпараттық қажеттігіне сай келеді. Мұнда тұтынушының бағасы
оның алдында тұрған практикалық сипатына, оның ғылыми квалификациясының
деңгейі мен басқа факторларына тәуелді.
Бірақ кім, қандай түрде релеванттықты анықтауы тиіс? Бұл тұрғыда түрлі
пікірлер бар. Релеванттық туралы бұрынғы тарауда айтылғанды ескере отырып,
релеванттық туралы пікірде уақыттың белгілі бір сәтінде адам-сарапшының
релеванттығының бірінің әлдебір мағынасының иеленуі бар. Релеванттық туралы
бұл пікірді бес өлшем бойынша жіктеуге болады:
1. құжаттық мәні, оның негізінде пікір шығады (ІБ, құжат немесе ақпарат);
2. сұраныстық мәні, оны сарапшы пікір шығару үшін пайдаланады (іздестіру
нұсқауы, пайдалану сұранысы, ақпараттық қажеттілік, мәселе);
3. пікір шығарылатын компонент (тақырып, есеп, контекст);
4. релеванттық туралы пікір шығатын уақыт сәті;
5. сарапшы типі (пайдаланушы және маман).
Релеванттық – субъективті ұғым: түрлі сарапшылар релеванттық туралы
түрлі пікір айтады. Релеванттықты бағалау үшін, бағалауда жетерлі
бірыңғайлықты қамтамасыз ететін формальды ережелер бойынша жүзеге асырылуы
қажет.
2. Қазіргі заманауи ақпараттық-іздестіру жүйелері
ХХІ ғасырдың ақпараттық қоғамына өту жаһандық компьютерлік желі
көлемінің өлшеусіз өсуін және ақпараттық шоғырлануын тудырды. Бұл
ақпараттық іздестіру жүйесін (АІЖ) жасау мен оны тиімді пайдалану
проблемасын шұғыл шиеленістірді.
Автоматтандырылған ақпараттық-іздестіру жүйесінің тарихы жарты ғасырмен
есептеледі. Алғашқы жылдарға тән АІЖ – бұл адам-машина жүйесі, мұнда
құжаттардың мазмұнын талдау мен жазу (индекстеу) қолмен атқарылады, ал
іздестіру машинамен жүргізіледі. АІЖ бастапқы негізін ақпараттық іздестіру
тілдері (АІТ) құрады, оның негізгі элементтері дескрипторлық сөздіктер мен
тезаурустар болып табылады. Бұл күндері АІЖ жұмыс істейтіндердің көпшілігі
тезауруссыз типтегі вербальды жүйе тобына жатады. Мұнда индекстік терминдер
тікелей құжаттар мәтінінен алынады. Электронды құжаттық ақпарат көлемінің
тасқынды түрде өсуі, оның түрлік, тақырыптық және тілдік саналуандығы,
қазіргі ақпараттық іздестірудегі дағдарыс себебі ретінде, сондай-ақ оны
жетілдірудің ынталандырушысы да болып табылады.
Ғаламтор желісіндегі ресурсты іздестіру проблемасы танылысымен-ақ, бұған
жауап ретінде түрлі жүйелер мен бағдарламалық жасақтамалар пайда болды.
Олардың арасында Gopher, Archil, Veronica, WAIS, WAOIS және т.б. жүйелерді
атауға болады. Соңғы уақытта бұларды ауыстыруға бүкіл әлемдік WWW тордың
“клиенттер” және “серверлер” келді.
Ғаламтор желісіндегі АІЖ-ін келесі негізгі типтерге бөлуге болады:
1) Вербальды типтегі АІЖ (іздестіру жүйесі – search engines);
2) Классификациялық АІЖ (каталогтар – directories);
3) Электронды анықтамалықтар (“сары” беттер, т.б.);
4) Жекелеген ресурстар түрі бойынша мамандандырылған АІЖ;
5) Интеллектуалды агенттер;
6) Мета іздестіру жүйлері
Вербальды типтегі ақпараттық іздестіру жүйелері
Негізгі вербальды ақпараттық іздестіру жүйесі. Ғаламтор желісіндегі АІЖ
тарихы 1994 жылдан бастау алып, қысқа мерзімге қарамастан, өте бай және
жалпы ақпараттық іздестіру жүйесінің тарихы сияқты спираль бойынша
дамуда. Алғашқы жылдары сұраныс тілдері мен соған сәйкес мағыналық
сәйкестік бағамдарының және іздестіру құралдарының саны мен қуатының үнемі
артып отыруы байқалады. Соңғы жылдары көптеген “нәзік” құралдар өзінің
тиімсіздігін немесе сұрамсыздығын көрсетті. Бір жүйелер бәсекеге төтеп бере
алмай, сахнадан кетеді (оның ішінде ең белгілісі InfoSeeK, ол осы күнге
дейін желідегі АІЖ тақырыбындағы барлық жарияланымда еске алынады),
басқалары оның орнына келеді. Бүгінгі күндегі қолданыстағы жүйелердің
табыстылар қатарындағы Google жүйесі 2002жылдың басында ғана пайда болды.
Вербальды типтегі басты іздестіру жүйесінің қатарына (бірінші кезекте,
мәліметтер базасының көлемі бойынша) 2002жылдың соңындағы жағдай бойынша
төмендегілерді жатқызуға болады: Fast Search (AllTheWeb&Lycos), AltaVista,
Direct Hit, Excite, Fast Search, Google, HotBot, Inktomi, iWon, Lycos, MSN,
NBCI (бұрын Snap), Northern Light, Teoma, WiseNut. Олардың барлығы
мәліметтер базасының көлемімен, сұраныс тілімен, маңызына қарай
алгоритмдерімен және басқа ерекшеліктерімен ажыратылады.
Ресейлік жүйе арасында бастысы – Яндекс (Яandex), Рамблер (Rambler),
Апорт (Aport). Ақпараттың толықтығы үшін тағы да TELA-поиск
(http:tela.dux.ru) және Орыстың іздестіру машина жүйесін атауға
болады.
Яндекс – Россиялық Ғаламтордың (Рунет) ең ірі ақпараттық іздестіру
жүйесі. Яндекс CompTek фирмасының түпнұсқалық жұмысы болып табылады.
Іздестіруді орыс морфологиясын ескере отырып орындайды. Сұраныстың өте
қуатты тіліне ие.
Апорт. Апорт! іздестіру жүйесін Aгама компаниясы жасады. Барлық
кириллицалық кодтауды түсініп, морфологиялық талдауды ескере отырып
іздестіруді орындайды. Сұраныстардың икемді тілі, сұранысты орысшадан
ағылшын тіліне және керісінше аудару мүмкіндігіне ие.
Рамблер. Stack Ltd компаниясына тиісті. Тор 100 орыс бетінің рейтингін
қолдайды. Веб – беттер тізімі рейтингте тақырыптық топтарға бөлінген, және
көптеген пайдаланушылар бұл рейтингті каталог ретінде пайдаланады.
Басты шетелдік іздестіру жүйесінің негізгі айрықша ерекшеліктері.
Google. Мәліметтердің ең үлкен іздестіру базаларының бірі. Оны
толықтырудың жоғары жылдамдығы. Мазмұнына қарай сәтті әдістер. Төтенше
жедел іздестіру. Құжаттарды PDF форматында индекстей алады. КЭШ-жадта веб-
беттер бейнесін оларды индекстеу сәтінде байқайды.
Fast (Allthe Web and Lycos). Мәліметтердің ең үлкен іздестіру
базаларының бірі. Жақсы іздестіру мүмкіндіктері (бірақ логикалық
операторларды қолдамайды). Басқа АІЖ таба алмайтын құжаттарды табады.
Northern Light. Мәліметтердің үлкен іздестіру базасы. Мәліметтердің
арнайы базасы (телеконференция, геоақпарат, электронды басылымдардың
мақалалары). Сұраныстардың қуатты тілі. Іздестіру нәтижелерін ұсынудың
қызықты әдісі (тақырыптық папкалар ).
Alta Vista. Мәліметтердің ең үлкен базаларының бірі. Оңтайлы іздестіру
мүмкіндіктері мен сұраныстардың қуаттылығы. Табылған құжаттарды аудару
тәртібі.
Вербальды АІЖ функционалдық құрылғылары
Вербальды ақпараттық іздестіру жүйесінің архитектурасы. Ғаламтордағы
негізгі іздестіру құралдарын вербальды іздестіру жүйелері деп санау
қалыптасқан. Жергілікті АІЖ сияқты, бұл жүйелердің типтері бұрынғы
координаттық тип болып, олар алдын ала үйлестірілетін жіктелу АІЖ е
(тақырыптық каталогтарға) қарама-қарсы тұрады (ағылшын әдебиеттерінде –
search enginе). Мұндай жүйенің типтік схема элементтері ретінде
төмендегілерді атап көрсетуге болады.
Веб-сайттар – бұл Ғаламтордағы барлық ақпараттық ресурстар, дәлірек
айтқанда, оны көру бағдарлама-роботпен қамтамасыз етіледі.
Робот – Ғаламторды көруді (сканерлеуді) қамтамасыз ететін және өзекті
жағдайда инвертацияланған файлды қолдайтын (мәліметтердің индекстік
базасын) жүйе. Бұл бағдарламалық кешен желінің ақпараттық ресурстары,
шарттары туралы ақпараттың негізгі көзі болып табылады.
Мәліметтерді іздестіру базасы – осылай аталатын индекс – арнайы түрде
ұйымдастырылған база (ағыл. index database) ең алдымен инвертацияланған
файлды қосатын, яғни индекстелген веб-құжаттардың лексикалық бірлігінен
тұрады және лексема, құжаттар, сайттар туралы толық басқада түрлі
ақпараттармен қамтамасыз етеді (жекелей алғанда, олардың құжаттардағы
позициясы).
Клиент – бұл веб-сервисте ақпараттық ресурстарды көру бағдарламасы,
басқаша айтқанда, веб-клиент. (Қазіргі кездегі ең танымал мультихаттамалық
бағдарламалар Internet Explorer және Netscape Navigator). Бұл бағдарлама
түрлі сервистер құжаттарын көру мен іздестіру жүйесімен қатысуды қамтамасыз
етеді.
Пайдаланушы – 1) пайдаланушының іздеу интерфейсі арқылы ендірілген
іздестірудің алдын ала жазылған нұсқасы кейбір жүйелерде пайдаланушының
жеке базасында іздестіру жүйесінде сақталады. 2) іздеудің нәтижелері.
Пайдаланушылық (іздестіру) интерфейстері – пайдаланушының іздестіру
ақпаратымен қатысуының экрандық форматы: сұраныстарды және іздестіру
нәтижелерін көруді қалыптастыру жүйесі.
Іздестіру жүйесі – пайдаланушының іздестіруде алдын ала жазғанын
өңдеуді, іздестіру мәліметтер базасынан іздеу және пайдаланушыға ұсынуды
қамтамасыз ететін төменгі іздестіру жүйесі.
Робот – индексаторлар. Робот (robot, сондай-ақ spider – өрмекші ,
crawler – жүзуші, worm – құрт) – Ғаламторды жүйелі түрде зерттейтін
бағдарлама немесе бағдарламалар жиынтығы, веб-сайттарды тексеріп шығады,
құжаттар табады, оларды оқиды және сілтемеге сай, құжатта көрсетілген
берілген сайттың немесе басқа сайттың беттерін табады. Веб-кеңістік
құрылымы бейімделген граф құрылымына ұқсас, сондықтан мұнда графты тексеріп
шығу алгоритмі қолданылады.
Мұндай тексеріп шығудың үш түрлі әдісі бар:
а) іздестірудің атауы үшін бағдарлама – роботпен URL – адресінің
біріншісін кездейсоқ таңдау. Бағдарлама бастапқы құжатты индекстеп, URL-
адресті бөледі, ол басқа құжаттарды көрсетеді, одан соң көбінесе енінен
немесе көбінесе тереңінен іздестіру үшін бұл URL-ді рекурсивті талдайды;
б) Іздестіру веб-тораптың белгілілігіне байланысты URL-адресті
енгізгеннен кейін басталады және рекурсивті түрде жалғаса береді. Титул
бетінде (бірінші бет) берілген және басқа да веб-түйіндерде ең жиі
сұралатын ақпаратқа сәйкес келетін белгілі URL-адрестердің болатыны
түсінікті.
в) веб-кеңістік белгілі бір бөліктерге бөлінеді, мысалы Ғаламтор немесе
елдің кодтарының атауларының негізінде және бұл тарауларды толық зерттеу
үшін жекелеген бағдарлама-робот немесе бірнешесі бөлінеді. (Мұндай әдіс
алғашқы екеуіне қарағанда жиі пайдаланылады).
Құжаттарды өңдеу принципінде файлдың автоматты индекстеу элементтерімен
инвертациялау үдерісіне ұқсас. Соңғысы болмауы да мүмкін, бірақ бұл үдеріс
бәрібір индекстелген деп аталады, тіпті егер ол инвертацияланған файл
құрастырумен шектелсе де, мұнда индекстеудің әрбір терминіне құжаттар
тізіміне сәйкес қойылады, мұнда ол кездеседі. Мұндай үдеріс тек жеке
жағдай, дәлірек айтқанда АІЖ іздестіру ақпаратын құрудың техникалық аспекті
болып табылады. Индекстеумен байланысты проблема құжаттық іздестіру
бейнесін жазып алудан немесе ақпараттық ресурстар сөздік туралы
(бақыланатын немесе еркін) ұғымға арқа сүйейді, одан бұл терминдер
іріктеледі. Бақыланатын сөздік мәліметтердің лексикалық базасын жүргізуді
көздейді, оған терминдерді қосу әкімшілік жүйемен жүргізіледі, және барлық
жаңа құжаттар тек сол дескрипторлармен индекстелетін бола алады, олар
мәліметтердің осы базасында болады. Ғаламторда бұл технология мүмкін
еместігі ақиқат. Еркін сөздік не жаңа терминдердің пайда болу шарасы
бойынша автоматты түрде толығады, не мүлдем виртуальды, инверстік файлдың
барлық терминдері АІТ-нің лексикалық бірлігі саналатын бейнелеу болып
табылады (көбіне инверстік файл осылайша сөздік аталады).
Роботтарды жасау еш уақытта өз көкейкестілігін жоғалтқан емес; жұмыстың
циклға кіріп қалу қауіпі бар. Ең негізгі мәселе роботтардың жылдам
әрекеттілігі.
Іздестіру жүйесінде робот-индексаторлармен өз веб-сайтын индекстеуге
тапсырыс ұзату мен жеделдендіру іздестіру жүйесінің сайтында ADD URL немесе
Submit your URL типіне сілтеме арқылы болады. Ауысатын ресурстарды қайта
индекстеуді қалай қамтамасыздандыруға болады деген мәселе бар. Соңғы
уақытта белгілі бір төлемақыға басым индекстеу барған сайын көбірек
таралуда.
Индекстеуде басты мазмұнды проблема құжаттарға қандай терминдер жазу
керек, оларды қайдан алу керектігімен қорытындыланады. Мұнда ресурстардың
бөлігі мүлде мәтін болып табылмайтынын ескеру қажет, мәтіндік ресурстар
өзімен тұтастай кітаптарда ұсынылуы мүмкін. Түрлі жүйенің роботтары бұл
мәселені түрліше шешеді. Құжаттардан барлық терминдер олардың іздестіру
бейнесіне түседі деп ойлауға болмайды. Индекске түспейтін тыйым салынған
сөздер тізімі (stop words) өте белсенді қолданылады-бұл жалпы, қызметтік
сөздер (көмекші сөз, жалғаулық, т.б.) және мағынасыз сөздер. Көптеген жүйе
тек құжаттық бөлігін ғана индекстейді (әдетте бастапқы), бір және сол
сайттың веб-бетінің тек бөлігін ғана өңдейтін роботтар бар және оның үстіне
жаһандық АІЖ іздестіру индекстерінің көлемі қазірдің өзінде терабайтпен
өлшенуде.
Әдетте индекстеуде гипермәтіндік белгілер: сілтемелер, тақырыпшалар,
аннотациялар, кілтті сөздердің тізімі және т.б. түрлі мағыналық
элементтер міндетті пайдаланылады. telnet, gopher, ftp ресурстарын, сондай-
ақ мәтіндік емес ақпаратты индекстеу үшін ең бастысы URL, файлдар атауы,
Usenet жаңалықтары мен сілтеменің пошталық тізімі үшін Subject және
Keywords өрісі пайдаланады.
Роботтар қалай жұмыс істейтінін, олардың техникалық сипаттамасы қандай
екенін білу веб-құжаттарды құру үшін де, іздестіру жүргізуде сұранысты
құрастырушылар үшін де пайдалы.
Индекстеуді басқару құралдары. Іздестіру жүйесінің роботтарын басқаруға
мүмкіндік беретін негізгі құралдар небәрі екеу: арнайы robots.txt атауымен
файл сайтындағы түбірлі каталогқа орналастыру және жеке құжаттық HEAD
секциясындағы META-элементтерді қолдану.
Robots.txt файлы сайттың жекелеген каталогтарын индекстеуден жабуға
мүмкіндік беретін бұйрықтар жиынтығынан тұрады. Әдетте суреттер, ... жалғасы
Ұқсас жұмыстар
Пәндер
- Іс жүргізу
- Автоматтандыру, Техника
- Алғашқы әскери дайындық
- Астрономия
- Ауыл шаруашылығы
- Банк ісі
- Бизнесті бағалау
- Биология
- Бухгалтерлік іс
- Валеология
- Ветеринария
- География
- Геология, Геофизика, Геодезия
- Дін
- Ет, сүт, шарап өнімдері
- Жалпы тарих
- Жер кадастрі, Жылжымайтын мүлік
- Журналистика
- Информатика
- Кеден ісі
- Маркетинг
- Математика, Геометрия
- Медицина
- Мемлекеттік басқару
- Менеджмент
- Мұнай, Газ
- Мұрағат ісі
- Мәдениеттану
- ОБЖ (Основы безопасности жизнедеятельности)
- Педагогика
- Полиграфия
- Психология
- Салық
- Саясаттану
- Сақтандыру
- Сертификаттау, стандарттау
- Социология, Демография
- Спорт
- Статистика
- Тілтану, Филология
- Тарихи тұлғалар
- Тау-кен ісі
- Транспорт
- Туризм
- Физика
- Философия
- Халықаралық қатынастар
- Химия
- Экология, Қоршаған ортаны қорғау
- Экономика
- Экономикалық география
- Электротехника
- Қазақстан тарихы
- Қаржы
- Құрылыс
- Құқық, Криминалистика
- Әдебиет
- Өнер, музыка
- Өнеркәсіп, Өндіріс
Қазақ тілінде жазылған рефераттар, курстық жұмыстар, дипломдық жұмыстар бойынша біздің қор #1 болып табылады.
Ақпарат
Қосымша
Email: info@stud.kz