Каталогты жүйелер
Мазмұны
Кіріспе ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ..
... ... ... ... ... ... ... ... ... ... ... ..3
1. Әртүрлі типтегі іздеу жүйесін функционалдаудың негізіне салынған
принциптер ... ... ... ... ... ... . ... ... ... ... ... ... ... ... ... ..
... ... ... ... ... ... ... ... ... ... ..4
2. Ресурстарды сканерлеудің
ерекшеліктері ... ... ... ... ... .. ... ... ... ... ... ... ...7
3. Метаіздеу
жүйелері ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ..
... ... ... ...10
Қорытынды ... ... ... ... ... ... .. ... ... ... ... ... ... ... ... ... ..
... ... ... ... ... ... ... ... ... ..12
Пайдаланылған әдебиеттер
тізімі ... ... ... ... ... ... ... . ... ... ... ... ... ... ... ... ... 13
Кіріспе
Интернеттің глобальды жүйесі 40-мыңнан аса әр түрлі локальды жүйелердің
қосындысын құрайды. Әрбір локальды жүйе түйін немесе сайт деп , ал сайттың
жұмысын қамтамасыз ететін заңды тұлға – провайдер. Сайт әдетте бірнеше
компьютер – серверден тұрады. Олардың әрқайсысы ақпараттың анықталған түрін
сақтауға арналған. Ақпаратты іздеу жүйесінің потенциалы (ИПС) (АІЖ) бүгінгі
күнде жақсы дамыған. Қарапайым ортада кілттік сөз арқылы құжаттың арасынан
ғана емес желілік адрес URL, серверлер атының арасынан, каталог және соңғы
ақпараттық файлдар арасынан іздеуге мүмкіндік алуға болады. Сонымен қатар,
URL өрісінде мұндағы латын әріптерін қолданатын, латын әріпімен сәйкес
келмейтін тілдердің лексикасы жиі қолданылады. Бұл құбылыс россияның
интернет секторы үшін толығымен сипатталған және масштабтың қатысуымен
іздеу есептерін шешуде өте жоғарғы роль атқаратын арнайы желі атауларымен
байланысқан.
Ғаламдық ауқымдағы анықтамалықтарды актуалдандыру және құрумен көптеген
жағдайларда ақпараттық компаниялар, ең алдымен, американдық компаниялар
айналысады. Анықтамалықтардың барлығы материалдарды әлемдік деңгейде
қамтитынын жариялады, дегенмен тәжірибеде негізгі тірек солтүстік америка
сайттарына жасалады. Ресурстардың ғаламдық анықтамалығына жүгіну аз да
болса ағылшын тілін меңгеруді талап етеді.
1. Әртүрлі типтегі іздеу жүйесін функционалдаудың негізіне салынған
принциптер
Тәжірибиесі жоқ қолданушы үшін World Wide Web алғаш көргенде түсіну
қиын болатын барлық мүмкін болатын құжаттардың шиеленіскен құрылымы болып
көрінеді. Бұл мәселені шешу үшін, желіде әртүрлі анықтағыштар, іздеу
жүйелері немесе машиналар, жаңалықтар конференциялар құрылған. Ғаламдық
желі әрбір сағат сайын дамиды, жаңа беттер мен серверлер пайда болады,
сондықтан іздеу жүйелерінде жиналған ақпарат ешқашан абсолютті түрде толық
жауап болмайды.
Internet-те іздеу жүйесінің үш түрін көрсетуге болады: каталогты,
индексті және метаіздеу. Олардың айырмашылығы деректер қоры құрылымында
және оларды толтыру тәсілімен қатар іздеу нәтижесін беруде де болады.
Бастапқыда Internet-те ақпаратты іздеу үшін Web-беттер тізімі
тақырыбымен реттелген каталогтар қолданылды; содан кейін ішінен сұраныс
бойынша қажетті ресурсқа сілтеме берілетін индексті деректер қоры қолданыла
бастады; кейіннен басқа да мамандандырылған іздеу машиналар жиынының
ресурстары қолданатын метаіздеу желілері пайда болды (1-сурет).
1-сурет. Іздеу жүйелерінің түрлері
Каталогты жүйелер. Каталогты жүйелердің ағаш типті, иерархиялық
құрылымы болады. Іздеу жүйесінің бастапқы бетінде ақпараттың негізгі
категорияларының тізімі бар, мысалы: медицина, автомобильдер, компьютерлер,
жұмыс, жылжымайтын мүлік және т.б. Егер қызықтыратын категорияны таңдасақ,
экранда ішкі категориялар тізімі шығады. Олардың ішінен іздеп жатқан
тақырыпқа жақынырағын таңдауға болады, және одан ары жақын жаңа тзім
аласың. Солайша, қажетті тақырыпқа байланысты бірнеше сайттар қалғанша кете
береді.
Сызба түрінде каталогты жүйенің құрылымы 2-суретте көрсетілген.
2-сурет. Каталогты жүйенің құрылмы
Каталогтар сол немесе басқа принциппен ұйымдастырылған сілтемелерді
жинау болып табылады. Каталогтар негізінен пәндік классификацияға сәйкес
ұйымдастырылған болады және құрамында Web-беттер жайлы мәліметтер болады.
Каталогтың бөлек әртүрлілігі келіп кету рейтинг-счетчиктер болып табылады.
Каталогтарды адамдар құрады – әрбір жаңа сайтты олардың индекске
қосылуына дейін қарайтын редакторлар, немесе бейнелеуді құратындар құрады.
Мұндай жүйелер нақтырақ болып келеді, ақпаратты жүйелендірудің ең жоғары
сапасын және, ереже бойынша, көлемі бойнша кішірек, бірақ индексті деректер
қорымен салыстырғанда күшті құрылымды қамтамасыз етеді. Бірақ адамдар
Internet кеңейтулері мен өзгерулерінің жылдамдықтарына үлгермеуі мүмкін.
Бұдан басқа, егер құжаттың тексерілу процесі ақпаратының өзектілігіне
автоматтандырылмаған болса, көбінесе каталогтарда ескірген адрестер
сақталады. Каталогты іздеу жүйелерінің типтік өкілі – америкалық Yahoo.com
жүйесі мен орыс тіліндегі List.ru жүйесі.
Индексті іздеу машиналары – бұл түгелімен автоматтандырылған желілер,
сканерлейтін желілер. Индексті іздеу жүйелері іске асыруда өзінің көп түрлі
мағынасында қызығырақ. Олардың функцияларына желі түйіндерін автоматты
түрде сканерлеу (қарау), бұл желі түйіндері өздерінің клиенттер сұранысының
келесі қызмет ету мүмкіндігі бар ресурстарын индекстеумен (деректер қорын
құрумен) және классификациясымен (әртүрлі критерийлермен құрылымдалған
каталогтар құрумен) ілеседі. Индексті іздеу жүйесінің оңайлатылған сызбасы
3-суретте көрсетілген.
3-сурет. Индексті іздеу жүйесінің оңайлатылған сызбасы
Классикалық ақпараттық іздеу желілерінен (АІЖ) кілттік архитектуралық
айырмашылығы қолжетерлік WEB-ресурстар жайлы ақпарат жинаумен айналысатын
желілік роботтардың бар болуы болып табылады. Жиналған ақпарат құрамын
ізделініп жатқан құжаттар жиынтығы анықтайтын қоймаға сақталады.
Классикалық АІЖ-де сияқты, тиімді нәтижелілікке жету үшін іздеу бірден
қоймадағы документ бойынша емес, индексті құрылымда олар жайлы ақпарат
бойынша іске асырылады. Қолданушылардың сұраныстарын алу және орындау –
іздеу машинасы модулінің тапсырмасы.
Осылайша, жинақталған іздеу машиналарынң функционалды тізбегінің жалпы
түрі, келесідей:
Сканерлеу – индекстеу – классификациялау – қызмет ету.
2. Ресурстарды сканерлеудің ерекшеліктері
Жоғарыда айтылғандай, сканерлеумен, яғни, Internet-тің бар ресурстары
жайлы ақпаратты жинаумен желілік роботтар – интеллектуалды агенттер
айналысады, олар WEB-беттерге сілтемелердің (URL) қандай да бір жиынтығынан
бастап, Internet ресурстарын алынған құжаттардан жаңа ресурстарға сілтеме
ала отырып, тоқтаудың қандай да бір шарты орындалғанша рекурсивті түрде
аралап шығады.
Сканерлеу мәселесін зерттегенде бір қатар сұрақтар туындайды.
1. Қандай сілтемелерге кіру керек? Негізінен роботта әлі кірілмеген
ресурстар жиыны туралы ақпарат болады және олардың қайсысына келесі кіру
керек екендігін таңдай алады. Бұл таңдау робот қолданатын сканерлеу
стратегиясымен іске асады. Қолданылатын стратегия робот беттердің қандай
жиынтығына кіретінін және, нәтижесі ретнде, қандай беттер іздеу жүйелеріне
белгілі болатынын тікелей анықтайды.
Сканерлеу кезінде қоймада сақталған беттердің жаңарту мәселесі
біруақытта шешіледі. WEB-тегі өзгерістердің жоғары динамикасымен байланысты
көптеген кірілген беттер жайлы жиналған ақпарат олардың қазіргі шындық
мазмұнын көрсетуді тым тез қояды.
2. WEB-серверлерге жүктемені қалай минимумдауға болады? Робот
кішіпейіл ережелерін, серверді өзінің сұраныстарымен жіне сервер иесінің
келісімісіз ақпаратты сканерлемеумен сақтау керек. Бұндай еріктерді
өрнектеу үшін сервердің түбір каталогында орналасқан robots.txt файлы
қолданылады.
3. Сканерлеу процесін қалай параллельдеуге болады? Шектелген уақыт
ішінде көп беттерге кіру қажеттілігі масштабталған архитекураның бар болуын
талап етеді. Өнімділікті жоғарлату тәсілінің бір жолы әртүрлі машиналарда
бірнеше роботтарды параллель жіберу болып табылады, бірақ мұның өзінде
олардың іс-әрекеті координациясының жақсы масштабталған механизмі қажет
(мысалы, олар бір уақытта бір ғана сайтты сканерлемеу үшін).
Желілік роботты құру үшін техникалық тапсырмалар массасын да шешу
керек. Мысалы, берілген беттегі барлық сілтемелерді белгілеу ... жалғасы
Кіріспе ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ..
... ... ... ... ... ... ... ... ... ... ... ..3
1. Әртүрлі типтегі іздеу жүйесін функционалдаудың негізіне салынған
принциптер ... ... ... ... ... ... . ... ... ... ... ... ... ... ... ... ..
... ... ... ... ... ... ... ... ... ... ..4
2. Ресурстарды сканерлеудің
ерекшеліктері ... ... ... ... ... .. ... ... ... ... ... ... ...7
3. Метаіздеу
жүйелері ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ..
... ... ... ...10
Қорытынды ... ... ... ... ... ... .. ... ... ... ... ... ... ... ... ... ..
... ... ... ... ... ... ... ... ... ..12
Пайдаланылған әдебиеттер
тізімі ... ... ... ... ... ... ... . ... ... ... ... ... ... ... ... ... 13
Кіріспе
Интернеттің глобальды жүйесі 40-мыңнан аса әр түрлі локальды жүйелердің
қосындысын құрайды. Әрбір локальды жүйе түйін немесе сайт деп , ал сайттың
жұмысын қамтамасыз ететін заңды тұлға – провайдер. Сайт әдетте бірнеше
компьютер – серверден тұрады. Олардың әрқайсысы ақпараттың анықталған түрін
сақтауға арналған. Ақпаратты іздеу жүйесінің потенциалы (ИПС) (АІЖ) бүгінгі
күнде жақсы дамыған. Қарапайым ортада кілттік сөз арқылы құжаттың арасынан
ғана емес желілік адрес URL, серверлер атының арасынан, каталог және соңғы
ақпараттық файлдар арасынан іздеуге мүмкіндік алуға болады. Сонымен қатар,
URL өрісінде мұндағы латын әріптерін қолданатын, латын әріпімен сәйкес
келмейтін тілдердің лексикасы жиі қолданылады. Бұл құбылыс россияның
интернет секторы үшін толығымен сипатталған және масштабтың қатысуымен
іздеу есептерін шешуде өте жоғарғы роль атқаратын арнайы желі атауларымен
байланысқан.
Ғаламдық ауқымдағы анықтамалықтарды актуалдандыру және құрумен көптеген
жағдайларда ақпараттық компаниялар, ең алдымен, американдық компаниялар
айналысады. Анықтамалықтардың барлығы материалдарды әлемдік деңгейде
қамтитынын жариялады, дегенмен тәжірибеде негізгі тірек солтүстік америка
сайттарына жасалады. Ресурстардың ғаламдық анықтамалығына жүгіну аз да
болса ағылшын тілін меңгеруді талап етеді.
1. Әртүрлі типтегі іздеу жүйесін функционалдаудың негізіне салынған
принциптер
Тәжірибиесі жоқ қолданушы үшін World Wide Web алғаш көргенде түсіну
қиын болатын барлық мүмкін болатын құжаттардың шиеленіскен құрылымы болып
көрінеді. Бұл мәселені шешу үшін, желіде әртүрлі анықтағыштар, іздеу
жүйелері немесе машиналар, жаңалықтар конференциялар құрылған. Ғаламдық
желі әрбір сағат сайын дамиды, жаңа беттер мен серверлер пайда болады,
сондықтан іздеу жүйелерінде жиналған ақпарат ешқашан абсолютті түрде толық
жауап болмайды.
Internet-те іздеу жүйесінің үш түрін көрсетуге болады: каталогты,
индексті және метаіздеу. Олардың айырмашылығы деректер қоры құрылымында
және оларды толтыру тәсілімен қатар іздеу нәтижесін беруде де болады.
Бастапқыда Internet-те ақпаратты іздеу үшін Web-беттер тізімі
тақырыбымен реттелген каталогтар қолданылды; содан кейін ішінен сұраныс
бойынша қажетті ресурсқа сілтеме берілетін индексті деректер қоры қолданыла
бастады; кейіннен басқа да мамандандырылған іздеу машиналар жиынының
ресурстары қолданатын метаіздеу желілері пайда болды (1-сурет).
1-сурет. Іздеу жүйелерінің түрлері
Каталогты жүйелер. Каталогты жүйелердің ағаш типті, иерархиялық
құрылымы болады. Іздеу жүйесінің бастапқы бетінде ақпараттың негізгі
категорияларының тізімі бар, мысалы: медицина, автомобильдер, компьютерлер,
жұмыс, жылжымайтын мүлік және т.б. Егер қызықтыратын категорияны таңдасақ,
экранда ішкі категориялар тізімі шығады. Олардың ішінен іздеп жатқан
тақырыпқа жақынырағын таңдауға болады, және одан ары жақын жаңа тзім
аласың. Солайша, қажетті тақырыпқа байланысты бірнеше сайттар қалғанша кете
береді.
Сызба түрінде каталогты жүйенің құрылымы 2-суретте көрсетілген.
2-сурет. Каталогты жүйенің құрылмы
Каталогтар сол немесе басқа принциппен ұйымдастырылған сілтемелерді
жинау болып табылады. Каталогтар негізінен пәндік классификацияға сәйкес
ұйымдастырылған болады және құрамында Web-беттер жайлы мәліметтер болады.
Каталогтың бөлек әртүрлілігі келіп кету рейтинг-счетчиктер болып табылады.
Каталогтарды адамдар құрады – әрбір жаңа сайтты олардың индекске
қосылуына дейін қарайтын редакторлар, немесе бейнелеуді құратындар құрады.
Мұндай жүйелер нақтырақ болып келеді, ақпаратты жүйелендірудің ең жоғары
сапасын және, ереже бойынша, көлемі бойнша кішірек, бірақ индексті деректер
қорымен салыстырғанда күшті құрылымды қамтамасыз етеді. Бірақ адамдар
Internet кеңейтулері мен өзгерулерінің жылдамдықтарына үлгермеуі мүмкін.
Бұдан басқа, егер құжаттың тексерілу процесі ақпаратының өзектілігіне
автоматтандырылмаған болса, көбінесе каталогтарда ескірген адрестер
сақталады. Каталогты іздеу жүйелерінің типтік өкілі – америкалық Yahoo.com
жүйесі мен орыс тіліндегі List.ru жүйесі.
Индексті іздеу машиналары – бұл түгелімен автоматтандырылған желілер,
сканерлейтін желілер. Индексті іздеу жүйелері іске асыруда өзінің көп түрлі
мағынасында қызығырақ. Олардың функцияларына желі түйіндерін автоматты
түрде сканерлеу (қарау), бұл желі түйіндері өздерінің клиенттер сұранысының
келесі қызмет ету мүмкіндігі бар ресурстарын индекстеумен (деректер қорын
құрумен) және классификациясымен (әртүрлі критерийлермен құрылымдалған
каталогтар құрумен) ілеседі. Индексті іздеу жүйесінің оңайлатылған сызбасы
3-суретте көрсетілген.
3-сурет. Индексті іздеу жүйесінің оңайлатылған сызбасы
Классикалық ақпараттық іздеу желілерінен (АІЖ) кілттік архитектуралық
айырмашылығы қолжетерлік WEB-ресурстар жайлы ақпарат жинаумен айналысатын
желілік роботтардың бар болуы болып табылады. Жиналған ақпарат құрамын
ізделініп жатқан құжаттар жиынтығы анықтайтын қоймаға сақталады.
Классикалық АІЖ-де сияқты, тиімді нәтижелілікке жету үшін іздеу бірден
қоймадағы документ бойынша емес, индексті құрылымда олар жайлы ақпарат
бойынша іске асырылады. Қолданушылардың сұраныстарын алу және орындау –
іздеу машинасы модулінің тапсырмасы.
Осылайша, жинақталған іздеу машиналарынң функционалды тізбегінің жалпы
түрі, келесідей:
Сканерлеу – индекстеу – классификациялау – қызмет ету.
2. Ресурстарды сканерлеудің ерекшеліктері
Жоғарыда айтылғандай, сканерлеумен, яғни, Internet-тің бар ресурстары
жайлы ақпаратты жинаумен желілік роботтар – интеллектуалды агенттер
айналысады, олар WEB-беттерге сілтемелердің (URL) қандай да бір жиынтығынан
бастап, Internet ресурстарын алынған құжаттардан жаңа ресурстарға сілтеме
ала отырып, тоқтаудың қандай да бір шарты орындалғанша рекурсивті түрде
аралап шығады.
Сканерлеу мәселесін зерттегенде бір қатар сұрақтар туындайды.
1. Қандай сілтемелерге кіру керек? Негізінен роботта әлі кірілмеген
ресурстар жиыны туралы ақпарат болады және олардың қайсысына келесі кіру
керек екендігін таңдай алады. Бұл таңдау робот қолданатын сканерлеу
стратегиясымен іске асады. Қолданылатын стратегия робот беттердің қандай
жиынтығына кіретінін және, нәтижесі ретнде, қандай беттер іздеу жүйелеріне
белгілі болатынын тікелей анықтайды.
Сканерлеу кезінде қоймада сақталған беттердің жаңарту мәселесі
біруақытта шешіледі. WEB-тегі өзгерістердің жоғары динамикасымен байланысты
көптеген кірілген беттер жайлы жиналған ақпарат олардың қазіргі шындық
мазмұнын көрсетуді тым тез қояды.
2. WEB-серверлерге жүктемені қалай минимумдауға болады? Робот
кішіпейіл ережелерін, серверді өзінің сұраныстарымен жіне сервер иесінің
келісімісіз ақпаратты сканерлемеумен сақтау керек. Бұндай еріктерді
өрнектеу үшін сервердің түбір каталогында орналасқан robots.txt файлы
қолданылады.
3. Сканерлеу процесін қалай параллельдеуге болады? Шектелген уақыт
ішінде көп беттерге кіру қажеттілігі масштабталған архитекураның бар болуын
талап етеді. Өнімділікті жоғарлату тәсілінің бір жолы әртүрлі машиналарда
бірнеше роботтарды параллель жіберу болып табылады, бірақ мұның өзінде
олардың іс-әрекеті координациясының жақсы масштабталған механизмі қажет
(мысалы, олар бір уақытта бір ғана сайтты сканерлемеу үшін).
Желілік роботты құру үшін техникалық тапсырмалар массасын да шешу
керек. Мысалы, берілген беттегі барлық сілтемелерді белгілеу ... жалғасы
Ұқсас жұмыстар
Пәндер
- Іс жүргізу
- Автоматтандыру, Техника
- Алғашқы әскери дайындық
- Астрономия
- Ауыл шаруашылығы
- Банк ісі
- Бизнесті бағалау
- Биология
- Бухгалтерлік іс
- Валеология
- Ветеринария
- География
- Геология, Геофизика, Геодезия
- Дін
- Ет, сүт, шарап өнімдері
- Жалпы тарих
- Жер кадастрі, Жылжымайтын мүлік
- Журналистика
- Информатика
- Кеден ісі
- Маркетинг
- Математика, Геометрия
- Медицина
- Мемлекеттік басқару
- Менеджмент
- Мұнай, Газ
- Мұрағат ісі
- Мәдениеттану
- ОБЖ (Основы безопасности жизнедеятельности)
- Педагогика
- Полиграфия
- Психология
- Салық
- Саясаттану
- Сақтандыру
- Сертификаттау, стандарттау
- Социология, Демография
- Спорт
- Статистика
- Тілтану, Филология
- Тарихи тұлғалар
- Тау-кен ісі
- Транспорт
- Туризм
- Физика
- Философия
- Халықаралық қатынастар
- Химия
- Экология, Қоршаған ортаны қорғау
- Экономика
- Экономикалық география
- Электротехника
- Қазақстан тарихы
- Қаржы
- Құрылыс
- Құқық, Криминалистика
- Әдебиет
- Өнер, музыка
- Өнеркәсіп, Өндіріс
Қазақ тілінде жазылған рефераттар, курстық жұмыстар, дипломдық жұмыстар бойынша біздің қор #1 болып табылады.
Ақпарат
Қосымша
Email: info@stud.kz