Каталогты жүйелер


Жұмыс түрі:  Реферат
Тегін:  Антиплагиат
Көлемі: 10 бет
Таңдаулыға:   

Мазмұны

Кіріспе . . . 3

1. Әртүрлі типтегі іздеу жүйесін функционалдаудың негізіне салынған

принциптер . . . 4

2. Ресурстарды сканерлеудің ерекшеліктері . . . 7

3. Метаіздеу жүйелері . . . 10

Қорытынды . . . 12

Пайдаланылған әдебиеттер тізімі . . . 13


Кіріспе

Интернеттің глобальды жүйесі 40-мыңнан аса әр түрлі локальды жүйелердің қосындысын құрайды. Әрбір локальды жүйе түйін немесе сайт деп, ал сайттың жұмысын қамтамасыз ететін заңды тұлға - провайдер. Сайт әдетте бірнеше компьютер - серверден тұрады. Олардың әрқайсысы ақпараттың анықталған түрін сақтауға арналған. Ақпаратты іздеу жүйесінің потенциалы (ИПС) (АІЖ) бүгінгі күнде жақсы дамыған. Қарапайым ортада кілттік сөз арқылы құжаттың арасынан ғана емес желілік адрес URL, серверлер атының арасынан, каталог және соңғы ақпараттық файлдар арасынан іздеуге мүмкіндік алуға болады. Сонымен қатар, URL өрісінде мұндағы латын әріптерін қолданатын, латын әріпімен сәйкес келмейтін тілдердің лексикасы жиі қолданылады. Бұл құбылыс россияның интернет секторы үшін толығымен сипатталған және масштабтың қатысуымен іздеу есептерін шешуде өте жоғарғы роль атқаратын арнайы желі атауларымен байланысқан.

Ғаламдық ауқымдағы анықтамалықтарды актуалдандыру және құрумен көптеген жағдайларда ақпараттық компаниялар, ең алдымен, американдық компаниялар айналысады. Анықтамалықтардың барлығы материалдарды әлемдік деңгейде қамтитынын жариялады, дегенмен тәжірибеде негізгі тірек солтүстік америка сайттарына жасалады. Ресурстардың ғаламдық анықтамалығына жүгіну аз да болса ағылшын тілін меңгеруді талап етеді.


1. Әртүрлі типтегі іздеу жүйесін функционалдаудың негізіне салынған принциптер

Тәжірибиесі жоқ қолданушы үшін World Wide Web алғаш көргенде түсіну қиын болатын барлық мүмкін болатын құжаттардың шиеленіскен құрылымы болып көрінеді. Бұл мәселені шешу үшін, желіде әртүрлі анықтағыштар, іздеу жүйелері немесе машиналар, жаңалықтар конференциялар құрылған. Ғаламдық желі әрбір сағат сайын дамиды, жаңа беттер мен серверлер пайда болады, сондықтан іздеу жүйелерінде жиналған ақпарат ешқашан абсолютті түрде толық жауап болмайды.

Internet-те іздеу жүйесінің үш түрін көрсетуге болады: каталогты, индексті және метаіздеу. Олардың айырмашылығы деректер қоры құрылымында және оларды толтыру тәсілімен қатар іздеу нәтижесін беруде де болады.

Бастапқыда Internet-те ақпаратты іздеу үшін Web-беттер тізімі тақырыбымен реттелген каталогтар қолданылды; содан кейін ішінен сұраныс бойынша қажетті ресурсқа сілтеме берілетін индексті деректер қоры қолданыла бастады; кейіннен басқа да мамандандырылған іздеу машиналар жиынының ресурстары қолданатын метаіздеу желілері пайда болды (1-сурет) .

1-сурет. Іздеу жүйелерінің түрлері

Каталогты жүйелер. Каталогты жүйелердің ағаш типті, иерархиялық құрылымы болады. Іздеу жүйесінің бастапқы бетінде ақпараттың негізгі категорияларының тізімі бар, мысалы: медицина, автомобильдер, компьютерлер, жұмыс, жылжымайтын мүлік және т. б. Егер қызықтыратын категорияны таңдасақ, экранда ішкі категориялар тізімі шығады. Олардың ішінен іздеп жатқан тақырыпқа жақынырағын таңдауға болады, және одан ары жақын жаңа тзім аласың. Солайша, қажетті тақырыпқа байланысты бірнеше сайттар қалғанша кете береді.

Сызба түрінде каталогты жүйенің құрылымы 2-суретте көрсетілген.

2-сурет. Каталогты жүйенің құрылмы

Каталогтар сол немесе басқа принциппен ұйымдастырылған сілтемелерді жинау болып табылады. Каталогтар негізінен пәндік классификацияға сәйкес ұйымдастырылған болады және құрамында Web-беттер жайлы мәліметтер болады. Каталогтың бөлек әртүрлілігі келіп кету рейтинг-счетчиктер болып табылады.

Каталогтарды адамдар құрады - әрбір жаңа сайтты олардың индекске қосылуына дейін қарайтын редакторлар, немесе бейнелеуді құратындар құрады. Мұндай жүйелер нақтырақ болып келеді, ақпаратты жүйелендірудің ең жоғары сапасын және, ереже бойынша, көлемі бойнша кішірек, бірақ индексті деректер қорымен салыстырғанда күшті құрылымды қамтамасыз етеді. Бірақ адамдар Internet кеңейтулері мен өзгерулерінің жылдамдықтарына үлгермеуі мүмкін. Бұдан басқа, егер құжаттың тексерілу процесі ақпаратының өзектілігіне автоматтандырылмаған болса, көбінесе каталогтарда ескірген адрестер сақталады. Каталогты іздеу жүйелерінің типтік өкілі - америкалық Yahoo. com жүйесі мен орыс тіліндегі List. ru жүйесі.

Индексті іздеу машиналары - бұл түгелімен автоматтандырылған желілер, сканерлейтін желілер. Индексті іздеу жүйелері іске асыруда өзінің көп түрлі мағынасында қызығырақ. Олардың функцияларына желі түйіндерін автоматты түрде сканерлеу (қарау), бұл желі түйіндері өздерінің клиенттер сұранысының келесі қызмет ету мүмкіндігі бар ресурстарын индекстеумен (деректер қорын құрумен) және классификациясымен (әртүрлі критерийлермен құрылымдалған каталогтар құрумен) ілеседі. Индексті іздеу жүйесінің оңайлатылған сызбасы 3-суретте көрсетілген.

3-сурет. Индексті іздеу жүйесінің оңайлатылған сызбасы

Классикалық ақпараттық іздеу желілерінен (АІЖ) кілттік архитектуралық айырмашылығы қолжетерлік WEB-ресурстар жайлы ақпарат жинаумен айналысатын желілік роботтардың бар болуы болып табылады. Жиналған ақпарат құрамын ізделініп жатқан құжаттар жиынтығы анықтайтын қоймаға сақталады.

Классикалық АІЖ-де сияқты, тиімді нәтижелілікке жету үшін іздеу бірден қоймадағы документ бойынша емес, индексті құрылымда олар жайлы ақпарат бойынша іске асырылады. Қолданушылардың сұраныстарын алу және орындау - «іздеу машинасы» модулінің тапсырмасы.

Осылайша, жинақталған іздеу машиналарынң функционалды тізбегінің жалпы түрі, келесідей:

Сканерлеу - индекстеу - классификациялау - қызмет ету.

2. Ресурстарды сканерлеудің ерекшеліктері

Жоғарыда айтылғандай, сканерлеумен, яғни, Internet-тің бар ресурстары жайлы ақпаратты жинаумен желілік роботтар - интеллектуалды агенттер айналысады, олар WEB-беттерге сілтемелердің (URL) қандай да бір жиынтығынан бастап, Internet ресурстарын алынған құжаттардан жаңа ресурстарға сілтеме ала отырып, тоқтаудың қандай да бір шарты орындалғанша рекурсивті түрде аралап шығады.

Сканерлеу мәселесін зерттегенде бір қатар сұрақтар туындайды.

1. Қандай сілтемелерге кіру керек? Негізінен роботта әлі кірілмеген ресурстар жиыны туралы ақпарат болады және олардың қайсысына келесі кіру керек екендігін таңдай алады. Бұл таңдау робот қолданатын сканерлеу стратегиясымен іске асады. Қолданылатын стратегия робот беттердің қандай жиынтығына кіретінін және, нәтижесі ретнде, қандай беттер іздеу жүйелеріне белгілі болатынын тікелей анықтайды.

Сканерлеу кезінде қоймада сақталған беттердің жаңарту мәселесі біруақытта шешіледі. WEB-тегі өзгерістердің жоғары динамикасымен байланысты көптеген кірілген беттер жайлы жиналған ақпарат олардың қазіргі шындық мазмұнын көрсетуді тым тез қояды.

2. WEB-серверлерге жүктемені қалай минимумдауға болады? Робот «кішіпейіл» ережелерін, серверді өзінің сұраныстарымен жіне сервер иесінің келісімісіз ақпаратты сканерлемеумен сақтау керек. Бұндай еріктерді өрнектеу үшін сервердің түбір каталогында орналасқан robots. txt файлы қолданылады.

3. Сканерлеу процесін қалай параллельдеуге болады? Шектелген уақыт ішінде көп беттерге кіру қажеттілігі масштабталған архитекураның бар болуын талап етеді. Өнімділікті жоғарлату тәсілінің бір жолы әртүрлі машиналарда бірнеше роботтарды параллель жіберу болып табылады, бірақ мұның өзінде олардың іс-әрекеті координациясының жақсы масштабталған механизмі қажет (мысалы, олар бір уақытта бір ғана сайтты сканерлемеу үшін) .

Желілік роботты құру үшін техникалық тапсырмалар массасын да шешу керек. Мысалы, берілген беттегі барлық сілтемелерді белгілеу әрқашан дұрыс болмайды, өйткені көбінесе сілтемелер анық емес көрсетілді (динамикалық түрде скриптердің көмегімен құрылады) . Сканерлейтін программалардың жұмысы автоматты режимде болады және желінің түйінін берілген алгоритм негізінде тізбектей өтуден тұрады. Бұдан басқа, өздерінің серверлерін берілген іздеу машинасының индекстік базасына қосуға ұмтылатын компаниялардың қызығы ескеріледі.

Іздеу жүйесінің жұмыс істеу алгоритмі тікелей іздеу программаларымен қолданылатын индексация тәсіліне тәуелді болады. Орындалатын функцияларға тәуелді мамандармен келесі іздеу программаларының классификациясы қабылданған:

Агенттер - іздеу құрылғыларының ең «интеллектуалдары». Агенттер ақпараттың әр түрлерін шығарады және индекстейтді. Кейбіреулеру, мысалы, кездесетін құжаттағы әрбір кездесетін сөзді индекстейді, бұл уақытта басқалары әрқайсында ең маңызды 100 сөзді ғана индекстейді, құжаттың өлшемін және ондағы сөздер санын, атын, тақырыбын және ішкі тақырыбын және т. с. с. индекстейді. Салынған индекстің түрі қандай іздеу іздеу механизмі арқылы істелгенін және алынған ақпарат қалай түсіндірілетінін анықтайды. Сол сияқты агенттер сілтемелер бойынша орын ауыстыру арқылы ақпарат таба алады, содан кейін оны іздеу механизмінің деректер қорына салады. Іздеу жүйесінің администраторлары агенттердің қандай сайттар немесе сайт типтеріне кіре алатынын және индекстей алатынын анықтай алады.

Өрмекшілер (спайдерлер) ақпараттың жалпы іздеуін іске асырады. Өрмекшілер табылған құжаттың құрамын хабарлайды, оны индексейді және қорытынды ақпаратты шығарады. Сонымен қатар олар тақырыптарды, кейбір сілтемелерді қарайды және индекстелген ақпаратты іздеу механизмінің ақпараттық қорына жібереді.

Кроулерлер тақырыптарды қарастырады және тек бірінші сілтемені қайтарады.

Роботтар салынудың әртүрлі тереңдігіндегі әртүрлі сілтемелер бойынша жүруге арналып, индексация орындауға және де құжаттағы сілтемелерді тексеруге арналып программалануы мүмкін. Өздерінің табиғатынан олар циклдарда тіреліп қалуы мүмкін, сондықтан сілтемемен өту арқылы олар желінің мағыналы ресурстарын қолданады.

Сканерлеу стратегиясы. Желілік робот қолданатын сканерлеу стратегиясы оның кірген беттерінің жиынын анықтайды. Мысалы, белгілінің жиынынан келесі сілтемеін таңдаудың мүмкін стратегиялары. Стратегияны таңдаған кезде ресурстың пайдасы есептеледі. Егер шешілетін сканерлеу тапсырмасында ресурстар әртүрлі мағынада болмаса, онда максималды нәтижелілікке жету үшін роботқа сканерлеу стратегиясын қолдану қажет.

WEB-ті сканерлеу процесі уақыт бойынша созылған, және сканерлеуді біту уақытына таман жиналған ақпараттың бөлігі ескіреді. Желілк роботтар негізінен «үстіңгі» WEB-ті ғана сканерлейді және іздеу формаларында тығылған немесе алдын-ала тіркеуді талап ететін ақпаратты сканерлей алмайды. Көптеген желілік роботтар желілік ресурстарды сканерлеуді олар жұмыс істейтін серверге олардың құрамын жазып алу есебінен жүргізеді.

Фокусталған сканерлеу. Фокусталған сканерлеу кірген ресурстардың жалпы «пайдасын» жоғарлату үшін қолданылады. Ресурстың «пайдасы» роботқа қойылған мақсат бойынша анықталады. Бұл мақсаттар:

WEB-серверлерді «қамтуды» жоғарлату. Бұл жағдайда ресурстардың «пайдасын» бағалау сапасы ретінде URL тереңдігін (аралық каталогтар саны) қолдануға болады. Тереңдік неғұрлым үлкен болса, роботтың танымал ресурстың тереңдігіне тез кіруінің ықтималдығы үлкен болады. Мұндай келулер Internet-түйіндердің үлкен санында бастапқы және оған жақын беттерге тез кіруге рұқсат етеді.

Авторитетті ресурстарды анықтау. Ресурстардың авторитеттілігіне баға беру үшін әртүрлі критерийлер қолданылуы мүмкін. Мысалы, берілген тақырыптағы документтерді іздеу.

Жаңарту стратегиясы. Жаңарту стратегиясының тапсырмасы беттерді қайталау сканерлеу үшін ресурстың «жаңалығын» жаңарту мақсатымен таңдау.

3. Метаіздеу жүйелері

Метаіздеу жүйелерінің өзінің ақпараттық деректер қоры болмайды және іздеу кезінде іздеу жүйелерінің ақпараттықпен қатар есептеу ресурстар жиынын да қолданады. Мұндай келудің ерекшелігі көрініп тұр - үлкен деректер қорын жинау мен өңдеу қажет емес, қиын іздеу алгоритмдерін өңдеу талап етілмейді - мұның бәрін үлкен іздеу жүйелері істейді. Тек жеткілікті қарапайым программаны жазу талап етіледі, бұл программалар енгізетін мәліметтерді бірнеше әйгілі іздеу жүйелеріне жібереді және оларға жауапты өңдейді. Осының есебінен мұндай желідегі іздеу толықтығы максималды және қажетті ақпаратты табу ықтималдығы өте жоғары болады.

... жалғасы

Сіз бұл жұмысты біздің қосымшамыз арқылы толығымен тегін көре аласыз.
Ұқсас жұмыстар
Каталогтың ішіндегі файлдың жазылуы
Клетканың бөлінуі. Митоз және меиоз
ОПЕРАЦИОНДЫҚ ЖҮЙЕ ЖӘНЕ ПРОГРАММАЛАУ ЖҮЙЕСІ. MS DOS. NC, FAR MANADGER ҚАУАШЫҚ ПРОГРАММАСЫ
Операциялық жүйелер пәнінен дәрістер
Ms dos операциялық жүйесi. Графикалық редактор
АЖО валюта айырбастау пункті
Әр түрлі операциялық жүйелерде шифрлеудің программалық құралдары
Linux операциялық жүйесінің тарихы
Ms dos және norton commander
Windows операциялық жүйесінің түсінігі мен қызметі
Пәндер



Реферат Курстық жұмыс Диплом Материал Диссертация Практика Презентация Сабақ жоспары Мақал-мәтелдер 1‑10 бет 11‑20 бет 21‑30 бет 31‑60 бет 61+ бет Негізгі Бет саны Қосымша Іздеу Ештеңе табылмады :( Соңғы қаралған жұмыстар Қаралған жұмыстар табылмады Тапсырыс Антиплагиат Қаралған жұмыстар kz