Басқа сайттардан ақпаратты жинау және жылдам көшіру



Жұмыс түрі:  Дипломдық жұмыс
Тегін:  Антиплагиат
Көлемі: 39 бет
Таңдаулыға:   
МАЗМҰНЫ

Кіріспе 7
1 Қазіргі таңдағы парсинг жүйесі 9
1.1 Парсердің пайдасы мен зияны 10
1.2 Парсердің қолданыс аясы 11
1.3 Парсер заң жүзінде 12
2 Бағдарламалау кезеңдері 21
2.1 HTTP және HTTPS протаколдары 21
2.2 Сұраныстар және оның түрлері 25
2.2.1 Get методы 26
2.2.2 Post методы 26
2.2.3 PUT, DELETE және т.б. методтар 29
2.3 Бағдарламалау кезіндегі келеңсіздіктер 30
3 Бағдарламалау ортасы 34
3.1 Python бағдарламалау тілі 35
3.2 Бағдарламаны жасақтау және іс жүзінде пайдалану 37
3.3 Бағдарламаны басқа салаларда қолдану 39
Қорытынды 41
Пайдаланылған әдебиеттер тізімі 43

Кіріспе

2020 жылғы мәләметке қарағанда дүние жүзінде 191,4 миллион веб сайт тіркелген екен. Осы мәліметке барлық дерлік жеке, шағын және ірі бизнестер де өздерінің сайттары бар деуге болады. Осыған байланысты web scraping яғни сайттарға парсинг жасау жақсы дамып келе жатыр. Сонымен қоса автоматтандырылған клиенттік деректер базасын құру да кеңінен қолданылуда.
Маңыздылығы:
Осы диаломдық жоба арқылы риэлторлық қызметтегі клиенттер базасын құруда, сатылымдарды көбейтуде және әр жаңа хабарламаларды бақылауда қосар үлесі зор деуге болады.
Web scraping [1] құралдары веб-сайттардан кез-келген жалпы ақпаратты алуға, жинауға арналған. Бұл ресурстар Интернеттен кез-келген деректерді құрылымдық түрде тез қабылдау және сақтау қажет болған кезде қажет. Веб-сайттарды парсинг жасау - бұл қайта енгізуді немесе көшіруді қажет етпейтін мәліметтерді енгізудің жаңа әдісі.
Бағдарламалық жасақтаманың бұл түрі пайдаланушының бақылауымен немесе автоматты түрде жаңа немесе жаңартылған деректерді таңдап, пайдаланушы оған жылдам қол жетімді етіп сақтау арқылы іздейді. Мысалы, талдауды қолдану арқылы сіз Amazon веб-сайтында өнімдер мен олардың бағалары туралы ақпарат жинай аласыз. Парсинг құралдары әр түрлі мақсаттарда және әртүрлі сценарийлерде қолданыла алады (Сурет 1).

Сурет 1 Парсерлердің жұмыс жасау схемасы.

Мақсаты:
Дипломдық жобаның мақсаты хабарландырулар сайтындағы сатылымдағы үйлер және оның иелері жайлы ақпаратты жинақтап клиенттік базаны құру және белгілі бір риэлтордың қызыметін ұсыну.
Өзектілігі:
Нарықты зерттеу үшін мәліметтер жинау
Интернеттегі экстракция қызметтері нарықты зерттеу үшін қуатты негіз құра отырып, компанияның немесе саланың алдағы алты айда қайда бара жатқанын бақылауға көмектеседі. Бағдарламалық жасақтаманы талдау әртүрлі аналитикалық провайдерлерден және нарықты зерттейтін фирмалардан деректерді алуға, содан кейін сол ақпаратты анықтама және талдау үшін бір жерге жинауға қабілетті.
Байланыс ақпаратын алу
Парсинг құралдары пошта мекен-жайлары, әртүрлі сайттар мен әлеуметтік желілердегі байланыс ақпараттары сияқты мәліметтерді жинау және жүйелеу үшін қолданыла алады. Бұл сізге ыңғайлы байланыс тізімдерін және бизнеске қатысты барлық ақпаратты - тұтынушылар, жеткізушілер немесе өндірушілер туралы мәліметтерді жасауға мүмкіндік береді.
Жұмыс немесе қызметкерлерді іздеу
Өз компаниясында жұмыс істеуге үміткерлерді белсенді түрде іздейтін жұмыс беруші үшін немесе белгілі бір лауазымды іздейтін жұмыс іздеуші үшін талдау құралдары да таптырмас болып қалады: оларды әр түрлі тіркелген сүзгілер негізінде мәліметтерді таңдауды реттеу үшін пайдалануға болады күнделікті қолмен іздеусіз ақпарат алу.
Әр түрлі дүкендердегі бағаларды қадағалау
Мұндай қызметтер онлайн-дүкен қызметтерін белсенді пайдаланатындар, азық-түлік бағаларын қадағалап, бірден бірнеше дүкеннен заттар іздейтіндерге де пайдалы болады.
Веб-сайттарды парсинг жасау көптеген бизнесті автоматтандыруға пайдасын тигізері анық. Риэлторлық салада да пайдалансақ болады. Krisha.kz веб-сайтындағы үйлердің және үй иелерінің контакттарын парсинг арқылы жинап оларға риэлторлық қызыметті ұсына аламыз. Осы арқылы біз риэлторлық қызметте клиент жинақтауды және де сатылып жатқан үйлердің базасын жинақтауды автоматтандырдық.
Саралау API сияқты емес. Мысалы, компания басқа жүйелердің оның деректерімен өзара әрекеттесуіне мүмкіндік беру үшін API қол жетімділігін аша алады; сонымен бірге, API арқылы қол жетімді деректердің сапасы мен саны, әдетте, талдаумен алынғаннан төмен. Сонымен қатар, талдау API-ге қарағанда ең жаңа ақпаратты ұсынады және құрылымдық тұрғыдан конфигурациялауға әлдеқайда жеңіл. Ақпараттың талдауы ауқымы өте көп. Спорт журналисті мақала үшін бейсбол статистикасын зерттеу үшін талдауды қолдана алады. Немесе, мысалы, электрондық коммерцияда тауарларды және олардың бағаларын одан әрі талдау үшін әр түрлі көздерден алуға болады.
1 Қазіргі таңдағы парсинг жүйесі

Веб-скрапинг -бұл интернеттегі сайттардан деректерді тез және тиімді алу үшін жиі қолданылатын бағдарламалық жасақтама. Талдау сайттары деректерді шығарудың көптеген тегін құралдарын ұсынады. Қандай веб-скрепер деректерді іздеуді жүзеге асырмаса да, жалғыз қолданылатын әдіс-бұл адамға желіге автоматты түрде қол жеткізуге мүмкіндік беретін Гипермәтінді беру протоколы.
Сонымен қатар, көптеген веб-парақтардың талдаушылары бизнеске жергілікті компьютерлік жүйеде белгілі бір веб-сайттан деректерді автоматты түрде алуға және сақтауға көмектеседі. Өтіп бара жатқанда, прокси деректерді тезірек ашады, өйткені ол сайтты жасырын түрде жояды. Барлық басқа әдістер сияқты, веб-парақтарды талдаудың да артықшылықтары мен кемшіліктері бар. Оларға кезекпен қарайық.
Сайттарды талдау-бұл қазіргі уақытта жиі қолданылатын құрал. Бұл орынды және көптеген нарық қатысушылары үшін пайдалы болуы мүмкін. Elbuz сайтында сайт талдаушысын әркім жүктей алады. Алгоритм өте қарапайым және түсінікті, сондықтан тапсырмаға батыл кірісіңіз. Портал elbuz.com бұл мәліметтерді түсінуге көмектеседі.
Сайттарды талдау дегеніміз не?
Сонымен, Тұжырымдаманың мәнін ашайық. Сайттарды талдау әдетте желіде мүмкіндігінше пайдалы және өзекті деректерді жинау үшін ақпаратты автоматты түрде өңдеудің заманауи және прогрессивті әдісі деп аталады. Парсеры арнайы бағдарлама берілген функционалы. Олар құрылымданбаған ақпаратты жинауға және талдауға бағытталған. Талдау оны біріктіреді, түрлендіреді, содан кейін оқуға ыңғайлы форматта беріледі.
Парсер - бөтен сайттан деректерді шығарудың автоматтандырылған процесі. Бірақ бұл шынымен де деректерді жинауға арналған ең пайдалы АТ құралдарының бірі ме, әлде заңмен сөзсіз проблемалар туғызатын тұзақ па? Парсер бүкіл интернеттегі мазмұнды шығарудың ең күрделі әдістерінің бірі болуы мүмкін, бірақ ол ескертумен келеді: бұл құралды заңды түрде түсіну өте қиын.
Саралау API сияқты емес. Мысалы, компания басқа жүйелердің оның деректерімен өзара әрекеттесуіне мүмкіндік беру үшін API қол жетімділігін аша алады; сонымен бірге, API арқылы қол жетімді деректердің сапасы мен саны, әдетте, талдау арқылы алуға болатыннан төмен болады. Сонымен қатар, талдау API-ге қарағанда ең жаңа ақпаратты ұсынады және құрылымдық тұрғыдан конфигурациялауға әлдеқайда жеңіл.
Ақпаратты талдау бағыттары өте көп. Спорт журналисті мақала үшін бейсбол статистикасын зерттеу үшін талдауды қолдана алады. Немесе, мысалы, электрондық коммерцияда тауарларды және олардың бағаларын одан әрі талдау үшін әр түрлі көздерден алуға болады. Бірақ талдау, сөзсіз, күшті құрал болғанымен, құқықтық мәселелерге келгенде қиындықтар туындауы мүмкін. Саралау процесі осы құралды қолданушыларға әр түрлі көздерден бұрыннан бар мазмұнды тағайындайтындықтан, этикалық және құқықтық қиындықтар туындайды.

1.1 Парсердің пайдасы мен зияны

Веб-парақтарды талдаудың артықшылықтары
Бұл әдісті әртүрлі қауымдастықтар мен салалар арасында танымал еткен кейбір негізгі, бірақ маңызды артықшылықтар::
Автоматтандыру
Деректерді скраптау құралдарының бірінші және басты артықшылығы-олардың көмегімен әртүрлі веб-сайттардан деректерді шығару бірнеше рет басу ісіне айналды. Бұл әдісті қолданар алдында деректер әлі де алынып тасталды, бірақ бұл ұзақ және ұзақ процесс болды. Бұл көмектесті шығарып деректер аз уақытта мәліметтердің үлкен көлемін болуы мүмкін шығарылды және өңделді қысқа мерзімде.
1. Деректерді басқару дәлдігі
Веб-парақтардың парсингі енгізілгеннен кейін деректерді алу дәлдігі де артты. Бәрімізге белгілі, адамның қателігі тапсырманы қолмен орындау кезінде әрқашан фактор болып табылады, бұл кейінгі кезеңдерде үлкен проблемаларға әкеледі. Дәлдік, әсіресе сату мен шығындар туралы айтатын қаржы салаларында маңызды рөл атқарады және мұнда бұл әдіс пайдалы болады. Осылайша, интернеттегі сканерлеу тек автоматтандыруға және ыңғайлы ғана емес, сонымен қатар деректерді дәл талдауға мүмкіндік береді.
2. Үнемді
Деректерді қолмен алу-бұл қымбат міндет, өйткені ол айтарлықтай жұмыс күші мен үлкен бюджетті қажет етеді. Алайда, көптеген басқа әрекеттер сияқты, веб-парақтарды талдау да бұл мәселені шешті. Деректерді іздеу бұрынғыға қарағанда арзанырақ болды, өйткені Интернет үнемі жұмыс істеуі үшін оны негізгі веб-сайттардан жинап, талдау керек.
3. Енгізудің қарапайымдылығы
Веб-парақтарды қырып тастау механизмін дұрыс орналастырумен бір реттік инвестицияны қажет етеді және бүкіл доменнен емес, үлкен көлемде деректерді алуға мүмкіндік береді.
4. Деректерді басқару
Веб-талдау адамға жергілікті компьютерге деректерді электрондық кестелерде немесе дерекқорларда жүктеуге және басқаруға мүмкіндік береді, бұл теңшелген HTML веб-сайттарында мүмкін емес. Сонымен қатар, бұл әдіс көшіру және қою идеясын жойды, өйткені ол көптеген басқа шығармашылық істерде қолдануға болатын көп уақытты алады.
5. Төмен техникалық қызмет көрсету және жылдамдық
Веб-скрепинг-бұл үнемді әдіс, өйткені ол әлдеқайда аз техникалық қызмет көрсетуді қажет етеді немесе оны ұзақ уақыт қажет етпейді, бұл техникалық қызмет көрсету шығындарын азайтады. Сонымен қатар, ол бірнеше күн немесе апта ішінде қолмен жасалған бірнеше сағат ішінде деректерді тазартуға көмектеседі.
Веб-талдаудың кемшіліктері
Веб-парақтарды талдаудың кейбір кемшіліктері;
1. Талдаудың күрделілігі
Веб-парақтарды талдау сарапшылар мен бағдарламашылар үшін бата болғанымен, бағдарламалауды жақсы білмейтін адамдар оны талдауда және орындауда қиындықтарға тап болуы мүмкін. Алайда, бұл күрделі мәселе емес және оны кішкене ми шабуылымен шешуге болады.
2. Деректерді талдау
Деректер веб-сайттан жиналған кезде, оны өңдеу үшін дұрыс оқып, түсіну керек, бұл көп уақыт пен күш жұмсауы мүмкін.
3. Деректерді талдау
Үлкен веб-сайттарды қарап шығу бір IP-ден жіберілген көптеген сұраныстарды қажет етеді, ал кейде веб-сайттарда IP-ге тыйым салу саясаты болады. Бұл негізгі мәселелердің бірі, бірақ оны прокси-скреперлер шешеді.

1.2 Парсердің қолданыс аясы

Ендеше егжей-тегжейлі нақты талқылап көрейік. Айталық, интернет-дүкен жеке тауар карталарын қамтиды. Егер сіз оларды қолмен толтырсаңыз, онда процесс көп уақытты алуы мүмкін. Ассортимент әсерлі болған кезде сізге көп күш салу керек болады. Мұны қолмен жасау қисынсыз және ұзақ.
Талдау бағдарламалары процесті барынша оңтайландырады. Олардың көмегімен сіз қалаған нәрсеге "бірнеше рет басу"арқылы қол жеткізе аласыз. Бұл өте ыңғайлы. Алгоритм әсіресе мыңдаған өнім атаулары шоғырланған ресми сайтпен жеке брендтің өнімдерін сататын интернет-дүкендерге жарамды.
Талдау бағдарламасын пайдалану өте ыңғайлы. Ол мүмкіндік береді:
Басқа сайттардан ақпаратты жинау және жылдам көшіру;
Деректерді көшіру және ақпараттың өзектілігін үнемі сақтау;
Ақпараттың үлкен массивтерін жинап, өңдеңіз, содан кейін жеке ресурста орналастырыңыз.
Талдау-бұл деректерді импорттаушының бір түрі. Ақпаратты тек интернет-дүкенге ғана емес, бірлескен сатып алу сайттарына, сондай-ақ әлеуметтік желілердегі топтарға да көшіруге болады. Ең бастысы-дұрыс құрал мен алгоритмді таңдау.
Талдау арқылы өнім туралы әртүрлі ақпаратты жүктеуге болады. Бұл тек тақырып қана емес, сонымен қатар сипаттама, бейне мазмұны, сурет, баға саясаты, негізгі сипаттамалары және басқалары болуы мүмкін.
Талдау алгоритмі өте қарапайым және түсінікті. Тіпті жаңадан келген пайдаланушылар да тапсырманы оңай жеңе алады. Қорытындылай келе, үш негізгі кезеңді бөлуге болады. Олардың тізімі келесідей:
Іздеу жұмыстары. Мәліметтер бастапқы түрінде қарастырылады;
Деректерді шығару. Бұл бағдарламалық кодтан бөлінуімен бірге жүреді;
Берілген іздеу критерийлеріне негізделген есептілікті қалыптастыру. Олардың тізімі өте кең. Сүзгілер дәлірек және дұрыс нәтижеге қол жеткізуге көмектеседі.
Талдаушы бәрін өздігінен жасайды. Бұл жағдай ұнайды көптеген. Талдау-бұл көп уақытты қажет ететін және монотонды жұмыс. Мұндай автоматикаға сену әлдеқайда оңай. Бұл ресурсты ұзақ мерзімді перспективада сәтті ету міндеті тұрған кезде ең жақсы таңдау.
Веб-скрапинг деректерді жинауға негізделген әртүрлі сандық компанияларда қолданылады. Заңды пайдалану жағдайлары мыналарды қамтиды:
Іздеу жүйесінің боттары сайтты сканерлейді, оның мазмұнын талдайды, содан кейін оны орналастырады.
Бағаны автоматты түрде алу үшін боттарды орналастыратын бағаларды салыстыру сайттары және байланысты сатушылар сайттары үшін Өнім сипаттамалары.
Маркетингтік зерттеулер компаниялары форумдардан және әлеуметтік желілерден деректерді алу үшін талдаушыларды пайдаланады (мысалы, көңіл-күйді талдау үшін).
Веб-скрапинг заңсыз мақсаттарда, соның ішінде бағаны төмендету және авторлық құқықпен қорғалған мазмұнды ұрлау үшін де қолданылады. Скреперге бағытталған Интернет-объект үлкен қаржылық шығындарға әкелуі мүмкін, әсіресе егер оның бизнесі бәсекеге қабілетті баға модельдеріне немесе мазмұнды тарату мәмілелеріне қатты сүйенсе.

1.3 Парсер заң жүзінде

Соңғы бірнеше жылда парсингтің беделі қатты төмендеді және бұның бірнеше себебі бар:
Бәсекелестік артықшылыққа ие болу үшін оны бизнес мүддесі үшін көбірек қолданады. Сондықтан көбінесе оның артында қаржылық мотивация болады.
Көбінесе талдау авторлық құқықты және сайттағы қызмет көрсету шарттарын (пайдалану ережелері) мүлдем елемей қолданылады. Дегенмен, кім қалай оқиды? :)
Талдау көбінесе әділетсіз қолданылады, оны теріс пайдаланады. Мысалы, талдаушылар адамға қарағанда секундына көбірек сұраныс жібере алады және бұл сайттарға күтпеген жүктеме әкеледі. Тағы бір талдаушылар анонимді болып қалуы мүмкін және өздерін анықтай алмайды. Ақыр соңында, олар тыйым салынған әрекеттерді орындай алады: деректерді автоматты жүктеуден қорғайтын және оларды кез-келген жағдайда қол жетімді етпейтін қауіпсіздік шараларын айналып өту.
Қазір көптеген адамдар мен компаниялар өздерінің талдаушыларын қолданады. Олардың саны өте көп, бұл веб-сайттары Таласатын компаниялардың бас ауруына айналды. Мысалы, әлеуметтік желілер (мысалы, Facebook, LinkedIn және т.б.) және онлайн-дүкендер (Amazon түрі) зардап шегеді. Мүмкін, Facebook-те деректерді автоматты түрде жинаудың жеке ережелері бар шығар.
Екінші жағынан, бұл тарихи факт: веб-сайтты жүктеу және каталогтау үшін краулингті танымал іздеу машиналары (мысалы, Google, Bing және т.б.) қолданды. Осы жылдар ішінде бұл компаниялар оң беделге ие болды, өйткені олар ұрлаған веб-сайттарды құнды ететін қажетті құралдарды жасады. Мәселен, шын мәнінде, краулинг әлдеқайда қолайлы жарықта көрінеді, бірақ кейде оларды теріс пайдалануға болады.
Талдау және парсерлеу заңсыз емес. Ақыр соңында, сіз өзіңіздің веб-сайтыңызды талдауға немесе парсерлеуге болады, сізге ешкім Жарлық бермейді. Мәселе сіз біреудің веб-сайтын жазбаша рұқсатсыз немесе қызмет көрсету шарттарына қайшы келтіргенде пайда болуы мүмкін (пайдалану ережелері, әдетте, олар сайттың төменгі жағында сілтеме жасайды, бірақ оларды кім оқиды :). Шынында, сіз қоюға өзін аздап қауқарсыз ұстанымын.
Тек бұл туралы ойланыңыз. Сіз біреудің өткізу қабілетін пайдаланасыз, басқа біреудің деректерін еркін аласыз және пайдаланасыз. Деректер иесі оны ұнатпайды деп шешім қабылдау қисынды болар еді, өйткені сіз жасаған нәрсе оған қандай да бір жолмен зиян тигізуі мүмкін. Сонымен, көптеген факторларға (және иесінің көңіл-күйіне) байланысты, ол сізді сот ісін жүргізуге толық құқылы.
Мен қазір не ойлағаныңызды білемін. "Ой иә жарайды! Бұл күлкілі! Иесі мені қандай мақаламен сотқа береді?. Әрине, ол сізді елемеуі мүмкін. Немесе сізді бұғаттау үшін техникалық мүмкіндіктеріңізді пайдаланыңыз. Немесе сізге тыйым салынған хат жіберіңіз. Бірақ техникалық тұрғыдан ештеңе иесінің сізді сотқа беруіне кедергі бола алмайды.
Қандай дәлелдер? LinkedIn-дің белгісіз сотталушыларға қарсы ісі: LinkedIn сайтты жасырын түрде бұзған шамамен 1-100 адамды сотқа берді. Ол осы адамдардың барлығын не үшін сотқа берді?
Көрейік:
Компьютерлік алаяқтық және теріс пайдалану туралы заңды бұзу.
Калифорния Қылмыстық кодексін бұзу.
Сандық дәуірдегі авторлық құқық туралы заңның бұзылуы.
Шартты бұзу.
Бөтен аумаққа басып кіру.
Ұрлық.
Бұл сот процесі нақты алаңдаушылық тудырады, өйткені бұл "анонимді" адамдармен не болатыны белгісіз. Есіңізде болсын: егер олар сізге сотқа жүгінсе, сіз жай ғана шағымды қабылдамай тастай алмайсыз (мен Ресейде шетелдік сайттарды тексеріп, Калифорниядағы сотқа жүгінсек не болатынын түсінбеймін). Сіз заңсыз ештеңе жасамағаныңызды дәлелдеу үшін сотта өзіңізді қорғауыңыз керек. Бұл адал ма, жоқ па, маңызды емес, сіз шынымен заңсыз нәрсе жасадыңыз ба, жоқ па.
Тағы бір мәселе-бұл құқық, ең алдымен, сіз ерекше нәрсе. Себебі сіз логиканы, ақыл-ойды және техникалық сараптаманы қолдансаңыз да, олар сіздің жаман нәрсені жасағаныңызды дәлелдеу үшін заңды тіл мен заңның сұр аймағын қолданады. Бұл, әрине, жағымды жағдай емес. Сондықтан сізге адвокат қажет болады, бұл сізге көп ақша талап етуі мүмкін.
Сонымен қатар, егер Сіз жоғарыда сипатталған LinkedIn-дің сот ісін қозғасаңыз, онда сіз "жай ғана веб-сайтты қарап шықсаңыз да, іс өте күрделі және көлемді бола алатындығын көре аласыз.
"Мен жалпыға қол жетімді мәліметтермен кез-келген нәрсені жасай аламын
Мәселе мынада, деректерді "шығармашылық орналастыру" авторлық құқығы сайтта сипатталғандай біреуге тиесілі болуы мүмкін cendi.gov: "фактілерге Авторлық құқық біреуге тиесілі бола алмайды. Алайда, мәліметтер базасын немесе компиляцияны құрайтын ақпарат пен материалдарды шығармашылық іріктеу, үйлестіру және орналастыру заңмен қорғалуы мүмкін (немесе болмауы да мүмкін). Алайда, авторлық құқықты қорғау тек деректер базасында немесе компиляцияда сақталатын фактілердің өзінде емес, шығармашылық аспектілерде ғана қолданылатынын ескеріңіз.
Сонымен, сайт - оның беттері, дизайны, орналасуы және мәліметтер базасы-авторлық құқық туралы заңмен қорғалуы мүмкін, өйткені ол шығармашылық жұмыс болып саналады. Егер сіз осы сайтты ақпарат алу үшін талдайтын болсаңыз, онда веб-бетті жай ғана көшіру және сақтау фактісі авторлық құқықты бұзу ретінде қарастырылуы мүмкін. Америка Құрама Штаттарында авторлық құқық цифрлық дәуірде авторлық құқық туралы заңмен қорғалған.
Келли ісінде Arriba Soft Corp қарсы. сот бұл туралы шешім қабылдады Ditto.com. суреттерде жұмыс істейтін іздеу қозғалтқышы кәсіби фотографтардың суреттерін адал ниетпен пайдаланды, тек алдын-ала қарау белгішелерін көрсетті.
Assosiated Press vs meltwater U. S. Holdings, Inc. сот meltwater жаңалықтар агрегаторы Associated Press мақалаларын әділетсіз пайдаланды деп шешті, дегенмен талдаушы алған мақалалар тек түпнұсқадан үзінді ретінде көрсетілген.
"Бұл менің браузерім әдеттегідей - сайтты талдау Веб-шолғышты қолданудан техникалық жағынан ерекшеленбейді. Қалай болғанда да, мен деректерді қолмен жинай аламын!
Дұрыс емес. Қызмет көрсету шарттары (пайдаланушы келісімі) көбінесе краулингкепарсингкехарвестингке және жалпы байланысты қызметтерді автоматты түрде пайдалануға тыйым салатын тармақтарды қамтиды. Қолдарыңыз осы жағдайлармен байланысты. Деректерді қолмен жинай алмағаныңыз маңызды емес. Бұл Ресей туралы емес екенін тағы бір рет атап өтемін.
"Егер мен қызмет көрсету шарттарын бұзсам, ең жаман нәрсе-маған тыйым салынады немесе тыйым салынады".
Бұл сұр аймақ:
Фейсбук пен Пит Уорденнің ісінде Фейсбуктің адвокаты егер ол жүздеген миллион Facebook профильдерінен тұратын мәліметтер жиынтығын жарияласа, оны сотқа беремін деп қорқытты.
LinkedIn Corporation Майкл Джордж Китингке қарсы Linkedin Китинг мырзаны бұғаттады, сайтқа кіруден бас тартты, өйткені ол құрал жасады ол компанияда өз сайттарын талдауға арналған деп ойлады. Олар қателескен. Бірақ соған қарамастан, Китинг ешқашан өз аккаунтын қалпына келтіре алмады. Бақытымызға орай, бұл мәселе бұдан әрі болған жоқ.
LinkedIn Corporation vs Robocog Inc ісінде. соңғысы (ол HiringSolved) Linkedin-ге 40 мың доллар төлеуге мәжбүр болды, өйткені олардың веб-сайтын рұқсатсыз талдады.
"Бірақ мен автоматтандырылған сценарийді қолдандым, сондықтан мен сайтпен ешқандай келісімшарт жасамадым
Сюзанна Шеллге қарсы Internet Archive ісінде сот Internet Archive келісімшартты бұзғаны үшін кінәлі деп шешті, өйткені ол Шелл ханымның веб-сайтындағы беттерді көшіріп, мұрағаттаған. Өз сайтында Миссис Шелл шығарды ескерту, онда былай делінген, егер сіз көшірсеңіз сайта контент, онда автоматты түрде келісесіз шартымен. Онда сіз оған әр көшірілген Бет үшін 5 мың доллар қарызсыз (!!!). Бұл істе тарап шамасы жетті әлемдік келісім.
Southwest Airlines Co-да. BoardFirst - ке қарсы, LLC сот BoardFirst-ті Southwest Airlines сайтында жарияланған лицензиялық келісімді бұзғаны үшін кінәлі деп тапты. BoardFirst орындарды жақсырақ ұсыну үшін Southwest Airlines клиенттерінің отырғызу талондарын автоматты түрде жүктейтін құрал жасады.
"Қызмет көрсету шарттары әлі де күшті емес. Олардың құқықтық мәртебесі жоқ".
Дұрыс емес. Bingham McCutchen LLP заң фирмасы осы тақырыпта өте егжей-тегжейлі мақала жариялады және онда:
"Кез-келген басқа келісімшарт сияқты, ережелер бойынша, егер екі тарап та шарттарды қабылдаса, Сайтқа қызмет көрсету шарттары күшіне енеді. Келісу үшін басу керек пе, әлде қызмет көрсету шарттары - сайтта жарияланған лицензиялық келісім. Сотталушының шарттарды оқымағаны ешқандай әсер етпейді, шарттар әлі де күшке ие. Бір сот краулинг немесе талдау құралдарын қолданатын тараптан олармен келісімге қызмет көрсету шарттарын білуді талап етуге болмайды, бұл тарап олар туралы біле алмады деп келіспеді. Сондай - ақ, басқа сот жауапкер - белгілі бір сайтта осындай құралдарды бірнеше рет қолданған тарап-қызмет көрсету шарттары туралы білді деп шешті. Алайда, бұл істер тағы да фактілерге өте тәуелді, ал соттар сонымен бірге талапкер жауапкердің бұл шарттарды нақты білетінін немесе біле алатындығын дәлелдей алмаған кезде қызмет көрсету шарттарына заңды күш беру туралы өтінішті қабылдамады (өйткені шарттар көрінбейтін). Бұл сотталушы белгілі бір сайтта бірнеше рет ұрлау және талдау құралдарын қолданған жағдайда да болды".
Басқаша айтқанда, қызмет көрсету шарттары (пайдаланушы келісімі), егер сот осылай шешсе және егер сіз осы шарттар туралы хабардар болсаңыз, заңды күшке ие болады (мүмкін).
Талдау туралы бірнеше кеңестер:
Мүмкін болса, деректерді тікелей талдаудың орнына API қолданыңыз.
Қызмет көрсету шарттарын бұзбаңыз.
Robots ережелерін бұзбаңыз.txt.
Краулинг жылдамдығының ақылға қонымды мәнін орнатыңыз, яғни сайтты сұраулармен бомбаламаңыз. Robots орнатылған бұзбаңыз.txt үзілістері. Егер жоқ болса, консервативті краулинг мәнін қолданыңыз (әр 10-15 секунд сайын 1 сұрау).
Талдаушыны пайдаланушы агентінің рұқсат етілген жолымен анықтаңыз. Не істеп жатқаныңызды және не үшін екенін түсіндіретін бет жасаңыз және оған пайдаланушы агентінің жолына сілтеме қосыңыз (яғни, ' MY - Bot (+https:имя-вашго-сайта.commybot .html)').
Қызмет көрсету шарттары немесе robots болса.txt сізге ұрлауға немесе талдауға мүмкіндік бермейді, басқа нәрсені жасамас бұрын сайт иесінен жазбаша рұқсат алыңыз.
Ұрланған немесе тексерілген деректерді жарияламаңыз, сонымен қатар алынған мәліметтер жиынтығын осы деректер лицензиясымен немесе авторлық құқық иесінің жазбаша рұқсатынсыз жарияламаңыз.
Егер сіз істеп жатқан ісіңіздің заңдылығына күмәндансаңыз-мұны жасамаңыз. Немесе адвокаттан кеңес сұраңыз.
Бүкіл бизнесіңізді деректерді талдауға негіздемеңіз. Сіз деректерді талдайтын Сайт(тар) сізді Ерте ме, кеш пе бұғаттай алады, өйткені бұл Craigslist Inc. 3taps Inc.қарсы
Ақыр соңында, сіз интернеттен тапқан барлық кеңестерге (соның ішінде менікі) күдікпен қарауыңыз керек, сондықтан адвокатпен кеңесіңіз.
Есіңізде болсын, компаниялар мен жеке тұлғалар сізді кез-келген себептермен сотқа бере алады. Мүмкін, бұл олардың алғашқы қадамы емес. Егер сіз олардың веб-сайттарын рұқсатсыз талдайтын болсаңыз немесе ұрласаңыз, оларға ұнамайтын нәрсе жасасаңыз, сіз өзіңізді осал позицияға қоясыз.
Шетелдегі сот практикасы [2]
Бүгінгі таңда талдау ортасында нақты анықталған заңды шеңберлер жоқ, бұл тұрақты қозғалыс жағдайы, бірақ сіз ең үлкен қауіп аймақтарын анықтауға тырысуға болады. Төменде АҚШ-та орын алған және прецеденттерге айналған сот істерінің ең жарқын жағдайлары сипатталған.
2000-2009: eBay
Талдау пайда болғаннан кейін ұзақ уақыт бойы заңды проблемалар болған жоқ. Бірақ 2000 жылы бұл құралды қолдану нағыз шайқасты тудырды - eBay bidder ' s edge аукциондық деректер жинау компаниясына қарсы болды. EBay bidder ' s Edge-ді жылжымалы мүліктің шекараларын бұзу туралы доктринаға жүгініп, деректерді алуды заңсыз пайдаланды деп айыптады. Судья талапкерді робот бағдарламаларының жоғары белсенділігі eBay жұмысына нұқсан келтіруі мүмкін деп қолдады.Содан кейін 2003 жылы Intel Hamidi-ге қарсы сот процесінде Калифорния Жоғарғы Соты eBay bidder ' s Edge-ге қарсы қолданған негіздемені қабылдамады, егер жеке меншікке нақты зиян келтірілмесе, жылжымалы мүліктің шекараларын бұзу туралы Доктрина компьютерлік ортада таратыла алмайды деп шешті.Парсингке қарсы барлық алғашқы істер жылжымалы мүліктің шекараларын бұзу туралы ілімге сүйенді және талапкерлердің жетістігімен аяқталды. Бірақ бұл тәсіл енді тиімді емес.
2009: Facebook
2009 жылы Facebook сотқа жүгінді Power.com - әр түрлі әлеуметтік желілерді бір орталықтандырылған ресурсқа біріктіретін сайт-соңғысы Facebook-ті өз қызметіне қосқан кезде. Себебі Power.com Facebook Facebook мазмұнын талдады, алыптың белгіленген стандарттарын ұстанудың орнына, Facebook авторлық құқықты бұзу негізінде сотқа жүгінді. Facebook компаниясы айыптады Power.com пайдаланушылар туралы ақпарат алу процесінде Facebook веб-сайтын көшіруде. Facebook бұл процесс авторлық құқықты тікелей және жанама бұзу деп мәлімдеді. Сот шешімі Facebook-тің пайдасына болды және сол кезден бастап парсингтің заңдылығы туралы шешімдер сайт мазмұнының авторларының пайдасына қабылдана бастады.Егер талдаушы жалпыға қол жетімді ақпаратты іздеу барысында контрафактілік мазмұнды елемейтін болса да, оның әрекеттері авторлық құқықты бұзу ретінде сипатталуы мүмкін, өйткені контрафактілік мазмұн әлі де "көшіріледі".
2011-2014: Ауэрнхаймер
2010 жылы хакер Эндрю Ауэрнхаймер AT&T веб-сайтындағы қауіпсіздік жүйесіндегі олқылықты тауып, сайтқа iPad-тан кірген пайдаланушылардың электрондық пошта мекенжайларын шығарды. Қауіпсіздік жүйесінің жетіспеушілігі мен парсингті қолдана отырып, Ауэрнхаймер AT&T сайтынан мыңдаған электрондық мекенжайларға қол жеткізе алды, Ауэрнхаймер AT&T серверіне рұқсатсыз кіруге және басқа адамдардың деректерін беруге кінәлі деп танылды.Құпия жеке ақпаратты алу үшін парсингті пайдалану, егер бұл ақпарат жалпыға қол жетімді болса да, айыптауға әкелуі мүмкін. Сіз сотқа ақпаратқа қол жеткізу үшін парольдер де, кодтар да бұзылмағанына сендіруге тырысуға болады, дегенмен бұл қауіпті аумақ.
2013: Meltwater
Meltwater - global Media Monitoring өнімі жаңалықтар жинау үшін талдау жасайтын бағдарламалық жасақтама компаниясы. Ассошиэйтед Пресс Мелтватерді мақалаларды талдау үшін, олардың кейбіреулері авторлық құқықпен қорғалған және жаңалықтарды заңсыз иемденгені үшін сотқа берді. Фактілерді авторлық құқықпен қорғауға болмайды, бірақ сот мақалаларды және фактілерді авторлық баяндауды көшіру заңсыз деп шешті. Сонымен қатар, meltwater мақалаларын пайдалану белгіленген стандарттарға сәйкес келмеді. Авторлық мазмұнды әрдайым талдау мүмкін емес!
2014: QVC
2014 жылы QVC (әйгілі теледидар сатушысы) және Resultly (қосымша дүкен) QVC "шамадан тыс талдау"деп атады. QVC-тің айыптауы Resultly өзінің іздеу роботтарын бастапқы IP-мекен-жайын жасыру үшін жасырды, сондықтан QVC олар үшін қажет емес талдаушыларды бұғаттай алмады. БОТТАР QVC серверлеріне өте агрессивті болғандықтан, электр қуаты өшіріліп, 2 миллион доллар шығын әкелді. Сот Resultly-ді ақтап, зиян келтіру ниеті жоқ деп шешті.
Ал Қазақстанда ше? Қазақстандағы сайттарды талдау заңды ма?
Ең қарапайым және кең таралған сұрақтан бастайық -- дүкендердегі баға белгілерін суретке түсіру, бірақ бұл сайттарды талдауға тікелей қатысы жоқ, бірақ проблемалар ұқсас (шын мәнінде, дүкендердегі баға белгілерін суретке түсіруде немесе бәсекелестердің сайттарынан бағаларды талдауда ешқандай айырмашылық жоқ сияқты).
Сонымен, сұрақ: сатып алушылар үшін дүкенде рұқсатсыз фото және видео түсіруге тыйым салатын ереже орнатуға бола ма? Егер сіз заңның егжей-тегжейлі түсіндірмесін қарастырмасаңыз, ақпарат туралы ең маңызды мақаланы қарастырайық:
" Ақпаратқа қол жеткізу туралы Қазақстан Республикасының Заңы 2015 жылғы 16 қарашадағы № 401-V ҚРЗ. 1-ші бап 5-тармағында:
Ашық деректер - машинада оқылатын түрде ұсынылған және өзгермеген түрде одан әрі пайдалануға, қайталап жариялауға арналған, жалпыға бірдей қолжетімді электрондық ақпараттық ресурстар;
Осылайша, дүкендердегі бағалар туралы ақпарат жалпыға қол жетімді, өйткені мұндай ақпаратқа қол жеткізуді шектейтін заңнама жоқ. Осыған байланысты дүкенде бағаны қайта жазуға және алуға тыйым салынбайды. Шынында да, заң бұзушылықтар жоқ.
Енді сайттарды талдау. Біздің бизнесімізді іске қоспас бұрын біз заң компаниясына ("Фрезе және серіктестер") қойған сұрақ: "ұйым интернет желісіндегі сайттарда ашық қолжетімділікте (парсинг) орналастырылған ақпаратты автоматтандырылған түрде жинауды жүзеге асыруға құқылы ма?
Сайттарды талдау, егер оны жүзеге асыру кезінде заңнамада белгіленген тыйымдарды бұзу болмаса, заңды болып табылады. Осылайша, ақпаратты автоматты түрде жинау кезінде қолданыстағы заңнаманы сақтау қажет. Ресей Федерациясының заңнамасында интернетке қатысты келесі шектеулер белгіленген:
Авторлық және сабақтас құқықтарды бұзуға жол берілмейді.
Заңмен қорғалатын компьютерлік ақпаратқа заңсыз қол жеткізуге жол берілмейді.
Коммерциялық құпияны құрайтын мәліметтерді заңсыз тәсілмен жинауға жол берілмейді.
Азаматтық құқықтарды көрінеу теріс пиғылды жүзеге асыруға (құқықты теріс пайдалануға) жол берілмейді.
Азаматтық құқықтарды бәсекелестікті шектеу мақсатында пайдалануға жол берілмейді.
Жоғарыда көрсетілген тыйымдардан келіп шығатыны, ұйым егер мынадай шарттар сақталса, интернет желісінің сайттарында ашық қолжетімділікте орналастырылған ақпаратты (сайттардың парсингін) автоматтандырылған жинауды жүзеге асыруға құқылы:
Ақпарат ашық қолжетімді және авторлық және сабақтас құқықтар туралы заңнамамен қорғалмайды.
Автоматтандырылған жинау заңды тәсілдермен жүзеге асырылады.
Ақпаратты автоматтандырылған түрде жинау интернет желісіндегі сайттардың жұмысын бұзуға әкелмейді.
Автоматтандырылған ақпарат жинау бәсекелестікті шектеуге әкелмейді.
Егер талдау қолданылса, ұстануға болатын ұсыныстар бар:
Шығарылатын мазмұн авторлық құқықпен қорғалмауы керек
Талдау процесі талдауға жататын сайттың жұмысына кедергі келтірмеуі керек
Талдау сайтты пайдалану шарттарын бұзбауы керек
Талдаушы пайдаланушының жеке (жеке) ақпаратын алмауы тиіс
Талдауға жататын мазмұн заңды пайдалану стандарттарына сәйкес келуі керек
Ең " нәзік "сәт -- бұл"талдау біздің сайтымыздың жұмысына кедергі келтіреді және Біз шығынға ұшыраймыз" деген шағымдардың мүмкіндігі. Мұндай шағымға жауап ретінде Google және Yandex іздеу механизмдері бүкіл сайтты талдауға (индекстеуге) қатысады және барлық қол жетімді ақпаратты жинайды, бұл үнемі жеткілікті. Тиісінше, компанияның веб-сайтына баға туралы ақпарат жинау үшін кіретін ұқсас талдаушы да техникалық әрекетті орындайтыны қисынды. Ұқсас әрекет сайттың жұмысына кедергі келтіретінін және іздеу жүйелерінің жұмысына кедергі келтірмейтінін дәлелдеу қиын болуы мүмкін. Бірақ кез-келген жағдайда, жақсы талдаушы robor.txt ережелерді сақтау керек.
Жарнама сайттарынан (мысалы, Avito) және әлеуметтік желілерден (соның ішінде автоматты) пайдаланушылардың жеке деректерін (телефондар, пошта және т.б.) жинау әдістері өте танымал. Бұған көз жеткізу үшін іздеу жүйесінде "талдау авито" немесе кез - келген ұқсас сұрауды теру жеткілікті-сіз осындай қызметтердің көптеген ондаған ұсыныстарын көресіз.
Артықшылықтары айқын: сіз қажетті байланыс құралдарымен (аты-жөні, телефоны, электрондық поштасы және т.б.) өнімді немесе қызметті әлеуетті тұтынушылар базасын тез және арзан аласыз. Деректер базасын әртүрлі тәсілдермен қолдануға болады, бірақ негізінен электрондық пошталар, SMS немесе қоңыраулар жіберу арқылы контактілер үшін. Дегенмен, адамдардың жеке деректерін талдау "жеке деректер туралы" федералды заңды бұзу болып табылады, өйткені жеке деректерді өңдеу бұған келісім болған жағдайда ғана жүзеге асырылуы мүмкін.
Талдауға мүдделі тараптар, әдетте, заң бұзушылық болмайтындығын дәлелдейтін бірнеше дәлелдер келтіреді.
Олар мұндай:
- Жеке алынған деректер, мысалы, тек телефон нөмірі ғана жеке деректер болып табылмайды, демек, оларды жинауға болады;
- Пайдаланушылар өз деректерін ашық қолжетімділікке дербес орналастырады, осылайша олардың деректері өңделетініне, сондай-ақ оларға қоңырау шалуға немесе хабарламалар жіберуге келісім береді.

2 Бағдарламалау кезеңдері

Әдетте веб-сайтты талдау процесі келесі кезеңдерден тұрады:
Мақсатты URL мекен-жайларын анықтау.
Егер деректерді жинау үшін сканерленген веб-сайт парсингке қарсы құралдарды қолданса, онда парсерге жаңа IP мекенжайын алу үшін тиісті прокси-серверді таңдау қажет болуы мүмкін, ол арқылы талдаушы өз сұрауын жібереді.
HTML [3] кодын алу үшін осы URL мекен-жайларына сұраныстар жіберу.
HTML [4] кодындағы деректердің орнын анықтау үшін көрсеткіштерді пайдалану.
Қажетті ақпаратты қамтитын деректер жолын аналитикалық талдау.
Жиналған деректерді қажетті форматқа түрлендіру.
Жиналған деректерді таңдалған деректер қоймасына жіберу.

2.1 HTTP және HTTPS протаколдары

HTTP [5] - Бұл HTML құжаттары сияқты әртүрлі ресурстарды алуға мүмкіндік беретін протокол. HTTP протоколы интернетте мәліметтер алмасудың негізі болып табылады. HTTP-бұл клиент-сервердің өзара әрекеттесу протоколы, бұл серверге алушының өзі, әдетте веб-шолушы (web-browser) сұрауларды бастауды білдіреді. Алынған қорытынды құжат қорытынды құжаттың бөлігі болып табылатын әртүрлі ішкі құжаттардан тұрады (мысалы, жеке алынған мәтіннен, құжат құрылымының сипаттамасынан, суреттерден, бейне файлдардан, сценарийлерден және басқалардан тұрады).
Клиенттер мен серверлер бір хабарлама алмасу арқылы өзара әрекеттеседі (деректер ағынымен емес). Клиент жіберген хабарламалар, әдетте веб-шолғыш, сұрау деп аталады, ал сервер жіберген хабарламалар жауап деп аталады.
HTTP [6] 1990-шы жылдардың басында жасалғанына қарамастан, болашақта оның кеңеюіне байланысты ол үнемі жетілдіріліп отырды. HTTP - Бұл басқа протоколдың мүмкіндіктерін - TCP (немесе TLS - қорғалған TCP) - хабарламаларын жіберу үшін жиі қолданатын қолданбалы қабат протоколы, бірақ кез-келген басқа сенімді көлік протоколын теориялық тұрғыдан осындай хабарламаларды жеткізу үшін пайдалануға болады. Кеңейтілуінің арқасында ол клиенттің гипермәтіндік құжаттарды, суреттер мен бейнелерді алу үшін ғана емес, сонымен қатар HTML формаларын қолдана отырып, мазмұнды серверлерге беру үшін де қолданылады. HTTP сонымен қатар сұрау бойынша веб-бетті жаңарту мақсатында құжаттың бөліктерін ғана алуға болады (мысалы, Ajax сұранысы арқылы).
HTTP негізделген жүйелердің компоненттері
HTTP-бұл клиент-сервер протоколы, яғни сұраныстарды бір Тарап-алмасу мүшесі (user -- agent) (немесе оның орнына прокси) жібереді. Көбінесе веб-шолғыш қатысушы ретінде әрекет етеді, бірақ олар кез-келген адам бола алады, мысалы, іздеу жүйелеріне арналған веб-беттерді индекстеу деректерін толтыру және жаңарту үшін желіні шарлайтын робот.
Әр сұрау (ағылш. request) серверге жіберіледі, ол оны өңдейді және жауапты қайтарады (ағылш. response). Осы сұраулар мен жауаптар арасында, әдетте, прокси деп аталатын көптеген делдалдар бар, олар әртүрлі операцияларды орындайды және мысалы, шлюздер немесе кэш ретінде жұмыс істейді (Cурет 2).

Ескерту - келесі дереккөзге негізделіп құрастырылды [5]
Сурет 2 HTTP-дегі сұрау.

Әдетте браузер мен сервер арасында сұранысты өңдеуде қандай-да бір рөл атқаратын делдалдық құрылғылар көп: маршрутизаторлар, модемдер және т.б. Желі өзара әрекеттесу деңгейлері (қабаттары) жүйесі негізінде құрылғандықтан, бұл делдалдар желілік және көліктік деңгейлерде "жасырылған". Бұл деңгей жүйесінде HTTP "қолданбалы" (немесе "қолданбалы деңгей") деп аталатын ең жоғарғы деңгейді алады. Өкілдік, сессия, көлік, желі, арна және физикалық сияқты желілік деңгейлер туралы білім желінің жұмысын түсіну және мүмкін проблемаларды диагностикалау үшін қажет, бірақ HTTP сипаттау және түсіну үшін қажет емес.
Клиент: айырбастауға қатысушы
Бөлісу мүшесі (user agent) -- пайдаланушының атынан әрекет ететін кез келген құрал немесе құрылғы. Бұл тапсырманы негізінен веб-шолғыш орындайды; кейбір жағдайларда қатысушылар-бұл инженерлер мен веб-әзірлеушілер өздерінің қосымшаларын жөндеу үшін қолданатын бағдарламалар.
Браузер әрқашан сұрау жасайтын нысан болып табылады. Сервер әдетте мұны істемейді, дегенмен көптеген жылдар бойы желі серверден сұраныстарды орындауға мүмкіндік беретін әдістер ойлап табылды.
Веб-бетті көрсету үшін браузер сол беттің HTML құжатын алу үшін бастапқы сұрауды жібереді. Осыдан кейін браузер бұл құжатты зерттейді және Веб-беттің мазмұнын көрсету үшін қажет қосымша файлдарды сұрайды (орындалатын сценарийлер, парақтың орналасуы туралы ақпарат - стильдер кестесінің CSS, суреттер мен бейне файлдар түріндегі қосымша ресурстар), олар бастапқы құжаттың тікелей бөлігі болып табылады, бірақ желінің басқа жерлерінде орналасқан. Әрі қарай, браузер осы ресурстардың барлығын пайдаланушыға бір құжат -- веб-бет түрінде көрсету үшін қосады. Браузердің өзі орындайтын сценарийлер веб-бетті өңдеудің келесі кезеңдерінде желі арқылы қосымша ресурстар ала алады және браузер сәйкесінше пайдаланушы үшін осы беттің көрсетілуін жаңартады.
Веб-бет-гипермәтіндік құжат. Бұл көрсетілген мәтіннің кейбір бөліктері жаңа веб-бетті алу және сәйкесінше көрсету үшін (әдетте тінтуірдің батырмасын басу арқылы) іске қосуға болатын сілтемелер екенін білдіреді (сілтеме бойынша өту). Бұл пайдаланушыға желі беттерінде (Internet)" шарлауға " мүмкіндік береді. Браузер бұл еренсілтемелерді HTTP сұрауларына айналдырады және болашақта алынған HTTP жауаптары пайдаланушыға түсінікті түрде көрсетіледі.
HTTP [6] негізгі аспектілері
HTTP-қарапайым
Http2-ге HTTP хабарламаларын кадрларға инкапсуляциялау арқылы енгізілген күрделіліктің өзінде, HTTP, әдетте, қарапайым және адам қабылдауы үшін ыңғайлы. HTTP хабарламаларын адамдар оқи алады және түсінеді, бұл әзірлеушілерге оңай тестілеуді және жаңа пайдаланушылар үшін күрделіліктің төмендеуін қамтамасыз етеді.
HTTP-кеңейтілетін
HTTP1.0-ге енгізілген HTTP тақырыптары бұл протоколды кеңейтуге және тәжірибе жасауға оңай етті. Жаңа функцияны клиент пен сервер арасындағы жаңа тақырыптың семантикасы туралы қарапайым келісім арқылы да енгізуге болады.
HTTP күйі жоқ, бірақ сессиясы бар
HTTP күйі жоқ: Бір қосылым бойынша дәйекті түрде орындалатын екі сұраудың арасында байланыс жоқ. Осыдан бастап, белгілі бір парақпен дәйекті түрде өзара әрекеттесуге тырысатын пайдаланушы үшін проблемалар туындауы мүмкін, мысалы, электронды дүкенде себетті пайдалану кезінде. Бірақ HTTP ядросында күй болмаса да, cookie файлдары сеанстарды күйді сақтай отырып пайдалануға мүмкіндік береді. Тақырып кеңейтілімін қолдана отырып, cookie файлдары жұмыс ағынына қосылады, бұл әр HTTP сұрауындағы сеанстарға кейбір контекст немесе күймен бөлісуге мүмкіндік береді.
HTTP және Қосылымдар
Байланыс көлік деңгейінде басқарылады, сондықтан HTTP шекарасынан асып кетеді. HTTP негізгі көлік протоколының қосылыстарға негізделуін талап етпейді, тек сенімділікті немесе жоғалған хабарламалардың болмауын талап етеді (яғни, кем дегенде қате туралы мәлімдеме). Интернеттегі ең көп таралған екі көлік протоколының ішінде TCP сенімді және UDP жоқ. HTTP кейіннен қосылымға негізделген TCP стандартына сүйенеді, дегенмен байланыс әрдайым қажет емес.
HTTP 1.0 әр сұраужауап алмасу үшін TCP байланысын ашты, екі маңызды кемшілігі бар: қосылымды ашу бірнеше хабарлама алмасуды қажет етеді, сондықтан баяу, бірақ бірнеше хабарлама жібергенде немесе тұрақты хабарлама жібергенде тиімдірек болады: жылы қосылыстар суыққа қарағанда тиімді.
Осы кемшіліктерді азайту үшін HTTP1.1 құбырмен жұмыс жасады (оны орындау қиын болды) және тұрақты қосылыстар: TCP негізіндегі қосылымды Connection тақырыбы арқылы ішінара басқаруға болады. HTTP 2 ... жалғасы

Сіз бұл жұмысты біздің қосымшамыз арқылы толығымен тегін көре аласыз.
Ұқсас жұмыстар
Утилит
Зиянды бағдарлама түрлері
КИБЕРҚАУІПСІЗДІК ПӘНІ БОЙЫНША ЭЛЕКТРОНДЫҚ ОҚУЛЫҚ
Ақпараттық дәуірдегі – ақпараттық қауіпсіздік
Облыс білім беру басқармасының «Павлодар облыстық ақпараттық технологиялар орталығы» КММ жобалармен автоматизациялық басқару жүйесін зерттеу мен жаңарту
Алматы қаласы студенттері мен жастары үшін акпараттық Web-порталын құру
Бағалаудың ақпараттық базасы
Жобаны құрудың әдістемесі
Сайттың деректер қорының схемасы
Python бағдарламалау тілінің тарихы
Пәндер