Сандық зерттеудің түрлері


Қазақстан Республикасы Ғылым және жоғары білім министрлігі Әл-Фараби атындағы Қазақ Ұлттық Университеті
География және табиғатты пайдалану факультеті
География, кадастр және жерге орналастыру кафедрасы
СӨЖ
Тақырыбы: Сандық ақпаратты алу және деректерді топтастыру түсінігі
Орындаған: Абибулла М. Спан Б.
Тексерген: Орынбасарова Г.О.
Алматы, 2024
МAЗМҰНЫ
КІРІCПЕ
НЕГІЗГІ БӨЛІМ
2.1.Сандық ақпараттардың негізгі міндеттері ... ... ... ... ... ... . ... ..5-7
2.2.Сандық мәліметтерді жинақтау туралы түсінік ... ... ... ... ... ... 7-8
2.3. Сандық ақпаратты алу және деректерді топтастыру түсінігі бойынша зерттеу жүргізген авторлар ... ... ... ... ... ... ... ... ... ... ... ... ... ... .
2.4.Статистикалық ақпараттарды топтарға жіктеу ... ... ... ... ... ... .8-9
2.5.Топтарды құру, деректерді жинау схемасы ... ... ... ... ... ... ... .9-1
ҚOРЫТЫНДЫ
ПAЙДAЛAНЫЛҒAН ӘДEБИEТТEР
КІРІСПЕ
Сандық ақпарат ұғымы күнделікті өмірден бастап техникалық салада пайдаланылатын көп мағыналы ұғым. Жалпы алғанда бұл ұғым шектеу, байланыс, бақылау, форма, инструкция, білiм, мағына, құрылым, бейнелеу, сезіну тағы басқа ұғымдармен тығыз байланысты. Статистика (лат.status - жай-күй) - білім саласы, бұқаралық әлеуметтік-экономикалық құбылыстар мен үдерістердің сандық және сапалық көрсеткіштерін зерделейтін ғылым;
қоғам өмірінің сандық заңдылықтарын олардың сапалық мазмұнымен ажырағысыз байланыста сипаттайтын статистик. ақпаратты жинап, өңдеуді, талдау мен жариялауды қамтитын практик. қызмет саласы; жарияланатын сандық деректердің, бақыланбалы нысанның сан немесе сапа тұлғасындағы күйін тиянақтайтын бақылау нәтижелерінің жиынтығы. қоғам өмірінің сандық жақтарында болатын құбылыстарды меңгеретін және көп жылдық тарихы бар ерекше ғылым немесе білім саласы. Оның шығу төркіні әр түрлі қоғамдық тұтынушыларға, мал санына, жер-су көлеміне, дүние-мүлік және басқалар есебіне байланысты. Әр-алуан белгілі бір статистикалық деректер жиыны ретінде де түсінуге болады (өлім статистикасы, торбетке кіру статистикасы т.б.).
Статистика сөзі ғылыми әдебиетте 18 ғасырда қолданысқа енді және алғашқыда "мемлекеттану" деген мағынада ұғынылды. Бірақ статистика ғылымы 17 ғасырдың ортасында "саяси арифметика" нысанында дами бастады. Ғылымдағы бұл бағыттың бастауында ағылшын ғалымы - Уильям Петти тұрды. Статистика терминін ғылымға 1746 жылы неміс ғалымы Готфрид Ахенваль өзі сабақ беретін Германия университетінде "Мемлекет ісін жүргізу" курсының орнына "Статистиканы" қолдануды ұсынды. Осыған қарамастан статистиалық санаулар бұданда ерте жүргізілген болатын: Көне Қытайдахалық санағы, Көне Римде елдердің әскери күшін салыстыру, азаматтардың мүліктерін бағалау.
Статистика 19 ғасырдың басында А.Кетленің және оның мектебі өкілдерінің еңбектерінде қоғамдық құбылыстардың заңдылықтарын зерделейтін ғылым мен құралға айналды.
Күнделікті цифрлық технологиялар айналамыздағы әлемді толтырады, бұл процесс уақытпен ғана жеделдейді. Біздің күнделікті өмірімізде әрқайсысы әртүрлі цифрлық құрылғылардың көп саны бар, олардың әрқайсысы тұтынушыға түсінікті және түсінікті емес сипаттамалары мен қасиеттері бар. Электрондық құрылғылардың кейбіреулері, сондай-ақ компьютерлік бағдарлама, белгілі бір қара жәшіктермен тұтынушыға қалады, оның құрылғысы мен жұмыс принципі жасырылған.
Тұтынушылардың аудио жабдықтары, сондай-ақ жабдықтардың қалған бөлігі - бірте-бірте және сенімді түрде сандық рельстерге ауысып бара жатқандықтан, оның параметрлері күрделене түседі және жұмыс принципі азаяды. Бұл эссе цифрлық аудио және сандық аудио және бейне техникасы саласындағы әмбебап нұсқаулық емес, бірақ біз қазіргі заманғы цифрлық технологиялар мен құрылғылардың негізінде жатқан негізгі идеяларды, сондай-ақ теориялық және практикалық қағидаларды шешуге тырысамыз. Осында қамтылған ақпарат оқырман үшін пайдалы болады деп үміттенемін және кейбір негізгі теориялық негізді қамтамасыз етеді, оның түсінігі барлық белсенді аудио әуесқойлар, кез-келген сандық құрылғыны пайдаланушылар үшін қажет.
2.1. САНДЫҚ АҚПАРАТТАРДЫҢ НЕГІЗГІ МІНДЕТТЕРІ
Сандық зерттеулер әдетте салыстырмалы түрде үлкен көлемде жұмыс істейді. Осыған байланысты, статистикалық талдау, регрессиялар немесе тіпті үлкен деректер беру әдістері сияқты әдістерді қолдану арқылы сенімді қорытынды жасау және зерттелген айнымалылар арасындағы заңдылықтар мен қатынастарды табу өте маңызды. Осы себепті, сандық тергеуді сенімді деп санау үшін, ол салыстырмалы түрде жоғары санмен жұмыс істеуі керек. Бұл сапалы зерттеулерде болатын жағдайға қарама-қайшы, онда сарапшы бір ғана құбылысты терең түсінуге бағытталады.
Біз таба алатын сандық зерттеулердің барлық түрлерін топтастыруға тырысатын көптеген әр түрлі жіктемелер бар. Ең көп тарағандарының бірі - оларды төрт классқа бөлетін топ: сауалнамалар, корреляциялық зерттеулер, себеп тергеу және эксперименттер. Әрі қарай олардың әрқайсысы неден тұратындығын көреміз.
Сандық зерттеу әдістері -- бұл сандық деректерді жинауға және талдауға бағытталған зерттеу әдістері. Сандық әдістер индуктивтік тәсіл шеңберінде себеп-салдарлық байланыстар мен статистикалық заңдылықтарды анықтау, сондай-ақ дедуктивтік тәсіл шеңберінде эмпирикалық зерттеулер мен позитивистік принциптер негізінде қалыптасқан теорияларды тексеру үшін қолданылады. Әлеуметтік ғылымдарда сандық және сапалық зерттеу әдістері бөлінеді.
Бұл зерттеу әдісі табиғи және әлеуметтік ғылымдармен байланысты, бұл бақылауға алынған құбылыстарды объективті эмпирикалық зерттеуді жүзеге асыруға мүмкіндік береді. Мұндай зерттеу арқылы көптеген сандық әдістер мен тәсілдер қолданылады, бұл әртүрлі академиялық пәндерде зерттеу стратегиясы ретінде кеңінен пайдаланылуда.
Сандық зерттеулердің мақсаты -- құбылыстарға қатысты математикалық модельдер, теориялар құрастыру және гипотезалар жасау. Өлшеу процесі сандық зерттеудің орталық орны болып табылады, себебі ол эмпирикалық бақылау мен математикалық өрнек арасында негізді байланыс қамтамасыз етеді.
Сандық деректер -- бұл статистика, пайыздар және т.б. сияқты сандық формадағы деректер. Зерттеуші бұл деректерді статистикалық әдістермен талдап, сандардың үлкен жиынтыққа жалпыланатын бейтарап нәтиже беруін күтеді. Ал сапалық зерттеулер нақты тәжірибені тереңінен зерттеп, құбылыстың мәнін сипаттау және зерттеу үшін мәтіндер немесе визуалдық деректер пайдалана отырып, экспериментке қатысушылар үшін одан әрі жұмыс бағытын анықтайды.
Сандық зерттеулер психология, экономика, демография, социология, маркетинг, денсаулық сақтау, гендерлік зерттеулер және саясаттану салаларында кеңінен қолданылады; антропология мен тарихта сирек. Физика сияқты математикалық ғылымдардағы зерттеулер анықтамасы бойынша сандық болып табылады.
Сапалық зерттеу тек жеке зерттелген жағдайлар туралы ақпарат береді, ал кез келген жалпы қорытындылар тек гипотезалар болып табылады. Сандық әдістер осындай гипотезалардың қайсысының дұрыс екенін тексеру үшін қолданылуы мүмкін. 1935 жылдан 2005 жылға дейінгі аралықта екі жетекші америкалық социологиялық журналда жарияланған 1274 мақаланың жан-жақты талдауы бұл мақалалардың шамамен үштен екісі сандық әдісті пайдаланғанын көрсетті.
Сауалнамалар-сандық зерттеулер жүргізуге болатын ең негізгі құралдар. Оның негізгі мақсаты - белгілі бір санда статистикалық деңгейде ең көп таралған жауаптар болып табылатын түсіну мақсатында қатысушылардың азды-көпті санына сұрақтар қою. Сауалнама дәстүр бойынша жеке немесе телефон арқылы жүргізілді. Қазіргі уақытта оларды жаңа технологияларды қолдану арқылы жүзеге асыруға болады. Осылайша, көптеген зерттеушілер Интернетті әр түрлі сауалнамалар жасау үшін пайдаланады және нарықтың қажеттіліктері немесе оның тәртібі туралы көбірек біледі.Сауалнамалар әлемінде көптеген баламалар бар. Олардың кейбіреулері белгілі бір аудиториямен ғана қолданылады, ал басқалары статистикалық талдаудың көмегімен әртүрлі топтарды салыстырады.
Корреляциялық зерттеулер дегеніміз - екі құбылыс немесе болмыс арасындағы байланысты орнату мақсаты бар зерттеулер. Идеясы, олардың қалай өзгеретінін түсіну, тіпті олардың арасындағы себеп-салдарлық қатынастар туралы қорытынды жасай алмасаңыз да. Корреляциялық зерттеулер көбінесе статистика мен математикалық талдауға негізделген. Бұл құралдар тенденцияларды, заңдылықтарды және қатынастарды табу үшін қолданылады. Алайда, зерттеудің тек осы түрлеріне негізделген қорытынды жасамау ұсынылады.
Бұл зерттеу әдісі квази-эксперименталды деп те аталады. Ол негізінен екіншісіне тәуелді болатын екі айнымалының арасындағы себептік қатынастарды зерттеу үшін қолданылады. Алайда, бұл әдістің осыған ұқсас әдістерден айырмашылығы-себепті тергеулерде тәуелді айнымалы манипуляцияланбайды, тек байқалады.
Квази-эксперименттік тергеулер, егер олардың кем дегенде біреуі тәуелсіз деп саналса, екіден көп айнымалымен жүргізілуі мүмкін; яғни олардың өзгерістері зерттеуге қатысатын адамдарға әсер етеді. Алдыңғы жағдайдағыдай, нәтижелер мен қорытындылар статистикалық талдау жүргізуден шығады.Сандық зерттеулер алғашқы деректерді жинау және талдауды сипаттайды. Бұндай зерттеулер нақты, статистикалық сандық деректер қажет болғанда жүргізіледі. Сандық зерттеулер әдісінің негізінде
нақты математикалық және статистикалық моделдер жатыр, нәтижесінде
зерттелетін көрсеткіштердің нақты сандық мәндеріне ие боламыз. Сандық зерттеулер (тұтынушыларды зерттеу), Қанша? деген сұраққа жауап алуға мүмкіндік береді, зерттелетін параметрлердің таралуына баға бере отырып сонымен қатар олардың көлемін: нарықтағы үлесін, танымалдылығын және т.б. бағалауға мүмкіндік берді. Сандық маркетингтік зерттеулер арқылы шешілетін міндеттер: орыс тілінде қате
:: Табиғи және ақша түріндегі нарықтың потенциалды және шынайы көлемін және сыйымдылығын бағалау.
:: Негізгі бәсекелестер арасында нарықтық үлестерді үйлестіруге бағаберу
:: Тұтынушылардың негізгі сараланымдарын анықтау
:: Тұтынушының тауарды сатып алуға дайындығын, тауардың нарықтағы өз орнын алудағы үрдістерін және болашағын анықтау
:: Тұтынушының кейпін анықтау: әлеуметтік-демографиялық, психологиялық сипаттамалар негізінде
:: Тұтынушының тауарға деген қатынасын білдіретін параметрлер негізінде өлшеу жүргізу
:: Жаңа тауарды немесе қызметті тұтынып көргендер арасында қайта сатып алу жүйесін жоспарлау
:: Тауарға ең үздік қаптаманы анықтау
:: Тауарға немесе қызметке оңтайлы бағаны анықтау
:: Бос тауашаларды анықтау
:: Бар тауардың нарық талаптарына лайықтығына баға беру
:: Жарнама науқандарының және т.б коммуникациялық каналдардың тиімділігіне баға беру
:: Тауар немесе қызмет сатылымының деңгейіне баға беру
:: Өнімнің жекелеп сату желісіндегі таныстырылымына баға беру Сандық зерттеу әдісінің басымдылықтары:
:: Зерттеу объектісінің кең ауқымын қамту (респонденттерді, орындарды және т.б).
:: Алайда қолжетімділігі күрделі сегменттерге (тұрғындардың жоғарғытөменгі әлеуметтік қабаттарындағы) сапалық әдістердің
қолданылуы дәстүрлі болып табылады (case study)
:: Сұрауға қатысушылардың құпиялығының сақталу мүмкіндігі. Сандық зерттеуге арналған анкета анонимді сипатқа ие болуы мүмкін. Сандық
зерттеулер жүргізгенде сұрау жүргізуші респонденттің атын, мекенжайын және телефонын анықтайды, бұл сұрау жүргізушінің жұмысына сапалы бақылау жүргізуге мүмкіндік береді.
:: Көрнекті құралдарды пайдалану мүмкіндігі (карточалар, фотолар,
жарнама плакаттар және т.б.).
Сандық зерттеудің түрлері
Түрлі форматтағы алғашқы ақпараттарды жинауға мүмкіндік беретін тсандық зерттеулердің бірнеше түрлері болады:
:: Жеке сұрау (face-to-faсe)
:: Көшедегі сұхбат
:: Сатып алу орындарындағы сұхбат
:: Пәтердегі сұхбат (кең тараған әдіс, іріктеу жиынтығының бас
жиынтыққа сәйкестігін максималды түрде қамтамасыз етеді).
:: Өнімді тестілеу (hall и home tests).
:: Тауарды тексеру (retail audit)
2.2. САНДЫҚ МӘЛІМЕТТЕРДІ ЖИНАҚТАУ ТУРАЛЫ ТҮСІНІК.
Статистикалық бақылау нәтижесінде жинақталған агрегаттар тексеруден кейін қорытынды жасау үшін жүйелендірілуі тиіс. Статистикалық деректерді жинаудың негізгі мақсаты-бақылау нәтижесінде жиналған деректердің қорытынды көрсеткіштерін есептеу. Статистикалық жинақтаудың екі түрі бар: қарапайым және күрделі.
Қарапайым жалпылау қорытындыларды топтастырусыз жалпыланған ақпаратты, материалдарды жалпылау.
Кешенді жинақтау бағдарлама бойынша жиынтық бірліктерді топтарға бөлу және әр топ бойынша сомаларды есептеу.
Деректерді жинау екі жолмен ұйымдастырылады:
1. Барлық деректерді бір орталыққа жинап, қорытынды жасаңыз.
2.бастапқы мәліметтер төменгі сатыдағы мекемеде жиналады және қорытынды жоғары мекемеге беріледі.
Деректер қолмен және машинамен жинақталады. Деректерді сандық белгілеу, оларды жинақтау, бөлу, жалпылау қолмен жинақтау әдісіне жатады.
Машиналық жинау электрондық есептеу машиналарында және компьютерлерде жүргізіледі. Осылайша, статистикалық жалпылау дегеніміз-бақылау нәтижесінде жинақталған бастапқы деректерді ғылыми жүйеде өңдеу және жиынтық бірліктердің белгілері бойынша топтастыру, қорытынды көрсеткіштерді есептеу.
Сандық ақпаратты алу және деректерді топтастыру бойынша шетелдердегі бірнеше тәжірибелер әртүрлі салаларда қолданылып келеді. Төменде кемінде 5 тәжірибе қарастырылған:
1. Веб-скрапинг және деректерді жинау (АҚШ)
Тәжірибе:Веб-скрапинг - интернеттен автоматты түрде мәліметтер алу әдісі. АҚШ-та бұл әдіс маркетинг, әлеуметтік медиа талдау және зерттеу салаларында кеңінен қолданылады.
Мысал: Amazon немесе eBay сияқты интернет-дүкендер өз өнімдерінің бағаларын, тұтынушы пікірлерін және сұранысқа ие өнімдерді талдау үшін веб-скрапингті пайдаланады. Бұл әдіс үлкен көлемдегі мәліметтерді жинап, оларды нақты сұраныстар бойынша топтастыруға мүмкіндік береді.
2. Деректерді топтастыру және машиналық оқыту (Ұлыбритания)
Тәжірибе:Машиналық оқыту алгоритмдері арқылы деректерді топтастыру Ұлыбританиядағы қаржы және банк салаларында кеңінен қолданылады. Бұл әдіс үлкен көлемдегі қаржылық транзакцияларды талдау және алда болатын қаржылық дағдарыстарды болжауға арналған.
Мысал: Британдық банктерде тұтынушылардың төлем қабілеттілігін талдау үшін машиналық оқыту әдістерін қолданады, онда транзакцияларды топтастыру және сегментациялау арқылы несиелік тәуекелдерді болжауға болады.
3. Медициналық деректерді топтастыру (Германия)
Тәжірибе: Германияда медициналық деректерді топтастыру медициналық шешім қабылдау жүйелерін дамытуға бағытталған. Бұл деректерді топтастыру пациенттерді диагностикалау және емдеу әдістерін жақсарту үшін пайдаланылады.
Мысал: Пациенттердің электронды медициналық карталарын пайдаланып, ауруларды емдеуге арналған клиникалық шешімдер жүйесі деректерді өңдеп, әртүрлі аурулардың белгілерін топтастырып, диагноз қоюды оңтайландырады.
4. Әлеуметтік медиадағы деректерді алу және талдау (Үндістан)
Тәжірибе: Үндістанда әлеуметтік медиадан деректерді жинау арқылы халықтың пікірлерін талдау тәжірибесі кең таралған. Бұл әдіс саясат, экономика, мәдениет және қоғамдағы тенденцияларды бақылауға мүмкіндік береді.
Мысал:Үндістандағы саяси партиялар Twitter, Facebook сияқты әлеуметтік медиадан деректер жинап, азаматтардың ой-пікірін зерттейді және болашақтағы сайлау стратегияларын анықтайды.
5. Интернет заттары (IoT) және деректерді топтастыру (Жапония)
Тәжірибе:Жапония интернет заттары (IoT) технологияларын қолдану арқылы сенсорлардан алынған деректерді жинақтап, оларды топтастыру әдістерін дамытып келеді. Бұл өнеркәсіптік өндіріс пен ақылды қалаларды басқару саласында қолданылады.
Мысал:Жапониядағы ақылды қалалар жобасында IoT құрылғылары арқылы көлік қозғалысы, энергетикалық тұтыну және қоршаған ортаның жай-күйі туралы мәліметтер жиналады. Бұл деректерді топтастыру арқылы қаланы басқару тиімділігін арттыруға мүмкіндік береді.
Қорытынды:Жоғарыда аталған тәжірибелер сандық ақпаратты алу және деректерді топтастыру саласындағы әдістердің әлемнің әртүрлі салаларында кең қолданылатынын көрсетеді. АҚШ, Ұлыбритания, Германия, Үндістан және Жапония сияқты елдерде бұл әдістер деректерді жинақтау мен талдау арқылы жаңа мүмкіндіктерге жол ашады, түрлі салаларда шешім қабылдауды жақсартады.
2.3. САНДЫҚ АҚПАРАТТАРДЫ АЛУ ЖӘНЕ ДЕРЕКТЕРДІ ТОПТАСТЫРУ ТҮСІНІГІ БОЙЫНША ЗЕРТТЕУ ЖҮРГІЗГЕН АВТОРЛАР
Сандық ақпаратты алу және деректерді топтастыру бойынша зерттеу жүргізген көптеген авторлар мен зерттеушілер бар, олардың еңбектері әртүрлі салаларда қолданылуда. Төменде осы саладағы негізгі авторлар мен олардың зерттеу бағыттары туралы қысқаша мәліметтер берілген:
1. Томас Х. Дэвенпорт (Thomas H. Davenport)- американдық академик және аналитика, бизнес-процестердің инновацияларына маманданған автор, білімді басқару, және жасанды интеллект. Қазіргі уақытта ол Президенттің ақпараттық технологиялар және менеджмент саласындағы құрметті профессоры Бабсон колледжі, цифрлық экономика бойынша MIT бастамасының стипендиаты, Халықаралық аналитика институтының тең құрылтайшысы және Deloitte Analytics аға кеңесшісі.
Дэвенпорт жиырма кітап жазды, бірлесіп жазды немесе редакциялады, оның ішінде аналитикалық бәсекелестік туралы алғашқы кітаптар бар, бизнес-процесс реинжиниринг және кәсіпорын жүйелерінен құндылыққа қол жеткізу және ең жақсы сатушы, Жұмыс білімі (Ларри Прусакпен бірге),қосулы білімді басқару. Ол келесі басылымдарға жүзден астам мақала жазды Гарвард бизнесіне шолу, MIT Слоан менеджментіне шолу, Калифорния менеджментіне шолу, the Қаржы уақыты, және басқа да көптеген басылымдар. Дэвенпорт сонымен бірге шолушы болды Уолл-стрит журналы, CIO, Ақпараттық апта, және Forbes журналдар.
Оның ең танымал кітаптарының бірі (авторымен бірге Жанна Харрис), Аналитика бойынша бәсекелестік: жеңіске жетудің жаңа ғылымы,бәсекелестік стратегияларды іскери деректерді талдауға негіздеу бойынша нұсқаулықтар ұсынады және бірнеше фирмаларды бөліп көрсетеді.
Дэвенпорт сандық деректерді жинақтау және талдау саласындағы беделді ғалымдардың бірі болып табылады. Ол бизнес-аналитика және деректерді интеллектуалдық өңдеу (data mining) бағытындағы еңбектерімен танымал. Оның зерттеулері компаниялардың сандық ақпаратты қалай тиімді пайдалану керектігін, деректерді топтастыру арқылы бизнес нәтижелерін қалай жақсартуға болатынын талқылайды.
2. Клаудио Чери (Claudio Ceri)
Клаудио Чери - веб-деректерді алу және деректерді өңдеу саласында жұмыс істейтін зерттеуші. Оның еңбектері негізінен веб-скрапинг, веб-іздеу жүйелері және вебтегі ақпаратты құрылымдау әдістеріне бағытталған. Черидің зерттеулері веб-сайттардағы мәліметтерді автоматты түрде алуға және оларды құрылымдап, талдауға арналған.
3. Уэс Маккинни (Wes McKinney)- американдық бағдарламалық жасақтама жасаушы және кәсіпкер. Ол Python бағдарламалау тіліндегі деректерді талдауға арналған Ашық бастапқы pandas пакетін жасаушы және "өмір бойы мейірімді диктатор" (BDFL) және Python for Data Analysis анықтамалығының үш нұсқасының авторы.Ол сонымен қатар Apache Arrow, жадтағы тіларалық деректерді әзірлеу платформасын және Ibis, Python бірыңғай деректер жақтауының API құрушысы.
Джон Маккинни - "Pandas" кітапханасының авторы, бұл Python тілінде мәліметтерді талдауға арналған танымал құралдардың бірі. Ол сандық ақпаратты алу және оны топтастыру, талдау бағытындағы программалық әдістерді кеңінен зерттеген. Маккиннидің тәжірибесі үлкен көлемдегі деректерді өңдеуге және талдауға бағытталған.
4. Тревор Хасти (Trevor Hastie) және Роберт Тибширани (Robert Tibshirani)
Тревор Джон Хасти-американдық статистик және информатика маманы. Хасти қолданбалы статистикаға, әсіресе Машиналық оқыту, деректерді өндіру және биоинформатикаға қосқан үлесімен танымал. Ол бірнеше танымал статистикалық оқыту кітаптарының авторы, соның ішінде"статистикалық оқыту элементтері: деректерді өндіру, логикалық қорытынды және болжау". Роберт Тибширани - - Стэнфорд университетінің статистика және биомедициналық мәліметтер кафедрасының профессоры. Ол 1985 жылдан 1998 жылға дейін Торонто университетінің профессоры болды. Ол өз жұмысында геномика мен протеомикада соңғы рет күрделі деректер жиынтығын талдауға арналған статистикалық құралдарды әзірлейді.
Бұл авторлар статистика және машиналық оқыту саласындағы беделді зерттеушілер. Олардың еңбектері сандық деректерді топтастыру, регрессия және кластерлеу сияқты әдістерге арналған. "Elements of Statistical Learning" кітабы деректерді топтастыру мен өңдеу саласындағы маңызды жұмыстардың бірі болып саналады.
Бұл авторлардың еңбектері сандық ақпаратты тиімді алу, оны топтастыру және талдау саласындағы маңызды әдістемелерді дамытып, әртүрлі салаларда қолдануға мүмкіндік береді.
2.4. СТАТИСТИКАЛЫҚ АҚПАРАТТАРДЫ ТОПТАРҒА ЖІКТЕУ
Статистикалық зерттеудің бірінші кезеңі нәтижесінде алынған талданған популяцияның әр бірлігі туралы ақпарат оның әр жағынан статистикалық бақылауды сипаттайды, өйткені олардың уақыт пен кеңістікте өзгеретін көптеген белгілері мен қасиеттері бар. Жалпылама көрсеткіштерді қолдана отырып, бүкіл объектінің жиынтық сипаттамасын алу үшін статистикалық байқау кезінде алынған нәтижелерді жүйелеу және қорытындылау қажет. Бұл бізге статистикалық жиынтықтың ерекшеліктері мен ерекшеліктерін және оның жекелеген компоненттерін анықтауға, зерттелетін әлеуметтік - экономикалық құбылыстар мен ... жалғасы
География және табиғатты пайдалану факультеті
География, кадастр және жерге орналастыру кафедрасы
СӨЖ
Тақырыбы: Сандық ақпаратты алу және деректерді топтастыру түсінігі
Орындаған: Абибулла М. Спан Б.
Тексерген: Орынбасарова Г.О.
Алматы, 2024
МAЗМҰНЫ
КІРІCПЕ
НЕГІЗГІ БӨЛІМ
2.1.Сандық ақпараттардың негізгі міндеттері ... ... ... ... ... ... . ... ..5-7
2.2.Сандық мәліметтерді жинақтау туралы түсінік ... ... ... ... ... ... 7-8
2.3. Сандық ақпаратты алу және деректерді топтастыру түсінігі бойынша зерттеу жүргізген авторлар ... ... ... ... ... ... ... ... ... ... ... ... ... ... .
2.4.Статистикалық ақпараттарды топтарға жіктеу ... ... ... ... ... ... .8-9
2.5.Топтарды құру, деректерді жинау схемасы ... ... ... ... ... ... ... .9-1
ҚOРЫТЫНДЫ
ПAЙДAЛAНЫЛҒAН ӘДEБИEТТEР
КІРІСПЕ
Сандық ақпарат ұғымы күнделікті өмірден бастап техникалық салада пайдаланылатын көп мағыналы ұғым. Жалпы алғанда бұл ұғым шектеу, байланыс, бақылау, форма, инструкция, білiм, мағына, құрылым, бейнелеу, сезіну тағы басқа ұғымдармен тығыз байланысты. Статистика (лат.status - жай-күй) - білім саласы, бұқаралық әлеуметтік-экономикалық құбылыстар мен үдерістердің сандық және сапалық көрсеткіштерін зерделейтін ғылым;
қоғам өмірінің сандық заңдылықтарын олардың сапалық мазмұнымен ажырағысыз байланыста сипаттайтын статистик. ақпаратты жинап, өңдеуді, талдау мен жариялауды қамтитын практик. қызмет саласы; жарияланатын сандық деректердің, бақыланбалы нысанның сан немесе сапа тұлғасындағы күйін тиянақтайтын бақылау нәтижелерінің жиынтығы. қоғам өмірінің сандық жақтарында болатын құбылыстарды меңгеретін және көп жылдық тарихы бар ерекше ғылым немесе білім саласы. Оның шығу төркіні әр түрлі қоғамдық тұтынушыларға, мал санына, жер-су көлеміне, дүние-мүлік және басқалар есебіне байланысты. Әр-алуан белгілі бір статистикалық деректер жиыны ретінде де түсінуге болады (өлім статистикасы, торбетке кіру статистикасы т.б.).
Статистика сөзі ғылыми әдебиетте 18 ғасырда қолданысқа енді және алғашқыда "мемлекеттану" деген мағынада ұғынылды. Бірақ статистика ғылымы 17 ғасырдың ортасында "саяси арифметика" нысанында дами бастады. Ғылымдағы бұл бағыттың бастауында ағылшын ғалымы - Уильям Петти тұрды. Статистика терминін ғылымға 1746 жылы неміс ғалымы Готфрид Ахенваль өзі сабақ беретін Германия университетінде "Мемлекет ісін жүргізу" курсының орнына "Статистиканы" қолдануды ұсынды. Осыған қарамастан статистиалық санаулар бұданда ерте жүргізілген болатын: Көне Қытайдахалық санағы, Көне Римде елдердің әскери күшін салыстыру, азаматтардың мүліктерін бағалау.
Статистика 19 ғасырдың басында А.Кетленің және оның мектебі өкілдерінің еңбектерінде қоғамдық құбылыстардың заңдылықтарын зерделейтін ғылым мен құралға айналды.
Күнделікті цифрлық технологиялар айналамыздағы әлемді толтырады, бұл процесс уақытпен ғана жеделдейді. Біздің күнделікті өмірімізде әрқайсысы әртүрлі цифрлық құрылғылардың көп саны бар, олардың әрқайсысы тұтынушыға түсінікті және түсінікті емес сипаттамалары мен қасиеттері бар. Электрондық құрылғылардың кейбіреулері, сондай-ақ компьютерлік бағдарлама, белгілі бір қара жәшіктермен тұтынушыға қалады, оның құрылғысы мен жұмыс принципі жасырылған.
Тұтынушылардың аудио жабдықтары, сондай-ақ жабдықтардың қалған бөлігі - бірте-бірте және сенімді түрде сандық рельстерге ауысып бара жатқандықтан, оның параметрлері күрделене түседі және жұмыс принципі азаяды. Бұл эссе цифрлық аудио және сандық аудио және бейне техникасы саласындағы әмбебап нұсқаулық емес, бірақ біз қазіргі заманғы цифрлық технологиялар мен құрылғылардың негізінде жатқан негізгі идеяларды, сондай-ақ теориялық және практикалық қағидаларды шешуге тырысамыз. Осында қамтылған ақпарат оқырман үшін пайдалы болады деп үміттенемін және кейбір негізгі теориялық негізді қамтамасыз етеді, оның түсінігі барлық белсенді аудио әуесқойлар, кез-келген сандық құрылғыны пайдаланушылар үшін қажет.
2.1. САНДЫҚ АҚПАРАТТАРДЫҢ НЕГІЗГІ МІНДЕТТЕРІ
Сандық зерттеулер әдетте салыстырмалы түрде үлкен көлемде жұмыс істейді. Осыған байланысты, статистикалық талдау, регрессиялар немесе тіпті үлкен деректер беру әдістері сияқты әдістерді қолдану арқылы сенімді қорытынды жасау және зерттелген айнымалылар арасындағы заңдылықтар мен қатынастарды табу өте маңызды. Осы себепті, сандық тергеуді сенімді деп санау үшін, ол салыстырмалы түрде жоғары санмен жұмыс істеуі керек. Бұл сапалы зерттеулерде болатын жағдайға қарама-қайшы, онда сарапшы бір ғана құбылысты терең түсінуге бағытталады.
Біз таба алатын сандық зерттеулердің барлық түрлерін топтастыруға тырысатын көптеген әр түрлі жіктемелер бар. Ең көп тарағандарының бірі - оларды төрт классқа бөлетін топ: сауалнамалар, корреляциялық зерттеулер, себеп тергеу және эксперименттер. Әрі қарай олардың әрқайсысы неден тұратындығын көреміз.
Сандық зерттеу әдістері -- бұл сандық деректерді жинауға және талдауға бағытталған зерттеу әдістері. Сандық әдістер индуктивтік тәсіл шеңберінде себеп-салдарлық байланыстар мен статистикалық заңдылықтарды анықтау, сондай-ақ дедуктивтік тәсіл шеңберінде эмпирикалық зерттеулер мен позитивистік принциптер негізінде қалыптасқан теорияларды тексеру үшін қолданылады. Әлеуметтік ғылымдарда сандық және сапалық зерттеу әдістері бөлінеді.
Бұл зерттеу әдісі табиғи және әлеуметтік ғылымдармен байланысты, бұл бақылауға алынған құбылыстарды объективті эмпирикалық зерттеуді жүзеге асыруға мүмкіндік береді. Мұндай зерттеу арқылы көптеген сандық әдістер мен тәсілдер қолданылады, бұл әртүрлі академиялық пәндерде зерттеу стратегиясы ретінде кеңінен пайдаланылуда.
Сандық зерттеулердің мақсаты -- құбылыстарға қатысты математикалық модельдер, теориялар құрастыру және гипотезалар жасау. Өлшеу процесі сандық зерттеудің орталық орны болып табылады, себебі ол эмпирикалық бақылау мен математикалық өрнек арасында негізді байланыс қамтамасыз етеді.
Сандық деректер -- бұл статистика, пайыздар және т.б. сияқты сандық формадағы деректер. Зерттеуші бұл деректерді статистикалық әдістермен талдап, сандардың үлкен жиынтыққа жалпыланатын бейтарап нәтиже беруін күтеді. Ал сапалық зерттеулер нақты тәжірибені тереңінен зерттеп, құбылыстың мәнін сипаттау және зерттеу үшін мәтіндер немесе визуалдық деректер пайдалана отырып, экспериментке қатысушылар үшін одан әрі жұмыс бағытын анықтайды.
Сандық зерттеулер психология, экономика, демография, социология, маркетинг, денсаулық сақтау, гендерлік зерттеулер және саясаттану салаларында кеңінен қолданылады; антропология мен тарихта сирек. Физика сияқты математикалық ғылымдардағы зерттеулер анықтамасы бойынша сандық болып табылады.
Сапалық зерттеу тек жеке зерттелген жағдайлар туралы ақпарат береді, ал кез келген жалпы қорытындылар тек гипотезалар болып табылады. Сандық әдістер осындай гипотезалардың қайсысының дұрыс екенін тексеру үшін қолданылуы мүмкін. 1935 жылдан 2005 жылға дейінгі аралықта екі жетекші америкалық социологиялық журналда жарияланған 1274 мақаланың жан-жақты талдауы бұл мақалалардың шамамен үштен екісі сандық әдісті пайдаланғанын көрсетті.
Сауалнамалар-сандық зерттеулер жүргізуге болатын ең негізгі құралдар. Оның негізгі мақсаты - белгілі бір санда статистикалық деңгейде ең көп таралған жауаптар болып табылатын түсіну мақсатында қатысушылардың азды-көпті санына сұрақтар қою. Сауалнама дәстүр бойынша жеке немесе телефон арқылы жүргізілді. Қазіргі уақытта оларды жаңа технологияларды қолдану арқылы жүзеге асыруға болады. Осылайша, көптеген зерттеушілер Интернетті әр түрлі сауалнамалар жасау үшін пайдаланады және нарықтың қажеттіліктері немесе оның тәртібі туралы көбірек біледі.Сауалнамалар әлемінде көптеген баламалар бар. Олардың кейбіреулері белгілі бір аудиториямен ғана қолданылады, ал басқалары статистикалық талдаудың көмегімен әртүрлі топтарды салыстырады.
Корреляциялық зерттеулер дегеніміз - екі құбылыс немесе болмыс арасындағы байланысты орнату мақсаты бар зерттеулер. Идеясы, олардың қалай өзгеретінін түсіну, тіпті олардың арасындағы себеп-салдарлық қатынастар туралы қорытынды жасай алмасаңыз да. Корреляциялық зерттеулер көбінесе статистика мен математикалық талдауға негізделген. Бұл құралдар тенденцияларды, заңдылықтарды және қатынастарды табу үшін қолданылады. Алайда, зерттеудің тек осы түрлеріне негізделген қорытынды жасамау ұсынылады.
Бұл зерттеу әдісі квази-эксперименталды деп те аталады. Ол негізінен екіншісіне тәуелді болатын екі айнымалының арасындағы себептік қатынастарды зерттеу үшін қолданылады. Алайда, бұл әдістің осыған ұқсас әдістерден айырмашылығы-себепті тергеулерде тәуелді айнымалы манипуляцияланбайды, тек байқалады.
Квази-эксперименттік тергеулер, егер олардың кем дегенде біреуі тәуелсіз деп саналса, екіден көп айнымалымен жүргізілуі мүмкін; яғни олардың өзгерістері зерттеуге қатысатын адамдарға әсер етеді. Алдыңғы жағдайдағыдай, нәтижелер мен қорытындылар статистикалық талдау жүргізуден шығады.Сандық зерттеулер алғашқы деректерді жинау және талдауды сипаттайды. Бұндай зерттеулер нақты, статистикалық сандық деректер қажет болғанда жүргізіледі. Сандық зерттеулер әдісінің негізінде
нақты математикалық және статистикалық моделдер жатыр, нәтижесінде
зерттелетін көрсеткіштердің нақты сандық мәндеріне ие боламыз. Сандық зерттеулер (тұтынушыларды зерттеу), Қанша? деген сұраққа жауап алуға мүмкіндік береді, зерттелетін параметрлердің таралуына баға бере отырып сонымен қатар олардың көлемін: нарықтағы үлесін, танымалдылығын және т.б. бағалауға мүмкіндік берді. Сандық маркетингтік зерттеулер арқылы шешілетін міндеттер: орыс тілінде қате
:: Табиғи және ақша түріндегі нарықтың потенциалды және шынайы көлемін және сыйымдылығын бағалау.
:: Негізгі бәсекелестер арасында нарықтық үлестерді үйлестіруге бағаберу
:: Тұтынушылардың негізгі сараланымдарын анықтау
:: Тұтынушының тауарды сатып алуға дайындығын, тауардың нарықтағы өз орнын алудағы үрдістерін және болашағын анықтау
:: Тұтынушының кейпін анықтау: әлеуметтік-демографиялық, психологиялық сипаттамалар негізінде
:: Тұтынушының тауарға деген қатынасын білдіретін параметрлер негізінде өлшеу жүргізу
:: Жаңа тауарды немесе қызметті тұтынып көргендер арасында қайта сатып алу жүйесін жоспарлау
:: Тауарға ең үздік қаптаманы анықтау
:: Тауарға немесе қызметке оңтайлы бағаны анықтау
:: Бос тауашаларды анықтау
:: Бар тауардың нарық талаптарына лайықтығына баға беру
:: Жарнама науқандарының және т.б коммуникациялық каналдардың тиімділігіне баға беру
:: Тауар немесе қызмет сатылымының деңгейіне баға беру
:: Өнімнің жекелеп сату желісіндегі таныстырылымына баға беру Сандық зерттеу әдісінің басымдылықтары:
:: Зерттеу объектісінің кең ауқымын қамту (респонденттерді, орындарды және т.б).
:: Алайда қолжетімділігі күрделі сегменттерге (тұрғындардың жоғарғытөменгі әлеуметтік қабаттарындағы) сапалық әдістердің
қолданылуы дәстүрлі болып табылады (case study)
:: Сұрауға қатысушылардың құпиялығының сақталу мүмкіндігі. Сандық зерттеуге арналған анкета анонимді сипатқа ие болуы мүмкін. Сандық
зерттеулер жүргізгенде сұрау жүргізуші респонденттің атын, мекенжайын және телефонын анықтайды, бұл сұрау жүргізушінің жұмысына сапалы бақылау жүргізуге мүмкіндік береді.
:: Көрнекті құралдарды пайдалану мүмкіндігі (карточалар, фотолар,
жарнама плакаттар және т.б.).
Сандық зерттеудің түрлері
Түрлі форматтағы алғашқы ақпараттарды жинауға мүмкіндік беретін тсандық зерттеулердің бірнеше түрлері болады:
:: Жеке сұрау (face-to-faсe)
:: Көшедегі сұхбат
:: Сатып алу орындарындағы сұхбат
:: Пәтердегі сұхбат (кең тараған әдіс, іріктеу жиынтығының бас
жиынтыққа сәйкестігін максималды түрде қамтамасыз етеді).
:: Өнімді тестілеу (hall и home tests).
:: Тауарды тексеру (retail audit)
2.2. САНДЫҚ МӘЛІМЕТТЕРДІ ЖИНАҚТАУ ТУРАЛЫ ТҮСІНІК.
Статистикалық бақылау нәтижесінде жинақталған агрегаттар тексеруден кейін қорытынды жасау үшін жүйелендірілуі тиіс. Статистикалық деректерді жинаудың негізгі мақсаты-бақылау нәтижесінде жиналған деректердің қорытынды көрсеткіштерін есептеу. Статистикалық жинақтаудың екі түрі бар: қарапайым және күрделі.
Қарапайым жалпылау қорытындыларды топтастырусыз жалпыланған ақпаратты, материалдарды жалпылау.
Кешенді жинақтау бағдарлама бойынша жиынтық бірліктерді топтарға бөлу және әр топ бойынша сомаларды есептеу.
Деректерді жинау екі жолмен ұйымдастырылады:
1. Барлық деректерді бір орталыққа жинап, қорытынды жасаңыз.
2.бастапқы мәліметтер төменгі сатыдағы мекемеде жиналады және қорытынды жоғары мекемеге беріледі.
Деректер қолмен және машинамен жинақталады. Деректерді сандық белгілеу, оларды жинақтау, бөлу, жалпылау қолмен жинақтау әдісіне жатады.
Машиналық жинау электрондық есептеу машиналарында және компьютерлерде жүргізіледі. Осылайша, статистикалық жалпылау дегеніміз-бақылау нәтижесінде жинақталған бастапқы деректерді ғылыми жүйеде өңдеу және жиынтық бірліктердің белгілері бойынша топтастыру, қорытынды көрсеткіштерді есептеу.
Сандық ақпаратты алу және деректерді топтастыру бойынша шетелдердегі бірнеше тәжірибелер әртүрлі салаларда қолданылып келеді. Төменде кемінде 5 тәжірибе қарастырылған:
1. Веб-скрапинг және деректерді жинау (АҚШ)
Тәжірибе:Веб-скрапинг - интернеттен автоматты түрде мәліметтер алу әдісі. АҚШ-та бұл әдіс маркетинг, әлеуметтік медиа талдау және зерттеу салаларында кеңінен қолданылады.
Мысал: Amazon немесе eBay сияқты интернет-дүкендер өз өнімдерінің бағаларын, тұтынушы пікірлерін және сұранысқа ие өнімдерді талдау үшін веб-скрапингті пайдаланады. Бұл әдіс үлкен көлемдегі мәліметтерді жинап, оларды нақты сұраныстар бойынша топтастыруға мүмкіндік береді.
2. Деректерді топтастыру және машиналық оқыту (Ұлыбритания)
Тәжірибе:Машиналық оқыту алгоритмдері арқылы деректерді топтастыру Ұлыбританиядағы қаржы және банк салаларында кеңінен қолданылады. Бұл әдіс үлкен көлемдегі қаржылық транзакцияларды талдау және алда болатын қаржылық дағдарыстарды болжауға арналған.
Мысал: Британдық банктерде тұтынушылардың төлем қабілеттілігін талдау үшін машиналық оқыту әдістерін қолданады, онда транзакцияларды топтастыру және сегментациялау арқылы несиелік тәуекелдерді болжауға болады.
3. Медициналық деректерді топтастыру (Германия)
Тәжірибе: Германияда медициналық деректерді топтастыру медициналық шешім қабылдау жүйелерін дамытуға бағытталған. Бұл деректерді топтастыру пациенттерді диагностикалау және емдеу әдістерін жақсарту үшін пайдаланылады.
Мысал: Пациенттердің электронды медициналық карталарын пайдаланып, ауруларды емдеуге арналған клиникалық шешімдер жүйесі деректерді өңдеп, әртүрлі аурулардың белгілерін топтастырып, диагноз қоюды оңтайландырады.
4. Әлеуметтік медиадағы деректерді алу және талдау (Үндістан)
Тәжірибе: Үндістанда әлеуметтік медиадан деректерді жинау арқылы халықтың пікірлерін талдау тәжірибесі кең таралған. Бұл әдіс саясат, экономика, мәдениет және қоғамдағы тенденцияларды бақылауға мүмкіндік береді.
Мысал:Үндістандағы саяси партиялар Twitter, Facebook сияқты әлеуметтік медиадан деректер жинап, азаматтардың ой-пікірін зерттейді және болашақтағы сайлау стратегияларын анықтайды.
5. Интернет заттары (IoT) және деректерді топтастыру (Жапония)
Тәжірибе:Жапония интернет заттары (IoT) технологияларын қолдану арқылы сенсорлардан алынған деректерді жинақтап, оларды топтастыру әдістерін дамытып келеді. Бұл өнеркәсіптік өндіріс пен ақылды қалаларды басқару саласында қолданылады.
Мысал:Жапониядағы ақылды қалалар жобасында IoT құрылғылары арқылы көлік қозғалысы, энергетикалық тұтыну және қоршаған ортаның жай-күйі туралы мәліметтер жиналады. Бұл деректерді топтастыру арқылы қаланы басқару тиімділігін арттыруға мүмкіндік береді.
Қорытынды:Жоғарыда аталған тәжірибелер сандық ақпаратты алу және деректерді топтастыру саласындағы әдістердің әлемнің әртүрлі салаларында кең қолданылатынын көрсетеді. АҚШ, Ұлыбритания, Германия, Үндістан және Жапония сияқты елдерде бұл әдістер деректерді жинақтау мен талдау арқылы жаңа мүмкіндіктерге жол ашады, түрлі салаларда шешім қабылдауды жақсартады.
2.3. САНДЫҚ АҚПАРАТТАРДЫ АЛУ ЖӘНЕ ДЕРЕКТЕРДІ ТОПТАСТЫРУ ТҮСІНІГІ БОЙЫНША ЗЕРТТЕУ ЖҮРГІЗГЕН АВТОРЛАР
Сандық ақпаратты алу және деректерді топтастыру бойынша зерттеу жүргізген көптеген авторлар мен зерттеушілер бар, олардың еңбектері әртүрлі салаларда қолданылуда. Төменде осы саладағы негізгі авторлар мен олардың зерттеу бағыттары туралы қысқаша мәліметтер берілген:
1. Томас Х. Дэвенпорт (Thomas H. Davenport)- американдық академик және аналитика, бизнес-процестердің инновацияларына маманданған автор, білімді басқару, және жасанды интеллект. Қазіргі уақытта ол Президенттің ақпараттық технологиялар және менеджмент саласындағы құрметті профессоры Бабсон колледжі, цифрлық экономика бойынша MIT бастамасының стипендиаты, Халықаралық аналитика институтының тең құрылтайшысы және Deloitte Analytics аға кеңесшісі.
Дэвенпорт жиырма кітап жазды, бірлесіп жазды немесе редакциялады, оның ішінде аналитикалық бәсекелестік туралы алғашқы кітаптар бар, бизнес-процесс реинжиниринг және кәсіпорын жүйелерінен құндылыққа қол жеткізу және ең жақсы сатушы, Жұмыс білімі (Ларри Прусакпен бірге),қосулы білімді басқару. Ол келесі басылымдарға жүзден астам мақала жазды Гарвард бизнесіне шолу, MIT Слоан менеджментіне шолу, Калифорния менеджментіне шолу, the Қаржы уақыты, және басқа да көптеген басылымдар. Дэвенпорт сонымен бірге шолушы болды Уолл-стрит журналы, CIO, Ақпараттық апта, және Forbes журналдар.
Оның ең танымал кітаптарының бірі (авторымен бірге Жанна Харрис), Аналитика бойынша бәсекелестік: жеңіске жетудің жаңа ғылымы,бәсекелестік стратегияларды іскери деректерді талдауға негіздеу бойынша нұсқаулықтар ұсынады және бірнеше фирмаларды бөліп көрсетеді.
Дэвенпорт сандық деректерді жинақтау және талдау саласындағы беделді ғалымдардың бірі болып табылады. Ол бизнес-аналитика және деректерді интеллектуалдық өңдеу (data mining) бағытындағы еңбектерімен танымал. Оның зерттеулері компаниялардың сандық ақпаратты қалай тиімді пайдалану керектігін, деректерді топтастыру арқылы бизнес нәтижелерін қалай жақсартуға болатынын талқылайды.
2. Клаудио Чери (Claudio Ceri)
Клаудио Чери - веб-деректерді алу және деректерді өңдеу саласында жұмыс істейтін зерттеуші. Оның еңбектері негізінен веб-скрапинг, веб-іздеу жүйелері және вебтегі ақпаратты құрылымдау әдістеріне бағытталған. Черидің зерттеулері веб-сайттардағы мәліметтерді автоматты түрде алуға және оларды құрылымдап, талдауға арналған.
3. Уэс Маккинни (Wes McKinney)- американдық бағдарламалық жасақтама жасаушы және кәсіпкер. Ол Python бағдарламалау тіліндегі деректерді талдауға арналған Ашық бастапқы pandas пакетін жасаушы және "өмір бойы мейірімді диктатор" (BDFL) және Python for Data Analysis анықтамалығының үш нұсқасының авторы.Ол сонымен қатар Apache Arrow, жадтағы тіларалық деректерді әзірлеу платформасын және Ibis, Python бірыңғай деректер жақтауының API құрушысы.
Джон Маккинни - "Pandas" кітапханасының авторы, бұл Python тілінде мәліметтерді талдауға арналған танымал құралдардың бірі. Ол сандық ақпаратты алу және оны топтастыру, талдау бағытындағы программалық әдістерді кеңінен зерттеген. Маккиннидің тәжірибесі үлкен көлемдегі деректерді өңдеуге және талдауға бағытталған.
4. Тревор Хасти (Trevor Hastie) және Роберт Тибширани (Robert Tibshirani)
Тревор Джон Хасти-американдық статистик және информатика маманы. Хасти қолданбалы статистикаға, әсіресе Машиналық оқыту, деректерді өндіру және биоинформатикаға қосқан үлесімен танымал. Ол бірнеше танымал статистикалық оқыту кітаптарының авторы, соның ішінде"статистикалық оқыту элементтері: деректерді өндіру, логикалық қорытынды және болжау". Роберт Тибширани - - Стэнфорд университетінің статистика және биомедициналық мәліметтер кафедрасының профессоры. Ол 1985 жылдан 1998 жылға дейін Торонто университетінің профессоры болды. Ол өз жұмысында геномика мен протеомикада соңғы рет күрделі деректер жиынтығын талдауға арналған статистикалық құралдарды әзірлейді.
Бұл авторлар статистика және машиналық оқыту саласындағы беделді зерттеушілер. Олардың еңбектері сандық деректерді топтастыру, регрессия және кластерлеу сияқты әдістерге арналған. "Elements of Statistical Learning" кітабы деректерді топтастыру мен өңдеу саласындағы маңызды жұмыстардың бірі болып саналады.
Бұл авторлардың еңбектері сандық ақпаратты тиімді алу, оны топтастыру және талдау саласындағы маңызды әдістемелерді дамытып, әртүрлі салаларда қолдануға мүмкіндік береді.
2.4. СТАТИСТИКАЛЫҚ АҚПАРАТТАРДЫ ТОПТАРҒА ЖІКТЕУ
Статистикалық зерттеудің бірінші кезеңі нәтижесінде алынған талданған популяцияның әр бірлігі туралы ақпарат оның әр жағынан статистикалық бақылауды сипаттайды, өйткені олардың уақыт пен кеңістікте өзгеретін көптеген белгілері мен қасиеттері бар. Жалпылама көрсеткіштерді қолдана отырып, бүкіл объектінің жиынтық сипаттамасын алу үшін статистикалық байқау кезінде алынған нәтижелерді жүйелеу және қорытындылау қажет. Бұл бізге статистикалық жиынтықтың ерекшеліктері мен ерекшеліктерін және оның жекелеген компоненттерін анықтауға, зерттелетін әлеуметтік - экономикалық құбылыстар мен ... жалғасы
Ұқсас жұмыстар
Пәндер
- Іс жүргізу
- Автоматтандыру, Техника
- Алғашқы әскери дайындық
- Астрономия
- Ауыл шаруашылығы
- Банк ісі
- Бизнесті бағалау
- Биология
- Бухгалтерлік іс
- Валеология
- Ветеринария
- География
- Геология, Геофизика, Геодезия
- Дін
- Ет, сүт, шарап өнімдері
- Жалпы тарих
- Жер кадастрі, Жылжымайтын мүлік
- Журналистика
- Информатика
- Кеден ісі
- Маркетинг
- Математика, Геометрия
- Медицина
- Мемлекеттік басқару
- Менеджмент
- Мұнай, Газ
- Мұрағат ісі
- Мәдениеттану
- ОБЖ (Основы безопасности жизнедеятельности)
- Педагогика
- Полиграфия
- Психология
- Салық
- Саясаттану
- Сақтандыру
- Сертификаттау, стандарттау
- Социология, Демография
- Спорт
- Статистика
- Тілтану, Филология
- Тарихи тұлғалар
- Тау-кен ісі
- Транспорт
- Туризм
- Физика
- Философия
- Халықаралық қатынастар
- Химия
- Экология, Қоршаған ортаны қорғау
- Экономика
- Экономикалық география
- Электротехника
- Қазақстан тарихы
- Қаржы
- Құрылыс
- Құқық, Криминалистика
- Әдебиет
- Өнер, музыка
- Өнеркәсіп, Өндіріс
Қазақ тілінде жазылған рефераттар, курстық жұмыстар, дипломдық жұмыстар бойынша біздің қор #1 болып табылады.

Ақпарат
Қосымша
Email: info@stud.kz