Машиналық оқыту әдістерінің болжау жасаудағы маңызы
Қазақстан Республикасының білім және ғылым министрлігі
Л.Н.Гумилев атындағы Еуразия ұлттық университеті ШЖҚ РМК
Механика-математика факультеті
Математикалық және компьютерлік модельдеу кафедрасы
Ғылыми-зерттеу жұмысының есебі
III семестр
Болжау есептерін шешуде машиналық оқыту әдістерін қолдану
Компьютерлік моделдеу және ақпаратты қорғаудың әдістері тобының
2 курс магистранты Зарлыкова М.А.
Ғылыми жетекшісі ф.-м.ғ.к. Абдрашева Г.К.
Нұр-Сұлтан, 2020
Мазмұны
Кіріспе ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...
3
1 Машиналық оқыту әдістерінің теориялық негіздері ... ... ... ... ... ... ... ... ... ...
5
1.1
Машиналық оқытудың түсінігі және тарихы ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. ... ... ... ... ... ... ... ...
5
1.2
Машиналық оқыту әдістерінің орталарына шолу ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. ... ... ... ... ... ... ... ... ... .. ...
10
1.3
Машиналық оқыту әдістерінің болжау жасаудағы маңызы ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. ... ... ... ... ... ... ... ..
16
2 Машиналық оқыту әдістерінің практикалық негіздері ... ... ... ... ... ... .. ... ...
19
2.1
Python бағдарламасы ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. ... ...
19
2.2
Anaconda Python бағдарламалау тілінің сипаттамасы ... ... ... ... ... ... ... ..
20
2.3
Болжау есептерін шешуде машиналық оқыту әдістерін қолдану ... ... ...
0
Қорытынды ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. ... ... ... ... ... ... ... ... ...
0
Пайдаланылған-әдебиеттер тізімі ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .
22
Қосымша ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. ... ... ... ... ... ... ... ... ... ...
0
Кіріспе
Машиналық оқыту - деректерді талдау әдісі, ол аналитикалық модельді құруды автоматтандырады. Бұл машиналар тәжірибе арқылы үйреніп, бейімделуі тиіс идеясына негізделген жасанды интеллект саласы. Ол компьютермен жиналған статистикалық деректер негізінде болжамдар жасайтын есептеуіш статистикамен тығыз байланысты. Ол кейде деректерді интеллектуалды талдаумен шатастырады, бірақ бұл барлау деректерін талдауға көбірек бағытталған, ал машиналық оқыту негізінен болжау үшін пайдаланылатын күрделі алгоритмдерді қамтиды, Машиналық оқыту оқу деректері арқылы алынған белгілі атрибуттардың негізінде болжауға шоғырланады, содан кейін деректерді іздеу кез келген деректерде белгісіз атрибуттарды іздеуге көбірек назар аударады. Машиналық оқыту осындай компьютерлік бағдарламалар мен алгоритмдерді әзірлеуге шоғырланады,олар жаңа деректерді беру кезінде өсіп, бейімделуді үйренеді.Бұл процесс ұқсас емес деректерді интеллектуалды талдау процесі. Екі жүйе оларға берілген деректер арқылы өтеді немесе шаблондарды іздеуде жиналады. Дегенмен, деректерді зияткерлік талдау үшін қосымшаларда, деректер адамның түсінуі үшін алынады, ал машиналық оқыту алгоритмдері бұл деректерді деректер үлгілерін іздеу және тиісінше әрекеттерді өзгерту үшін пайдаланады. Бірақ қазіргі заманғы зерттеулердің статистикалық саласы уақыттың аймағынан тыс, бейнелерді тану және деректерді іздеу желісінде болады.
Машиналық оқыту негізінен көптеген параметрлерді оңтайландыру әдісіне негізделген диапазонды немесе спектрді қолданады. Мұндай оңтайлы параметрді қолмен табу адамдар үшін қиын. Мысалы, динамика пен амплитуда арасындағы байланысты қарапайым халық түсіне алмайды. Машиналық оқытудың кез-келген жағдайда жұмыс жасап кетуіне ешқандай кепілдік жоқ. Кейде машинамен оқыту сәтсіз болады, дұрыс алгоритмді қолдану үшін шешілуі керек мәселені түсінуді талап етеді. Бұл оқытуда алгоритмдері көптеген мәліметтерді қажет етеді. Мұндай үлкен көлемдегі деректермен жұмыс істеу немесе оларды жинау өте қиын. Бірақ қол жетімді деректердің мөлшерін арттыру арқылы біз модельдер мен алгоритмдерді жылдам және автоматты түрде жасай аламыз. Сондықтан машиналық оқыту аз уақыттың ішінде кең таралуда және біздің күнделікті өміріміздің ажырамас бөлігіне айналды.
Жұмыстың мақсаты. Зерттелетін, болжауды қажет ететін нақты сала бойынша машиналық оқыту әдістеріне негізделген программа кодында болжау алгоритмін құру және жүзеге асыру.
Зерттеу әдістері. Модельдеу нәтижелерін талдау, интерпретациялау және зерттелетін объектінің нақты көрсеткіштерімен салыстыру мақсатында бірқатар есептеу эксперименттерін жүргізуді талап етеді, сондай-ақ, қажет болған жағдайда нәтижеге байланысты енгізу параметрлері соңында қайта нақтыланады.
Ғылыми жаңашылдығы.
Күтілетін нәтижелері.
1. Машиналық оқыту әдістерінің теориялық негіздері
1.1 Машиналық оқытудың түсінігі және тарихы
Машиналық оқыту дегеніміз не?
Машиналық оқыту -- бұл жасанды интеллект әдістерінің классы. Оның сипаттамасы мәселені тікелей шешу емес, көптеген ұқсас мәселелерге шешім қолдану процесінде жаттығу болып табылады. Мұндай әдістерді құру үшін математикалық статистика, сандық әдістер, оңтайландыру әдістері, ықтималдық теориясы, графтар теориясы, сандық түрде мәліметтермен жұмыс істеудің әртүрлі әдістері қолданылады. Машиналық оқыту күнделікті біздің өмірімізде көптеген қолданыстарға ие болуда. Оның қолданылуының кеңдігіне байланысты IT технологияда маңызды орын алады. Қазіргі кезде машиналық оқыту әдістеріне негізделген кейбір қосымшалар жақсы жұмыс істейді.
Жасанды Интеллект тарихына тоқталсақ, 1955 жылы ең алғашқы компьютердің пайда болуымен қатар жасанды интеллект ұғымы ұсынылды. 1980 жылдардың басында Есептеу теориясы саласындағы ғалымдар Барр және Файгенбаум Жасанды Интеллект туралы анықтама берді. Жасанды интеллект -- интеллектуалдық компьютерлік жүйелердің дамуымен айналысатын информатика саласы. Оның мүмкіндіктеріне ие жүйелер -- тіл, түсіну, ойлау қабілеті, проблемаларды шешу және тағы басқалары.
Енді Жасанды Интеллект көптеген алгоритмдерге және бағдарламалық жасақтама жүйелеріне жатады. Олардың ерекшелігі олардың шешімі туралы ойлайтын адам ретінде кейбір мәселелерді шеше алатындығына байланысты. Жасанды Интеллект негізгі қасиеттері -- тіл түсіну, ойлау қабілеті және ойлау қабілеті. әрекет ету. 1940 жылдардың аяғынан бастап ойлау процесін модельдеу саласында өзгерістер болды.Ол зерттеулер екі көзқарасқа бөлінді. Олар нейрокибернетикалық және логикалық.
1.Нейрокибернетикалық әдіс өсіп келе жатқан түрге жатады. Ол салада көбінесе нейрондық желілердің және эволюциялық есептеулердің биологиялық аспектісін зерттеу әдісін ұсынады.
2.Логикалық тұжырым Жасанды Интеллекттің жоғарғы сатысына жатады. Ол салада жоғары деңгейлі психикалық процестерді: ойлау, ойлау, сөйлеу, эмоциялар, шығармашылық және т.б. сияқты имитациялық жүйелерді, білім базаларын және шығу жүйелерін зерттейді.
Жасанды Интеллект қызметі -- бұл сапалы және тез дамитын байланысты технологиялар мен процестердің кешені, мысалы:
* табиғи тілдегі мәтінді өңдеу;
* машиналық оқыту;
* сараптамалық жүйелер;
* виртуалды агенттер (чат боттар);
* ұсыныстар жүйесі;
Бұл сапалы жаңа клиент тәжірибесін және өзара әрекеттесу үрдісін құруға көмектеседі.
Интеллект -- бұл келесі қабілеттерге ие адамның психикалық компоненті.Ол адаптивттік, тәжірибе мен білімді жинақтау, қоршаған дағдыларды қолдану мүмкіндігі. Зияткерлік адамның шындықты білу қабілетін оятады. Оның көмегімен адамдар ойлайды, жаңа ақпаратты есте сақтайды, қоршаған ортаны түсінеді және тағы басқалар.Қазіргі кезде жасанды интеллект бойынша жұмыс жақсы өтуде.
Қазір Жасанды Интеллектке адамның мәселелерін шешетін жаңа бағдарламалар мен алгоритмдер жасалуда. Бизнесте машина жасауды оқыту ЖИ-нің анықтамасы осы бағытта дамып келе жатыр. Бұл жасанды интеллекттің пайда болуының ықпалын білдіреді, бұл белгілі бір прогреске қол жеткізді. Мысалы, Жасанды Интеллект қандай да бір әрекеттерді орындауға үйренсе, онда осы жетістіктердің машинада ойдың бар екендігін көрсетеді.
Бүгінде жасанды интеллекттің дамуы екі тәуелсіз бағытта жүреді: нейрокибернетика, логикалық тәсіл. Бірінші бағыт биология тұрғысынан нейрондық желілер мен эволюциялық есептерді зерттеуді қамтиды. Логикалық тұрғыдан интеллектуалды үдерістерді жоғары деңгейде: ойлау, сөйлеу және тағы басқаларға ұқсас жүйелердің дамуы қарастырылған.
Адамзат өркениетіне қаупі жайлы Британдық ғалым Стивен Хокинг жасанды интеллект адамзат дамуына қаупі бар деп есептейді. 2017 жылдың сәуір айында Стивен Хокинг Бейжіңде өткен Ғаламдық Мобильді Интернет Конференциясының шеңберінде өткізілген бейнеконференция кезінде: Жасанды интеллекттің дамуы адамзат үшін ең қорқынышты фактор бола алады деп айтқан.
Ғалым 2017 жылдың қарашасында Wired журналына берген сұхбатында. Жасанды Интеллект адамдарды барлық салада алмастыра алады- деп қорқады. Хокингтің айтуынша, адамдар өздерінің мақсаттарына қол жеткізуде жасанды интеллектіні қолданған дұрыс. Егерде оны басқа мақсатта қолданса, адамдарға үлкен мәселеле болады дейді ғалым.
Машиналық оқыту жасанды интеллекттің бір саласы болып саналады. Оның негізгі идеясы компьютер алдын-ала жазылған алгоритмді қолданумен ғана шектеліп қоймай, мәселені өздігімен шешуді үйрену. Кез келген жұмыс машиналық оқыту технологиясын шартты түрде қол жетімділікке байланысты үш деңгейдің біреуіне тағайындалуы мүмкін.
* Бірінші деңгей -- бұл Google немесе IBM деңгейіндегі әртүрлі технологиялық алыптар үшін қол жетімді болған кезде.
* Екінші деңгей -- белгілі бір білімі бар студент оны қолдана алатын кезде.
* Үшінші деңгей -- бұл тіпті ата-әжелер оны басқара алатын кез.
Қазір машиналық оқыту екінші және үшінші деңгейлердің түйіскен жерінде, осы технологияның көмегімен әлемнің өзгеру қарқыны күн сайын артып келеді.
Машиналық оқыту үшін көптеген модельдер бар, бірақ оларды әдетте үш типке бөледі: біріншісі бақыланатын оқыту (supervised learning), екіншісі бақыланбайтын оқыту немесе өзін-өзі оқыту (unsupervised learning) және де үшіншісі бекітумен не күшпен оқыту (reinforcement learning). Бақыланатын түсінігінде адамның мәліметтерді өңдеуге араласуы деп түсініледі. Адам машиналық оқытуға араласқан кезде бізде белгілі бір болжамалы ақпараттар бар. Ал адамсыз оқу кезінде бізде тек анықталатын мәліметтер болады. Орындалатын міндеттерге байланысты бір модель басқаларға қарағанда анағұрлым қолайлы және неғұрлым тиімді болуы мүмкін.
Бақыланатын оқыту моделі оқыту кезінде дұрыс нәтиже деректер жиынтығындағы әрбір сәйкестендірілген элемент үшін анық белгіленеді. Бұл дегеніміз, деректерді оқу кезінде алгоритмде дұрыс жауабы бар. Сондықтан жауапты іздеудің орнына ол одан әрі белгіленбеген деректерді енгізу кезінде дұрыс жіктеу немесе болжам алу үшін байланыс табуға ұмтылады. Жіктеу контекстінде оқыту алгоритмі, мысалы, кредиттік карталар бойынша транзакция тарихымен жабдықталуы мүмкін, олардың әрқайсысы қауіпсіз немесе күдікті ретінде белгіленеді. Ол осы екі жіктеменің арасындағы қатынастарды зерделеп, содан кейін жіктеу параметрлеріне байланысты жаңа операцияларды тиісті түрде таңбалай алады. Деректер бір-бірімен үздіксіз байланысқан жағдайда, мысалы, уақыт бойынша акциялар курсын өзгерту сияқты, оқытудың регрессиялық алгоритмі деректер жиынтығындағы келесі мәнді болжау үшін пайдаланылуы мүмкін. Мысалы, бізде Алматы қаласындағы 10 000 пәтерлер туралы мәліметтер бар. Сондай-ақ, әр пәтердің ауданы, бөлмелер саны, орналасқан қабаты, автотұрақтың болуы, метро станциясына дейінгі қашықтық және басқалары белгілі. Сонымен қатар, әр пәтердің құны белгілі. Біздің міндетіміз -- осы белгілер негізінде пәтердің құнын болжай алатын модель құру. Бұл бақыланатын оқытудың классикалық мысалы. Мұндай тапсырма регрессиялық есеп деп аталады. Басқа мысалдар: әр түрлі медициналық көрсеткіштерге негізделген ақпараттар бойынша науқаста қатерлі ісіктің бар-жоғын болжау. Немесе электрондық поштаның мәтініне сүйене отырып, бұл спамның ықтималдығын болжау және тағы басқалары.
Бақыланбайтын оқыту барысында алгоритмде алдын ала белгіленген жауаптар жоқ. Оның мақсаты - жеке деректер арасындағы мағыналық байланыстарды табу, үлгілер мен заңдылықтарды анықтау. Мысалы, кластерлеу - бұл ұсынымдық жүйелерде бақыланбайтын оқытуды пайдалану. Бұл оқыту өте қызықты болып келеді. Себебі біз нақты дұрыс жауабын білмейміз. Мысалы, бізге белгілі бір адамдардың бойы мен салмағы туралы деректер берілсін. Деректерді 3 санатқа (немесе топ) топтастыру керек. Сонымен қатар адамдардың әр санаты үшін қолайлы өлшемдегі көйлек жасау керек. Бұл тапсырма класстерлік тапсырмасы деп аталады.
Бекітумен оқытудың түрі - бұл алғашқы екі модельдің қоспасы. Әдетте ол күрделі есептерді шешу үшін қолданылады және қоршаған ортамен өзара әрекеттесуді талап етеді. Деректер ортамен беріледі және әрекет етуге және оқуға мүмкіндік береді. Мұндай әдісті қолдану аймағы кең: роботталған қолды бақылаудан және қозғалыстардың неғұрлым тиімді комбинациясын іздеуден бастап, роботтардың навигация жүйесін әзірлегенге дейін, онда мінез-құлық алгоритмі "соқтығысудан аулақ болу" тәжірибелік жолмен оқытылады, кедергілермен соқтығысу кезінде кері байланыс алады. Логикалық ойындар логикалық шешімдер тізбегін қамтиды. Бұл оқыту әдісі логистикада, кестелерді құрастыруда және міндеттерді тактикалық жоспарлауда жиі қолданылады [2].
Машиналық оқытудың класстары:
* Регрессиялық мәселелер. Әр түрлі белгілерге сүйене отырып, материалдық реакцияны болжау. Басқаша айтқанда, жауап 1, 5, 23.575 немесе кез-келген нақты сан болуы мүмкін.
* Жіктеу мәселесі. Әр түрлі белгілер негізінде категориялық жауапты болжау. Мысалдар: мәтінді қолжазбамен тану, фотосуреттегі адамның немесе мысықтың бар-жоғын анықтау.
* Класстерлік мәселелер: мәліметтерді ұқсас категорияларға бөлу. Мысалдар: ұялы байланыс операторы клиенттерінің төлем қабілеттілігі бойынша бөлу, ғарыш объектілерінің ұқсас заттарға бөлу және т.б. (галактикалар, планеталар, жұлдыздар және басқалар).
* Өлшемді азайту мәселесі: біздің мәліметтерімізді N белгілерімен емес, кішірек санмен сипаттауға үйрену (әдетте кейінгі визуализация үшін 2-3) Мысал ретінде, визуализация қажеттілігінен басқа, деректерді сығуды келтіруге болады.
* Аномалияларды анықтауға байланысты мәселелер: белгілер негізінде аномалияларды аномалиялардан айыра білуді үйрену. Бұл міндеттің жіктеу мәселесінен еш айырмашылығы жоқ сияқты. Бірақ аномалияны анықтаудың ерекшелігі -- бізде модельді үйрету үшін аномалиялардың мысалдары өте аз немесе мүлдем жоқ. Сондықтан біз классификация мәселесін шеше алмаймыз.
1.2 Машиналық оқыту әдістерінің орталарына шолу
1. Байес әдісі
Мәтіндерді топтастыру міндеттерін шешкен кездегі маңызды саты, құжаттарды векторлық түрде ұсынуға қатысты қолданылатын машиналық оқыту әдісін таңдау болып табылады.
Оқуға негізделген нысандарды топтастыру әдістері, 1960 жылдары алғашқы рет қарауға еңгізілді. Қазіргі уақытта машиналық оқытудың көптеген әдістері әзірленеді, олар міндеттердің кең ауқымын шешкен кезде қолданылады. Осы әдістердің көбісі мәтіндерді топтыстыру міндеттері үшін өолдану нәтижелері жарияланған машиналық оқытудың негізгі әдістерін қарастырайық.
Байес әдісі, құжат пен санаттардың белгілерін бірге үлестіруді талдауға негізделген.
Құжаты
Формуласы бойынша ең ықтимал апостерион санатымен салыстырылады.
Міндеттерді топтастыру есебінде Байес әдісі әрбір санат үшін бөлек қолданылады және құжаттың санатқа тиесілілігі немесе тиесілі еместігі туралы шешім қабылданады.
Құжаттың рубрикаға тиесілілігінің апостериори ықтималдылығы, априори ықтималдылығы мен апостериори ықтималдылығын байланыстырады. Байес формуласы бойынша есептеледі:
Бөлгіш санатқа байланысты болмағандықтан, оны қысқартуға болады
Шартты ықтималдылықтарын айнымалы мәндерінің шартты тәуелсіздігін болжауда есептеп шығаруға болады. Бұл жағдайда, ең ықтимал санатты анықтауға арналған формула келесідей болады:
Оқыту құжаттарының жинақтамасы үшін ықтималдылығы келесі формула бойынша есептеледі:
Алымға бірлікті қосу, басқа еш жерде кездеспейтін белгілері қамтитын құжаттар.
айнымалы мәндерінің тәуелсіздігі туралы болжам, тым қатты болып табылады. Бұл болжам тәжірибе жүзінде ешқашан орындалмайды. Соған қарамастан, Байес әдісі, мәтіндерді топтастыру есебінде өте жоғары нәтижелерді береді.
Байес әдісі жұмыстың жоғары жылдамдығына және математикалық үлгінің оңайлылығына ие. Бұл әдіс, машинамен оқытудың әртүрлі әдістерін салыстырған кезде базалық әдіс ретінде қолданылады.
2. К-жақын көршілер әдісі
К-жақын көршілер әдісі (k-nearest neighbours, k-NN), басқаларға қарағанда оқыту фазасын талап етпейді. D құжаттарына релевантты болып келетін рубрикаларды табу үшін, бұл құжат оқылатын іріктелімнен алынған барлық құжаттармен салыстырылады. Оқытатын іріктелімнен алынған әрбір е құжаты үшін, келесі белгілердің векторларының арасындағы бұрыштың косинусы қашықтығы табылады:
Бұдан әрі оқытатын іріктелімнен d (k-параметр) мәнінен жақын болып табылатын k құжаттары тандалады. Әрбір рубрика үшін релеванттық келесі формула бойынша есептеп шығарылады.
Релеванттылығы кейбір белгіленген шектен жоғары болып табылатын рубрикалар, құжатқа сай келеді деп саналалы. К параметр 1 және 100 аралығында тандалады.
Бұл әдіс, барынша жоғары тиімділікті көрсетеді, бірақ рубрикация сатысында барынша көп есептеу шығындарын талап етеді.
3. Роше топтастырушы
Роше (Rocchio classifier) топтастырушы - ең қарапайым топтастыру әдістерінің бірі. Әр санат үшін келесі формула бойынша өлшенген центроид есептеп шығарылады:
Мұңдағы - санатқа қатысты құжаттардың көпшілігі
Центроидына ең жақын болып келетін санатқа жатқызылмайтын k құжаттар, теріс мысалдарды есепке алудың салыстырмалы маңыздылығын білдіретін параметр(қолданылады).
Әрбір санат үшін өлшенген центроидтарды есептеп шығарғаннан кейін, Роше топтастырушы өңделетін құжаттардың векторы мен әрбір рубриканың центроиды арасындағы қашықтықты есептеп шығарудың көмегімен құжаттың рубрикаға тиістілігін анықтайды. Алынған қашықтық белгіленген шекпен салыстырылады. Қашықтықтың функциясы ретінде, векторлардың арасындағы косинус жиі қолданылады.
Бұл әдіс, пайдалы ерекшелікке ие: жаңа рубрикаланған мысалдарды қосқан кезде өлшенген центроидтарды тез есептеп шығаруға болады. Бұл ерекшелік, мысалы, пайдаланушы қандай құжаттардың дұрыс немесе бұрыс таңдалғанын жүйеге бірте-бірте көрсеткен кезде, бейімделетін сүзгілеу есебінде пайдалы. Соңғы жауап ретінде, жүйе жаға рубрикаланған құжаттарды ескере отырып, нәтижелерді нақтылай алады.
4.Нейрондық ... жалғасы
Л.Н.Гумилев атындағы Еуразия ұлттық университеті ШЖҚ РМК
Механика-математика факультеті
Математикалық және компьютерлік модельдеу кафедрасы
Ғылыми-зерттеу жұмысының есебі
III семестр
Болжау есептерін шешуде машиналық оқыту әдістерін қолдану
Компьютерлік моделдеу және ақпаратты қорғаудың әдістері тобының
2 курс магистранты Зарлыкова М.А.
Ғылыми жетекшісі ф.-м.ғ.к. Абдрашева Г.К.
Нұр-Сұлтан, 2020
Мазмұны
Кіріспе ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...
3
1 Машиналық оқыту әдістерінің теориялық негіздері ... ... ... ... ... ... ... ... ... ...
5
1.1
Машиналық оқытудың түсінігі және тарихы ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. ... ... ... ... ... ... ... ...
5
1.2
Машиналық оқыту әдістерінің орталарына шолу ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. ... ... ... ... ... ... ... ... ... .. ...
10
1.3
Машиналық оқыту әдістерінің болжау жасаудағы маңызы ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. ... ... ... ... ... ... ... ..
16
2 Машиналық оқыту әдістерінің практикалық негіздері ... ... ... ... ... ... .. ... ...
19
2.1
Python бағдарламасы ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. ... ...
19
2.2
Anaconda Python бағдарламалау тілінің сипаттамасы ... ... ... ... ... ... ... ..
20
2.3
Болжау есептерін шешуде машиналық оқыту әдістерін қолдану ... ... ...
0
Қорытынды ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. ... ... ... ... ... ... ... ... ...
0
Пайдаланылған-әдебиеттер тізімі ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .
22
Қосымша ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. ... ... ... ... ... ... ... ... ... ...
0
Кіріспе
Машиналық оқыту - деректерді талдау әдісі, ол аналитикалық модельді құруды автоматтандырады. Бұл машиналар тәжірибе арқылы үйреніп, бейімделуі тиіс идеясына негізделген жасанды интеллект саласы. Ол компьютермен жиналған статистикалық деректер негізінде болжамдар жасайтын есептеуіш статистикамен тығыз байланысты. Ол кейде деректерді интеллектуалды талдаумен шатастырады, бірақ бұл барлау деректерін талдауға көбірек бағытталған, ал машиналық оқыту негізінен болжау үшін пайдаланылатын күрделі алгоритмдерді қамтиды, Машиналық оқыту оқу деректері арқылы алынған белгілі атрибуттардың негізінде болжауға шоғырланады, содан кейін деректерді іздеу кез келген деректерде белгісіз атрибуттарды іздеуге көбірек назар аударады. Машиналық оқыту осындай компьютерлік бағдарламалар мен алгоритмдерді әзірлеуге шоғырланады,олар жаңа деректерді беру кезінде өсіп, бейімделуді үйренеді.Бұл процесс ұқсас емес деректерді интеллектуалды талдау процесі. Екі жүйе оларға берілген деректер арқылы өтеді немесе шаблондарды іздеуде жиналады. Дегенмен, деректерді зияткерлік талдау үшін қосымшаларда, деректер адамның түсінуі үшін алынады, ал машиналық оқыту алгоритмдері бұл деректерді деректер үлгілерін іздеу және тиісінше әрекеттерді өзгерту үшін пайдаланады. Бірақ қазіргі заманғы зерттеулердің статистикалық саласы уақыттың аймағынан тыс, бейнелерді тану және деректерді іздеу желісінде болады.
Машиналық оқыту негізінен көптеген параметрлерді оңтайландыру әдісіне негізделген диапазонды немесе спектрді қолданады. Мұндай оңтайлы параметрді қолмен табу адамдар үшін қиын. Мысалы, динамика пен амплитуда арасындағы байланысты қарапайым халық түсіне алмайды. Машиналық оқытудың кез-келген жағдайда жұмыс жасап кетуіне ешқандай кепілдік жоқ. Кейде машинамен оқыту сәтсіз болады, дұрыс алгоритмді қолдану үшін шешілуі керек мәселені түсінуді талап етеді. Бұл оқытуда алгоритмдері көптеген мәліметтерді қажет етеді. Мұндай үлкен көлемдегі деректермен жұмыс істеу немесе оларды жинау өте қиын. Бірақ қол жетімді деректердің мөлшерін арттыру арқылы біз модельдер мен алгоритмдерді жылдам және автоматты түрде жасай аламыз. Сондықтан машиналық оқыту аз уақыттың ішінде кең таралуда және біздің күнделікті өміріміздің ажырамас бөлігіне айналды.
Жұмыстың мақсаты. Зерттелетін, болжауды қажет ететін нақты сала бойынша машиналық оқыту әдістеріне негізделген программа кодында болжау алгоритмін құру және жүзеге асыру.
Зерттеу әдістері. Модельдеу нәтижелерін талдау, интерпретациялау және зерттелетін объектінің нақты көрсеткіштерімен салыстыру мақсатында бірқатар есептеу эксперименттерін жүргізуді талап етеді, сондай-ақ, қажет болған жағдайда нәтижеге байланысты енгізу параметрлері соңында қайта нақтыланады.
Ғылыми жаңашылдығы.
Күтілетін нәтижелері.
1. Машиналық оқыту әдістерінің теориялық негіздері
1.1 Машиналық оқытудың түсінігі және тарихы
Машиналық оқыту дегеніміз не?
Машиналық оқыту -- бұл жасанды интеллект әдістерінің классы. Оның сипаттамасы мәселені тікелей шешу емес, көптеген ұқсас мәселелерге шешім қолдану процесінде жаттығу болып табылады. Мұндай әдістерді құру үшін математикалық статистика, сандық әдістер, оңтайландыру әдістері, ықтималдық теориясы, графтар теориясы, сандық түрде мәліметтермен жұмыс істеудің әртүрлі әдістері қолданылады. Машиналық оқыту күнделікті біздің өмірімізде көптеген қолданыстарға ие болуда. Оның қолданылуының кеңдігіне байланысты IT технологияда маңызды орын алады. Қазіргі кезде машиналық оқыту әдістеріне негізделген кейбір қосымшалар жақсы жұмыс істейді.
Жасанды Интеллект тарихына тоқталсақ, 1955 жылы ең алғашқы компьютердің пайда болуымен қатар жасанды интеллект ұғымы ұсынылды. 1980 жылдардың басында Есептеу теориясы саласындағы ғалымдар Барр және Файгенбаум Жасанды Интеллект туралы анықтама берді. Жасанды интеллект -- интеллектуалдық компьютерлік жүйелердің дамуымен айналысатын информатика саласы. Оның мүмкіндіктеріне ие жүйелер -- тіл, түсіну, ойлау қабілеті, проблемаларды шешу және тағы басқалары.
Енді Жасанды Интеллект көптеген алгоритмдерге және бағдарламалық жасақтама жүйелеріне жатады. Олардың ерекшелігі олардың шешімі туралы ойлайтын адам ретінде кейбір мәселелерді шеше алатындығына байланысты. Жасанды Интеллект негізгі қасиеттері -- тіл түсіну, ойлау қабілеті және ойлау қабілеті. әрекет ету. 1940 жылдардың аяғынан бастап ойлау процесін модельдеу саласында өзгерістер болды.Ол зерттеулер екі көзқарасқа бөлінді. Олар нейрокибернетикалық және логикалық.
1.Нейрокибернетикалық әдіс өсіп келе жатқан түрге жатады. Ол салада көбінесе нейрондық желілердің және эволюциялық есептеулердің биологиялық аспектісін зерттеу әдісін ұсынады.
2.Логикалық тұжырым Жасанды Интеллекттің жоғарғы сатысына жатады. Ол салада жоғары деңгейлі психикалық процестерді: ойлау, ойлау, сөйлеу, эмоциялар, шығармашылық және т.б. сияқты имитациялық жүйелерді, білім базаларын және шығу жүйелерін зерттейді.
Жасанды Интеллект қызметі -- бұл сапалы және тез дамитын байланысты технологиялар мен процестердің кешені, мысалы:
* табиғи тілдегі мәтінді өңдеу;
* машиналық оқыту;
* сараптамалық жүйелер;
* виртуалды агенттер (чат боттар);
* ұсыныстар жүйесі;
Бұл сапалы жаңа клиент тәжірибесін және өзара әрекеттесу үрдісін құруға көмектеседі.
Интеллект -- бұл келесі қабілеттерге ие адамның психикалық компоненті.Ол адаптивттік, тәжірибе мен білімді жинақтау, қоршаған дағдыларды қолдану мүмкіндігі. Зияткерлік адамның шындықты білу қабілетін оятады. Оның көмегімен адамдар ойлайды, жаңа ақпаратты есте сақтайды, қоршаған ортаны түсінеді және тағы басқалар.Қазіргі кезде жасанды интеллект бойынша жұмыс жақсы өтуде.
Қазір Жасанды Интеллектке адамның мәселелерін шешетін жаңа бағдарламалар мен алгоритмдер жасалуда. Бизнесте машина жасауды оқыту ЖИ-нің анықтамасы осы бағытта дамып келе жатыр. Бұл жасанды интеллекттің пайда болуының ықпалын білдіреді, бұл белгілі бір прогреске қол жеткізді. Мысалы, Жасанды Интеллект қандай да бір әрекеттерді орындауға үйренсе, онда осы жетістіктердің машинада ойдың бар екендігін көрсетеді.
Бүгінде жасанды интеллекттің дамуы екі тәуелсіз бағытта жүреді: нейрокибернетика, логикалық тәсіл. Бірінші бағыт биология тұрғысынан нейрондық желілер мен эволюциялық есептерді зерттеуді қамтиды. Логикалық тұрғыдан интеллектуалды үдерістерді жоғары деңгейде: ойлау, сөйлеу және тағы басқаларға ұқсас жүйелердің дамуы қарастырылған.
Адамзат өркениетіне қаупі жайлы Британдық ғалым Стивен Хокинг жасанды интеллект адамзат дамуына қаупі бар деп есептейді. 2017 жылдың сәуір айында Стивен Хокинг Бейжіңде өткен Ғаламдық Мобильді Интернет Конференциясының шеңберінде өткізілген бейнеконференция кезінде: Жасанды интеллекттің дамуы адамзат үшін ең қорқынышты фактор бола алады деп айтқан.
Ғалым 2017 жылдың қарашасында Wired журналына берген сұхбатында. Жасанды Интеллект адамдарды барлық салада алмастыра алады- деп қорқады. Хокингтің айтуынша, адамдар өздерінің мақсаттарына қол жеткізуде жасанды интеллектіні қолданған дұрыс. Егерде оны басқа мақсатта қолданса, адамдарға үлкен мәселеле болады дейді ғалым.
Машиналық оқыту жасанды интеллекттің бір саласы болып саналады. Оның негізгі идеясы компьютер алдын-ала жазылған алгоритмді қолданумен ғана шектеліп қоймай, мәселені өздігімен шешуді үйрену. Кез келген жұмыс машиналық оқыту технологиясын шартты түрде қол жетімділікке байланысты үш деңгейдің біреуіне тағайындалуы мүмкін.
* Бірінші деңгей -- бұл Google немесе IBM деңгейіндегі әртүрлі технологиялық алыптар үшін қол жетімді болған кезде.
* Екінші деңгей -- белгілі бір білімі бар студент оны қолдана алатын кезде.
* Үшінші деңгей -- бұл тіпті ата-әжелер оны басқара алатын кез.
Қазір машиналық оқыту екінші және үшінші деңгейлердің түйіскен жерінде, осы технологияның көмегімен әлемнің өзгеру қарқыны күн сайын артып келеді.
Машиналық оқыту үшін көптеген модельдер бар, бірақ оларды әдетте үш типке бөледі: біріншісі бақыланатын оқыту (supervised learning), екіншісі бақыланбайтын оқыту немесе өзін-өзі оқыту (unsupervised learning) және де үшіншісі бекітумен не күшпен оқыту (reinforcement learning). Бақыланатын түсінігінде адамның мәліметтерді өңдеуге араласуы деп түсініледі. Адам машиналық оқытуға араласқан кезде бізде белгілі бір болжамалы ақпараттар бар. Ал адамсыз оқу кезінде бізде тек анықталатын мәліметтер болады. Орындалатын міндеттерге байланысты бір модель басқаларға қарағанда анағұрлым қолайлы және неғұрлым тиімді болуы мүмкін.
Бақыланатын оқыту моделі оқыту кезінде дұрыс нәтиже деректер жиынтығындағы әрбір сәйкестендірілген элемент үшін анық белгіленеді. Бұл дегеніміз, деректерді оқу кезінде алгоритмде дұрыс жауабы бар. Сондықтан жауапты іздеудің орнына ол одан әрі белгіленбеген деректерді енгізу кезінде дұрыс жіктеу немесе болжам алу үшін байланыс табуға ұмтылады. Жіктеу контекстінде оқыту алгоритмі, мысалы, кредиттік карталар бойынша транзакция тарихымен жабдықталуы мүмкін, олардың әрқайсысы қауіпсіз немесе күдікті ретінде белгіленеді. Ол осы екі жіктеменің арасындағы қатынастарды зерделеп, содан кейін жіктеу параметрлеріне байланысты жаңа операцияларды тиісті түрде таңбалай алады. Деректер бір-бірімен үздіксіз байланысқан жағдайда, мысалы, уақыт бойынша акциялар курсын өзгерту сияқты, оқытудың регрессиялық алгоритмі деректер жиынтығындағы келесі мәнді болжау үшін пайдаланылуы мүмкін. Мысалы, бізде Алматы қаласындағы 10 000 пәтерлер туралы мәліметтер бар. Сондай-ақ, әр пәтердің ауданы, бөлмелер саны, орналасқан қабаты, автотұрақтың болуы, метро станциясына дейінгі қашықтық және басқалары белгілі. Сонымен қатар, әр пәтердің құны белгілі. Біздің міндетіміз -- осы белгілер негізінде пәтердің құнын болжай алатын модель құру. Бұл бақыланатын оқытудың классикалық мысалы. Мұндай тапсырма регрессиялық есеп деп аталады. Басқа мысалдар: әр түрлі медициналық көрсеткіштерге негізделген ақпараттар бойынша науқаста қатерлі ісіктің бар-жоғын болжау. Немесе электрондық поштаның мәтініне сүйене отырып, бұл спамның ықтималдығын болжау және тағы басқалары.
Бақыланбайтын оқыту барысында алгоритмде алдын ала белгіленген жауаптар жоқ. Оның мақсаты - жеке деректер арасындағы мағыналық байланыстарды табу, үлгілер мен заңдылықтарды анықтау. Мысалы, кластерлеу - бұл ұсынымдық жүйелерде бақыланбайтын оқытуды пайдалану. Бұл оқыту өте қызықты болып келеді. Себебі біз нақты дұрыс жауабын білмейміз. Мысалы, бізге белгілі бір адамдардың бойы мен салмағы туралы деректер берілсін. Деректерді 3 санатқа (немесе топ) топтастыру керек. Сонымен қатар адамдардың әр санаты үшін қолайлы өлшемдегі көйлек жасау керек. Бұл тапсырма класстерлік тапсырмасы деп аталады.
Бекітумен оқытудың түрі - бұл алғашқы екі модельдің қоспасы. Әдетте ол күрделі есептерді шешу үшін қолданылады және қоршаған ортамен өзара әрекеттесуді талап етеді. Деректер ортамен беріледі және әрекет етуге және оқуға мүмкіндік береді. Мұндай әдісті қолдану аймағы кең: роботталған қолды бақылаудан және қозғалыстардың неғұрлым тиімді комбинациясын іздеуден бастап, роботтардың навигация жүйесін әзірлегенге дейін, онда мінез-құлық алгоритмі "соқтығысудан аулақ болу" тәжірибелік жолмен оқытылады, кедергілермен соқтығысу кезінде кері байланыс алады. Логикалық ойындар логикалық шешімдер тізбегін қамтиды. Бұл оқыту әдісі логистикада, кестелерді құрастыруда және міндеттерді тактикалық жоспарлауда жиі қолданылады [2].
Машиналық оқытудың класстары:
* Регрессиялық мәселелер. Әр түрлі белгілерге сүйене отырып, материалдық реакцияны болжау. Басқаша айтқанда, жауап 1, 5, 23.575 немесе кез-келген нақты сан болуы мүмкін.
* Жіктеу мәселесі. Әр түрлі белгілер негізінде категориялық жауапты болжау. Мысалдар: мәтінді қолжазбамен тану, фотосуреттегі адамның немесе мысықтың бар-жоғын анықтау.
* Класстерлік мәселелер: мәліметтерді ұқсас категорияларға бөлу. Мысалдар: ұялы байланыс операторы клиенттерінің төлем қабілеттілігі бойынша бөлу, ғарыш объектілерінің ұқсас заттарға бөлу және т.б. (галактикалар, планеталар, жұлдыздар және басқалар).
* Өлшемді азайту мәселесі: біздің мәліметтерімізді N белгілерімен емес, кішірек санмен сипаттауға үйрену (әдетте кейінгі визуализация үшін 2-3) Мысал ретінде, визуализация қажеттілігінен басқа, деректерді сығуды келтіруге болады.
* Аномалияларды анықтауға байланысты мәселелер: белгілер негізінде аномалияларды аномалиялардан айыра білуді үйрену. Бұл міндеттің жіктеу мәселесінен еш айырмашылығы жоқ сияқты. Бірақ аномалияны анықтаудың ерекшелігі -- бізде модельді үйрету үшін аномалиялардың мысалдары өте аз немесе мүлдем жоқ. Сондықтан біз классификация мәселесін шеше алмаймыз.
1.2 Машиналық оқыту әдістерінің орталарына шолу
1. Байес әдісі
Мәтіндерді топтастыру міндеттерін шешкен кездегі маңызды саты, құжаттарды векторлық түрде ұсынуға қатысты қолданылатын машиналық оқыту әдісін таңдау болып табылады.
Оқуға негізделген нысандарды топтастыру әдістері, 1960 жылдары алғашқы рет қарауға еңгізілді. Қазіргі уақытта машиналық оқытудың көптеген әдістері әзірленеді, олар міндеттердің кең ауқымын шешкен кезде қолданылады. Осы әдістердің көбісі мәтіндерді топтыстыру міндеттері үшін өолдану нәтижелері жарияланған машиналық оқытудың негізгі әдістерін қарастырайық.
Байес әдісі, құжат пен санаттардың белгілерін бірге үлестіруді талдауға негізделген.
Құжаты
Формуласы бойынша ең ықтимал апостерион санатымен салыстырылады.
Міндеттерді топтастыру есебінде Байес әдісі әрбір санат үшін бөлек қолданылады және құжаттың санатқа тиесілілігі немесе тиесілі еместігі туралы шешім қабылданады.
Құжаттың рубрикаға тиесілілігінің апостериори ықтималдылығы, априори ықтималдылығы мен апостериори ықтималдылығын байланыстырады. Байес формуласы бойынша есептеледі:
Бөлгіш санатқа байланысты болмағандықтан, оны қысқартуға болады
Шартты ықтималдылықтарын айнымалы мәндерінің шартты тәуелсіздігін болжауда есептеп шығаруға болады. Бұл жағдайда, ең ықтимал санатты анықтауға арналған формула келесідей болады:
Оқыту құжаттарының жинақтамасы үшін ықтималдылығы келесі формула бойынша есептеледі:
Алымға бірлікті қосу, басқа еш жерде кездеспейтін белгілері қамтитын құжаттар.
айнымалы мәндерінің тәуелсіздігі туралы болжам, тым қатты болып табылады. Бұл болжам тәжірибе жүзінде ешқашан орындалмайды. Соған қарамастан, Байес әдісі, мәтіндерді топтастыру есебінде өте жоғары нәтижелерді береді.
Байес әдісі жұмыстың жоғары жылдамдығына және математикалық үлгінің оңайлылығына ие. Бұл әдіс, машинамен оқытудың әртүрлі әдістерін салыстырған кезде базалық әдіс ретінде қолданылады.
2. К-жақын көршілер әдісі
К-жақын көршілер әдісі (k-nearest neighbours, k-NN), басқаларға қарағанда оқыту фазасын талап етпейді. D құжаттарына релевантты болып келетін рубрикаларды табу үшін, бұл құжат оқылатын іріктелімнен алынған барлық құжаттармен салыстырылады. Оқытатын іріктелімнен алынған әрбір е құжаты үшін, келесі белгілердің векторларының арасындағы бұрыштың косинусы қашықтығы табылады:
Бұдан әрі оқытатын іріктелімнен d (k-параметр) мәнінен жақын болып табылатын k құжаттары тандалады. Әрбір рубрика үшін релеванттық келесі формула бойынша есептеп шығарылады.
Релеванттылығы кейбір белгіленген шектен жоғары болып табылатын рубрикалар, құжатқа сай келеді деп саналалы. К параметр 1 және 100 аралығында тандалады.
Бұл әдіс, барынша жоғары тиімділікті көрсетеді, бірақ рубрикация сатысында барынша көп есептеу шығындарын талап етеді.
3. Роше топтастырушы
Роше (Rocchio classifier) топтастырушы - ең қарапайым топтастыру әдістерінің бірі. Әр санат үшін келесі формула бойынша өлшенген центроид есептеп шығарылады:
Мұңдағы - санатқа қатысты құжаттардың көпшілігі
Центроидына ең жақын болып келетін санатқа жатқызылмайтын k құжаттар, теріс мысалдарды есепке алудың салыстырмалы маңыздылығын білдіретін параметр(қолданылады).
Әрбір санат үшін өлшенген центроидтарды есептеп шығарғаннан кейін, Роше топтастырушы өңделетін құжаттардың векторы мен әрбір рубриканың центроиды арасындағы қашықтықты есептеп шығарудың көмегімен құжаттың рубрикаға тиістілігін анықтайды. Алынған қашықтық белгіленген шекпен салыстырылады. Қашықтықтың функциясы ретінде, векторлардың арасындағы косинус жиі қолданылады.
Бұл әдіс, пайдалы ерекшелікке ие: жаңа рубрикаланған мысалдарды қосқан кезде өлшенген центроидтарды тез есептеп шығаруға болады. Бұл ерекшелік, мысалы, пайдаланушы қандай құжаттардың дұрыс немесе бұрыс таңдалғанын жүйеге бірте-бірте көрсеткен кезде, бейімделетін сүзгілеу есебінде пайдалы. Соңғы жауап ретінде, жүйе жаға рубрикаланған құжаттарды ескере отырып, нәтижелерді нақтылай алады.
4.Нейрондық ... жалғасы
Ұқсас жұмыстар
Пәндер
- Іс жүргізу
- Автоматтандыру, Техника
- Алғашқы әскери дайындық
- Астрономия
- Ауыл шаруашылығы
- Банк ісі
- Бизнесті бағалау
- Биология
- Бухгалтерлік іс
- Валеология
- Ветеринария
- География
- Геология, Геофизика, Геодезия
- Дін
- Ет, сүт, шарап өнімдері
- Жалпы тарих
- Жер кадастрі, Жылжымайтын мүлік
- Журналистика
- Информатика
- Кеден ісі
- Маркетинг
- Математика, Геометрия
- Медицина
- Мемлекеттік басқару
- Менеджмент
- Мұнай, Газ
- Мұрағат ісі
- Мәдениеттану
- ОБЖ (Основы безопасности жизнедеятельности)
- Педагогика
- Полиграфия
- Психология
- Салық
- Саясаттану
- Сақтандыру
- Сертификаттау, стандарттау
- Социология, Демография
- Спорт
- Статистика
- Тілтану, Филология
- Тарихи тұлғалар
- Тау-кен ісі
- Транспорт
- Туризм
- Физика
- Философия
- Халықаралық қатынастар
- Химия
- Экология, Қоршаған ортаны қорғау
- Экономика
- Экономикалық география
- Электротехника
- Қазақстан тарихы
- Қаржы
- Құрылыс
- Құқық, Криминалистика
- Әдебиет
- Өнер, музыка
- Өнеркәсіп, Өндіріс
Қазақ тілінде жазылған рефераттар, курстық жұмыстар, дипломдық жұмыстар бойынша біздің қор #1 болып табылады.
Ақпарат
Қосымша
Email: info@stud.kz