Кәсіпорын деректері


Жұмыс түрі:  Материал
Тегін:  Антиплагиат
Көлемі: 12 бет
Таңдаулыға:   

ҚАЗАҚСТАН РЕСПУБЛИКАСЫ БІЛІМ ЖӘНЕ ҒЫЛЫМ МИНИСТРЛІГІ

ҚАЗАҚСТАН ИНЖЕНЕРЛІК-ТЕХНОЛОГИЯЛЫҚ УНИВЕРСИТЕТІ

Картинки по запросу казахстанский инженерно-технологический университет алматы + лого

Махамбетова Жазира Ерсалатовна

ДИПЛОМДЫҚ ЖҰМЫС

Тақырыбы: «Үлкен мәліметтерге негізделген машиналық оқыту әдістерінің салыстырмалы талдауы»

Мамандық 6В06102 - «Есептеу техникасы және бағдарламамен қамтамасыз ету»

Алматы, 2022

Қазақстан Республикасы білім және ғылым министрлігі

Қазақстан инженерлік-технологиялық университеті

Кафедра: «Есептеу техникасы, автоматтандыру және телекоммуникациялар»

Қорғауға жіберіледі

Кафедра меңгерушісі

Бектемесов А. Т.

«» 2022 ж.

ДИПЛОМДЫҚ ЖҰМЫС

Тақырыбы: «Үлкен мәліметтерге негізделген машиналық оқыту әдістерінің салыстырмалы талдауы»

Мамандық 6В06102 - «Есептеу техникасы және бағдарламамен қамтамасыз ету»

Орындаған: Махамбетова Ж. Е.

Жоба жетекшісі: Бектемесов А. Т.

Алматы, 2022

Е септеу техникасы, автоматтандыру және телекоммуникациялар кафедрасы

6В06102 - «Есептеу техникасы және бағдарламамен қамтамасыз ету» мамандығы

дипломдық жобаға

ТАПСЫРМА

студент Махамбетова Жазира Ерсалатовна

Жұмыстың тақырыбы: «Үлкен мәліметтерге негізделген машиналық оқыту әдістерінің салыстырмалы талдауы»

ректордың бұйрығымен бекітіледі « » 2022 ж .

Аяқталған жұмыстың соңғы мерзімі « » 2022 ж.

Жұмыстың бастапқы деректері:

1) ақпараттық қамтамасыз ету;

2) Бағдарламалық қамтамасыз ету;

3) Техникалық құралдар.

Дипломдық жұмыста әзірленетін сұрақтар тізімі немесе дипломдық жұмыстың қысқаша мазмұны:

1) Кіріспе, әдебиеттік шолу (тақырыптың өзектілігі, жаңалығы мен практикалық маңызы, зерттеу мақсаты мен міндеттері, әдеби дереккөздерге аналитикалық шолу)

2) Негізгі бөлім, техникалық бөлім (объектілер, әдістер, оларды зерттеу нәтижелері)

3) Денсаулық және қауіпсіздік (зертханалық еңбекті қорғау, қоршаған ортаны қорғау)

4) Қорытынды.

Графикалық материалдар тізімі (кесте слайдтары, графиктер және т. б. ) :

1) Контентті басқару жүйелерінің сипаттамаларын салыстыру

2) UML қолдану жағдайларының диаграммасы

3) Авторизация терезесінің прототипі

4) MVC қолданбасының өмірлік циклін сұрау

5) XCMS класс диаграммасы

Ұсынылатын оқулықтар:

Жұмыс бөлімдерін көрсете отырып, жұмыс бойынша кеңестер:

Бөлім

Консультант

Уақыты

Қолы

Бөлім:

Кіріспе

Консультант:

Профессор

Бектемесов А. Т.

Уақыты:

27. 01. 2018

01. 02. 2018

Қолы:
Бөлім:

Негізгі бөлімі, техникалық бөлімі

Консультант:

Профессор

Бектемесов А. Т.

Уақыты:

03. 02. 2018

29. 03. 2018

Қолы:
Бөлім: Еңбекті қорғау және қауіпсіздік
Консультант:

Профессор

Бектемесов А. Т.

Уақыты:

31. 03. 2018

05. 04. 2018

Қолы:
Бөлім:

Қорытынды, әдебиеттер тізімі

Консультант:

Профессор

Бектемесов А. Т.

Уақыты:

07. 04. 2018

19. 04. 2018

Қолы:

Дипломдық жұмыс кестесі

р/с
Бөлімдердің атауы, әзірленетін мәселелер тізімі

Жетекшіге тексерту уақытысы

Ескерту
р/с:
Бөлімдердің атауы, әзірленетін мәселелер тізімі:

Кіріспе

Жетекшіге тексерту уақытысы:

27. 01. 2018

01. 02. 2018

Ескерту:
р/с:
Бөлімдердің атауы, әзірленетін мәселелер тізімі:

Негізгі бөлімі, техникалық бөлімі

Жетекшіге тексерту уақытысы:

03. 02. 2018

29. 03. 2018

Ескерту:
р/с:
Бөлімдердің атауы, әзірленетін мәселелер тізімі:

Еңбекті қорғау және қауіпсіздік

Жетекшіге тексерту уақытысы:

31. 03. 2018

05. 04. 2018

Ескерту:
р/с:
Бөлімдердің атауы, әзірленетін мәселелер тізімі:

Қорытынды, әдебиеттер тізімі

Жетекшіге тексерту уақытысы:

07. 04. 2018

19. 04. 2018

Ескерту:

Тапсырманың берілген күні «_ » 2022ж г.

Кафедра меңгерушісі Бектемесов А. Т.

/қолы/ /Т. А. Ә/

Жоба жетекшісі Бектемесов А. Т.

/қолы/ /Т. А. Ә/

Нормаконтроль Демеубаева Л. К.

/қолы/ /Т. А. Ә/

Тапсырманы орындауға қабылдаған

студент Махамбетова Ж. Е.

/қолы/ /Т. А. Ә/

Аңдатпа

Аннотация

Большие данные долгое время были предметом увлечения энтузиастов компьютерных наук во всем мире. И приобрела еще большую известность в последнее время благодаря непрерывному взрыву данных, полученных в результате социальных сетей и стремления технологических гигантов получить доступ к более глубокий анализ. В этой статье обсуждаются различные инструменты технологии больших данных, и проводится сравнение между ними. Различные инструменты, а именно Sqoop, Apache Flume, Apache Kafka, Hive, Для эксперимента используются различные наборы данных. Проводится сравнительное исследование, чтобы выяснить, какой инструмент работает быстрее и эффективнее по сравнению с другим, и объясняет причину этого.

Annotation

МАЗМҰНЫ

Кіріспе

  1. Негізгі бөлім. Үлкен деректерді сақтау және өңдеу технологияларына шолуBig Date технологиясыApache HadoopMapreduce

Кіріспе

Адамзат өзінің дамуында материалдық, энергетикалық, аспаптық және ақпараттық ресурстарды пайдаланады. Өткен, қазіргі және мүмкін болашақ оқиғалары туралы ақпарат болып жатқанды талдау үшін үлкен қызығушылық тудырады. Ежелгі адамдар айтқандай: Praemonitus praemunitus - «алдын ала ескертілген қарулы».

Қоғамның заманауи дамуы өнеркәсіпте, саудада, қаржы нарықтарында ақпарат ағындарының бұрын-соңды болмаған өсуімен сипатталады. Қоғамның ақпаратты сақтау және жылдам өңдеу мүмкіндігі жалпы алғанда елдің мемлекеттілігінің даму деңгейін анықтайды.

Қазіргі қоғамда ақпаратты жинау, сақтау және өңдеу мәселесіне үлкен көңіл бөлінеді. Дегенмен, қазіргі уақытта айқын қайшылық бар. Бір жағынан, адамзат өркениеті ақпараттық жарылысты бастан кешіруде, ақпарат көлемі жыл сайын бірнеше есе артып келеді. Екінші жағынан, қоғамдағы ақпараттың қазіргі көлемінің өсуі жеке адамның оны игеру қабілетінен асып түседі. Мұндай проблемалардың болуы технологиялардың, техникалық құралдардың және коммуникацияның жаппай дамуын бастайды.

Қазіргі әлемдегі ақпараттың аса маңызды рөлі ақпараттың энергия, қаржылық, шикізат сияқты маңызды және қажетті өз ресурсы ретінде анықталуына әкелді.

Қоғамның ақпаратты жинау, сақтау және өңдеудегі сұранысы тауар ретіндегі қызметтердің жаңа түрін - ақпараттық технологиялар нарығын тудырды.

Ақпараттық технологияларды барынша толық және толық пайдалану үшін ақпаратты жинау, өңдеу, сақтау және жинақтау орындарын құру, тасымалдау жүйелері мен қолжетімділікті шектеу жүйелерін құру, ең соңында ақпаратты жүйелеу қажет. Соңғы мәселе соңғы кездері өте өзекті болып отыр, өйткені ғаламдық сақтау массивтеріне түсетін ақпараттың үлкен, тіпті орасан мөлшері оны жүйелендірусіз ақпараттың құлдырауына әкелуі мүмкін, ал дұрыс ақпаратқа қол жеткізу немесе іздеу дұрыс ақпаратты іздеуге әкелуі мүмкін.

Дипломдық жұмыстың мақсаты: Үлкен мәліметтерге негізделген машиналық оқыту әдістерінің салыстырмалы талдау.

Сондай-ақ үлкен мәліметтерді талдаудың негізгі мәселесі - үлкен мәліметтердің негізделген машиналық оқыту әдістері туралы мәселе көтеріліп, оны шешу бойынша ұсыныстар беріледі. Бұл жұмыстың өзектілігі үлкен көлемдегі мәліметтерді өңдеудің оңтайлы әдістерін анықтау және ең қысқа мерзімде деректерді жүйелеу мәселелерін шешудің өзекті қажеттілігімен түсіндіріледі. үлкен мәліметтердің негізделген машиналық оқыту әдістерін талдау арқылы алынған мәліметтердің кең практикалық қолданылуы осы зерттеудің өзектілігін анықтайды. Ақпараттық технологиялардың заманауи дамуындағы осындай мәселелердің кейбір аспектілері менің дипломдық жұмысымның тақырыбы болып табылады.

  1. Big Data технологиясы

Ақпараттық технологиялардың адам қызметінің барлық салаларына енгізілуіне байланысты, деректер қоймасында тіркелген мәліметтер көлемі үнемі өсіп келеді. Бұл дегеніміз, ақпаратты сақтау құралдары бірдей қарқынмен өзгеруі керек және оның көлемін арттырудың жаңа мүмкіндіктері пайда болуы керек. Бүгінгі таңда ақпараттың негізгі ағымын адамдар емес, бір-бірімен тұрақты байланыста болатын роботтар жасайды. Олар деректер көлемінің өсу қарқынын белгілейді, бұл өндіріс серверлерінің санын көбейту, жаңа деректерді сақтау орталықтарын (деректер орталықтарын) кеңейту және енгізу қажеттілігін тудырады.

«Үлкен деректер» (Big Data) ұғымы салыстырмалы. Дәстүрлі түрде, Big Data дегеніміз - көлемі жағынан бір дербес компьютердің қатты дискісінен асатын ақпарат жиынтығы, оны кішігірім көлемде қолданылатын классикалық құралдармен өңдеуге болмайды.

Үлкен деректер (Big data) - адам қабылдаған нәтижелерге қол жеткізу үшін үлкен көлемдегі және маңызды әртүрліліктің құрылымдық және құрылымданбаған деректерін өңдеу технологиясы.

Big Data технологиялары - үлкен көлемдегі және айтарлықтай алуан түрлі құрылымдық және құрылымдалмаған деректерді өңдеуге арналған тәсілдер, құралдар мен әдістер сериясы. Бұл технологиялар үздіксіз өсу, ақпаратты компьютерлік желінің көптеген түйіндеріне тарату жағдайында тиімді адам қабылдайтын нәтижелерді алу үшін қолданылады. Олар 2000 жылдардың соңында дәстүрлі деректер қорының басқару жүйелеріне балама ретінде қалыптасты. Қазіргі уақытта ұйымдарға арналған ең ірі ақпараттық технологиялар жеткізушілерінің көпшілігі өздерінің бизнес стратегияларында «үлкен деректер» тұжырымдамасын пайдаланады, ал ақпараттық технологиялар нарығының негізгі талдаушылары тұжырымдамаға арнайы зерттеулерді арнайды.

Қазіргі уақытта көптеген компаниялар технологияның дамуын мұқият бақылайды. McKinsey компаниясының «Жаһандық институт, үлкен деректер: инновация, бәсекелестік және өнімділіктің келесі шекарасы» есептеріне сәйкес деректер еңбек және капитал ресурстарымен қатар өндірістің маңызды факторына айналды. Үлкен деректерді пайдалану компаниялардың бәсекелестік өсу мен артықшылығының негізіне айналуда.

Қазіргі жағдайда ұйымдар мен компаниялар құрылымданбаған деректердің үлкен көлемін жасайды: мәтіндер, әртүрлі құжаттар, суреттер, бейнелер, машина кодтары, кестелер және т. б. Бұл ақпараттың барлығы көбінесе ұйымнан тыс бірнеше деректер сақталатын орындарда орналастырылады және сақталады.

Ұйымдар өздерінің деректерінің үлкен массивіне қол жеткізе алады, бірақ сонымен бірге оларда осы деректердің арасында байланыс орнату және олардың негізінде маңызды қорытындылар жасау шынайы болатын қажетті құралдар болмауы мүмкін. Деректердің жылдам және үздіксіз өсуін ескере отырып, талдаудың дәстүрлі әдістерінен Big Data технологиясының неғұрлым озық технологияларына көшу шұғыл қажет болады.

Сипаттамалары. Заманауи дереккөздерде Big Data түсінігі терабайт ретімен көлемдік деректер ретінде анықталады. Үлкен деректердің белгілерін «үш V» ретінде анықтауға болады: volume - көлем; variety - біртектілік, жиынтық; velocity - жылдамдық (өте жылдам өңдеуді қажет етеді) .

Сурет 1. 1 Үлкен деректердің белгілері

Көлемі. Технологияның қарқынды дамуы және әлеуметтік желілердің танымал болуы деректер көлемінің өте жылдам өсуіне ықпал етеді. Адамдар да, машиналар да жасаған бұл деректер әртүрлі орындарда және форматтарда үлкен көлемде таратылады.

Жылдамдық. Бұл мүмкіндік деректерді генерациялау жылдамдығы. Қажетті деректерді мүмкіндігінше қысқа мерзімде алу шешім әзірлеушілері үшін маңызды бәсекелестік артықшылық болып табылады, сонымен қатар әртүрлі қолданбаларда әртүрлі кешігу талаптары бар.

Әртүрлілік. Әртүрлілікті әртүрлі деректерді сақтау пішіміне жатқызуға болады. Бүгінгі таңда әлемде құрылымдалмаған деректердің айтарлықтай көлемі қалыптасады, бұл кәсіпорындар алатын құрылымдық деректерге қосымша. Үлкен деректер технологиясының даму дәуірі келгенге дейін салада біз көріп отырған көлемді құрылымдалмаған деректермен жұмыс істей алатын қуатты және сенімді құралдар болған жоқ.

Кәсіпорын ішінде де, сыртында да жасалған құрылымдық деректердің үлкен көлемін тұтыну бүгінгі әлемдегі ұйымдардың бәсекеге қабілетті болып қалуы үшін қажеттілік болып табылады.

Үлкен деректер «санаты» дәстүрлі түрде әдеттегі электрондық кестелерді ғана емес, сонымен қатар кескіндер, аудио файлдар, бейне файлдар, веб-журналдар, сенсор деректері және басқалар түрінде сақтауға болатын құрылымдалмаған деректерді қамтиды. Үлкен деректер әлеміндегі вариация әртүрлі деректер пішімдерінің осы аспектісі деп аталады.

Төменде 1. 1-кестеде дәстүрлі деректер қоры мен үлкен деректер базасының салыстырмалы сипаттамасы берілген.

Деректер өте қарқынды жиналатын және жинақталатын бірқатар салалар бар. Деректерді жылдар бойы сақтау қажет болатын осы кластағы қолданбалар үшін жинақталған деректер өте үлкен деректер ретінде жіктеледі.

Сондай-ақ коммерциялық және мемлекеттік секторлардағы Big Data қосымшалары санының өсуі байқалады, мұндай қолданбалардың деректерінің көлемі сақтауда және жиі жүздеген петабайттарды құрайды.

Белгілі бір технологиялардың дамуы адамдарды, олардың әдеттерін, қызығушылықтарын және тұтынушылардың мінез-құлқын әртүрлі жолдармен «қадағалауға» мүмкіндік береді. Мысалдарға жалпы Интернетті пайдалану және арнайы Walmart (Wikipedia мәліметтері бойынша Walmart деректер қоймасы 2 петабайттан асады) сияқты онлайн-сатушыларда сатып алу немесе ұялы телефондармен саяхаттау және қозғалу, қоңырау шалу, электрондық хаттар жазу, фотосуреттер түсіру, әлемнің әртүрлі бөліктерінен әлеуметтік медиа тіркелгілеріне қол жеткізу - мұның бәрі дерекқорларда жинақталған және үлкен деректерді жылдам өңдеудің арқасында пайдалы пайдалануға болады.

Сол сияқты, заманауи медициналық технологиялар медициналық көмек көрсетуге байланысты деректердің үлкен көлемін жасайды (суреттер, бейнелер, нақты уақыттағы мониторинг) .

Үлкен деректердің көздері. Деректерді сақтау пішімдері өзгерген сияқты, деректер көздері де дамып, үнемі кеңеюде. Деректер әртүрлі форматтарда сақталуы керек.

Технологияның дамуы мен жетілдірілуімен генерацияланатын деректер көлемі үнемі өсіп келеді. Үлкен деректер көздерін төменде көрсетілгендей алты түрлі санатқа бөлуге болады.

Сурет 3 Үлкен деректердің көздері

Кәсіпорын деректері. Кәсіпорындарда әртүрлі форматтағы деректердің үлкен көлемі бар. Жалпы пішімдерге жалпақ файлдар, электрондық пошталар, Word құжаттары, электрондық кестелер, презентациялар, HTML беттері, PDF құжаттары, XML файлдары, бұрынғы пішімдер және т. б. кіреді. Әр түрлі пішімдерде ұйымға таратылатын бұл деректер кәсіпорын деректері деп аталады.

Транзакциялық деректер. Әрбір кәсіпорынның веб-қосымшалар, мобильді қосымшалар, CRM жүйелері және басқалары сияқты әртүрлі транзакция түрлерін орындауды қамтитын жеке қосымшалары бар.

Осы қолданбалардағы транзакцияларды қолдау үшін бір немесе бірнеше реляциялық дерекқорлар әдетте негізгі инфрақұрылым ретінде пайдаланылады. Негізінен бұл құрылымдық деректер және транзакциялық деректер деп аталады.

  1. Apache Hadoop

Apache Hadoop дегеніміз не? Оның негізгі мәліметтері сенімді, масштабталатын, бөлінген есептеулер бойынша, «Apache Hadoop» жобасы бағдарламалық қамтамасыз етуді әзірлейді.

Apache Hadoop бағдарламалық жасақтама кітапханасы - бұл қарапайым модельдерді қолдана отырып, кластерлер туралы көптеген мәліметтерді өңдеуге мүмкіндік беретін бағдарламалау платформасы.

Ол қабілетті жүйе ретінде жасалған бір серверден мыңдаған машиналарға дейін масштабтау, олардың әрқайсысы жергілікті өңдеуді және сақтауды қамтамасыз етеді.

Бағдарламалық қамтамасыз ету, кітапхананың проблемаларын анықтауға және шешуге қабілетті кластердегі жоғары қолжетімді қызметті қамтамасыз ететін қолданбалы компьютерлерден, олардың әрқайсысы істен шығуға бейім болуы мүмкін», аппараттық құралдарға жоғары қолжетімділікті қамтамасыз етеді деп үміттенеміз.

Hadoop-тің негізін қалаушы - Apache Nutch жобасы. 2002 жылдан бастап жұмыс істей бастаған ашық бастапқы веб-іздеу жүйесі болып табылады. Жобаны іске асыру тез дамыды, бірақ миллиардтаған веб-беттерге масштабтау мүмкін болмады. Алайда, 2003 жылы Google компаниясы өзінің таратылған (GFS жүйелері-Google файлдық жүйесі) файлының сипаттамасы бар мақала жариялады. Осы мақаланың негізінде әзірлеушілер Apache Nutch жобалары ұқсас ашық бастапқы жүйені енгізді. NTFS коды - , ол өте үлкен файлдарды сақтау қажеттілігі бар проблемаларды шешті. 2004 жылы Google компаниясы MapReduce технологиясы туралы сипаттап, тағы бір мақала жариялады. 2005 жылдың ортасына қарай Apache Nutch жобасында MapReduce жұмыс нұсқасы пайда болды және жобаның барлық алгоритмдері MapReduce және NTFS үшін бейімделген. Алынған жүйенің мүмкіндіктері веб-іздеуден әлдеқайда кең болды, сондықтан 2006 жылы Hadoop деп аталатын жоба бөлек құрылды. Hadoop IT әлеміне алғаш рет 2006 жылы еніп, оны Yahoo! инженерлер, Doug Cutting және Майк Кафарелла. Олар оны Doug Cutting-тің баласының ойыншық пілінің құрметіне атады. Apache Software Foundation оны жалпы доменге шығаруды таңдаған, 2011 жылға дейін оған кеңінен қол жетімді болмады. Hadoop қазіргі уақытта ашық бастапқы Venture Apache License 2. 0 бойынша қол жетімді және қазіргі уақытта көптеген ұйымдарда көптеген деректерді тиімді бақылау үшін кеңінен қолданылады.

Hadoop кластерінде есептелген 10 мың ядро индексін іздеу үшін пайдаланады, содан кейін Yahoo! компаниясы нәтижесін 2008 жылы мәлімдеді. 2008 жылдың қаңтарында Hadoop жетекші Apache жобалардың бірі болды.

Hadoop негізгі модульдері:

... жалғасы

Сіз бұл жұмысты біздің қосымшамыз арқылы толығымен тегін көре аласыз.
Ұқсас жұмыстар
Қызмет көрсету және еңбек шығындарын есептеу
Қазіргі жағдайдағы ауыл шаруашылық өнімдерінің сапасын басқаруды жетілдіру бойынша ұсыныстарды әзірлеу
Түгендеу қорытындысын құжаттау
Бухгалтерлік есептің әдістемелік негізі
Түгендеу комиссиялары түгендеуді белгіленген тәртіп пен уақьптылы жүргізуді сақтау
Қаржылық есептемелер
Қорлар есебі
Түгендеу- бухгалтерлік есептің негізгі әдісі ретінде
Бухгалтерлік есептегі кәсіпорынның даму тарихы
“TOUR TRAVEL” туристік фирманың “бизнез-жоспары”
Пәндер



Реферат Курстық жұмыс Диплом Материал Диссертация Практика Презентация Сабақ жоспары Мақал-мәтелдер 1‑10 бет 11‑20 бет 21‑30 бет 31‑60 бет 61+ бет Негізгі Бет саны Қосымша Іздеу Ештеңе табылмады :( Соңғы қаралған жұмыстар Қаралған жұмыстар табылмады Тапсырыс Антиплагиат Қаралған жұмыстар kz