Мәліметтерді алу



Жедел медициналық көмек және мейіргер ісі кафедрасы
Тақырыбы: Мәліметтерді интеллектуалды талдау (Data Mining) .
Орындаған: Талбудинова А
Тобы:В-МІҚқБ-01-22(10 ай)
Қабылдаған: м. ғ. магистрі Л. Ж. Жақанша
Шымкент, 2022ж

Жоспар
Кіріспе
Негізгі бөлім
Мәліметтерді алу
Data Mining
Data Mining анықтамасы
Data Mining ақпараттық технологиялар нарығының бөлігі ретінде
Analysis Services
Мәліметтерді талдау тексеру процесі
Қорытынды
Пайдаланылған әдебиеттер

Кіріспе
Мәліметтер (данные; data) - автоматты құралдардың көмегімен, кей жағдайда адамның қатысуымен, өңдеуге ыңғайлы түрде берілген мағлұмат.
Мәліметтердің кірістік, шығыстық, басқару, проблемалық, сандық, мәтіндік, графикалық және т. б. түрлерін атап өтуге болады.

Негізгі бөлім
Даму тарихы
1960 - АКТ файлдарды өңдейтін қарапайым жүйелерден күрделі мәліметтер қорын басқару жүйелеріне
1970 - МҚ саласындағы зерттеулер ерте заманғы иерархиялық және желілік мәліметтер қорларынан күрделі реляциялық МҚБЖ-не және мәліметтерді моделдеуге ауысты. SQL тілі дамыды.
1980 - аса қуатты жаңа МҚБЖ-лері пайда болды. Мәліметтердің объектілі-бағытталған, объектілі-реляциялық және дедуктивті түрлері дамыды. Транзакцияларды онлайн өңдеу әдістері (on-line transaction processing - OLTP) реляциялық технологиялардың дамуына ықпал етті.
1990 - Интернет желілерінің дамуы таратылған мәліметтер қорлары дамып, таратылған аумақтық ақпараттық жүйелердің құрылуына әсер етті. Сонымен қатар, мәлімет көлемінің күрт өсуі мәліметтер қоймалары (Data Warehouse) технологиясының пайда болуына әкелді. Оның негізінде мәліметтерді алдын ала өңдеу мен аналитикалық онлайн өңдеу (On-Line Analytical Processing, OLAP) жатыр.
2000 - көпөлшемді мәлімет көлемінің ұғаюы мен ақпарат пен білімнің тапшылығы мәліметтерді зияткерлік талдау (Data Mining) саласының дамуына ықпал етті. Data Mining мәліметтерден қажетті білімді алу әдістерін іздеп, құруға негізделген, олардың көмегімен маңызды нақты басқару шешімдерін қабылдауға болады.

Мәліметтерді алу
Ақпаратты өңдеудің компьютерлік әдістері мен алгоритмдерінің қатынасы арнайы білім қорлары мен қоймаларынан мәліметтерді таңдап алу үшін мәліметтерді талдау процедуралары қолданылады. Іздеу процедураларынан қарағанда «мәліметтерді алу» термині мәліметтерді бағалау мен күрделі салыстыру алгоритмдерімен сипатталады.

Data Mining
Data Mining - қолданбалы статистика, бейнелерді тану, жасанды интеллект, мәліметтер қоры теориясы сияқты ғылымдардың негізінде пайда болған және дамып келе жатқан пәнаралық сала.
Data Mining термині екі ұғымнан өз атауын алды: үлкен дерекқордағы құнды деректерді іздеу (деректер) және тау-кен өндірісі.


Data Mining анықтамасы
Бағыт негізін салушылардың бірі Григорий Пятецкий-Шапиро берген анықтама классикалық болып саналады:
Data Mining - бұрын белгілі болмаған, жасырын білімнің шикі деректерінде «машинамен» (алгоритмдер, жасанды интеллект) зерттеу және табу, тривиалды емес, іс жүзінде пайдалы, түсіндіру үшін қол жетімді.


Data Warehouse
Деректер қоймасы - бұл шешімді қабылдау процесі үшін пәндік аймаққа бағытталған, интеграцияланған, сенімді деректердің жиынтығы. Шешімді қабылдау үшін қолайлы дәйекті тарихи деректердің репозиторийін оңай алуға болады.

Data Mining ақпараттық технологиялар нарығының бөлігі ретінде
Gartner Group, IT-нарықты талдау агенттігі, 1980-ші жылдарда «Business Intelligence» (BI) терминін, бизнес-сарапшылық немесе бизнес-сараптаманы қолданды. Бұл термин шешім қабылдауға қолдау көрсету жүйесін қолдану арқылы іскерлік шешімдерді жақсартатын түрлі ұғымдар мен әдістерді сипаттау үшін ұсынылады.
1996 жылы агенттік терминнің анықтамасын нақтылады.
Business Intelligence - кәсіпорында жұмыс жасайтын және мәліметтер қоймасында орналасқан ақпаратқа қол жеткізу және талдау, сонымен қатар дұрыс және негізделген басқару шешімдерін қабылдауды қамтамасыз ететін бағдарламалық жасақтама.
BI тұжырымдамасы әртүрлі деректерді талдау мен өңдеудің әртүрлі құралдары мен технологияларын біріктіреді.
Осы құралдардың негізінде басқару шешімдерін қабылдау үшін ақпараттың сапасын жақсартуға бағытталған BI-жүйелер құрылады.
BI жүйелері сонымен қатар шешімдерді қолдау жүйелері (DSS, DSS, шешімдерді қолдау жүйесі) деп аталады. Бұл жүйелер деректерді ақпаратқа айналдырады, соның негізінде шешім қабылдауға болады, яғни. шешімді қолдау.
Gartner Group келесі сыныптардың бағдарламалық өнімдерінің жиынтығы ретінде Business Intelligence жүйелерінің нарығының құрамын анықтайды:
• деректер қоймаларын құру құралдары (мәліметтерді сақтау, CD) ;
Онлайн режимінде аналитикалық өңдеу жүйелері (OLAP) ;
• ақпараттық-аналитикалық жүйелер (Enterprise Information Systems, EIS) ;
• деректерді іздеу құралдары;
• сұрау және есеп беру құралдары (сұрау және есеп беру құралдары) .

Analysis Services
Analysis Services - бұл шешім қабылдауда және бизнес талдауда қолданылатын аналитикалық мәліметтер жүйесі (Vertipaq) . Ол Power BI, Excel, Reporting Services есептері және басқа да деректерді бейнелеу құралдары сияқты бизнес-есептер мен клиенттердің қосымшалары үшін кәсіпорын деңгейіндегі семантикалық деректер модельдерін ұсынады. Талдау қызметтері әр түрлі платформаларда қол жетімді:
SQL Server Analysis Services - жергілікті сервер данасы ретінде орнатылған, SQL Server Analysis Services барлық үйлесімділік деңгейлеріндегі кестелік модельдерге (нұсқасына байланысты), көп өлшемді модельдерге, деректерді шығаруға және SharePoint үшін Power Pivot-қа қолдау көрсетеді.
Azure талдау қызметтері - Azure ресурсы ретінде жасалған, Azure Analysis Services серверлік ресурстары үйлесімділік деңгейінде 1200 және одан жоғары деңгейдегі кестелік модельдерді қолдайды. DirectQuery, бөлімдер, жол қауіпсіздігі, екіжақты қатынастар және аудармалар барлығына қолдау көрсетіледі. Қосымша ақпарат алу үшін Azure талдау қызметтері дегеніміз не .
Power BI Premium (алдын-ала қарау) - Vertipaq талдау қызметі қозғалтқышы бағдарламалауды, клиенттік қосымшаны және ашық стандартты XMLA протоколына қолдау көрсететін API интерфейстері арқылы клиенттердің кітапханалары мен API арқылы Power BI Premium деректер жиынтығын қамтамасыз етеді. Қазіргі уақытта Power BI Premium деректер жиынтығы XMLA соңғы нүктелері арқылы Microsoft және үшінші тарап клиенттерінің қосымшалары мен құралдарының қосылуын және оқуға арналған әрекеттерін қолдайды .

Мәліметтерді талдау тексеру процесі
Мәліметтерді талдау тексеру процесі болып табылады, тазарту, түрлендіру және модельдеу деректер пайдалы ақпаратты табу, қорытындыларды хабарлау және шешім қабылдауды қолдау мақсатында. Мәліметтерді талдау бірнеше атаулар бойынша әр түрлі техниканы қамтитын бірнеше қырлар мен тәсілдерге ие және әртүрлі бизнес, ғылым және әлеуметтік ғылым салаларында қолданылады. Қазіргі іскерлік әлемде деректерді талдау шешімдерді ғылыми қабылдауда және бизнестің тиімді жұмысына көмектесуде маңызды рөл атқарады.

Деректерді өндіру бұл статистикалық модельдеуге және таза сипаттамалық емес, болжау үшін білімді ашуға бағытталған деректерді талдаудың ерекше әдісі. іскерлік интеллект негізінен іскери ақпараттарға назар аудара отырып, біріктіруге негізделген деректерді талдауды қамтиды. Статистикалық қосымшаларда деректерді талдауды екіге бөлуге болады сипаттайтын статистика, деректерді іздестіру (EDA) және растайтын деректерді талдау (CDA) . EDA деректердің жаңа мүмкіндіктерін ашуға, ал CDA барды растауға немесе бұрмалауға бағытталған. Болжамды аналитика болжамды болжау немесе жіктеу үшін статистикалық модельдерді қолдануға бағытталған, ал мәтіндік талдау мәтіндік дереккөздерден ақпарат алу және жіктеу үшін статистикалық, лингвистикалық және құрылымдық әдістерді қолданады құрылымданбаған мәліметтер. Жоғарыда айтылғандардың барлығы деректерді талдаудың сорттары болып табылады.

Деректерді интеллектуалды талдаудың жақсы жоспары егжей-тегжейлі және бизнес мақсаттарға, Data Mining талдаудың мақсаттарына қол жеткізу үшін әзірленуі тиіс.
Data understanding - деректерді түсіну. Бұл кезеңде деректерді интеллектуалды талдау мақсаттарына сәйкестігін тексеру үшін деректердің жұмысқа қабілеттілігін тексеру жүргізіледі.
Біріншіден, деректер ұйымда қол жетімді бірнеше деректер көздерінен жиналады. Бұл деректер көздері бірнеше деректер базасын, жалпақ файл немесе деректер текшесін қамтуы мүмкін. Деректерді интеграциялау процесінде туындауы мүмкін объектілерді салыстыру және схемаларды интеграциялау секілді мәселелер бар. Бұл өте күрделі процесс, себебі әр түрлі көздерден алынған деректерді сәйкестендіру оңай емес. Мысалы, А кестесі cust_no атты мәннен тұрады, ал басқа B кестесі cust-id атты мәннен тұрады.

Сондықтан осы екі объектінің бірдей мағынаға жататынына немесе болмайтынына кепілдік беру өте қиын. Мұнда метадеректер деректерді интеграциялау процесінде қателерді азайту мақсатында қолдану тиіс.
Одан әрі алынған деректердің қасиеттерін іздеген жөн. Мәліметтерді зерделеудің жақсы тәсілі - сұрау, есептілік және визуализация құралдарының көмегімен Data Mining мәселелеріне жауап беру.
Сұраныс нәтижелерінің негізінде деректердің сапасы белгіленуі тиіс. Жетіспейтін деректер бар болса алынуы тиіс.
Data preparation - деректерді дайындау. Бұл кезеңде деректер өндіріске дайындалады. Деректерді дайындау процесі жоба уақытының шамамен 90% алады. Әртүрлі көздерден алынған деректер іріктелуі, тазартылуы, түрлендірілуі, пішімделуі, иесіздендірілуі және құрастырылуы тиіс (егер бұл қажет болса) .

Деректерді тазалау - бұл шуды тегістеу және жіберілген мәндерді толтыру арқылы «деректерді тазалау» процесі.
Мысалы, клиенттің демографиялық профилі үшін жас туралы деректер жоқ. Бұл деректер толық емес және толтырылуы тиіс. Кейбір жағдайларда қате деректер шығарылуы мүмкін. Мысалы, адаамның жасы 300, яғни деректер қарама-қайшы болады. Мысалы, клиенттің аты әртүрлі кестелерде әр түрлі кездесуі мүмкін.
Деректерді түрлендіру операциялары деректерді интеллектуалды деректер талдауында пайдалы ету мақсатында деректерді өзгертеді. Келесі түрлендіруді қолдануға болады.
Data transformation - деректерді түрлендіру. Деректерді түрлендіру операциялары деректерді интеллектуалды талдау процесін табысты орындауға мүмкіндік береді. Тегістеу: бұл деректердегі шуды жоюға көмектеседі.
Агрегация: деректерге қосу немесе біріктіру операциялары қолданылады. Яғни, сату туралы апта сайынғы деректер ай сайынғы және жылдық қорытындыны есептеу үшін біріктіріледі. Жалпылау: бұл кезеңде төменгі деңгейлі деректер ұғымдардың иерархиясы арқылы неғұрлым жоғары деңгейдегі ұғымдармен ауыстырылады. Мысалы, қала ауданмен ауыстырылады. Қалпына келтіру: қалпына келтіру атрибутивті деректер жоғары немесе төмен масштабталғанда орындалады. Мысалы: деректер нормалаудан кейін - 2. 0-ден 2. 0-ге дейінгі диапазонда болуы тиіс. Атрибуттарды құру: бұл атрибуттар Data Mining үшін пайдалы атрибуттардың берілген жиынтығын қамтиды

Data Mining процесінде анықталған білім немесе ақпарат техникалық емес мүдделі тараптар үшін оңай, әрі түсінікті болуы керек.
Мәліметтерді жеткізу, қызмет көрсету және болжауды мониторингілеу үшін құрылымдық өрістету жоспары жасалады.
Жоба бойынша түпкілікті есеп алынған сабақ пен жобаны іске асыру барысында жинақталған негізгі тәжірибені ескере отырып жасалады. Бұл кәсіпорынның іскерлік саясатын жақсартуға көмектеседі.

Қорытынды
- Іс жүргізу
- Автоматтандыру, Техника
- Алғашқы әскери дайындық
- Астрономия
- Ауыл шаруашылығы
- Банк ісі
- Бизнесті бағалау
- Биология
- Бухгалтерлік іс
- Валеология
- Ветеринария
- География
- Геология, Геофизика, Геодезия
- Дін
- Ет, сүт, шарап өнімдері
- Жалпы тарих
- Жер кадастрі, Жылжымайтын мүлік
- Журналистика
- Информатика
- Кеден ісі
- Маркетинг
- Математика, Геометрия
- Медицина
- Мемлекеттік басқару
- Менеджмент
- Мұнай, Газ
- Мұрағат ісі
- Мәдениеттану
- ОБЖ (Основы безопасности жизнедеятельности)
- Педагогика
- Полиграфия
- Психология
- Салық
- Саясаттану
- Сақтандыру
- Сертификаттау, стандарттау
- Социология, Демография
- Спорт
- Статистика
- Тілтану, Филология
- Тарихи тұлғалар
- Тау-кен ісі
- Транспорт
- Туризм
- Физика
- Философия
- Халықаралық қатынастар
- Химия
- Экология, Қоршаған ортаны қорғау
- Экономика
- Экономикалық география
- Электротехника
- Қазақстан тарихы
- Қаржы
- Құрылыс
- Құқық, Криминалистика
- Әдебиет
- Өнер, музыка
- Өнеркәсіп, Өндіріс
Қазақ тілінде жазылған рефераттар, курстық жұмыстар, дипломдық жұмыстар бойынша біздің қор #1 болып табылады.

Ақпарат
Қосымша
Email: info@stud.kz