Деректерді талдау



ДӘРІС № 6
Деректерді талдау. Деректерді басқару
Авкурова Ж. С.

Деректерді талдау негіздері
2) деректер үлгісінің сипаттамасы
3) жіктеу, болжау
4) Ағашты индукциялау шешімі бойынша жіктеу
5 Деректерді өндіру дегеніміз не?
6) Үлкен деректер дегеніміз не?

Деректерді талдау негіздері
Деректерді талдау - пайдалы ақпаратты табуға, анықтамалар мен шешім қабылдауды қолдауға арналған деректерді тексеру, тазалау, түрлендіру және модельдеу процесі.
Деректерді талдау түрлі атаулармен әр түрлі әдістерді қамтитын және бір уақытта бизнес, ғылым және әлеуметтік ғылымдардың түрлі салаларында қолданылатын бірнеше аспектілер мен тәсілдерді қамтиды.

Деректер талдауы
Әр түрлі көздерден (мысалы, форумдар, электрондық хаттар, емтихан журналдары, электронды оқыту жүйелеріндегі чат журналдары) шикізаттық деректерді жинақтау жемісті үлгілер мен қарым-қатынастарды анықтау үшін пайдаланылуы мүмкін (Bose, 2009)
Зерттеу визуализациясы - аналитикалық деректерді талдауды пайдаланады, мүмкін белгісіз қатынастарды немесе кем дегенде формальды түрде тұжырымдалады.
Қайта растайтын визуализация - теорияға негізделген

Деректер үлгісінің сипаттамасы
Кез-келген есепте немесе мақалада үлгінің құрылымы нақты сипатталуы керек. Ішкі топтың талдауы негізгі талдау кезеңінде жүзеге асырылатын кезде іріктеу құрылымын (және, атап айтқанда, кіші топтардың өлшемін) дәл анықтау өте маңызды.
Деректер үлгісінің сипаттамаларын төмендегідей қарап шығуға болады:
- маңызды айнымалылардың негізгі статистикасы;
- нүктелік сайттар;
- Корреляция және қауымдастық;
- кестелер.

ЖІКТЕЛУІ, БОЛЖАМДАРЫ
Classification
категориялық сынып белгілерін болжайды (дискретті немесе номиналды) ;
классификациялық атрибуттардағы жаттығу жиынтығы мен мәндеріне (сынып белгілеріне) негізделген деректерді жіктейді (үлгі жасайды) және оларды жаңа деректерді жіктегенде пайдаланады.
Prediction
модельдердің үздіксіз функциялары, мысалы, белгісіз немесе жетіспейтін мәндерді болжайды.
Typical applications:
Credit approval - несиені растау;
Target marketing - мақсатты маркетинг;
Medical diagnosis - медициналық диагностика;
Fraud detection - алаяқты анықтау.

ЖІКТЕЛУ - ЕКІ САТЫЛЫ ПРОЦЕСС
Үлгіні тұрғызу: алдын-ала анықталған кластардың жиынтығы
Әрбір үлгі/кортеж сыныптың белгі атрибутымен алдын ала анықталған сыныпқа жатады деп есептеледі;
Модельді құрастыру үшін пайдаланылатын бірнеше топтамалар: оқыту жиынтығы;
Модель жіктеу ережелері, шешім ағаштары немесе математикалық формулалар түрінде ұсынылған.
Үлгіні пайдалану: болашақ немесе белгісіз нысандарды жіктеу
Үлгінің дәлдігін бағалау:
Сынақ үлгісінің белгілі белгісі үлгінің құпиялы нәтижесімен салыстырылады;
Дәлдік - үлгімен дұрыс жіктелетін сынақ үлгісінің пайызы;
Сынақ жиынтығы жаттығу жиынынан тәуелді емес, әйтпесе қайта жабдықталатын болады.

ЖІКТЕУ ПРОЦЕСІ (1) : ҮЛГІНІ ТҰРҒЫЗУ
Classification
Algorithms
IF rank = ‘professor’
OR years > 6
THEN tenured = ‘yes’

ЖІКТЕУ ПРОЦЕСІ (2) : БОЛЖАМДАРДА ҮЛГІ ТҰРҒЫЗУДЫ ҚОЛДАНУ
(George, Professor, 5)
Tenured?

СҰРАҚТАР(1) : ДЕРЕКТЕРДІ ДАЙЫНДАУ
Data cleaning - деректерді тазалау;
Шуды азайту және жетіспейтін мәндерді ұстау үшін деректерді алдын-ала өңдеу;
Relevance analysis (feature selection) - Релеванттық талдау (функцияны таңдау) ;
Керек емес немесе артық атрибуттарды алып тастаңыз;
Data transformation - деректерді түрлендіру;
Деректерді жинақтау және/немесе қалыпқа келтіру.

ISSUES(2) : EVALUATING CLASSIFICATION METHODS СҰРАҚТАР(2) : ЖІКТЕУ ӘДІСТЕРІН БАҒАЛАУ
Predictive accuracy - болжалды дәлдік
Speed and scalability - жылдамдық және масштабталу
time to construct the model - модель құру уақыты;
time to use the model - модельді пайдалану уақыты.
Robustness - төзімділігі
handling noise and missing values - шу және жоқ мәндерді өңдеу;
Scalability - масштабталу
efficiency in disk-resident databases - дискіде тұрғылықты базалардың тиімділігі;
Interpretability - түсініктілік
understanding and insight provded by the model - қамтылатын модельдің түсінігі;
Goodness of rules - ережелер
decision tree size - шешім ағашының өлшемі;
compactness of classification rules - ықшам классификациялық ережелері.

CLASSIFICATION BY DECISION TREE INDUCTION АҒАШТЫ ИНДУКЦИЯЛАУ ШЕШІМІ БОЙЫНША ЖІКТЕУ
Decision tree - шешім ағашы
Ағаш құрылымының блок-схемасы
Ішкі түйін атрибуттарды тексеруді білдіреді
Филиал тест нәтижесін білдіреді.
Соңғы түйіндер сынып белгілері немесе сыныпты таратуды білдіреді
Decision tree generation consists of two phases - шешім қабылдау ағашы екі кезеңнен тұрады
Tree construction - Ағаш құрылымы
Бастапқыда барлық оқу мысалдары тамырда орналасады.
Бөлім мысалдары рекурсивті таңдалған атрибуттарға негізделген.
Tree pruning - Ағаштарды кесу
Шуды немесе сыртқа шығаруды көрсететін тармақтарды анықтау және жою.
Use of decision tree: Classifying an unknown sample - шешім ағашын пайдалану: белгісіз үлгіні жіктеу
Шешім тармағына сәйкес төлсипат мәндерін тексеріңіз.

TRAINING DATASET - ОҚУ ДЕРЕКТЕР ЖИЫНТЫҒЫ
Бұл Quinlan's ID3 мысалына сәйкес келеді

OUTPUT: A DECISION TREE FOR “BUYS_COMPUTER” ҚОРЫТЫНДЫ: ШЕШІМ АҒАШЫ БОЙЫНША «КОМПЬЮТЕР САТЫП АЛАДЫ»
age?
overcast
student?
credit rating?
no
yes
fair
excellent
<=30
>40
no
no
yes
yes
yes
30. . 40

WHAT IS DATA MINING? ДЕРЕКТЕРДІ ЖИНАҚТАУ ДЕГЕНІМІЗ НЕ?
Интеллектуалды деректерді талдау (деректерден білімді табу), үлкен деректерден қызықты (жасырын, бұрын белгісіз және пайдалы) үлгілерді немесе білімдерді шығарып алу.
Alternative name - балама атауы
Knowledge discovery in databases (KDD) - Деректер базасында білімдер ашу;
Query processing - өтінімді өңдеу;
Expert systems or statistical programs - Сарапшы жүйелер немесе статистикалық бағдарламалар.

DATA MINING: A KDD PROCESS
Data mining - негізгі білімді ашу процесі
Data Cleaning -
Деректерді тазалау
Data Integration - Деректерді біріктіру
Databases - деректер қоры
Data Warehouse - деректерді сақтау
Knowledge
Task-relevant Data -
Тапсырмаға қатысты деректер
Selection-Таңдау
Data Mining
Pattern Evaluation -
Үлгіні бағалау

ARCHITECTURE: TYPICAL DATA MINING SYSTEM
Data
Warehouse
Data cleaning & data integration
Filtering
Databases
- Іс жүргізу
- Автоматтандыру, Техника
- Алғашқы әскери дайындық
- Астрономия
- Ауыл шаруашылығы
- Банк ісі
- Бизнесті бағалау
- Биология
- Бухгалтерлік іс
- Валеология
- Ветеринария
- География
- Геология, Геофизика, Геодезия
- Дін
- Ет, сүт, шарап өнімдері
- Жалпы тарих
- Жер кадастрі, Жылжымайтын мүлік
- Журналистика
- Информатика
- Кеден ісі
- Маркетинг
- Математика, Геометрия
- Медицина
- Мемлекеттік басқару
- Менеджмент
- Мұнай, Газ
- Мұрағат ісі
- Мәдениеттану
- ОБЖ (Основы безопасности жизнедеятельности)
- Педагогика
- Полиграфия
- Психология
- Салық
- Саясаттану
- Сақтандыру
- Сертификаттау, стандарттау
- Социология, Демография
- Спорт
- Статистика
- Тілтану, Филология
- Тарихи тұлғалар
- Тау-кен ісі
- Транспорт
- Туризм
- Физика
- Философия
- Халықаралық қатынастар
- Химия
- Экология, Қоршаған ортаны қорғау
- Экономика
- Экономикалық география
- Электротехника
- Қазақстан тарихы
- Қаржы
- Құрылыс
- Құқық, Криминалистика
- Әдебиет
- Өнер, музыка
- Өнеркәсіп, Өндіріс
Қазақ тілінде жазылған рефераттар, курстық жұмыстар, дипломдық жұмыстар бойынша біздің қор #1 болып табылады.

Ақпарат
Қосымша
Email: info@stud.kz