Деректерді талдау


Slide 1

ДӘРІС № 6

Деректерді талдау. Деректерді басқару

Авкурова Ж. С.

Slide 2

Деректерді талдау негіздері

2) деректер үлгісінің сипаттамасы

3) жіктеу, болжау

4) Ағашты индукциялау шешімі бойынша жіктеу

5 Деректерді өндіру дегеніміз не?

6) Үлкен деректер дегеніміз не?

Slide 3

Деректерді талдау негіздері

Деректерді талдау - пайдалы ақпаратты табуға, анықтамалар мен шешім қабылдауды қолдауға арналған деректерді тексеру, тазалау, түрлендіру және модельдеу процесі.

Деректерді талдау түрлі атаулармен әр түрлі әдістерді қамтитын және бір уақытта бизнес, ғылым және әлеуметтік ғылымдардың түрлі салаларында қолданылатын бірнеше аспектілер мен тәсілдерді қамтиды.

Slide 4

Деректер талдауы

Әр түрлі көздерден (мысалы, форумдар, электрондық хаттар, емтихан журналдары, электронды оқыту жүйелеріндегі чат журналдары) шикізаттық деректерді жинақтау жемісті үлгілер мен қарым-қатынастарды анықтау үшін пайдаланылуы мүмкін (Bose, 2009)

Зерттеу визуализациясы - аналитикалық деректерді талдауды пайдаланады, мүмкін белгісіз қатынастарды немесе кем дегенде формальды түрде тұжырымдалады.

Қайта растайтын визуализация - теорияға негізделген

Slide 5

Деректер үлгісінің сипаттамасы

Кез-келген есепте немесе мақалада үлгінің құрылымы нақты сипатталуы керек. Ішкі топтың талдауы негізгі талдау кезеңінде жүзеге асырылатын кезде іріктеу құрылымын (және, атап айтқанда, кіші топтардың өлшемін) дәл анықтау өте маңызды.

Деректер үлгісінің сипаттамаларын төмендегідей қарап шығуға болады:

- маңызды айнымалылардың негізгі статистикасы;

- нүктелік сайттар;

- Корреляция және қауымдастық;

- кестелер.

Slide 6

ЖІКТЕЛУІ, БОЛЖАМДАРЫ

Classification

категориялық сынып белгілерін болжайды (дискретті немесе номиналды) ;

классификациялық атрибуттардағы жаттығу жиынтығы мен мәндеріне (сынып белгілеріне) негізделген деректерді жіктейді (үлгі жасайды) және оларды жаңа деректерді жіктегенде пайдаланады.

Prediction

модельдердің үздіксіз функциялары, мысалы, белгісіз немесе жетіспейтін мәндерді болжайды.

Typical applications:

Credit approval - несиені растау;

Target marketing - мақсатты маркетинг;

Medical diagnosis - медициналық диагностика;

Fraud detection - алаяқты анықтау.

Slide 7

ЖІКТЕЛУ - ЕКІ САТЫЛЫ ПРОЦЕСС

Үлгіні тұрғызу: алдын-ала анықталған кластардың жиынтығы

Әрбір үлгі/кортеж сыныптың белгі атрибутымен алдын ала анықталған сыныпқа жатады деп есептеледі;

Модельді құрастыру үшін пайдаланылатын бірнеше топтамалар: оқыту жиынтығы;

Модель жіктеу ережелері, шешім ағаштары немесе математикалық формулалар түрінде ұсынылған.

Үлгіні пайдалану: болашақ немесе белгісіз нысандарды жіктеу

Үлгінің дәлдігін бағалау:

Сынақ үлгісінің белгілі белгісі үлгінің құпиялы нәтижесімен салыстырылады;

Дәлдік - үлгімен дұрыс жіктелетін сынақ үлгісінің пайызы;

Сынақ жиынтығы жаттығу жиынынан тәуелді емес, әйтпесе қайта жабдықталатын болады.

Slide 8

ЖІКТЕУ ПРОЦЕСІ (1) : ҮЛГІНІ ТҰРҒЫЗУ

Classification

Algorithms

IF rank = ‘professor’

OR years > 6

THEN tenured = ‘yes’

Slide 9

ЖІКТЕУ ПРОЦЕСІ (2) : БОЛЖАМДАРДА ҮЛГІ ТҰРҒЫЗУДЫ ҚОЛДАНУ

(George, Professor, 5)

Tenured?

Slide 10

СҰРАҚТАР(1) : ДЕРЕКТЕРДІ ДАЙЫНДАУ

Data cleaning - деректерді тазалау;

Шуды азайту және жетіспейтін мәндерді ұстау үшін деректерді алдын-ала өңдеу;

Relevance analysis (feature selection) - Релеванттық талдау (функцияны таңдау) ;

Керек емес немесе артық атрибуттарды алып тастаңыз;

Data transformation - деректерді түрлендіру;

Деректерді жинақтау және/немесе қалыпқа келтіру.

Slide 11

ISSUES(2) : EVALUATING CLASSIFICATION METHODS СҰРАҚТАР(2) : ЖІКТЕУ ӘДІСТЕРІН БАҒАЛАУ

Predictive accuracy - болжалды дәлдік

Speed and scalability - жылдамдық және масштабталу

time to construct the model - модель құру уақыты;

time to use the model - модельді пайдалану уақыты.

Robustness - төзімділігі

handling noise and missing values - шу және жоқ мәндерді өңдеу;

Scalability - масштабталу

efficiency in disk-resident databases - дискіде тұрғылықты базалардың тиімділігі;

Interpretability - түсініктілік

understanding and insight provded by the model - қамтылатын модельдің түсінігі;

Goodness of rules - ережелер

decision tree size - шешім ағашының өлшемі;

compactness of classification rules - ықшам классификациялық ережелері.

Slide 12

CLASSIFICATION BY DECISION TREE INDUCTION АҒАШТЫ ИНДУКЦИЯЛАУ ШЕШІМІ БОЙЫНША ЖІКТЕУ

Decision tree - шешім ағашы

Ағаш құрылымының блок-схемасы

Ішкі түйін атрибуттарды тексеруді білдіреді

Филиал тест нәтижесін білдіреді.

Соңғы түйіндер сынып белгілері немесе сыныпты таратуды білдіреді

Decision tree generation consists of two phases - шешім қабылдау ағашы екі кезеңнен тұрады

Tree construction - Ағаш құрылымы

Бастапқыда барлық оқу мысалдары тамырда орналасады.

Бөлім мысалдары рекурсивті таңдалған атрибуттарға негізделген.

Tree pruning - Ағаштарды кесу

Шуды немесе сыртқа шығаруды көрсететін тармақтарды анықтау және жою.

Use of decision tree: Classifying an unknown sample - шешім ағашын пайдалану: белгісіз үлгіні жіктеу

Шешім тармағына сәйкес төлсипат мәндерін тексеріңіз.

Slide 13

TRAINING DATASET - ОҚУ ДЕРЕКТЕР ЖИЫНТЫҒЫ

Бұл Quinlan's ID3 мысалына сәйкес келеді

Slide 14

OUTPUT: A DECISION TREE FOR “BUYS_COMPUTER” ҚОРЫТЫНДЫ: ШЕШІМ АҒАШЫ БОЙЫНША «КОМПЬЮТЕР САТЫП АЛАДЫ»

age?

overcast

student?

credit rating?

no

yes

fair

excellent

<=30

>40

no

no

yes

yes

yes

30. . 40

Slide 15

WHAT IS DATA MINING? ДЕРЕКТЕРДІ ЖИНАҚТАУ ДЕГЕНІМІЗ НЕ?

Интеллектуалды деректерді талдау (деректерден білімді табу), үлкен деректерден қызықты (жасырын, бұрын белгісіз және пайдалы) үлгілерді немесе білімдерді шығарып алу.

Alternative name - балама атауы

Knowledge discovery in databases (KDD) - Деректер базасында білімдер ашу;

Query processing - өтінімді өңдеу;

Expert systems or statistical programs - Сарапшы жүйелер немесе статистикалық бағдарламалар.

Slide 16

DATA MINING: A KDD PROCESS

Data mining - негізгі білімді ашу процесі

Data Cleaning -

Деректерді тазалау

Data Integration - Деректерді біріктіру

Databases - деректер қоры

Data Warehouse - деректерді сақтау

Knowledge

Task-relevant Data -

Тапсырмаға қатысты деректер

Selection-Таңдау

Data Mining

Pattern Evaluation -

Үлгіні бағалау

Slide 17

ARCHITECTURE: TYPICAL DATA MINING SYSTEM

Data

Warehouse

Data cleaning & data integration

Filtering

Databases


Ұқсас жұмыстар
Мәліметтерді алу
Түрі географиялық ақпараттық жүйе
Ақпараттық - аналитикалық жүйенің компоненттері және құрылымы
Бизнестегі мәліметтерді зияткерлік талдау
Үлкен деректер және оның маңызы
Экологиялық деректерді жинау мен өңдеудің математикалық процедуралары
Сыртқы жүйелерден ақпаратты біріктіру
Кәсіби ортада деректерді жинау, талдау және құрылымдау
Ақпаратты жинау
Деректерді тікелей пайдалану немесе деректерді сақтау
Пәндер



Реферат Курстық жұмыс Диплом Материал Диссертация Практика Презентация Сабақ жоспары Мақал-мәтелдер 1‑10 бет 11‑20 бет 21‑30 бет 31‑60 бет 61+ бет Негізгі Бет саны Қосымша Іздеу Ештеңе табылмады :( Соңғы қаралған жұмыстар Қаралған жұмыстар табылмады Тапсырыс Антиплагиат Қаралған жұмыстар kz