Деректерді талдау


ДӘРІС № 6
Деректерді талдау. Деректерді
басқару
Авкурова Ж.С.
Деректерді талдау негіздері
2) деректер үлгісінің сипаттамасы
3) жіктеу, болжау
4) Ағашты индукциялау шешімі бойынша жіктеу
5 Деректерді өндіру дегеніміз не?
6) Үлкен деректер дегеніміз не?
Деректерді талдау негіздері
Деректерді талдау - пайдалы ақпаратты табуға,
анықтамалар мен шешім қабылдауды қолдауға
арналған деректерді тексеру, тазалау, түрлендіру және
модельдеу процесі.
Деректерді талдау түрлі атаулармен әр түрлі
әдістерді қамтитын және бір уақытта бизнес, ғылым
және әлеуметтік ғылымдардың түрлі салаларында
қолданылатын бірнеше аспектілер мен тәсілдерді
қамтиды.
Деректер талдауы
Әр түрлі көздерден (мысалы, форумдар,
электрондық хаттар, емтихан журналдары, электронды
оқыту жүйелеріндегі чат журналдары) шикізаттық
деректерді жинақтау жемісті үлгілер мен қарым-
қатынастарды анықтау үшін пайдаланылуы мүмкін (Bose,
2009)
Зерттеу визуализациясы - аналитикалық деректерді
талдауды пайдаланады, мүмкін белгісіз қатынастарды
немесе кем дегенде формальды түрде тұжырымдалады.
Қайта растайтын визуализация – теорияға негізделген
Деректер үлгісінің сипаттамасы
Кез-келген есепте немесе мақалада үлгінің құрылымы
нақты сипатталуы керек. Ішкі топтың талдауы негізгі талдау
кезеңінде жүзеге асырылатын кезде іріктеу құрылымын
(және, атап айтқанда, кіші топтардың өлшемін) дәл анықтау
өте маңызды.
Деректер үлгісінің сипаттамаларын төмендегідей
қарап шығуға болады:
- маңызды айнымалылардың негізгі статистикасы;
- нүктелік сайттар;
- Корреляция және қауымдастық;
- кестелер.
ЖІКТЕЛУІ, БОЛЖАМДАРЫ
Classification
•категориялық сынып белгілерін болжайды (дискретті немесе
номиналды);
•классификациялық атрибуттардағы жаттығу жиынтығы мен
мәндеріне (сынып белгілеріне) негізделген деректерді жіктейді (үлгі
жасайды) және оларды жаңа деректерді жіктегенде пайдаланады.
Prediction
•модельдердің үздіксіз функциялары, мысалы, белгісіз немесе
жетіспейтін мәндерді болжайды.
Typical applications:
•Credit approval – несиені растау;
•Target marketing – мақсатты маркетинг;
•Medical diagnosis – медициналық диагностика;
•Fraud detection – алаяқты анықтау.
ЖІКТЕЛУ - ЕКІ САТЫЛЫ ПРОЦЕСС
• Үлгіні тұрғызу: алдын-ала анықталған кластардың жиынтығы
• Әрбір үлгі/кортеж сыныптың белгі атрибутымен алдын ала анықталған
сыныпқа жатады деп есептеледі;
• Модельді құрастыру үшін пайдаланылатын бірнеше топтамалар: оқыту
жиынтығы;
• Модель жіктеу ережелері, шешім ағаштары немесе математикалық
формулалар түрінде ұсынылған.
• Үлгіні пайдалану: болашақ немесе белгісіз нысандарды жіктеу
• Үлгінің дәлдігін бағалау:
• Сынақ үлгісінің белгілі белгісі үлгінің құпиялы нәтижесімен
салыстырылады;
• Дәлдік - үлгімен дұрыс жіктелетін сынақ үлгісінің пайызы;
• Сынақ жиынтығы жаттығу жиынынан тәуелді емес, әйтпесе қайта
жабдықталатын болады.
ЖІКТЕУ ПРОЦЕСІ (1): ҮЛГІНІ ТҰРҒЫЗУ
Classification
Algorithms
Training
Data
NAME RANK YEARS TENURED Classifier
Mike Assistant Prof 4 no (Model)
Mary Assistant Prof 10 yes
Bill Professor 5 yes
IF rank = ‘professor’
Jim Associate Prof 11 yes
Dave Assistant Prof 5 no
OR years > 6
Anne Associate Prof 3 no THEN tenured = ‘yes’
ЖІКТЕУ ПРОЦЕСІ (2): БОЛЖАМДАРДА ҮЛГІ ТҰРҒЫЗУДЫ
ҚОЛДАНУ
Classifier
Testing
Data Unseen Data
(George, Professor, 5)
NAME RANK YEARS TENURED
Tom Assistant Prof 2 no Tenured?
Merlisa Associate Prof 7 no
George Professor 5 yes
Joseph Assistant Prof 7 yes
СҰРАҚТАР(1): ДЕРЕКТЕРДІ ДАЙЫНДАУ
• Data cleaning – деректерді тазалау;
• Шуды азайту және жетіспейтін мәндерді ұстау үшін
деректерді алдын-ала өңдеу;
• Relevance analysis (feature selection) - Релеванттық
талдау (функцияны таңдау);
• Керек емес немесе артық атрибуттарды алып тастаңыз;
• Data transformation - деректерді түрлендіру;
• Деректерді жинақтау және/немесе қалыпқа келтіру.
ISSUES(2): EVALUATING CLASSIFICATION METHODS
СҰРАҚТАР(2): ЖІКТЕУ ӘДІСТЕРІН БАҒАЛАУ
• Predictive accuracy - болжалды дәлдік
• Speed and scalability - жылдамдық және масштабталу
• time to construct the model - модель құру уақыты;
• time to use the model - модельді пайдалану уақыты.
• Robustness – төзімділігі
• handling noise and missing values - шу және жоқ мәндерді өңдеу;
• Scalability – масштабталу
• efficiency in disk-resident databases - дискіде тұрғылықты базалардың
тиімділігі;
• Interpretability – түсініктілік
• understanding and insight provded by the model – қамтылатын модельдің
түсінігі;
• Goodness of rules – ережелер
• decision tree size - шешім ағашының өлшемі;
• compactness of classification rules - ықшам классификациялық ережелері.
CLASSIFICATION BY DECISION TREE INDUCTION
АҒАШТЫ ИНДУКЦИЯЛАУ ШЕШІМІ БОЙЫНША
ЖІКТЕУ
• Decision tree – шешім ағашы
• Ағаш құрылымының блок-схемасы
• Ішкі түйін атрибуттарды тексеруді білдіреді
• Филиал тест нәтижесін білдіреді.
• Соңғы түйіндер сынып белгілері немесе сыныпты таратуды білдіреді
• Decision tree generation consists of two phases - шешім қабылдау ағашы екі кезеңнен
тұрады
• Tree construction - Ағаш құрылымы
• Бастапқыда барлық оқу мысалдары тамырда орналасады.
• Бөлім мысалдары рекурсивті таңдалған атрибуттарға негізделген.
• Tree pruning – Ағаштарды кесу
• Шуды немесе сыртқа шығаруды көрсететін тармақтарды анықтау және жою.
• Use of decision tree: Classifying an unknown sample – шешім ағашын пайдалану:
белгісіз үлгіні жіктеу
• Шешім тармағына сәйкес төлсипат мәндерін тексеріңіз.
TRAINING DATASET - ОҚУ ДЕРЕКТЕР
ЖИЫНТЫҒЫ
age income student credit_rating
<=30 high no fair
Бұл <=30 high no excellent
Quinlan's 31…40 high no fair
>40 medium no fair
ID3 >40 low yes fair
мысалына >40
31…40
low
low
yes excellent
yes excellent
сәйкес <=30 medium no fair
<=30 low yes fair
келеді >40 medium yes fair
<=30 medium yes excellent
31…40 medium no excellent
31…40 high yes fair
>40 medium no excellent
OUTPUT: A DECISION TREE FOR “BUYS_COMPUTER”
ҚОРЫТЫНДЫ: ШЕШІМ АҒАШЫ БОЙЫНША
«КОМПЬЮТЕР САТЫП АЛАДЫ»
age?
30..40
<=30 overcast >40
student? yes credit rating?
no yes excellent fair
no yes no yes
WHAT IS DATA MINING?
ДЕРЕКТЕРДІ ЖИНАҚТАУ ДЕГЕНІМІЗ НЕ?
•Интеллектуалды деректерді талдау (деректерден
білімді табу), үлкен деректерден қызықты (жасырын,
бұрын белгісіз және пайдалы) үлгілерді немесе білімдерді
шығарып алу.
•Alternative name – балама атауы
• Knowledge discovery in databases (KDD) - Деректер
базасында білімдер ашу;
• Query processing – өтінімді өңдеу;
• Expert systems or statistical programs - Сарапшы
жүйелер немесе статистикалық бағдарламалар.
DATA MINING: A KDD PROCESS
Data mining - негізгі Pattern Evaluation –
Үлгіні бағалау
білімді ашу процесі
Task-relevant Data – Data Mining
Тапсырмаға
қатысты деректер
Data Warehouse –
деректерді сақтау Selection-Таңдау
Data Cleaning –
Деректерді
тазалау
Data Integration - Деректерді біріктіру
Databases – деректер қоры
ARCHITECTURE: TYPICAL DATA MINING
SYSTEM
Graphical user interface
Pattern evaluation
Data mining engine
Knowledge-base
Database or data
warehouse server
Data cleaning & data integration Filtering
Data
Databases Warehouse
DATA MINING: CONFLUENCE OF MULTIPLE
DISCIPLINES
ДЕРЕКТЕРДІ ӨҢДЕУ: БІРНЕШЕ ПӘНДЕРДІ БІРІКТІРУ
Database
Statistics
Systems
Machine
Data Mining Visualization
Learning
Algorithm Other
Disciplines
MULTI-DIMENSIONAL VIEW OF DATA MINING
КӨПӨЛШЕМДІ ДЕРЕКТЕРДІ ӨҢДЕУ КӨРІНІСІ
• Data to be mined - өнімге арналған деректер
- Реляциялық, деректерді сақтау, транзакция, ағын,
нысанға бағытталған/реляциялық, белсенді, кеңістіктік,
уақыттық қатарлар, мәтін, мультимедиа, гетерогенді,
WWW
• Knowledge to be mined – өнімге арналған білімдер
- Сипаттау, дискриминациялау, қауымдастық,
классификация, кластерлеу, тренд/ауытқу,
шығарындыларды талдау және т.б.
- Бірнеше/интеграцияланған функциялар және бірнеше
деңгейде тау-кен жұмыстарын жүргізу.
What is “big data”?
«Үлкен деректер» дегеніміз не?
«Үлкен деректер - бұл үлкен көлемді, жоғары
жылдамдықты және / немесе әртүрлі ақпараттық
активтерді өңдеу процестерінің жаңа формаларын
талап ететін, шешім қабылдауды жетілдіру,
процестерді анықтау және оңтайландыру».
Күрделі (интеллектуалдық) деректерді талдау
шағын деректерді «көрінетін» «үлкен» етіп жасай
алады.
Қорытынды: ағымдағы өңдеу мүмкіндіктерінен
асатын кез келген деректер «үлкен» деп саналуы
мүмкін.
COMPUTATIONAL VIEW OF BIG DATA
ҮЛКЕН ДЕРЕКТЕРДІҢ ЕСЕПТІК КӨРІНІСІ
Data Visualization
Data Access Data Analysis
Data Understanding Data Integration
Formatting, Cleaning
Storage Data
Ұқсас жұмыстар
Пәндер
- Іс жүргізу
- Автоматтандыру, Техника
- Алғашқы әскери дайындық
- Астрономия
- Ауыл шаруашылығы
- Банк ісі
- Бизнесті бағалау
- Биология
- Бухгалтерлік іс
- Валеология
- Ветеринария
- География
- Геология, Геофизика, Геодезия
- Дін
- Ет, сүт, шарап өнімдері
- Жалпы тарих
- Жер кадастрі, Жылжымайтын мүлік
- Журналистика
- Информатика
- Кеден ісі
- Маркетинг
- Математика, Геометрия
- Медицина
- Мемлекеттік басқару
- Менеджмент
- Мұнай, Газ
- Мұрағат ісі
- Мәдениеттану
- ОБЖ (Основы безопасности жизнедеятельности)
- Педагогика
- Полиграфия
- Психология
- Салық
- Саясаттану
- Сақтандыру
- Сертификаттау, стандарттау
- Социология, Демография
- Спорт
- Статистика
- Тілтану, Филология
- Тарихи тұлғалар
- Тау-кен ісі
- Транспорт
- Туризм
- Физика
- Философия
- Халықаралық қатынастар
- Химия
- Экология, Қоршаған ортаны қорғау
- Экономика
- Экономикалық география
- Электротехника
- Қазақстан тарихы
- Қаржы
- Құрылыс
- Құқық, Криминалистика
- Әдебиет
- Өнер, музыка
- Өнеркәсіп, Өндіріс
Қазақ тілінде жазылған рефераттар, курстық жұмыстар, дипломдық жұмыстар бойынша біздің қор #1 болып табылады.

Ақпарат
Қосымша
Email: info@stud.kz
Реферат
Курстық жұмыс
Диплом
Материал
Диссертация
Практика
Презентация
Сабақ жоспары
Мақал-мәтелдер
1‑10 бет
11‑20 бет
21‑30 бет
31‑60 бет
61+ бет
Негізгі
Бет саны
Қосымша
Іздеу
Ештеңе табылмады :(
Соңғы қаралған жұмыстар
Қаралған жұмыстар табылмады
Тапсырыс
Антиплагиат
Қаралған жұмыстар
kz