RapidMiner жүйесін қолдану арқылы сатылымдарды болжау

Жұмыс түрі: Дипломдық жұмыс
Тегін: Антиплагиат
Көлемі: 69 бет
Таңдаулыға:

Аңдатпа

Ақпаратты талдаудың қазіргі кездегі дамуының мәселелері арасында болжау міндеті өзекті тапсырмалардың бірі болып табылады. Берілген дипломдық жұмыс «Rapid Miner жүйесін қолдану арқылы сатылымдарды болжау» тақырыбына жазылған және үш негізгі тараудан тұрады. Бірінші тарауда Data Mining құралдарының негізгі тапсырмалары сипатталады. Екінші бөлімде болжам жасаудың негізгі әдістері, трендті модельдердің мәні және оларды болжам үшін қолдану мәселелері қарастырылды. Жұмыстың қорытынды бөлімі Rapid Miner ортасында сатылымдарды болжауды әзірлеу мен іске асыруға арналған.

Дипломдық жұмыста 72 бет түсініктеме жазба, 2 кесте, 30 сурет бар.

Аннотация

Среди проблем современного развития анализа информации задача прогнозирования является одной из наиболее актуальных. Данная дипломная работа написана на тему «Прогнозирования продаж с применением системы Rapid Miner» и состоит из трех основных разделов. В первой главе описываются основные задачи средств Data Mining. Во втором разделе были изучены основные методы прогнозирования, сущность трендовых моделей и их использование для прогнозов. Заключительная часть работы посвящена разработке и реализации метода для прогнозирования продаж в среде Rapid Miner.

Дипломная работа содержит 72 страниц пояснительной записки, 2 таблиц, 30 рисунков.

Abstract

Among the problems of modern development of information analysis the problem of forecasting is one of the most pressing. This diploma project is written on topic "Forecasting of sales by using a system of the Rapid Miner system" and consists of three main sections. The first chapter describes the basic tasks of Data Mining means. In the second section we studied the main methods of forecasting, the essence of trend models and their use for predictions. Final part of the work devoted to the development and implementation of method for forecasting sales in the environment of Rapid Miner.

Degree work contains 72 pages explanatory note, 2 tables, 30 drawing.

МАЗМҰНЫ

Кіріспе6

1 Data Mining. Негізгі түсініктер мен анықтамалар9

1. 1 Деректерді интеллектуалды талдаудағы процесс кезеңдері және жүйе компоненттері 12

1. 2 Data Mining құралдарын қолдану салалары және оларды өндірушілер 15

1. 3 Data Mining тапсырмаларының классификациясы 17

1. 4 Кластерлеу туралы жалпы түсінік 21

1. 4. 1 Кластерлеу процессі 22

1. 4. 2 Кластерлеу алгоритмдері 24

2 Сатылымдарды болжауға арналған тапсырмалар 32

2. 1 Сауда кәсіпорындарының жұмыс істеу негіздері 32

2. 2 Сатылымдарды болжау әдістері 33

2. 3 Трендті модельдердің мәні және оларды болжам үшін қолдану 37

2. 4 Болжамдық модельдің құру алгоритмі 42

2. 5 Шешім ағаштары 43

3 Rapid Miner жүйесін қолдану арқылы сатылымдарды болжау50

3. 1 Деректерді талдауға арналған Rapid Miner бағдарламасы 50

3. 2 Жобаның Rapid Miner ортасында орындалуы 53

Қорытынды65

Пайдаланылған әдебиеттер тізімі68

Қосымша А 70

Қосымша Ә72

Кіріспе

Ақпараттық технологиялар дамуының нәтижесі болып тез қарқынмен өсіп келе жатқан, электрондық түрде жинақталған деректердің өте үлкен көлемі болып табылады. Бұл ретте деректер, әдетте, әртүрлі құрылымға ие болады (мәтіндер, суреттер, бейне-жазбалар, аудио, гипермәтіндік құжаттар, реляциялық деректер қоры) . Ұзақ уақыт бойы жинақталған деректер жоспарлау, болжам жасау, шешім қабылдау, процесстерді бақылау кезінде құнды ақпарат болып табылатын заңдылықтарды, үрдістерді және өзара қарым-қатынастарды өзіне қамти алады. Алайда адам біртекті емес мұндай деректердің көлемін тиімді талдауға физикалық жағынан қабілетті емес.

Үлкен деректер деректерді интеллектуалды талдаудың кеңірек әдістерінің танымалдылығының өте тез өсуіне алып келді, себебі, ақпарат одан да көп бола бастады, және ол өзінің табиғаты мен мазмұны бойынша әртүрлі және кең болды. Үлкен деректер жиынымен жұмыс істеген кезде бұдан былай салыстырмалы қарапайым және түзусызықты статистика жеткілікті болмады. Сатылымдар туралы 30 немесе 40 миллион нақты жазбаларға ие бола отырып, олардың екі миллионы бір жерде жасалғаны туралы білу жеткіліксіз. Сатып алушылардың қажеттіліктерін одан да жақсырақ қанағаттандыру үшін, сол екі миллион сатылымның белгілі бір жастық топқа жатуын түсіну және олардың орташа еңбек ақысын білу қажет. Бұл бизнес-талаптар деректерді қарапайым іздеу және статистикалық талдаудан деректердің одан да қиынырақ интеллектуалды талдауына алып келді.

Математикалық статистиканың дәстүрлі әдістері ұзақ уақыттан бері деректерді талдаудың негізгі құралы рөліне үміткер болған. Бірақ олар жаңа болжамдарды синтездеуге мүмкіндік бермейді, тек алдын-ала тұжырымдалған болжамдарды растау үшін және деректердің жедел аналитикалық өңдеуінің (online analytical processing, OLAP) негізін құрайтын барлау талдауы үшін қолданылуы мүмкін. Көп жағдайда болжамды тұжырымдау болашақ шешім қабылдау үшін талдау жүргізу кезіндегі ең қиын міндет болып табылады, өйткені деректердегі барлық заңдылықтар алғашқы көргеннен айқын болмайды. Сондықтан деректерді интеллектуалды талдау технологиялары (Data mining) зерттеу үшін және ақпараттық технологиялар саласында қолдану үшін ең маңызды және перспективті тақырыптардың бірі болып қарастырылады. Data Mining мақсаты үлкен көлемді (өте үлкен) деректердің жасырын ережелері мен заңдылықтарын анықтаудан тұрады. Себебі, адамның ақыл-ойы өзімен өзі орасан зор алқаптағы әртүрлі ақпаратты қабылдау үшін бейімделмеген. Орта есеппен адам, кейбір жеке тұлғаларды есептемегенде, тіпті шағын таңдаулар ішіндегі екі-үш өзара байланысты қабылдауға қабілетті емес. Бұл жағдайда деректерді интеллектуалды талдау астарында жаңа, дұрыс және деректердің үлкен көлемі негізінде пайдалы болатын білімдерді анықтау процессі түсініледі. Мысалы, MIT Technology Review Data Mining-ті әлемді өзгертетін, дамып келе жатқан он технологияның бірі ретінде сипаттады. Бүгінгі күні

ғылым болжау технологияларын әзірлеуде бірталай алға жылжыды. Мамандарға болжаудың нейрондық желілер әдісі, айқын емес логика және т. б. әдістері өте жақсы белгілі. Сәйкес келетін бағдарламалық пакеттер әзірленген, бірақ олар тәжірибе жүзінде, өкінішке орай, қарапайым қолданушыға әрқашан қол жетімді болмайды.

Rapid Miner - Data Mining үшін құрылған құрал, оның негізгі идеясы - сарапшы өзінің жұмысын орындау кезінде бағдарлама жазбайды.

Rapid Miner нәтижелері қандай да бір алгоритм немесе алгоритм жиынының «ғажайып мүмкіндіктерінен» емес, көптеген жағдайда деректердің дайындық деңгейіне тәуелді болады. Rapid Miner-дағы жұмыстың шамамен 75% деректерді жинаудан тұрады, ол талдау құралдарын қолдануға дейін орындалады. Құралдарды сауатсыз пайдалану компания әлеуетін мағынасыз шашуға, кейде миллион доллар жоғалтуға әкеледі.

Дипломдық жұмыстың өзектілігі

Қазіргі кездегі кәсіпорындар ұйымда орындалатын бизнес-процесстерді және олардың құрылымдық бөлімдерінің жұмысын жақсартатын стратегияларды әрдайым іздестіреді. Сатылымдардағы болжам жасау кәсіпкерлік қызметті жетілдіру процессінде айтарлықтай маңызды рөль атқарды. Кәсіпкерліктегі болжамның мақсаты - қолайлы болжамдар жасау үшін статистикалық талдаулар мен пәндік облыстағы білімдерді біріктіру, бұл нәтижесінде, компания басқарушыларына анықталмағандық жағдайында шешім қабылдауға мүмкіндік береді. Болжам жасау бойынша жақсы сарапшы немесе маман өзінің назарын сатылымдар мен кірістер сияқты кілттік өлшемдерге орнықтыруы қажет, себебі олар жоғарыдағы басшылыққа қызықтыратын көрсеткіштер бойынша талданған статистикаға сәйкес шешімдердің ұқсас жолдарын ұсынуы қажет.

Болжам жасау әрбіреуі өзінің жеке қажеттіліктеріне ие болатын ұйымдардың барлық дерлік бөлімдерінде қолданылады. Өндірісті басқару бойынша менеджерлерге өнімге деген сұраныстың қысқа мерзімді болжамдарын, сонымен қатар жаңа өнімдерді, жаңа нарық пен сұраныстың белгісіз шарттарын ескере отырып ұзақ мерзімді болжамдарды үнемі құрастыру қажет. Маркетологтар нарықтың даму динамикасын, сонымен қатар нарық үлесі, бағалардағы заңдылық, бәсекелестік көзі сияқты оның сипаттамаларын көру үшін болжамдар жасайды. Жоғарыдағы аталғандардан басқа өнімге деген сұранысты, сатылымдардан түсетін пайданы және түгендеуді болжау үрдісіне жатқызуға болады. Ұйымның қаржылық бөлімінде де ұйымның даму тенденциялары мен болашақ кірістері туралы ақпарат алу үшін және ұйымның қызметін жоспарлау үшін болжау үрдістері қолданылады. Сондықтан болжам жасау, нарықта ұзақ уақытқа орнығу үшін, ұйымның ажырамас бөлігі болып табылады.

Зерттеу алдында қойылған мәселе - бұл болашақ кезеңде сатылымдар көлемін дәл сипаттай алатын әртүрлі модельдер мен белгілі бір әдістерді қолдана отырып болжаудың дәлдігін зерттеу.

Жұмыстың негізгі мақсаты:

Қазіргі таңдағы статистикалық болжау әдістері барлық мүмкін болатын көрсеткіштерді үлкен дәлдікпен болжауға мүмкіндік беріп отыр. Алайда, бір нәрсені еске алу керек, өмірдегі барлық жағдайға қатысты болжаудың универсал әдістерін кездестіру қиын. Болжаудың әдістерін таңдау және оның тиімділігі көптеген факторларға тәуелді, көбінесе болжаудың уақыты мен қажетті өлшеміне байланысты болып келеді.

Бұл жұмыстың мақсаты болып сатылымдарды болжаудың ең көп таралған әдістерімен танысу, сонымен қатар, болжамдық мәндерді алу процессіне көмектесетін үдерістерді және болжаудың дәлдігін өлшейтін әдістерді қарастыру болып табылады. Шешім қабылдауға көмектесетін ақпаратпен ұйым менеджерлерін қамтамасыз ету.

Жұмыстың мақсатына жету барысында алға қойылған міндеттер:

сатылымдар көлеміне әсер ететін факторламен танысу;
болжам жасаудың теориялық аспектілерін қарастыру;
сатылымдарды болжаудың әдістерімен танысу;
заманауи кезеңдегі болжам жасаудың мәнін анықтау;
трендті модельдер мәнін қарастыру;
сатылымдар көлемін болжауда трендті модельдерді қолдану әдістерін анықтау;
классификация және кластерлеу тапсырмаларын қарастыру;
Rapid Miner жүйесінде шешім ағаштарын құру;
теориялық білімдерді тәжірибе жүзінде қолдана білу.

Жұмыстың ғылыми жаңалығы:

Жоғарғы технологиялар саласындағы жетістіктер ақпаратты өңдеу, бизнез және экономикалық болжамдарды дайындау мүмкіндіктерін түбірімен өзгертті. Теория және тәжірибе жүзінде болжам жасаудағы бұл жетістіктер өсіп келе жатқан қиындықтар мен әлемдік бизнестің бәсекелестігіне деген жауап болды. Қиындықтар бизнес-шешімдерді қабылдаумен байланысты болатын қауіп-қатерлерді арттырады, бұл деректердің сенімді ақпарат көзіне ие болу қажеттілін туындатады. Әртүрлі өлшемдегі және әртүрлі қызметтегі ұйымдар қазіргі уақытта болжам жасауды экономикалық және бизнес шешімдерді қабылдаудағы құрал ретінде қолданады.

Дипломдық жұмыстың зерттеу пәні ретінде «Жоғары оқу орындарында диплом жұмысын орындау ережесі» қолданылды.

Әдіснамалық негізі - берілген сұрақтар бойынша отандық және шет елдік авторлардың оқу-әдістемелік құралы мен әдебиеттері, тәжірибе өту кезіндегі жинақталған білімдер, сонымен қатар, болжау тақырыбына арналған ғаламтор желісі.

Data Mining. Негізгі түсініктер мен анықтамалар

Data Mining - бұл сұраныстарға сәйкес ақпаратты қолданушыларға ұсыну, ұйымдастыру, сақтау, толықтыру және қолдау үшін арналған автоматтандырылған жүйе.

Деректерді талдау - кең ұғым. Бүгінгі таңда оның ондаған анықтамалары бар. Ең жалпы мағынада деректерді талдау - бұл көптеген параметрлері бар көп өлшемді жүйені есептен шығарумен баланысты зерттеу. Деректерді талдау барысында осы деректер арқылы сипатталатын қандай да бір көрсеткіштердің пайда болу тарихын анықтау үшін зерттеуші белгілі бір іс-әрекеттер орындайды. Әдетте, деректерді талдау үшін әр түрлі математикалық әдістер пайдаланылады.

Деректерді талдауды ақпаратты жинап болған соң, оны тек ақпаратты өңдеу ретінде ғана қарастыруға болмайды. Деректерді талдау - бұл, ең алдымен, гипотезаларды тексеру құралы және зерттеушінің міндеттердін шешу.

Адамның мүмкіндігі шектеулі танымдық қабілеттері мен Ғаламның шексіздігі арасындағы белгілі қарама - қайшылықтары бізді модельдер мен модельдеуді қолдануға итермелейді, осылайша бізді қызықтыратын нысандарды, құбылыстар мен жүйелерді зерттеу оңайға түседі.

Data Mining технологиясының мәні мен мақсатын былайша тұжырымдауға болады: бұл - айқын емес, объективті және тәжірибе жүзінде пайдалы заңдылықтары бар үлкен көлемді деректерді іздеуге арналған технология.

Айқын емес заңдылықтар - бұл ақпаратты өңдеудің стандартты әдістерімен немесе сараптау жолымен табуға болмайтын заңдылықтар.

Объективті заңдылықтың астында, әрқашан субъективті болып табылатын экспертті пікірден ерекшеленетін, толығымен шындыққа сәйкес келетін заңдылықтарды түсіну қажет.

Бұл деректерді талдау тұжырымдамасы келесіні болжайды:

Деректер нақты емес, толық емес, қарама-қайшы, әртекті, жанама, және соның өзінде үлкен көлемді болуы мүмкін; сондықтан нақты қосымшалардағы деректер түсінігі елеулі зияткерлік күш-жігерді талап етеді;
Деректерді талдау алгоритмдерінің өздері " ақыл-ой элементтеріне" ие болуы мүмкін, атап айтқанда, прецеденттер бойынша оқу қабілеті, яғни жеке бақылаулар негізінде жалпы қорытындылар жасау; мұндай алгоритмдерді құру сондай-ақ елеулі зияткерлік күш-жігерді талап етеді;
Шикі деректерді ақпаратқа өңдеу процестері, ал ақпараттар білімге қолмен орындалуы мүмкін бола алмайды, және автоматтандыруды талап етеді.

Data Mining технологиясының негізіне деректердегі көпаспектілі өзара қарым-қатынастың фрагменттерін көрсететін үлгілер (паттерндер) концепциясы салынған. Бұл үлгілер жинақы және адамға түсінікті түрде болатын деректердегі сынамаларды алуға тән заңдылықтарды білдіреді.

Іздеу шаблондары сынамаларды алудың құрылымы туралы априорлы жорамалдардың шектеусіздігімен және талданатын көрсеткіштер мәндерін бөлу түріндегі әдістермен жүргізіледі.

Data Mining технологиясының маңызды ерекшелігі ретінде ізделінетін шаблондардың стандартты еместігі және айқын еместігі болып табылады.

Басқаша айтқанда, Data Mining құралдарының OLAP құралдар мен деректерді статистикалы өңдеу құрал-жабдықтарынан келесідей ерекшеленеді: қолданушылармен өзара тәуелділікте алдын ала болжанатын тексеру орнына, олар қолда бар деректер негізінде мұндай тәуелділікті өз бетінше табуға және олардың сипаты туралы гипотеза кұруға қабілетті.

Data Mining әдістерімен анықталатын заңдылықтардың стандартты бес типтерін бөліп көрсетеді:

Қауымдастық (association) - оқиғалардың бір-бірімен байланысының жоғарғы ықтималдығы. Қауымдастықтың мысалы ретінде дүкендерде жиі бірге сатып алынатын тауарларды айтуға болады;
Реттілігі (sequence) - оқиға уақытымен байланыста болатын тізбектің жоғарғы ықтималдығы. Реттіліктің мысалы ретінде бір тауарды сатып алғаннан кейін, белгілі бір кезең ішінде басқа тауарды сатып алу ықтималдығы жоғары болатын жағдай бола алады;
Жіктеу (classification) - кандай да бір оқиға немесе нысан тиесілі болатын топты сипаттайтын белгілері болады;
Кластерлеу (clustering) - жіктеумен ұқсас заңдылық және одан айырмашылығы - топтардың өздері берілмейді, олар деректерді өңдеу процессі кезінде автоматты түрде анықталады;
Болжау (forecasting) - сол немесе өзге деректердің мінез-құлық динамикасындағы үлгілердің бар болуы. Болжаудың сипатты мысалы - қандай да бір тауар немесе қызметке деген сұраныстың маусымдық өзгеруі.

Data Mining мақсаттары. Заманауи Data Mining компьютерлік термині «ақпарат алу» немесе «деректерді өндіру» деп аударылады. Data Mining сөзімен қатар Knowledge Discovery («білім табу») және Data Warehouse («деректер қоймасы») терминдері жиі кездеседі. Data Mining-тің ажырамас бөлігі болып табылатын, жоғарыда көрсетілген терминдердің пайда болуы деректерді сақтау және өңдеу әдістері мен құралдарының дамуындағы жаңа бағдарымен байланысты. Сонымен, Data Mining мақсаты үлкен көлемді (өте үлкен) деректердің жасырын ережелері мен заңдылықтарын анықтаудан тұрады. Себебі, адамның ақыл-ойы өзімен өзі орасан зор алқаптағы әртүрлі ақпаратты қабылдау үшін бейімделмеген. Орта есеппен адам, кейбір жеке тұлғаларды есептемегенде, тіпті шағын таңдаулар ішіндегі екі-үш өзара байланысты қабылдауға қабілетті емес. Бірақ сонымен қатар ұзақ уақыт бойы деректерді талдаудың негізгі құралы рөліне үміткер болған дәстүрлі статистика да нақты өмірден алынған міндеттерді шешу кезінде жиі тоқтап қалады. Ол жиі жалған шамалар болып табылатын таңдаудың орташа сипаттамасын басқарады (клиенттің орта төлем қабілеттілігі, мұнда тәуекел немесе шығын функциясына байланысты сізге клиенттің ниеті мен жағдайын болжауды үйрену қажет; сигналдың орташа қарқындылығы, мұнда сізді сигналдың ең жоғарғы шегі мен алғышарттарының сипаттамасы қызықтырады) .

Сондықтан математикалық статистика әдістері негізінен алдын-ала тұжырымдалған гипотезаны тексеру үшін пайдалы болады, ал гипотезаны анықтау кейде жеткілікті күрделі және көп еңбекті қажет ететін тапсырма болып табылады.

Data Mining - бұл жалғыз емес, білімді табудың әртүрлі әдісінің үлкен сандар жиынтығы. Әдісті таңдау жиі қолда бар деректердің түріне және басқа қандай ақпарат алуға тырысатыңызға байланысты. Мысалы кейбір әдістер: қауымдастық, классификация, кластерлеу, уақытша қатар талдауы және болжау, нейронды желілер және т. б.

Анықтамада берілген білімнің қасиетін толығырақ қарастырайық.

Білім бұрын сонды белгілі болмаған, жаңа болуы керек. Қолданушыға бұрыннан белгілі болған білімді ашуға жұмсалған күш-жігер ақталмайды. Сондықтан да құндылықты тек қана жаңа, бұрын белгісіз болған білім береді.

Білім тривиальды емес болуы керек. Талдау нәтижелері, жасырын білім дегенді құрайтын, деректердегі айқын емес, күтпеген заңдылықтарды көрсетуі тиіс. Неғұрлым қарапайым тәсілдермен алынған нәтижелер (мысалы, көзбен көрумен) Data Mining қуатты әдістерін тартуды ақтамайды.

Білім тәжірибе жүзінде пайдалы болуы керек. Табылған білім қолданылуы керек, соның ішінде сенімділігі жеткілікті жоғары дәрежеде болатын жаңа деректерде де қолданылуы тиіс. Оның пайдалылығының мәні - бұл білімдер оларды қолдану кезінде белгілі бір пайда әкелуі болып табылады.

Білім адамның түсінуіне қол жетімді болуы керек. Табылған заңдылықтар логикалық түсінікті болуы тиіс, олай болмаған жағдайда олар кездейсоқ болады деген ықтималдық бар. Сонымен қатар табылған білім адам үшін түсінікті түрде берілуі тиіс.

Data Mining-те алынған білімді ұсыну үшін модельдер қолданылады. Модель түрлері оларды құратын әдістерге тәуелді. Ең көп таралған болып табылады: ережелер, ағаштар шешімдері, кластерлер және математикалық функциялар [1] .

Data Mining қолданылу аясы ештеңемен шектелмеген - қандай да бір деректер болатын жердің барлығында Data Mining керек. Көптеген кәсіпорындар тәжірибесі көрсеткендей, Data Mining қолдану арқылы 1000% қайтарым алуға болады. Мысалы, бастапқы шығындар 350-ден 750 мың долларға 10-70 есе асып түскен экономикалық әсер туралы хабар белгілі. Небәрі 4 ай ішінде ақталып шыққан 20 млн. долларлық жоба туралы мәліметтер келтіріледі. Басқа мысал - Ұлыбритания универсам желілеріне Data Mining құралын енгізу есебінен жылдық үнемдеу 700 мың доллар болды. Data Mining жетекшілер мен талдаушылар үшін олардың күнделікті қызметінде үлкен құндылықты ұсынады. Іскер адамдар Data Mining әдістерінің көмегімен олар бәсекелестік күресте елеулі артықшылықтарды алатындарын түсінді.

Деректерді интеллектуалды талдаудағы процесс кезеңдері және жүйе компоненттері

Дәстүрлі түрде деректерді интеллектуалды талдау процессінде келесі кезеңдер бөлінеді:

Нәтижесінде талдаудың негізгі мақсаттары тұжырымдалатын пәндік облысты зерттеу.
Деректерді жинау
Деректерді алдын-ала өңдеу:Деректерді тазалау - бастапқы деректердегі кездейсоқ «шулар» мен карама-кайшылықтарды жою. Деректерді интеграциялау - бірнеше мүмкін болатын ақпарат көздерінен алынған деректерді бір қоймаға біріктіру. Деректерді түрлендіру. Бұл кезеңде деректер талдау үшін лайықты түрге түрленеді. Көп жағдайда деректерді агрегаттау, атрибуттарды дискреттеу, деректерді қысу және мөлшерін қысқарту қолданылады.
Деректерді талдау. Осы кезең шеңберінде үлгілер алу мақсатында интеллектуалды талдау алгоритмдері қолданылады.
Табылған үлгілерді интерпретациялау. Бұл кезең алынған үлгілерді визуалды түрде көруге мүмкіндік береді.
Жаңа білімді қолдану

Әдетте деректерді интеллектуалды талдау жүйелерінде келесі негізгі компоненттер көрсетіледі:

... жалғасы

Сіз бұл жұмысты біздің қосымшамыз арқылы толығымен тегін көре аласыз.