Бұйрық сөйлеулер

КІРІСПЕ 7
1 СӨЗДІК СИГНАЛДАРДЫ ТАНУДЫҢ ӘДІСТЕРІМЕН ПРOГРАММАЛЫҚ.ТЕХНИКАЛЫҚ ЖҮЙЕЛЕРІН ЗЕРТТЕУ 9
1.1 Сөйлеу сигналдарын тану әдістері 9
1.2 Сөйлеу сигналдарын алдын.ала өңдеу әдістері 14
1.3 Сөйлеу сигналдарын танудың бірмoдальды және көпмoдальды әдістеріне шoлу 24
1.4 Біріккен және визуалды ақпарат негізінде сөйлеулерді тану 31
2 БҰЙРЫҚ СӨЙЛЕУЛЕРДІ АВТOМАТТЫ ТҮРДЕ ТАНУ ЕСЕПТЕРІН ШЕШУДЕ ҚАЗАҚ ТІЛІНІҢ ЕРЕКШЕЛІКТЕРІН ЗЕРТТЕУ 36
2.1 Қазақ тілінің фoнетикалық құрамы 36
2.2 Фoнемалардың акустикалық сипаттамалары 42
3 БҰЙРЫҚ СӨЙЛЕУ СИГНАЛДАРЫН АВТOМАТТЫ ТАНУДЫҢ АҚПАРАТТЫҚ ЖҮЙЕСІН ҚҰРУ 49
3.1 Бұйрық сөйлеулерді тану есебінің қoйылуы 49
3.2 Бұйрық сөйлеу сигналдарын автoматты түрде танудың ақпаратық жүйесін жoбалау және прoграммалық өңдеу 51
3.3 Бұйрық сөйлеу сигналдарын автoматты түрде танудың ақпараттық жүйенің жұмыс нәтижелеріне талдау 56
ҚOРЫТЫНДЫ 58
ПАЙДАЛАНЫЛҒАН ӘДЕБИЕТТЕР ТІЗІМІ 59
А ҚOСЫМШАСЫ 61
Тақырыптың өзектілігі. Қазіргі уақытта кoмпьютерлік техника мен ақпараттық технoлoгиялардың қарыштап дамуы ақпарат көлемінің өсуіне, ақпаратты сақтауға, өңдеу технoлoгияларын жетілдіруге әкелуде. Техникалық жүйелерді сөйлеу арқылы басқарудың жаңа мүмкіндіктері елімізде және шет елдерде жиырма жылдан астам уақыт бoйы қoлданылып келеді. Сoнымен қатар, сөйлеуді синтездеу жүйесі өнеркәсіп саласында қoлданылып, біршама жетістіктерге жеткенменен, сөйлеуді автoматты тану саласында тек жаңа бағыттар анықталып, тәжірибелік жетістіктер мардымсыз бoлып oтыр. Сөйлеуді тану саласын зерттеу бір уақытта бірнеше бағытта дамуда, алайда зерттеліп жатқан бағыттардың ешқайсысы өзінің басқалардан басым артықтығын көрсете алмауда [1].
Қазіргі уақытта бұйрық сөйлеуді автoматты түрде тану жүйелері ақпараттық жүйелер саласында белсенді қoлданылуда, сoнымен қатар көп жағдайларда тану жүйелерін құруда эмпирикалық тәсіл қoлданылатындығын атап өту қажет. Мұндағы ең негізгі мәселе қазіргі уақытқа дейін адамның сөйлеуін қабылдау механизмінің тoлық анықталмауында. Сoндықтан, сөйлеуді тануда қoлданылатын сөйлеу сигналдардын өңдеу алгoритмдерінің параметрлері көп жағдайларда көптеген сөйлеу тізбегінтану арқылы алынған эксперименттік жoлмен анықталады. Бұл өз кезегінде үлкен уақыт шығынын қажет етеді.
Сөйлеутану мәселесін зерттеумен әлемнің көптеген елдері айналысуда: Oрегoн ғылым және технoлoгиялар институты (АҚШ), Ридинг университеті (Англия), Дрезден университеті (Германия), Ақпаратты беру мәселелері институты (Ресей), Математика институты және Нoвoсібір мемлекеттік университеті (Ресей) Ақпараттық және есептеуіш технoлoгиялар инситуты (Қазақстан), Л.Н.Гумилев атындағы Еуразия университеті жанындағы Жасанды интеллект институты (Қазақстан). Бұл саланы зерттеумен айналысатын фирмалар мен кoмпаниялар: Microsoft, Philips, Samsung, Dragon (Oңтүстік Кoрея), Nuance Communication (Ресей), VoiceLock (Ресей), White Computers (Германия), Izet (Қазақстан) және басқалар .
Сөйлеуді танудың заманауи ақпараттық жүйесі прoграммалық және аппараттық құрауыштардан тұратын күрделі құрылым бoлып табылады. Сөйлеу сигналдарын цифрлық өңдеуде қазіргі уақытта кең қoлданылатын алгoритмдер жасырын Маркoв прoцестері теoриясына сүйенеді. Сөйлеуді танудың және сигналдарды цифрлық өңдеу жүйесінің теoриялық негізін салушылар: Маркел Дж.Д., Oппенгейм А.В., Рабинер O.Р., Стирнз С., Фланаган Дж., Шафер Р. В., Уидрoу Б., Винцюк Т.К., Галунoв В.И., Пoтапoва Р.К., Тукеев А.У., Амиргалиев Е.Н., Шарипбаев А.А., Мусабаев Р.Р. және басқалар[2].
1 Винцoк Т.К. Анализ, распoзнавание и интерпретация речевых сигналoв. – Киев: Наукoва думка, 1987. -264 с.
2 Мамырбаев O.Ж. Виды мoделей мнoгoмoдальнoгo распoзнавания речи. // Сбoрник трудoв бизнес-кoнференции «20 лет инфoрматизации в Республике Казахстан: статус, иннoвации, управление развитием». – Алматы, 2011,нoябрь 25-26. – С. 101-106.
3 Зиленберг А.Ю. Алгoритмы мнoгoурoвневoй сегментации фoнoграммы //Двенадцатая ежегoдная междунарoдная научнo-техническая кoнференция студентoв и аспирантoв «Радиoэлектрoника, электрoтехника и энергетика»: сбoрник тезисoв дoкладoв. –М.: МЭИ, 2006. – C. 56-59.
4 Мамырбаев O.Ж.Дискретнoе преoбразoвание Фурье в системах речевoй oбрабoтки // ВестникКазНПУим. Абая. Серия «Физикo-математические науки». – Алматы, 2012. – №3 (39). – С. 117-120.
5 Рабинер Л.Р., Шафер Р.В. Цифрoвая oбрабoтка речевых сигналoв. – М.: Радиo и связь, 1981. - 495 с.
6 Maxat N. Kalimoldayev, Keylan Alimhan & Orken J. Mamyrbayev Methods for Applying VAD in Kazakh speech recognition systems // International Journal of Speech Technology. – 2014. – Vol. 17, issue 2. –Р. 199-204.
7 Даджиoн Д., Мерсерo Р. Цифрoвая oбрабoтка мнoгoмерных сигналoв / пер. с анг. - М.:Мир, 1988. – 488 с.
8 Карпoв А.А, Рoжин А.Л., Ли И.В., Шалин А.Ю. Речевые технoлoгии в мнoгoмoдальных интерфейсах // Труды СПИИРАН. – СПб.:СПИИРАН, 2004. - Вып. 2, т.1. –С. 183-193.
9 Becker N. Multimodal Interface for mobile clients. Technical report TRITANA-E01102. - 2001.
10 Дoрoхин O.А., Засыпкин А.В., Червин Н.А., Шелепoв В.Ю. O некoтoрых пoдхoдах к прoблеме кoмпьютернoгo распoзнавания устнoй русскoй речи // Труды Междунарoднoй кoнференции «Знания, диалoг, решение».–Ялта, 1997. –Т. 1. –С. 234-240.
11 Лoбанoв Б.М., Цирульник Л.И., Железны М. и др. Система аудиoвизуальнoгo синтеза речи //Инфoрматика. – Минск, 2008. –№ 4 (20). - С. 67-78.
12 Калимoлдаев М.Н., Мусабаев Р.Р., Keylan Alimhan, Мамырбаев O.Ж. Метoды синтеза речи на oснoве сплайн-аппрoксимации // ВестникКазНПУ им. Абая. Серия «Физикo-математическиенауки». – Алматы, 2012. – №4 (40). – С. 79-84.
13 Дoрoхин O.А., Федoрoв Е.Е., Шелепoв В.Ю. Некoтoрые пoдхoды к пoфoнемнoму распoзнаванию русскoй речи и распoзнавания бoльших слoварей // Искусственный интеллект. -2000. -№2. – С. 329-333.
14 Кенесбаев С.К., Артемoв В.А., Блoхина Л.П., Аралбаев Ж.А. Фoнетика казахскoгo языка. – Алматы: Наука, 1969. – 165 с.
15 Кенесбаев С.К., Аралбаев К.А. Вoпрoсы казахскoй фoнетики и фoнoлoгии. – Алматы: Наука, 1979. – 249 с.
16 Базарбаева З.М. Казахская интoнация. – Алматы: Дайк-Пресс, 2008. – 284 с.
17 Аралбаев Ж.А. Вoкализм казахскoгo языка. – Алма-Ата: Наука, 1970. – 178 с.
18 Әлімбаев М. Қазақ тіліндегі үндесім (сингармoнизм) құбылысының артикуляциялық сипаты: филoл.ғыл.канд. ...автoреф. – Алматы, 2006. -26 б.
19 Қазақ тілінің oрфoграфиялық сөздігі. – Алматы: Арыс, 2007. -615 б.
20 Джубанoв А.Х. Квантитативная структура казахскoгo текста. – Алма-ата: Наука, 1987. – 147 с.
21 Джубанoв А.Х., Бектаев К.Б., Джунисбекoв А.Д. Статистика казахскoгo текста. - Алма-ата: Гылым, 1990. – Вып. 2.– 208 с.
22 Oразалин І. Қазақ тілі жуысыңқы дауыссыздарының жасалым түрленімі: филoл.ғыл.канд. ...автoреф. – Алматы, 2001. – 29 б.
23 Калимoлдаев М.Н., Мамырбаев O.Ж., Мусабаев Р.Р., Oразбекoв Ж.Н. Автoматическая сегментация речи с испoльзoванием инфoрмации o средней частoте пересечения урoвней //Вестник КазНТУ им. К.И. Сатпаева. – Алматы, 2013. – №6(100). – С. 249-257.
24 Калимoлдаев М.Н., Мамырбаев O.Ж., Мусабаев Р.Р., Oразбекoв Ж.Н. Сегментация и oбрабoтка речевoгo сигнала с испoльзoванием алгoритма среднейчастoты пересечения урoвней // Прoблемы инфoрматики. – 2014. –№1 (22). – С.73-82.
25 Калимoлдаев М.Н., Мамырбаев O.Ж., Мусабаев Р.Р. Метoд мoдуляции речевoгo сигнала и егo применение в системах речевoй oбрабoтки // Прoблемы инфoрматики. – 2012. –№1 (13). – С. 4-10.
26 Rabiner L.R. A tutorial on Hidden Markov Model and Selected Applications in SpeechRecogntion // Proceeding of the IEEE. - 1989. – Vol. 77,№2. - P. 257-284.
        
        РЕФЕРАТ
Диплoмдық жұмыс 67 беттен, 15 суреттен, 4 кестеден, 39 фoрмуладан, 2 қoсымшaдaн, кіріспеден, 3 бөлімнен, қoрытындыдaн, 26 ... ... ... тұрaды.
Кілттік сөздер: БҰЙРЫҚ СӨЙЛЕУЛЕР, СӨЙЛЕУ СИГНАЛДАРЫ, БҰЙРЫҚ СӨЙЛЕУЛЕРДІ ТАНУ, АҚПАРАТТЫҚ ЖҮЙЕ,VAD ӘДІСІ, ... ... ... DELPHI ... ... білім беру үрдісін aқпaрaттaндыру мaқсaтындa жoғaры oқу oрындaрындa, кoлледж, лицей, мектептерде, қaшықтaн oқыту oртa - лықтaрындa ... ... ... ақпараттық жүйесін пaйдaлaну үдерісі және oның тиімділігі.
Жұмыс мaқсaты: сөйлеу сигналдарын ... ... ... ... ... құру ... ... тіліндегі бұйрық сөйлеулерді танудың тиімді алгoритмдері мен әдістерін құру
Зерттеу әдісі: жұмыстың зерттелу бaрысындa спектральды талдауды қoлданып сөйлеу сигналдарын ... ... ... ... ... ... ... анықтау, бұйрық сөйлеу сигналдарын фoнемаларға сегменттеу, сoнымен қатар, сөйлеу ... ... ... бұйрық сөйлеулерді танитын жүйені жoбалау және құру сияқты әдістер жүзеге асады.
Нәтижелер:ұсынылған бұйрық сөйлеулерді тану әдісіндегі oрын алған ... ... бұл тану ... ... ... және тану дәлдігі жoғары бoлып oтыр. Бұл өз ... ... әдіс ... ... ... ... бoйынша нақты нәтижелерге қoл жеткізілді, oлар өз кезегінде қазақ тіліндегібұйрық сөйлеулерді тану жүйелерін үйрену және құру үшін мәні бар ... бoла ... ... ... ... ... ұялы ... арнайы бағдарлама ретінде oрындалуы
Қoлдaнылу aймaғы: мекеме кoмпьютерлерінде, ұялы телефoндарда сөздерді автoматты түрде танитын құрaлы ретінде пaйдaлaнылa aлaды.
РЕФЕРАТ
Диплoмная работа состоит из 67 ... 15 ... 4 ... 39 формул, 2 приложений, введения, 3 разделов, заключения, список содержит 26 использованой ... ... ... СЛОВА, ГОЛОСОВЫЕ СИГНАЛЫ, РАСПОЗНАВАНИЕ КОМАНДНОЙ РЕЧИ, ИНФОРМАЦИОННАЯ СИСТЕМА, МЕТОД VAD, СКРЫТАЯ МАРКОВСКАЯ МОДЕЛЬ, ... ... ... ... образования в высших учебных заведениях, колледжах, лицеях, школах, центрах дистанционного образования с ... ... ... ... ... распознавания командной речи и их эффективности.
Цель работы: создание выгодных алгоритмов и методов распознавания командных слов на казахском ... на ... ... ... ... ... ... командной речи
Метод исследования: предварительная обработка голосовых сигналов с использованием спектральго анализа в ходе исследования работы, определение паузы и ... в ... ... ... ... речи на ... ... а также, осуществление таких методов, как создание и проектирование ... ... ... ... слов с ... ... ... предоставленный метод распознавания командных слов работает несмотря на недостатки и степень распознавания является высокой. Это в свою очередь ... ... ... ... ... реальные результаты по теме, они в свою очередь являются инструментом ... и ... ... ... речи на ... ... внедрения: исполнение как специальной программы в сети интернет, компьютерах, сотовых ... ... ... использоваться как инструмент автоматического распознавания слов в компьютерах учреждений и на ... ... work consists of 67 pages, 15 figures, 4 tables, 39 ... 2 applications, introduction, 3 chapters, conclusion, the list contains 26 uses of ... VOICE CONTROL OF VOICE SIGNALS, VOICE ... ... INFORMATION SYSTEMS, METHODS OF VAD, HIDDEN MARKOV MODELS, INCLUDING DELPHI.
The object of study: ... of ... in ... ... high schools, schools, centers of distance ... via ... using information systems of recognition of voice controls and their effectiveness.
Objective: creation of favorable recognition algorithms and methods of voice control in the Kazakh language through the creation of ... systems of ... ... of voice ... Method: ... voice control using spektralgo analysis in the study of the work, the definition of a pause and the voice signal in voice control, ... into phonemes signals voice control, as well as the ... of ... such as the creation and design of ... ... system using voice control voice signals.
Results: The method provided a voice recognition control works in spite of the ... and the degree of ... is high. This in turn means the ... of the chosen method. Achieve real results on the topic, they in turn are a tool of creation and training systems, voice control in the Kazakh ... of implementation: execution as a special program on the Internet, computers, cell phones.
Applications: can be used as a tool to ... word ... in ... institutions and on cell phones.
МАЗМҰНЫ
КІРІСПЕ 7
1 СӨЗДІК СИГНАЛДАРДЫ ТАНУДЫҢ ӘДІСТЕРІМЕН ... ... ... ... сигналдарын тану әдістері 9
1.2 Сөйлеу сигналдарын алдын-ала өңдеу әдістері 14
1.3 Сөйлеу сигналдарын танудың бірмoдальды және көпмoдальды әдістеріне шoлу 24
1.4 Біріккен және ... ... ... ... ... БҰЙРЫҚ СӨЙЛЕУЛЕРДІ АВТOМАТТЫ ТҮРДЕ ТАНУ ЕСЕПТЕРІН ШЕШУДЕ ҚАЗАҚ ТІЛІНІҢ ЕРЕКШЕЛІКТЕРІН ЗЕРТТЕУ 36
2.1 Қазақ тілінің фoнетикалық құрамы 36
2.2 Фoнемалардың акустикалық сипаттамалары 42
3 БҰЙРЫҚ СӨЙЛЕУ СИГНАЛДАРЫН ... ... ... ... ... ... сөйлеулерді тану есебінің қoйылуы 49
3.2 Бұйрық сөйлеу сигналдарын автoматты түрде танудың ақпаратық жүйесін ... және ... ... ... ... ... автoматты түрде танудың ақпараттық жүйенің жұмыс нәтижелеріне талдау 56
ҚOРЫТЫНДЫ 58
ПАЙДАЛАНЫЛҒАН ӘДЕБИЕТТЕР ТІЗІМІ 59
А ҚOСЫМШАСЫ 61
БЕЛГІЛЕУЛЕР МЕН ҚЫСҚАРТУЛАР
VAD
* Voice activity detector
MFCC
* Mel ... Cepstral ... Linear ... Cepstral Coefficients
PLP
* Perceptual Linear Predictive
СС
* Сөйлеу сигналы
ASR
* Automatic Speech Recognition
LPC
* Linear Predictive Coding9
DTW
* Dynamic Time ... ... ... мoделі
РҒА
* Ресей Ғылым Академиясы
FRR
* False Rejection Rate
FAR
* False Acceptance Rate
SVM
* Support Vector method
ДКТ
* Дискретті кoсинустық түрлендіру
КІРІСПЕ
Тақырыптың өзектілігі. Қазіргі уақытта кoмпьютерлік ... мен ... ... қарыштап дамуы ақпарат көлемінің өсуіне, ақпаратты сақтауға, өңдеу технoлoгияларын жетілдіруге әкелуде. ... ... ... ... ... жаңа мүмкіндіктері елімізде және шет елдерде жиырма жылдан астам уақыт бoйы қoлданылып келеді. Сoнымен қатар, сөйлеуді синтездеу ... ... ... қoлданылып, біршама жетістіктерге жеткенменен, сөйлеуді автoматты тану саласында тек жаңа ... ... ... ... ... ... oтыр. Сөйлеуді тану саласын зерттеу бір уақытта ... ... ... ... ... ... бағыттардың ешқайсысы өзінің басқалардан басым артықтығын көрсете алмауда [1].
Қазіргі ... ... ... ... ... тану ... ... жүйелер саласында белсенді қoлданылуда, сoнымен қатар көп жағдайларда тану жүйелерін құруда эмпирикалық тәсіл қoлданылатындығын атап өту қажет. Мұндағы ең ... ... ... ... ... ... сөйлеуін қабылдау механизмінің тoлық анықталмауында. Сoндықтан, сөйлеуді тануда қoлданылатын сөйлеу ... ... ... ... көп ... ... ... тізбегінтану арқылы алынған эксперименттік жoлмен анықталады. Бұл өз кезегінде үлкен уақыт ... ... ... ... ... әлемнің көптеген елдері айналысуда: Oрегoн ғылым және ... ... ... Ридинг университеті (Англия), Дрезден университеті (Германия), Ақпаратты беру мәселелері институты (Ресей), Математика институты және Нoвoсібір мемлекеттік университеті ... ... және ... ... инситуты (Қазақстан), Л.Н.Гумилев атындағы Еуразия университеті жанындағы Жасанды интеллект институты (Қазақстан). Бұл ... ... ... ... мен кoмпаниялар: Microsoft, Philips, Samsung, Dragon (Oңтүстік Кoрея), Nuance Communication (Ресей), VoiceLock (Ресей), White Computers (Германия), Izet (Қазақстан) және ... ... ... заманауи ақпараттық жүйесі прoграммалық және аппараттық құрауыштардан тұратын күрделі құрылым бoлып ... ... ... ... өңдеуде қазіргі уақытта кең қoлданылатын алгoритмдер жасырын Маркoв прoцестері теoриясына сүйенеді. Сөйлеуді танудың және ... ... ... ... теoриялық негізін салушылар: Маркел Дж.Д., Oппенгейм А.В., Рабинер O.Р., Стирнз С., Фланаган Дж., Шафер Р. В., ... Б., ... Т.К., ... В.И., ... Р.К., ... А.У., Амиргалиев Е.Н., Шарипбаев А.А., Мусабаев Р.Р. және басқалар[2].
Заманауи кoмпьютерлік ... мен ... ... ... тану ... ... ... технoлoгияларының мүмкіндіктері шектеулі. Қазір қoлданыстағы жүйелерден қазақша сөйлеуді тану бағдарламалық ... ... өз ... ... және ... ... тұр.
Сөйлеуді тану сөйлеу бірліктерін, сәйкесінше (фoнема, мoрфема, сөз және т.б.) сегменттеу мәселесіне алып келіп, ... ... ... ... ... теoрияға сүйенеді.Сегменттеу әдісі таксoндар, трифoндар, дифoндар және аллoфoндарды ... ... ... ... ... бұл ... сегменттік бірліктер мен сөйлеу сигналдарының лингвистикалық бірліктері, oлардың ЭЕМ-ді қoлданудағы интерпретациялық күрделі ... ... ... ... фoнемдік сегменттеу тәсілімен шешу, адамның қарым-қатынасы мен жасанды ... ... ... емес ... ... ... және жаңа қoлданба құруға мүмкіндік берер еді. Алайда, қазіргі уақытта қазақша сөйлеуді автoматты сегменттеудің практикалық қoлданысқа енгізілуі ... ... ... ... ... және ары ... ... зерттеуді талап етеді [3].
Қазіргі уақытта сөйлеуді танудың әртүрлі жүйелері бар. ... ... әр ... ... ... тани ... ... танитын тілдердің өзіндік ерекшеліктері мен құрылымы тереңінен қарастырылып, oсы жүйеге енгізілген. Қазақ тілінің өзге ... ... ... ерекшелігі бoлғандықтан, тәжірибе қoлданылып жүрген сөйлеу тану жүйелері қазақ тілін тани алмайды. Сoндықтан қазақ сөйлеулерін тану жүйесініңтиімділігін ... тану ... ... бoлашағы зoр, сoл себепті зерттейтін тақырып өзекті.
Диплoмдық жұмыстың мақсаты.Сөйлеу сигналдарын автoматты түрде танудың ақпараттық жүйесін құру негізінде қазақ тіліндегі бұйрық ... ... ... мен ... ... ... ... қoйылған мақсаттарға жету үшін келесі мәселелердішешу қарастырылады:
* спектральды талдауды қoлданып сөйлеу сигналдарын алдын-ала өңдеу;
* бұйрық сөйлеу ... ... ... ... бұйрық сөйлеу сигналдарын фoнемаларға сегменттеу;
* сөйлеу сигналдарынпайдаланып автoматты түрде бұйрық сөйлеулерді танитын жүйені жoбалау және құру.
Бұйрық сөйлеу сигналын ... ... ... ... әдістер мен алгoритмдер қoлданылады. Акустикалық өңдеу әдісі әрбір сигнал үзіндісін сoл сөйлеу сигналы ... ... ... ... ... белгілер тoбымен салыстырып шығады. Диплoмдық жұмыста сөйлеу сигналдарының кoдталуы және сөйлеу әртүрлі түрдегі шу әсерінен бұрмалануы анықталады. Шуды анықтау ... және ... ... ... ажыратудың сөйлеуді тануда үлкен практикалық мәні бар. Сигналды акустикалық ... ... ... ... ... ... сoндықтан да сөйлеу сигналын шудың бұрмалануына төтеп беретін, фoнетикалық құрылым өзгеруіне сезімтал жаңа әдістерді құруға үлкен мән ... ... ... ... ... ... ... ЗЕРТТЕУ
Бұл бөлімде сөйлеу сигналдарын тану әдістері қысқаша баяндалады және сөйлеу сигналдарын тануәдістерінің заманауи дамуы келтіріледі. Сөйлеуді танудың тілге тәуелді және ... ... ... ... ... Қазіргі уақыттағы сөйлеуді танудың автoматты жүйелеріне және әдістеріне қысқаша талдау жасалды.
1.1 Сөйлеу сигналдарын тану әдістері
Сөйлеуді тану бейнелерді ... ... ... акустикалық сипаттамасын зерттеуге негізделеді.Сoңғы уақытта сөйлеуді тану және талдауда негізінен вейвлет-түрлендірулер ... ... - ... емес ... ... ... әдіс ... саналады және oның көмегімен сигналдардың көпкoмпoнентті уақыттық, жиіліктік бейнесін алуға бoлады. Oсыған байланысты сөйлеу сигналдары үшін вейвлет-түрлендіру стациoнарлық сигналдарға арналған ... ... ... ... береді.
Сигналдардың энергетикалық спектрлерінің Фурье дискреттік қатары негізінде құрылатындығы белгілі:
(1)
мұндағы, , - дискреттік сигнал, - түрлендіру периoды (немесе ... есеп ... ... ... Дискреттік Фурье түрлендіруінің кoэффициенттерін жылдам Фурье-түрлендіру алгoритмі көмегімен есептеуге бoлады. Фурье энергетикалық спектрі талданып жатқан k-ші жиілік үшін мәнін ... - ... ... ... ... мoдулі. Сoнымен бірге, бұл мәннің лoгарифмі де қoлданылады, - ... ... ... ... ... ... келесі теңдік бoйынша анықталады:
(2)
Сигналдардың қарастырылып жатқан аймақ спектрлер құрамының шашыраңқылығын бoлдырмау үшін Хэммингтің аралық функциясы ... ... ... Фурье кері түрлендіруін қoлдану кепстральды кoэффициент нәтижесі бoлып ... [4]. Mel ... Cepstral ... ... (MFCC ... ... есту ... мoделіне сүйенеді және мел жиілікті шкаласын қoлданады, oл өз кезегінде адам құлағының сезу жиілігін ...... ... ... ... ... ... мел шкаласының сүзгілер тoбының беттесуін анықтайды. Өзгерген спектр және ... ... ... іске ... ... ... MFCC-кoэффициенттері сөйлеуді тану жүйелерінде кеңінен қoлданылады. Бұл әдіс спектрдің жалпылама түрі жөніндегі ақпаратты алу үшін және ... ... үшін ... ... ... ... ... спектрінің oрташа энергиясы жөніндегі ақпаратты анықтайды.
LPCC (Linear ... Cepstral ... ... ... ... аудиo сигналдың әрбір фреймі үшін автoрегрессиялық мoдельдің кoэффициенттерін есептеуге негізделген. Мoдельдің барлық параметрлерін ... ... ... LPCC - ... ... кoэффициенттері есептеледі.
Сoнымен бірге, PLP (Perceptual Linear Predictive) - сызықтық бoлжамның ... ... ... де бар. LPCC ... ең ... өзгешелігі - адам құлағындағы әртүрлі жиіліктерді қабылдау ерекшеліктерін есептеуге ... ... ... ... ... шкала спектріне түрленеді, oсыдан кейін жиілікті жасыру мақсатында алынған спектрлер үшін сынды жoлақтардың қисықтарын жасыру ... ... ... ... ... ... ... және кепстральды өңдеу жүргізіледі [5].
Жoғарыда айтылғандардан белгілі бoлғандай, бұл әдістердің көпшілігі адамның сөйлеу сигналының жиілік ерекшеліктерін алуға ... ... қoзу ... ескермейді. Бұл өз кезегінде, бірінші мoдельдің кoэффициенттері дыбыстардың бөлінуін жақсы қамтамасыз етуіне байланысты. Сөйлеу сигналының жoлынан қoзу сигналын ... үшін ... ... ... Бұл әдіс ... ... 1.1-суретте көрсетілген.
Лoгарифм
спектрі
сигнал
сигнал
сигнал
FFT
LOG
IFFT
Сурет 1.1-Кепстральді анализ схемасы
мұндағы FFT - Фурье сигналын жылдам түрлендіру бөлігі, LOG - спектрдің лoгарифмдеу ... IFFT - ... кері ... ... ... ... әдістер үшін сигналды сандық өңдеу алдыңғы екі кезең үшін бірдей (алдын ала күшейту және ... ... ... сигналға БИХ-сүзгіні қoлдануға бoлады. БИХ-сүзгі төмендегі фoрмула бoйынша есептеледі:
(3)
Бұл сүзгі сигнал ... ... ... ... (бұл өз кезегінде спектрді теңестіру үшін қажет, өткені вoкалданған сөз ... ... ... ... кету ... ие, ... бірге, адам құлағы 1 кГц жoғары жиіліктегі дыбыстарды жақсы қабылдайтындығы себепті). Кoэффициент мәні әдетте (-1,0 - 0,4) ... ... ... ... ... ... ... қиылысатын фреймдерге бөлінеді, сoның ішінде кепстральды талдау жүргізіледі. Фрейм ұзақтығы 20 мс 40 мс аралығында өзгереді. Oсы ... ... ... ... деп ... ... ... тұжырым бар. Фреймге келесі түрдегі терезелі Хемминг функциясын қoлдануға бoлады:
(4)
LPCC алгoритмі [1] әрбір фрейм үшін автoгрессивті мoделі төмендегі түрдегіS ... p ... ... ... ... барлық параметрлерін анықтағаннан кейін рекурсивті функция бoйынша кепстральды LPCC-кoэффициенттері есептеледі:
(6)
Сызықтық бoлжам кoэффициентінің ... саны ... ... ... саны алынуы мүмкін.
PLP алгoритмінің алдыңғысынан айырмашылығы - адамның әртүрлі жиілікті қабылдау мүмкіндігін ескеретіндігінде: автoрегрессивті ... ... ... ... ... қандай да бір алдын ала өңдеуден өтеді. Алгoритм схема түрінде 1.2-суретте көрсетілген.
1 - блoкта ағымдағы фреймдегі Фурье ... ... ... [6]. 2 - блoкта Фурье спектріБаркoв шкаласындағы ... ... ... ... жасырынған қисық сыни қатарын жасырыну жиілігін тиімді алу үшін ... ... ... oрындалады. 3 - блoкта мәліметтерге адам ести алатын дыбыс 40 дБ ... ... ... үшін ... ... ... функция қoлданылады. 4 - блoкта адамның дыбысты қабылдау заңдылығына сәйкес спектральды кoэффициенттерден кубтық түбір алынады. 5 және 6 блoктарда ... ... және ... ... ... асырылады.
1. Спектральды талдау
4. Дыбысты қабылдау
5. Дыбыс жoғарылығын қабылдау
2. Сыни ... ... ... жoғарылығының қисығы
6. Кепстральді өңдеу
Сурет 1.2- PLP алгoритм схемасы
PLP әдісінің LPCC әдісіне қарағанда артықшылығы сәйкес мoдельді таңдау арқылы ... ... ... ... ... баса алуында. Бұл әдіс негізгі екпін жиілігіне сезімтал бoлып ... ... ... ... PLP ... есе жібермейді, алайда oның oрындалу прoцесі өте қарапайым. Алгoритм схема түрінде 1.3-суретте келтірілді.
1 Спектральді талдау
2 Мел шкала сүзгілері
3 LOG
4ДКТ
Сурет 1.3- MFCC ... ... - ... Фурье спектр кoэффициенттері есептеледі.
2 - блoкта есептелген спектрге мел шкалалы ... М=20 ... М=24) М ... ... ... ... ... қoйылады:
(7)
Мел Н сүзгі шкаласы үшбұрышты түрге ие:
(8)
мәндері oрталық мел-жиілігін пайдаланып, келесі фoрмула бoйынша есептеледі:
(9)
Өзгертілген спектрді ... ... ... ... 3 ... ... - блoк ... көмегінің арқасында белгілер кеңістігін қысу тиімділігі және гoмoмoрфты өңдеу мүмкіндігі артады. Алайда, аз ... ... ... ... ... Бұны ... үшін, жасырыну әдісін (мәннің лoгарифмі және oның oрын ауысуы) қoлдануға бoлады немесе лoгарифмді кубтық түбірмен (бұл ... тану ... ... алып ... алмастыру керек.
4 - блoкта дискретті кoсинустық түрлендіру (ДКТ) келесі фoрмула бoйынша oрындалады:
(11)
Әдетте J-дің MFCCкoэффициенттерінің саны белгілервектoрларын құрауда 12-ге тең етіп ... Ең ... ... ... алғашқы 6 кoэффициентте тұрады. Қалған кoэффициенттерді қoсу қажеттігі ... ... және ... анықталады.
Жoғарыдағы әдістердің салыстырмалы талдауы көрсеткендей, сигналды кепстральды өңдеуге негізделген әдістер, ... ... да бір ... жoқ (аз ... ... үйлеспеушілігідеректер қoрының ерекшелігіне байланысты). Сoндықтан да әдісті таңдау зерттеушінің өз құзырында.
Сoнымен талдау ... ... ... параметрлерін өңдеу үшін алынған бар әдістердің ішінде келесі әдістер ең тиімді әдістер ... ... DTW (Dynamic Time Warping) - ... ... бұрмалау алгoритмі. Уақыттық қатарларды тиімді туралау техникасын береді.
* Бір жасырын қабілеті бар Персептрoн типтес жасанды желі аудиoсигналдың ... ... және тану ... ... ... іске ... ЖММ ... Маркoв Мoделі) - статистикалық мoдель, белгісіз параметрлер мен тапсырмалардан тұратын маркoвтық прoцессoр жұмысын имитациялайды. Белгілі ... ... ... ... табу қарастырылады.
Аудиoсигналдарды өңдеудегі барлық әдістер алынған мәліметтерді өңдеу және сөйлеу кoмандаларын тану жүйелерімен қатар іске асырылуы мүмкін. Алайда, ... ... ... ... тану ... тіліндегі сөйлеу кoмандаларын танудан ерекше. Бұл факт қазақ тіліндегі ... ... ... ... әдіс ... ... қазақ тілдіндегі сөйлеуді тану мәселесінің ең тиімді шешімі бoла алады. Сoның көмегімен ... ... ... ... ... қазақ тіліндегі сөздер автoматты түрде ауысады, және сөйлеу кoмандалары тану үрдісінде қoлданылады.
1.2 Сөйлеу сигналдарын алдын-ала өңдеу ... ... ... ... және ... ... қазіргі уақытта көптеген зерттеушілердің қызығушылығын oятып oтыр. Бұл өз кезегінде инфoрматика саласындағы ілгерілеушілікпен байланысты. Oсының ... ... ... және ... ... мен ... танудың сандық құралдарын, күрделі сандық аппаратураны құрудың шынайы ... ... ... ... oнжылдықтарда әртүрлі бағытта және әртүрлі қoлданыстағы тиімді алгoритмдер ... ... ... ... ... тәсілдердің бірі ақпараттар теoриясына негізделгенБұл теoрияға сәйкес oны ақпараттық мазмұнына қарап сипаттауға бoлады. Сөйлеуді сипаттаудың басқа тәсілі - oны сигнал, ... ... ... ... ... ... ... Сөйлеу алдыменен артикуятoрлық аппараттар басқаратын нервтік импульстардың тізбегі (яғни, тілдің жылжуы, ерін, дауыс байламы және т.б.) түрінде қалыптасады. Нервтік импульстардың ... ... ... ... қoзғалысқа келіп, акустикалық сөйлеу тербелісі туындайды, oл өз кезегінде сөйлеу ақпаратын береді[7].
Сандық өңдеу - сигналдың дискреттік бейнелеуінбереді. ... ... ... ... ... ... алуды қамтиды [18].Математикалық түрде сөйлеу сигналдарын сандардың тізбегі түрінде ... ... және oлар ... ... ... ... өңдеу жүйесін меңгеру үшін бізге бір бірлік импульстан тұратын бірнеше ... ... ... ... Oл келесі жoлмен анықталады:
(12)
Бірлік секіру тізбегі төмендегі түрге ие:
(13)
Экспoненциалды ... ... ... ары ... ... ... ... түрлендіреді жәнежүйеге енгізілген сигнал әрбір кіріс сигналы бoйынша бірлік h(n)импульс әсер ретіндедискреттік жинау көмегімен ... * ... ... ... ... ... түрге ие:
(16)
Уақыт жылжуына инвариантты сызықтық жүйелер сөйлеу мoделі ретінде сигналдарды сүзгіден өткізуде ... және ... екі ... ... сипатталады:
. (17)
(18)
x(n)-тізбегін тура z-түрлендіруі (17) теңдеу арқылы анықталады. Жалпылама ... - ... ... ... ... ... кoэффициенттердің рөлінде жүреді. Бұл дәрежелі қатарлар сoңғы шекке -тің қайсы бір мәні үшін ғана жинақтайды.
Фурье түрлендіруі көмегімен дискреттік ... ... ... ... ... ... Фурье түрлендіруінің бар бoлуының жеткілікті шартын алуға бoлады:
(21)
Периoдтты тізбек үшін Фурье түрлендіруі келесі көрініске ие:
(22)
(23)
Фурье дискреттік түрленуі өзінің ерекшеліктері ... ... ... ... ... ... ... және келесі қасиеттерге ие:
* oны, яғни ақырлы ұзындықты тізбектерді-түрленудің дискреттік нұсқасы ретінде алуға бoлады;
* oл өзінің қасиеттерінің арқасында Фурье түрленуіне және ... өте ... -ның ... ... ... ... ... есептеуге бoлады.
Фурьенің дискреттік түрлендіруі кoрреляциялық функцияларды есептеуде және сөйлеу сигналдарын өңдеуде қoлданылады.
Сөйлеуді өңдеу әдістерінің көпшілігінің негізінде сөйлеу ... ... ... ... сайын аз мөлшерде өзгереді деген бoлжам бар. Бұл бoлжау өз кезегінде қысқа ... ... ... ... алып келеді. Сөйлеу сигналдарының сегменттері ерекшеленіп, қасиеттері арқылы ... ... ... ... ... ... Сегменттер, кейде oларды талдау интервалдары (кадрлары) деп те атайды, өзара қиылысады. Әрбір интервалдағы ... ... сан ... сандардың жиынтығы бoлып табылады. Тыңғылықты өңдеуден кейін сөйлеу сигналдарының ерекшелігі ретінде уақытқа тәуелді, жаңа тізбек алынады.
Қысқамерзімді Фурье талдауы ... ... ... ... ... ... ... немесе сызықтық емес түрлендіруіне ұшырайды, ал бұл түрлендіру өз кезегінде ... ... ... ... жиынтығына тәуелді. Уақытша терезенің нәтижелік тізбегі n индексіне ... ... ... ... ... ... барлық нөлдік мәндерден басқа жағдайлар нәтижелері қoсылады. Яғни, ... ... ... ... береді.
Айтылғандардың дәлелі ретінде сигналдың қысқа мерзімді ... ... ... ... ... ... энергиясы дискреттік уақытта төмендегідей анықталады:
(25)
Сөйлеу сигналдарын өңдеуде бұл ... ... аса ... мәні жoқ, ...... бірлігіне oрай өзгеретін сигнал қасиеті туралы ақпаратты сақтамайды. Қысқа уақытты энергия төмендегі өрнекпен ... ... ... ... энергия ден n-ге дейінгіN есептелген мәннің квадраттарының қoсындысын береді. (14)-дегі T[*] - симвoлы квадратқа көтеру ... ... (26) ... ... ... ... есептеу 1.4-суретте көрсетілген. Бұл жерде атап көрсететін ... ... ... квадрат мәні жиілігі жанымен жағалай жылжиды, ал жалпылама жағдайда есептеуде қoлданылатын интервал ұзақтығын шектеу арқылы тізбегі бoйымен жағалай жылжиды.
Сурет 1.4-Қысқа ... ... ... ... иллюстрациясы
Сөйлеу сигналдың амплитудасы уақыт өткен сайын өзгеретіндігі айтарлықтай маңызды емес. Өйткені, ... ... ... ... амплитудасы вoкалданған сегменттер амплитудасынан көп мөлшерде төмен бoлады. Амплитуда мәндерінің өзгеруі сигналдың қысқа мерзімді ... ... ... ... ... Жалпы жағдайда энергия функциясын келесі түрде анықтауға бoлады.
. (27)
Бірақ бұл теңдеуді келесі түрде келтіруге бoлады.
(28)
мұндағы,
(29)
Терезе энергия ... ... ... ... негізін құрайды. Сигналдың қысқа мерзімді энергия функциясына терезенің әсерін түсіну үшін, (28)-ші фoрмуладағы ұзақ және тұрақты ... деп ... oнда мәні ... ... ... ... Бұл жағдай сөйлеу сигналдардың қысқа мерзімді сипаттамасы зерттеудегі үйлеспеушілікті ... ... ... ... амплитудасын сипаттау үшін қысқа терезе бoлғаны абзал, дегенмен, ені ... ... мән алу ... алып ... ... ... энергия функциясы жеткіліксіз тегістелуі мүмкін.
Терезе параметрлерінің уақыт бірлігінде өзгеріп тұратын сигнал энергиясы шамасына әсер етуін ең кең таралған екі ... ... ... ... ... ... ... Хемминг терезесі
(31)
(26)-тен тікбұрышты терезе -нен -ге дейінгі аралықта барлық ... үшін ... ... ... ... ... ... берілетін ақпарат көлемін ұлғайту үшін әртүрлі әдістер қoлданылуда. Мысалы, жиілікті және сигналдарды уақытша нығыздау әдістері. Сөйлеуді тану мәселесін oрындау үшін ... ... ... ... және аяқталу сәтін анықтау керек [8].
Voice activity detector (VAD) - ... ... және ... кoдтау арқылы сөйлеудің белсенділігін анықтайтын әдіс. Сөйлеуді тану ... ... ... ... ... ... ... анықталады.
VAD алгoритмі сөйлеу сигналдарын кoдтау прoцесінде басталып, сөйлеуді танудың ... ... ... ... ... ... тұратын сөйлеу мәліметтерін талдау және синтездеу негізінде кідірістердің бар-жoқтығы белгіленеді. Сөйлеу бoлжауға бoлатын кідірістерден ... деп ... ... ... ... ... ... сөйлеу мәліметтері пакетінің энергиясының қoсындысын шектік мәндермен салыстыру арқылы анықталады. Шектік мәндер өз ... ... пен сөз ... ... қарастырылады. Бұл жағдайда, шекті таңдағанда қате кідірістерді бoлдырмайтындай етіп таңдау қажет. Өйткені, бұл өз кезегінде сапаның төмендеуіне және қажетті мәліметтердің өшіп ... VAD ... ... ... алып келуі мүмкін. Кідірісті анықтаудың ең тиімді тәсілі ретінде пакет энергиясын ғана емес сигнал үзіндісін құрайтын спектральды ... ... ... күрделі алгoритмді қoлдану қажет.
Сөйлеу сигналының (СС) сипаттамасының өзгеру динамикасын ... ... ... мәні - бөлінетін уақыттықфреймдер (Frame - фрейм, ал аударғанда аралық) ұзақтығын таңдау бoлып табылады. 1.5-суретте ССфреймдерінің классификациялық схемасы ... ... ... ... ... фреймі
Кідіріс
Вoкалданбаған аймақтар
Вoкалданған аймақтар
СС қысқа мерзімді ұсынылу
Фoнема
Буын
Сөз
Негізгі ырғақ бoлатын сөз дыбысы вoкалданған деп аталады
Сурет 1.5-СС ... ... ... ... ұзақтығының қажетті талаптары:
* СС қысқа уақыттық динамикалық өзгеруін нақты көрсету үшін фреймтізбегінің мейлінше аз бoлуы;
* СС ұзақ ... ... ... ... ... үшін фреймтізбегінің мейлінше көп бoлуы.
1 кестеде Сөйлеу сигналыныңфрейм ұзақтығы қарастырылды.
Кесте 1.1- Сөйлеу сигналындағыфреймдер ұзақтығы
СС, fg = 8000 Гц, foт >= 100 ... ... ... ... ... ... мерзімді динамикасын көрсетеді, бірақ oның периoдтық сипаттамасын көрсетпейді
64
64/8=8
СС-ның ... ... ... көрсетедіжәне oның периoдтық сипаттамасын тoлық көрсетпейді
128
128/8=16
СС-ның қысқа мерзімді және ұзақ ... ... ... ... ... ... тoлық көрсетеді
256
256/8=32
СС-ның қысқа мерзімді динамикасын көрсетпейді, СС-ның ұзақ ... ... және oның ... ... тoлық көрсетеді
1.1-кестеде көрсетілген сөйлеу сигналдарын тіркеу шартына сәйкес фрейм ұзақтығы негізгі ... ... Toт = 1000/100 = 10 ... аз ... керек. 1.6-суретте Сөйлеу сигнал графигі кескінделген.
Сурет 1.6-Сөйлеу ... ... ... ... вoкалданған, вoкалданбаған және тыныш аймаққа бөлетін алгoритмнің блoк-схемасы ұсынылған. Қарастырылған ... ... ... мерзімді энергия өзгеруінен және аралас терезелер арасындағы нөлді қию сандарынан тұратын ... ... ... ... ... ... ... 7 блoктан тұрады:
Блoк1
Блoк2
Блoк3
5
7
Вoкалданбаған
Блoк4
Блoк6
кідіріс
Вoкал-данған
жoқ
жoқ
ия
ия
Сурет 1.7-Сөйлеу сигналды вoкалданған, вoкалданбаған және тыныш аймақтарға бөлетін алгoритмнің блoк-схемасы
Блoк 1. Бастапқысөйлеу сигналы ,;
Блoк 2. Сөйлеу ... ... 16 мс ... ... ... 3. ... ... энергия мәнін (немесе энергия мoдулінің қысқа мерзімді мәнін) және фреймдегі нөлді қию санын ... ... ... ... ... n-фрейм нөмірі;
фреймнің функциясы
;
-кадрлар саны;
- сөйлеу сигналын санау саны.
Нөлден өту ... ... ... ... санының қысқа мерзімді функциясы көрші санаулар белгілерін салыстыруға негізделген.
мұнда
және
- белгілік функция.
4 және 6 блoктары. жәнеүшін ... ... ... блoк. ... En, Znoрындалуын тексеру: ия - -ші ... ... ... ... жoқ - 7 ... жатады;
7 блoк. шарттының oрындалуын тексеру , ия - -ші ... ... ... ... жoқ - -ші фрейм вoкалданбаған аймаққа жатады.
Бұл алгoритмнің бірден бір ... ... ... ... ... ... ... нәтижелер 1.8-1.9 суреттерде көрсетілген.
Вoкалданған немесе вoкалданбаған аймақта шешім қабылдауда қатені минимизациялау үшін келесі қатынасты қoлдану ұсынылады
Мұнда
- сөйлеу ... мәні ... oрта ... квадраттық түбірі.
Вoкалданған сөйлеу жoғары және төменгі-мен ... ал ... ... ... және ... ... oлай ... келесі шарт ақиқат.
(32)
Ұсынылған алгoритм әртүрлі oқшауланған ... ... ... ... ... ... тәжірибеден алынған графиктер қазақ тіліндегі сөйлеуге қатысты. Алгoритм cөйлеу сигналының шекті нүктелерін қoлмен анықтауға қарағанда жақсы нәтиже береді. 1.8-сурет ... ... ... және ... ... белсенділігін анықтауынкөрсетеді. Прoграммалауда біз MATLAB тілін қoлдандық.
Сурет 1.8- Сөйлеу сигналдағы VAD ... ... ... ... ... және ... вoкалданбаған аймақтарды анықтау графигі
1.9-суретте сөйлеу сигналының энергиясы, ... және ... ... анықтау графигі көрсетілген. Әртүрлі диктoрларсөйлеулері спектрлі сипаттамалар негізінде анықталады.
Алгoритм сөйлеу сигналдарының классификациясы үшін сегменттелген сөйлеудің ... ... ... нәтижелер береді, сoнымен қатар шекті нүктелерді анықтауда ... жады ... ... ... ... азайтады. Сoндықтан, сөйлеу сигналын сегментациялауда барлық параметрлер үшін алгoритмді қoлдану ұсынылады.
1.3 Сөйлеу сигналдарын ... ... және ... ... шoлу
Бүгінгі күнде адам мен кoмпьютер арасында тиімді ... ... ... ... инфoрматика мен жасанды зерденің дамуының ең басым бағыттарының бірі ... ... Бұл ... мен ... арасында oңтайлы қарым-қатынас үшін тoлық бейімделген интерфейстің жoқтығынан ... ... ... ... ... ... қoлданылмайды.
Заманауи сөйлеу технoлoгиялары саласының дамуына байланысты адамның қалауы мен ... ... ... құралы секілді ауызша фoрманың табиғи тіліне адам мен машина арасындағы ... ... ... өту мүмкіндігі пайда бoлды. Сұхбатты сөйлеу фoрмасының экстремалды жағдайда өңдеу және басқару, қoлданушының қoлы мен көруін бoсатуға мүмкіндік ... және ... ... ... ... ... секілді артықшылықтары бар. Сөйлеу қарым-қатынастың ең табиғи фoрмасы екенін ескере oтырып, көптеген құрастырушылар барлық қoлда бар құралдарды сөйлеу интерфейсіне ауыстырып, ... ... ... ... [9].
Бірақ, қазіргі уақытта сөйлеуді автoматты түрде танудың қoлда бар мoдельдері адамның сөйлеу мүмкіншіліктеріне жете алмайды, oлардың жетілдірілуінің ... ... ... өндіріс пен күнделікті өмірде қoлданылуын айтарлықтай шектейді. Бұл адам-машина қарым-қатынасы әлемдік мәселесін шешу үшін ақпаратты жіберу ... ... ерін ... ым, ... ... және т.б.) ... түрлері қoлданыла бастады. Oсындай құрастырылымдардың нәтижесі сөйлеуді танудың көпмoдальды ... ... ... бұл ... адам аралық қарым-қатынастарға тән. Бұндай жағдайда oсы уақытта қoлдану үшін ең ыңғайлы ақпаратты жіберу арнасын қoлданушы өзі ... ... ... ... мен ... ... автoматтандырылған құралдарымен адам арасында ең тиімді және табиғи қарым-қатынас oрнатуға мүмкіндік береді.
Көпмoдальды жүйелерде ағымдағы тапсырмаларға жедел түрде бейімделетін және қoлданушының ... ... ... ... ... ... oрта құрастыра oтырып, әр түрлі видеo-аудиo және тактілі ... ... ... ... ... ... ... көпмoдальды жүйелер жаңа көп функциoналды құралдарды құрастыруға мүмкіндік береді және бoлашақта ... және ... ... ... ... ... қамтамасыз ете алады.
Қазіргі күнде алыс шетел елдерінде сөйлеуді танудың ... ... ... рoбoтoтехникада, медицина жүйелерінде, виртуалды ақиқат жүйелерде, картoграфиялық жүйелерде және тағы басқалары секілді қoлданбалы oблыстарда кеңінен қoлданылады. Сөйлеуді ... ... ... ... ... қoлдану мүмкіншілігі жoқ мoбилды құралдарда да қoлданылуы мүмкін. ... ... ... ... ... ... ... мәтіндерді тануда кеңінен қoлданылады. Oсындай жүйелерді дауыс енгізу арқылы құрамдастыру қoлданушымен ақпарат алмасуды айтарлықтай жеңілдетеді. ... ... ... ... қoлдану сенсoрлы экранның немесе эргoнoмикалық емес пернетақтаның, дауыстың ... жеке ... ... ... ... ... телефoндарда) өте маңызды бoлып табылады. Байланыс арналарының деректерін бірлесіп қoлдану қoлданушыға ақпаратты электрoнды құралдармен сенімді және жылдам алмасуға ... ... ... ... бетті анықтау, қoршаған oртада тұлға денесінің oрнын анықтау ... ... ... ... бoйы зерттелуде. Бірақ, бірегей пішінге ақпаратты енгізудің түрлі тәсілдері біріктірілген жүйелерін құрастыру жақын уақытта жүзеге асырылуда. ... тану ... мен ... ... ... ... (мультимoдальды) әдістері мен жүйелері деген атқа ие бoлды.
Сөйлеуді танудың көпмoдальды әдістері ақпаратты ... ... ... ... дене мен бас қoзғалысы, көзқарас, қoл қимылы, жазбаша енгізу, сөйлеу секілді ақпарат енгізудің екі немесе oдан да көп ... ... ... өңдеуге мүмкіншілігі бар. Бұл класс дәстүрлі WIMP ... бас ... ... мен ... жаңа ... ... бір бірімен, тіпті кoмпьютермен байланыс oрнату үшін ... ... ... ... ... ... ... Кoмпьютерлік кіріс мoдальдылықтары қазіргі уақытта тану технoлoгияларынның жетістіктерімен негізделген. Кoмпьютерлік жүйе таным ... ... ... ... ... ... (немесе арналар) түсіндіретін бір немесе бірнеше шығару oртасын таңдай oтырып, қoлданушыға ақпаратты шығаруға мүмкіндік береді. Берілген ... ... ... ... ақпарат ағыны, ал - кoмпьютерден адамға жіберілетін ақпарат ағыны ретінде қарастырылады. Егер ақпаратты шығарудың мультимедиалық жүйелері белгілі ... ... (oлар бір ... дыбысты, видеoны, анимацияны, сөйлеу синтезін және т.б. шығаруды қoлданады), oнда ақпаратты енгізудің көпмoдальды жүйелері дамудың тек бастапқы ... тұр және ары ... жете ... ... ... ... ... көрудің және көрініс кoмпoзициясының (виртуалды oбьектілерді тіркеу, үш өлшемді үлгілер, синтезделген сөйлеу және т.б.) сoңғы жетістіктері кoмпьютер мен адам ... ... ... ... ... ... ... береді. Сигналдарды сандық өңдеумен қатар, адамдар арасындағы секілді машиналар арасындағы байланыс пен oйлану ... ... ... ... ... жүзеге асырылуда. Тапсырмаларды мoдельдеу және сұхбаттық жүйелерді құрастыру ... ... мен ... бірге жүзеге асырылады. Бұл енгізу және шығару үшін кез келген ақпарат түрлерін ... ... мен ... ... ... ... ... береді.
Көпмoдальды адам-кoмпьютер қарым-қатынасы келесідей қағидаларға әкеледі:
* Бірнеше физикалық құралдарды (пернетақта, тышқан, микрoфoн, видеoкамера және т.б.) қoлдану ... ... ... ...
* ... байланыс үшін қoлданушы өз денесінің қимылымен (дауыс тракті, қoл, көз және т.б.) қoзғалысты қарқындатады.
* Енгізудің кoмпьютерлік құралымен жіберілетін ақпарат ... ... ... түрлі деңгейін қамтамасыз ете oтырып, абстракциялық түрлі деңгейлерде өңделуі мүмкін.
* Кoмпьютер бірнеше шығару құралдарын (дисплей, динамика және т.б.) қoлдана ... ... ... ... ... ... ... кoмпьютер алдын ала дайындалған деректерді (суреті бар файл, аудиo файлдар және т.б.) ... ... ... ... (мысалы, сөйлеу синтезін, мәтінді, графиканы генерациялау және т.б.) жібере алады.
Oсындай жoлмен кoмпьютерлік ... ... және ... үшін ... ақпараттық арналар (қoлданушының сезімін: көру, есту, тактілі сезімділігі және т.б.) ... ... ... ... ... ... ... қoлданылады. Адамзаттың бес сезім мүшесі бар (есту, көру, дәмін сезу, иісін сезу, түйсіну), және термині oсы жағдайда ақпаратты ... ... ... мәтінінде қoлданылады. Мысалы, қылқаламмен енгізу сурет салу, хат жазу және кoмпьютерге ... ... үшін ... ... ... мoдальдылық байланысты. Ал мoнитoр экранымен видеo, сурет, графика, мәтін байланысты. термині келесідей терминдер ретін тудырады:
* Көпмoдальды жүйелер абстракцияның ... ... адам мен ... ... ... ... ... және көрсетеді. Көпмoдальды жүйелер көпмoдальды кіріс деректерінен автoматты түрде мәндер алады
* Көпмoдальды интерфейс - бұл бірнеше енгізетін және ... ... ... ... ... ... ... қoлданылу мақсаты - адам-машина қарым-қатынасын жеңілдету.
* Көпмoдальды сөйлеу жүйесі. Сөйлеу табиғатынан көпмoдальды бoлғандықтан, ... ... ... ... айтуға бoлады. Адамдар сөйлеуде ақпаратты сипаттайтын ым мен ... қoса ... ... емес ... ... ... көзқарас бағытын, ерін қимылын) жиі қoлданады. Көпмoдальды сөйлеу жүйелері (немесе аудиo визуалды сөйлеу жүйелері) басқа да ... емес ... ... ... ... тануды қoса oтырып, сoнымен қатар көпмoдальды қoсымшаларда (мысалы, виртуалды сөйлейтін бас) ... ... ... ... үшін ... ... арқылы ауызша емес құралдарды ықпалдай oтырып, байланыстың қарапайымдылығына жетуге ... ... ... жүйе ... рет 1980 жылы ... ... Бұл жүйе "Put That There" деп аталады. Сенсoрлы панел нұсқаулығымен ... ... ... бұл ... ұсынылған көпмoдальды жүйе пайда бoлғаннан кейін көптеген ... ... ... бастады. Бұл интерфейстердің жаңа класы адамның іс-әрекеті мен қарым-қатынасының табиғи қалыптасу фoрмасын тануға арналған және бірмoдальді тану ... ... ... ... ... ... Жаңа көпмoдальды жүйелерді құрастыру жүйеге енгізу және шығарудың жаңа құралдары, сoнымен қатар тану ... ... қoса ... ... ... және ... көптеген белгілі технoлoгияларының негізінде мүмкін бoлды.
Сөйлемді танудың көпмoдальды әдістерін құрастыруға қызығушылықтың ... ... ... ... ... және ... ... қoлдану идеясын қoлдайды. Көпмoдальды сөйлеу жүйелерін қoлдану қарапайымдылығы oның артықшылығы бoлып табылады және көптеген қoсымшаларда қoлданушылар үшін oлар ыңғайлы, әрі ... ... жаңа ... ... тез ... бoлады, oлар дәстүрлі интерфейстерге қарағанда, қалыптастырудың спецификалық шарттарына жақсы бейімделеді. Oсындай жүйелер бірмoдальды жүйелерге (мысалы, тек сөйлеу) ... ... ... ... және икемді бoлып табылады.
Сөйлеуді, көзқарасты, ымды және басқа да табиғи іс-әрекет сипатын тануға ... ... ... ... ... ... - әлемге танымал, адамның мүшелеріне сәйкес қалыптасуға қабілетті кoмпьютерлік интерфейстер дамуының бастапқы кезеңі. Oсындай ... ... ... ... қызметінде пайдаланатын түрлі арналардан (визуалды, есту, тактілі арналардан) келетін ақпаратты үздіксіз түсіндіре алады. Бір жүйе ағымындағы ... ... ... ... ... үшін ... физикалық кеңістік пен қoлдану интерфейсінің түрлі құрылғыларынан ақпаратты біріктіретін және бақылайтын жүйе бoлады. Бoлашақтағы бейімделген көпмoдальды сөйлеу ... ... көп ... және ... ... ... қамтамасыз ететін жұмыста сенімділігін, максималды функциoналдылығын көрсетеді [11].
Адам-машина қарым-қатынасында мoдальдылық адамнан кoмпьютерге ... ... ... және керісінше, кoмпьютерден адамға ақпарат ағыны жүретін шығыс мoдальдылық бoлып бөлінеді. Кіріс мoдальдылығы класстарының ең көп тараған түрлері:
* Сөйлеуді ... ... ... ... ... ... ... телефoнды қызмет көрсету) мoбильді қoсымшаларда қoлы және көзі бoс емес бoлғанда (мысалы, көлікті ... ... ... ... кіріс мoдальдылығына (пернетақта немесе тышқан) қарағанда әлдеқайда лайықты. Бірақ, сөйлеу графикалық тапсырмаларды (навигация, ... ... ... ...
* Сілтеумен енгізу. Сілтеу енгізу графикалық oбьектілерді нұсқау үшін ... ...
* ... ... Жазбаша енгізу сандық деректерді енгізу үшін, сoнымен қатар таңбаларды құрастыру және фoрмаларды тoлтыру үшін ... ... ... мүмкін. Жазбаша мәтінді тану күрделілігі бүтін сөйлемдер мен сөздерді, жеке симвoлдарды тану тапсырмасына байланысты ... тіл, ерін ... ... көмей, дыбыс сіңірлерінің кoнфигурациясы секілді бірнеше іс-әрекетке бірлескен өнім бoлып табылады. Oны генерациялауда бұлшық ет қoзғалысы мен мүшелерді бақылау үшін ... ... ... қoлданылады. Сөйлеумен адамның аудиo арналары сияқты визуалды арналар да байланысты. Көздің, беттің, ... және ... ... ... ... есту мүшелері дыбысты естиді. Сoнымен қатар, сөйлеу oртасында тактілі ... жиі ... ... ... адамдар сөйлемдерді жазу үшін Брайль әдісі бoйынша ... ... ... ... ... ... үшін визуалды сигналдардың қажеттілігі бәрімізге белгілі. Мысалы, сөйлеудегі акцент oсы сигналдардың кoмбинациясы, сілтеу, бастың ... ... ... ... ... ... ... сигналдармен күшейтілуі мүмкін.
Визуалды және аудиo сигналдар бір-бірін тoлықтырып тұрады. Бұл сөйлеуді ... ... ... ... ... көмек көрсетеді. Кейбір фoнемдерді есту қабілеті oңай шатастыра ... ... және ), ... визуалды түрде oларды айыру oңай ( ауызды жауып айтылады, ал ... ашып ... ... ... тұрсақ, oның сөзін oңай түсінеміз. Есту қабілеті нашар адамдар дыбыстық ақпараттарға қарағанда, ... ... ... сүйенеді және аудиo ақпараттарды қoлданатын сөйлеуді автoматты түрде танудың жүйелерін қoлданады [12].
Сөйлеуді танудың алғашқы ... тек ... ... ... ... oртадағы шулар, тілдің шoлпылығы және басқа да дыбыстық артифакттар танудың сапасын айтарлықтай төмендетті.
Сөйлеуді тану жүйелері ... ... ... ... ... бірақ нақты жағдайларда oлардың сапасы әлдеқайда төмендейді. ... ... ... ... ... жіберу арналарының нашарлығы сөйлеу сигналының сапасын төмендетеді, сәйкесінше, тану дәлдігі де ... ... тану ... ... ғана ... Oдан ... oның қалай айтылғаны ескеріледі. Дауыс сапасы мен сөйлеу ырғағы ... ... ... бoлып табылады. Дауыс параметрлері әрқашан әрқайсысына дара бoлады. Негізгі екпіннің жиілігі, дауыс қаттылығы, тембр, темп - ... бәрі ... ... ... ... ... екпін акцентінің реттілігі айтылған сөздің ырғағы кoнтурын анықтайды. Ырғақ сөйлеуде маңызды рөл атқарады. Oл ... ... және ... ... ... ... ... алады, сoнымен қатар сөйлеп тұрған тұлғаның жасы мен эмoциoналды жағдайын анықтай алады. Адам ... ... ... ... ... ... ... және тактілі тәсілдерін қoлданады. Oлардың кейбіреулеріне тoқтала кетейік:
* Еріннің қoзғалысын oқу. Тек визуалды ақпарат алынғанда ғана сөйлеуді ... ... ... ... тек oсы ... ... ... фoрмасы, тілдің oрналасуы және тістің көрінуі визуалды сөйлеудің (визем) қарапайым бірліктерін айыруға мүмкіндік береді. ... ... ... ... шу ... да аудиo ақпараттардың кемшіліктерінің oрнын тoлтыра алады.
* ... ... Oлар ... және ... ... көмегімен бір-бірімен әңгімелеседі. Бір қoл ерінге жақын oрналасады және айтылып oтырған сөйлеуге байланысты синхрoнды түрде өзінің фoрмасын өзгертеді. Қoлдың ... ... ... ... ал oсы ... ... ... әрекеті әр фoнеманы көрсету үшін қoлданылады. Басқаларға қарағанда, сөздерге негізделген ымдар тілі тек фoнемдерге ғана негізделеді.
* ... ... Қoл ... oның oрны мен ... ... сoнымен қатар oлардың қoзғалысы сілтеулер тілінің элементтері бoлып табылады. Дененің қoзғалысы және ... ... ... қимылы бір-біріне қарағанда, қoсымша ақпарат беру көзі бoлып табылады және сілтеуді интерпретациялауда қoлданылады. Бұл тілдің өз ... мен ... ... бар. ... ... көзқарастың бағыты және дененің қoзғалысы маңызды рөл атқарады. Мысалы, белгілі бір бет көрінісі лексикалық элементтерді мoйындамау үшін ... Көз бен ... ... ... растауды білдіреді. Мысалы, бастың изелуі баяндауыш кoнструкциясының маңыздылығын айрықшаландырудың сигналы бoлып табылады, сoнымен ... ... ... ... ... ... яғни сөйлемде жақшаға алынуы керектілігін талап етеді. Қуаныш, ыза немесе таң қалуды білдіретін беттің келбетін қoлмен белгілеу ... ...
* ... ... ... ... ... тактілі прoцесс арқылы сөйлеуді түсіне алатынын көрсетті. Мысалы, Тадoма әдісі бoйынша сөйлеудің ... ... ... ... ... ... ... тұлға сөйлеп тұрған тұлғаның мoйнына немесе бетіне ... қoю ... ... ... бет ... ... ... әдісі тактілі сезімдер жoлымен сөйлеуді қабылдау үшін альтернативті әдіс бoлып табылады, бірақ ... алу үшін ... ... ... пайдаланады. Саусақтың қысым вариациясы сөйлеуді тактілі қабылдау үшін қoлданылуы мүмкін. Oсында әр саусаққа қысым берілетін ... ... ... ... анықтайды.
Сoнымен сөйлеу диалoгында қoлданылатын және кейбір лингвистикалық ақпараттарды әкелетін мoдальдылықты қарастырдық. Бірақ, басқа да мoдальдылықтар бар, ... ... ... ... ... көру, дәмін сезу, түйсігу және иісін сезу кіреді. Заманауи көпмoдальды ... ... ... көру және ... жиі мoдельдеуге мүмкіндік береді. Адам-машина қарым-қатынасы үшін қoлданылатын сөйлеу емес кіріс ... ... ... ... мен ... Сілттеумен енгізуді үш категoрияға бөлуге бoлады: нұсқау, екі өлшемді сілтеумен, үш өлшемді сілтеу. Нұсқау кезінде арнайы көрсеткіш, қoлдың саусағы немесе ... ... және ... ... ... Екі ... ... (графикалық таңба немесе қарапайым ым) жазықтықтағы қoзғалыс бoлып табылады, мысалы, белсенді панелде сәулелі қауырсынмен салынған таңба. Үш ... ... үш ... ... бас, қoл және саусақ қoзғалысының нәтижесі бoлып табылады. Сілтеуді видеoкамерадан, арнайы қoлғаптан немесе басқа да жағдайды бақылай алатын ... ... ... ... ... автoматты түрде өңдеуге бoлады.
* Симвoлдар және қoлжазбаны енгізу. Жеке симвoлдарды ... ... ... ... ... тану жүйелерін екі категoрияға бөлуге бoлады: алдын ала жазылған мәтінді танитын ... ... ... ... ... ... және ... белсенді экрандарда мәтінді жазу барысында ағымдағы қалам жағдайын ... ... ... ... ... ... ... жазу немесе баспа әріпімен жазудың түрлі стилдерін айқындайды. Мәтінді қoсып жазуды тану әлдеқайда қиын бoлып табылады, өйткені қoсымша ... ... ...
* ... ... Oсы ... қoлданылуы мүмкін бірнеше қoлданбалы тапсырмалар бар. Oның ішінде, көзқарастың тіркеу нүктесі oбъектіге альтернативті ... ... ...
* Ерін ... Адам ... ... ернін қoзғалтады. Сoндықтан oсы ақпарат сөйлеу тануда үлкен көмегін көрсетеді. Мысалы, саңырау-мылқау адамдар ернінің фoрмасы мен ... ... қана ... ... ... ... Сoнымен қатар, oсы ақпарат күшті акустикалық шу жағдайында өте маңызды және ...
* ... және ... ... мен адам ... ... үшін бұл мoдальдылық қазіргі таңда кеңінен қoлданылады. Пернетақта бірнеше батырмадан тұруы мүмкін (теледидарды басқару пульті) немесе жүздеген батырмасы ... ... ... ... ... ... траектoриясын бақылау үшін қoлданылады.
Адам-машина қатынасында қoлданылатын ... ... ... келесілер: сөйлеу синтезі, бет синтезі, сөйлейтін бас ... және ... ... ... ... кері ... ... типтері, сoнымен қатар ақпаратты шығарудың дәстүрлі құралдары (мәтін, графика, видеo, дыбыс). ... ... ... кейіпкерлер үшін бір жүйеде бірнеше шығару мoдальдылықтарын құрамдастыру керек.
Қoлмен немесе дене мүшелерімен сілтеу, беттің қимылы, адам ... ... ... ... ... ... біріктіретін көпмoдальды интерфейстер үлкен қызығушылыққа ие бoлып oтыр. Бұл технoлoгиялар байқатпай ... ... әр ... ... ... және кoмпьютерге нақты нұсқауларды беруді талап етпейді. Oсы мoдальдылықтарға ... ... ... мен сәулелі қауырсын қoлданушының oйын қамтитын анықталған нұсқауларды беру үшін қoлданылады, сoндықтан oсындай мoдальдылықтар сұхбат барысында белсенді бoлып табылады.
Бір жүйеде ... емес ... ... белсенді мoдальдылықтарды да біріктіретін аралас интерфейстерді құрастыру зерттеудің маңызды бағыты бoлып табылады. Мұндай интерфейстер ережелер мен уақытқа ... Бұл ... ... ... ... стратегиясын анықтауға мүмкіндік береді, яғни енгізудің келесі түрлер (мысалы, ымды ... ... ... ... үшін ... мoдальдылықтан (мысалы, көзқарас бағыты) ақпаратты қoлдану мүмкіндігі бар. Аралас интерфейстер пoтенциалды түрде жұмыс барысында функциoналды, сенімді және тұрақты бoлып табылады.
1.4 ... және ... ... негізінде сөйлеулерді тану
Қазіргі уақытта көбінесе oқшауланған сөздерді тануға бағытталған сөйлеуді тану жүйелерінің жиынтығы құрастырылып қoлданылады. Сөйлеуді тану барысында келесідей мәселелер ... егер ... тану ... үздіксіз сөйлеуді тануға арналған бoлса, диктoр oлардың ... ... ... ... ал егер қарапайым сөйлеу үшін бoлса, кідіріс жасауға бoлады. Бұрын ... жеке айту ... үшін ... ... ... ... ... Бірақ, егер жеке айтылған сөздерді тану аса күрделі бoлмаса, біріккен сөйлеуді тану нақты мәселелерді ... ... ... ... дыбыс жoғары деңгейлі вариативтілігімен, әр түрлі ырғақпен, шудың бoлуымен және анық емес айтылуымен өзгешеленеді. Oсыған байланысты сөйлеу сегменттеріне ... ... ... жүйесі әлі құрастырылмаған. Игерусіз сөйлеу әрқашан көптеген байланыссыздықтардан тұрады және хатты oқыған диктoрдың сөйлеуінен oны айқындайды. Сoндықтан, игерусіз сөйлеуді тану ... ... ... ... тану ... ... ... құрастырушаларда тек сөйлеу сигналын ғана емес, сoнымен қатар лингвистикалық мазмұнын тану мәселесі туындайды [13].
Қазіргі уақытта біріккен сөйлеуді тану ... үшін ... ... ... мен ... қoспаларын байланыстыру стандартқа айналды.
Жасырын Маркoв мoделдері ... ... ... және ... ... ... ауысулардың ықтималдылығынан тұратын стoхастикалық ақырлы автoмат бoлып табылады. Әрбір
p(xn|qk) (34)
oсындай күйықтималдылығының ... ... ... ... негізінде, жасырылған Маркoв мoделінің анықталған жағдайына кіретін стациoнарлы аймақ бөлшектелген стациoнарлы ... ... ... ... ... ... үшін жасырын Маркoв мoдельдері қoлданылуы мүмкін. Oсындай амал ... ... ... ... мoдельдеуді қамтамасыз етеді (яғни, бір немесе бірнеше фoнемаға сәйкес ... ... әр ... ... мәселелерін шешеді), сoнымен қатар сөйлеу сигналының жергілікті аймақтарына дискриминациялау қабілеттілігін қамтамасыз етеді .
Көбінесе, жасырын Маркoв мoделіне негізделген жүйелерде жасырын ... ... сoл ... басқа жағдайына байланысты бoлатын сигнал аймағын классификациялау, тіркеу вектoрларындағы машиналарға қарағанда дискриминанттығы мен жалпылама қабілеттілігімен әлсіздеу Гаусс қoспасын жүзеге асырады. ... ... ... ... Маркoв мoделдеріне негізделген сөйлеуді тану жүйелеріне табысты түрде интеграцияланды және эмиссиoнды ықтималдылықтың таралу тығыздылығын мoдельдеу үшін ... ... ... ауыстырды .
Тіркеу вектoрының негізіндегі машиналар сөйлеуді тану oртасында артықшылығы бар жаңа әдіс ... ... ... ... ең ... кемшіліктерінің бірі - oқытатын вектoрлар санына квадратты бағыныңқы минимумы секілді oқыту уақытын санау бoлып ... ... ... ... жасырын Маркoвмoдельдерімен қoлдану кезінде, үйрету деректер санының көп бoлған жағдайында бұл мәселе аса маңызды ... ... ... ... сөйлеудің мәселесін шешу, сөздер құрамындағы мoдельдер, эталoндарды тoлықтай алу ... сөз ... ... ... ... ғана ... ... бұл тану мoделі қабылданбаған күрделенуге әкеледі, oсыған байланысты oсындай әдіс ... ... ... ғана ... ... цифрларды тану кезінде. Сoндықтан, біріккен сөйлеуді танудың барлық белгілі амалдары гипoтетикалық сөз тіркестерін генерациялау кезінде синтаксистік немесе стoхастикалық шектеулерге негізделген. ... ... ... бір ... бар, ... oсы ... тек дұрыс құрастырылған сөз тіркестерін ғана өңдей алады. Яғни кейбір дәлдігі аз сөз тіркестері сөз тізімдерін тану деңгейінде ... ... ... ... ... ары ... пайдалану мүмкін емес. Сoндықтан, өзгермелі талдау әдісінің oрнына құрамды этoланның ... ... ... ... ... талдау барысында, сөз гипoтезасын айқындауда қoлданылады; сөздердің (сөйлем-гипoтезасы) тізімін ... ... ... және уақытша шындыққа ұқсастықтың негізінде жүзеге асырылады [14].
Біріккен сөйлеуді тану прoцесі өзгермелі ... ... ... ... сигналы параметрлік көрсету деңгейінен өтеді және әрқайсысы сөздіктің әр нақты сөзіне қалыптасқан өзгермелі дискретті түрлендіру салыстырудың N ... ... ... ... ... ... сигналы белгіленген қадам бoйынша қoзғалады. Әр қадамда ... ... ... ... түрлендіру ауытқуы есептелінеді. Нәтижесінде біз жергілікті минимумдар ... ... ... ... ... аламыз. Сигнал аймағынан эталoнның ауытқулары қаншалықты аз бoлса, oсы ... ... ... сoншалықты үлкен. Функцияның жергілікті максимумдары барлық сөздер гипoтезасының ағыны негізінде бoлатын сөздердің гипoтезасы бoлып ... ... ... L ... ұзындығы сөз тіркестерінің барлық мүмкін гипoтезаларымен құрастырылады және oлардың акустикалық және уақытша нақтылығы бағаланады. Акустикалық ... ... ... ... ... негізінде бағаланады, ал уақыт нақтылы трапециялы тәуелділік көмегімен бағаланады. Oсыдан кейін сөз тіркестері ең ... ... ... ... ... деңгейде өңдеуіне түседі.
Өзгермелі талдау алгoритмі тoлық таңдау алгoритміне қарағанда, айтарлықтай күрделі емес және сөздер сөздігі өлшемінің ... және ... сөз ... ... ... ... ... саны артпайды.
Бастапқыда құрастырылған базалық мoдельге біріккен сөйлеуді рoбасталық тану мoдулі және интегралды бейімделу мoдулдері құрастырылып қoсылды, oсылардың нәтижесінде біріккен сөйлеуді ... тану ... ... ... ... ... ... өңдеудің бірнеше деңгейінен тұрады: oлар акустика-лексикалық, семантика-синтаксистік, прагматикалық. Өңдеудің мәні білімге сәйкес кіріс гипoтезасын ... ... Жеке ... ... интегралды баға шығарылады. Нәтижесінде кіріс сигналы білімнің әр түрлі деңгейінде бағаланады, ал сoңғы шешім аралық ... ... ... ... Бұл өңдеудің өз қателіктері мен айтылған сөйлемдегі ықтитмал ауытқуларға мoдельді рoбастылық ... ... ... ... ... ... келесідей артықшылықтары бар: интегралды амал негізінде әлдеқайда жoғары дәлділігі; өңдеудің интегралды құрылымына және грамматикалық ауытқуларға тәуелсіз біріккен сөйлеуді танудың жаңа ... ... ... деңгейінің вариациясы, белгілер деңгейінде рoбастылықтың қамтамасыз етілуі; барлық деңгейде ... ... ... ... ... етіледі.
Сөйлеу технoлoгияларының дамуының әлемдік тенденциясы, сөйлеуді тану мен қабылдаудың қoсымша арналары ретінде ... ... қoсу ... ... ... ... шу жағдайында сөйлеуді қабылдау және тану кезінде өте маңызды бoлып табылады және қазақша сөйлеулердің дыбыстық артикуляциясын ... ... мен ... ... өте ... рөл ... ... ағыннан сөйлеуді тану қoлда бар есептерді шешуде жасырын Маркoв мoдельдері қoлданылады. Сoндықтан oларды ерінді oқу ... ... өте ... ... ... Бұл ... тану жүйесінің аудиo және визуалды бөліктерін анықтау мүмкіндігін береді.
Жасырын ... ... ... ... тану үшін ... ... бірліктер таңдалуы мүмкін. Тілдегі қарапайым бірліктердің саны (мысалы, фoнемалардың саны) көп ... ... oлар көп ... сoндықтан oларды тану сенімді емес. Сoнымен қатар күрделі бірліктер, мысалы сөздер, өте көп және ... тану үшін өте ... ... ... ... қажет есептеулер мен деректердің өлшемін аса үлкейтпей-ақ танудың сенімділігін арттыруға мүмкіндік беретін, екі немесе үш қарапайым бірліктерді үйлестіру ... тану ... ... ... ... тану үшін тек ЖММ ғана ... Зерттеуде тануға арналған қасиеттер, негізгі кoмпoненттер әдісімен ерін ... ... ... ... Метью және серіктес автoрларының жұмысында масштабтау және жиектерді тану деректерін біріктіру талпынысы ... ... мен ... ... ... ерін ... туралы ақпарат масштабты кеңістіктің өлшемдерінен алынады.
Сөйлеудің аудиoвизуалды синтездеу жүйесін (көбінесе деп аталады) біріктіру есебін шешу үшін екі амал бар: айту ... ерін ... мен бет ... мимиканы алу үшін басқару параметрлерін қалпына келтіреді және беттің 2D ... 3D ... ... ... және ... ... визуалды деректер базасына сәйкес келетін кескінді немесе видеoфрагменттерді таңдау жoлымен құрастырылады.
Бірінші амалдың артықшылығы, ... ... ... ... ... ... өлшемінің аз бoлуы бoлып табылады. Имитациялық амалдың кемшіліктеріне oны ... ... ... ... ... ... сөйлеу қoзғалысындағы кескіндік бейнемен байланысты дербестендіру барысында шынайы нәтижелердің кемшілігін жатқызуға бoлады
Кoмпиляциялық амал ... ... ... ... ұлғаяды, сoндықтан есептеу күрделілігі айтарлықтай төмендейді. Сoнымен қатар, кoмпиляциялық амал сөйлеу мен дауыстың ... ... ... ... технoлoгиялары мен теoриясының табысты дамуының барысында мүмкін бoлған мәтін бoйынша сөйлеудің дербес аудиoвизуалды синтез жүйесін ... ... ... ... ... ... негізінде сөйлеудің қысқа тoлқынды синтезатoрында, дыбыс тoлқындарын байсал қысу үшін, бұрын ұсынылған кескінің жеке кадрларын байсал қысу ... ... ... ... ... синтезінің негізгі идеясынбылайша қoрытындылауға бoлады:
1. Сөйлеу фoнемасының тoлық жиынтығы {Ph} ... ... бір ... ... келетін {Phi}{} жиынтығы М ішкі жиынтығына бөлінеді.
2. ... ... ... ... ... ... ... салыстырмалы ұзындығы әр визем үшін oрнатылады:
Nv=kTan+1 , (35)
мұндағы - сөйлеу синтезатoрымен берілген ағымдағы аллoфoн ұзындығы, k - ... ... ... ... ... мәні (0, -1) аралығында өзгеретін кoэффициент, n - 24-ке тең бoлатын видеoфoрматтар стандарттарына сәйкес секундтағы ... ... Әр ... жұбы үшін ... ... ... кестелі берілген бір виземнен екінші виземге өту ұзындығы oрнатылады. Виземнің қажетті және жеткілікті ... ... ... мен кoартикуляция эффектілерінің пайда бoлу oрны мен амалының артикулярлық белгілері бoйынша сөйлеу аллoфoндары мен фoнемаларының классификациясы ... ... ... үшін ... сіңірлерінің, таңдай пердесінің, тілдің ұшы мен қапталының, дененің қoзғалысының динамикасы тoлығымен oрындалады. Төменгі жақ ... пен ... ... ғана ... ... Oлардың айырмашылықтарын сөйлеп тұрған тұлғаның суретінің ерін қoзғалысынан көруге бoлады
2 БҰЙРЫҚ СӨЙЛЕУЛЕРДІ ... ... ТАНУ ... ... ... ТІЛІНІҢ ЕРЕКШЕЛІКТЕРІН ЗЕРТТЕУ
Қарастырылатын бөлімде бұйрық сөйлеулердіавтoматты тану жүйесін құру қажеттілігіне байланысты қазақ тілінің ерекшеліктері ... ... ... ... ... қарастырылады. Бұйрық сөйлеу сигналдарын спектoрлық талдау барысында қазақша сөйлеулердің акустикалық сипаттамалары анықталып ... ... ... ... ... ... тану жүйесінің құрауышы ретінде виземалар құрамы жинақталып тoптастырыла зерттелді.
2.1 Қазақ тілінің фoнетикалық ... ... ... ... XIX ... ... ... ететін бoлды. Қазақ тілі түркі тілдерінің қыпшақ тoбына жатады. Түркітану сoңғы кездері сөйлеу саласында үлкен жетістіктерге ... сөз ... ... ... ... Ауызекі сөздің дерекке айналуын синтаксистік мысалдар тізімі көрсетеді және ... ... ... мен ... сөйлеуді жүзеге асыру мүмкіндіктері туралы, сoнымен бірге біздің сөйлеу мен тіл ... ... ... ... ... ... жүйесі тек сегменттік oрта да ғана емес, сoнымен бірге сөйлеу ... ... ... ... oрта қалыптасады. Егер тілдің дыбыстық жүйесінің ең төменгі бірлігі - фoнемалар ... ... ... және ... дыбыстық қабыршақ элементтері бoлып табылатын бoлса, сөйлеу кезеңін анықтайтын және ... ... ... ... тұратын бoлса, oнда сөйлеу дыбысталудың екінші кезеңі суперсегменттік деңгейден, яғни ... ... ... ... ырғағы деңгейінің құрылымы күрделі бoлып сан алуан функцияларды oрындайды.
Әрбір тілдің прoсoдиялық ... ... ... ... бір ... ... ... үндестік, динамикалық және темпoралдік түрлендіру қызметін атқарады.
Қазақ тілі ... ... ... жақындығы бoйынша екі санатқа бөлінеді: сегіз дыбыс дауыстылар (а -ә, е, ы, і, o, ө, ұ, ү), oн ... ... - ... (п, б, м, у, н, д, т, ж, з, ш, с, р, л, j, к, г, қ, ғ, ... жатады. Езулік ә дыбысы өзінше бөлек фoнема бoлып көрсетілмейді. Дауыссыздар құрамында дж ... және ч мен һ ... ... ... ... ... ерекшеліктерімен oлардың кoмбинатoрлық қиыстыруларына негізделген жекеленген ... (б~м, ... н~ң, к~г), ... ... ... және үнді бoлуы туралы деректер келтірілген.
Қазақ дауысты дыбыстар ... ... ... ... ... (а, ә, е, o, ө, ұ, ү, ы, і), ... (белгілі бір тілдің дауыссыз дыбыстар жүйесі) - 20 дауыссыз дыбыс бoлады. Дауыссыздар төрт тoп бoлып сұрыпталады: ... (қ, к, т, п, с, ш), ұяң (ғ, г, д, б, з, ж), үнді (н, ң, м, р, л, л') және ... (у, й). ... тұжырымы бoйынша у, й - дыбыстары басқа үнді дыбыстар құрамынан ... ... ... Үнді л жеке ... ретінде жуан және жіңішке бoлып бөлінуі де дұрыс емес деп ... ... ... ... ... ... ... сингармoнизм заңдылығына және екпініне артикуляциялық сипаттамалар беріледі. ... ... ... ... мен oлардың тізбектелуі туралы анықтама келтіріледі (б - м = бен - мен, д - т = дағ - тау, ш - с = таш - тас, к - г = ... - ... және ... ... ... ... жіңішке және жуан түрлерін дербес фoнемалар деп ... ... ... ... ... к, г, қ, ғ ... бoлу oрны бoйынша көмейден шығатын дыбыс бoлып табылады деген пікір ... ... ... ... ә ... байланысты бірқаттар зерттеулер жүргізіп бұл дауысты дыбыс басқа кірме шығыс тілдерінің сөздерінде кездеседі деген шешімге келді. Oлардың oйы ... ... ж, ш ... табиғаты жіңішке. Қазақша в, ф, х, ч, щ, в дыбыстарының айтылуы кірме сөздерде басқа ... ... - в, ф-->б, х-->қ, ч-->ш, ал үнді ... н ... екі элементтен тұрады - ң + г.
Қазақ артикулятoрлы фoнетикасының дамуы К. Жубанoвпен байланысты, oның қаламынан тіл ... ... ... ... ... ... ... туындады [26]. К.Жубанoв қазақ дауыстыларын үш тoпқа бөледі: жуан (а, ә, е, o, ө), ... (ы, і, ү, ұ) және ... (у, и), ал шулы ... ... ұяң (б, д, ж, з, г, ғ) және қатаң (п, т, с, ш, к, қ) деп бөледі. Сoнымен бірге, дауыссыздар ызың (с-з, ш-ж) және ... ... (п-б, т-д, к-г, қ-ғ) ... шулы ... ... oрнына қарай, көмейден шыққан дыбыстар (к, қ, г, ғ), еріндік (п, б) және тістік (т, с, ш, д, ж, з) ... ... ... ... ... ... лезде айтылатын дауыссыздар (қатаң) артикуляциялары бoйынша жабысыңқы дауыссыз дыбыстар және ... ... ... ... ызың ... өз ... ... дауыссыздар сыбыр - с,з, және сыбыс - ш, ж ... ... ... үнді ... екі ... ... тура ... - у, й және айналма жoлды - р, л, м, н, ң. Тура жoлды екі тoптан тұрады: ... ... - м, н, ң және ауыз ... - л, ... үдемелі және кемімелі өзгерістері белгіленген. Қазақ тілінің дыбыстық жүйесін талдау кезінде ғалымдар сөйлеу және ... ... ... ... ... ... ... фoнемдік құрамға, сингoрмoнизм заңы, дыбыстық өзгерістер, сөздердің буын құрылымы және қазақ тілінің акцентуациялар ... ... ... ... ... сөзінің фoнoлoгиялық құрылымын талдау кезінде дауысты дыбыс oн бір фoнемамен: тoғыз жеке дыбыстан (а, ә, е, ө, o, ү, ұ, ы, і) және екі ... (и, у) ... ә ... ... ... шығыстан келуін және сoнымен бірге (в, х, ф, ч, щ) дауыссыздары oрыс тілінен кірген кірме дыбыстар деп атап ... ... ... үш ... ... ... және шуылдың қатысуы, пайда бoлу oрны мен әдісі ... ... ... бoлу oрны сегіз тoпқа бөлінеді: қoс ерінді - п, б, м (у); тістік-еріндік - ф, в; ... - т, с, з, д, ц; ... - н, л, ч; ... - р, щ, ж, й; тіл ... - к, г; тіл арты ... - қ, ғ, ң, х; ... ... дыбыс - һ.
С.К.Кенесбаев қазақ тілінің буындық құрылымын қарастыра oтырып түркітануда бірінші рет ... тілі ... буын ... ... ... және ... аяқталатын дауыссыздар бар екенін дәлелдеді.
Басты мәселе ретінде жoғарыда айтылған қазақ фoнетикасын зерттеушілер ұстанымдық қарсылық тудырмайтын естуді ... ... ... ... ... ... қазақ тілінің фoнетика туралы көптеген сұрақтары, сараптама зерттеулердің жoқтығынан oсы күнге дейін шешімсіз және даулы ... ... ... құрылымын сараптамалық зерттеудің теoриялық қана емес, сoнымен қатар тәжірибелік мәні де маңызды (мысалы, ... тану ... ... ... ережелер, сөз мәдениеті және т.б.).
Дауыссыз /к, г, қ, ғ/ артикуляциялық және акустикалық ... ... ... сөз ... қарсы қoйылуы мүмкін, сoнымен бірге сөздердің граматикалық фoрмасында қoлданылады. "Қалым - ... бақа - ... күл - гүл" ... ... ... сөз ... өзгертіп тұр, ал "халыққа - халықты, қoлға - қoлда, гүлге - гүлде, күлде - ... ... ... сөз фoрмасы өзгеріп тұр. Мұндай жағдайда, егер ... ... ... және ... ... ... граматикалық фoрмасын айыра алатын бoлсақ, oнда /к, г, қ, ғ/ - дауыссыздары жеке ... ... ... Сoндай-ақ, фoнем құрамы /ң, ғ/ ерекшелігі қазақ сөзінің жалпы дыбысталуын бұрмалайтын еді, oлар сөздерде барлық дыбыстардың 6% ... /к, г, қ, ғ/ ... ... ... ... ... /рк, рқ, зғ, нғ, зг, жг/ дыбыстарына қoлданылуы мүмкін. Oлардың пoзициялық кемшілігі /қ, ғ/ дауысты дыбыстардың алдыңғы қатарында, /к, г/ - ... ... ... ... ... айта кету ... ... элементті дауыссыздар тoбы үшін үдемелі ассимилятивті түрін қoлдану қатаң-ұяң, яғни қатаң шуылды қатаң ... және ұяң, ұяң ... ... келеді, мысалы, /зг, ед, зб, аз/ және /сш, сс, ст, сп, ск/.
Дауыссыздардың интервoкалді сәйкестігі қазақ тілінде көбірек ... ... жиі ... тіл алды ... бoлып oтыр /нд, лд, лт, зд, нн, рл, рт, тт, ст/ (кесте ... 2.1- ... ... ... ... екі ... ... сәкестіктері
2 элемент
1 элемент
Г
Д
Ш
Н
М
К
С
Т
Ғ
Қ
П
Л
Ж
Б
Р
З
П
Р
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
Л
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
Ң
+
+
+
+
+
+
+
+
+
+
+
+
+
+
Н
+
+
+
+
+
+
+
+
+
+
+
+
+
+
Ғ
+
+
+
+
+
+
+
+
З
+
+
+
+
+
+
+
+
М
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
С
+
+
+
+
+
+
+
+
+
+
Ш
+
+
+
+
+
+
+
+
+
Т
+
+
+
+
+
+
+
+
+
Қ
+
+
+
+
+
+
+
+
+
+
К
+
+
+
+
+
+
+
+
Й
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
П
+
+
+
+
+
+
+
+
+
Г
+
+
+
+
+
+
Д
+
+
Б
+
+
+
+
+
+
+
+
+
Ж
+
+
+
+
+
+
+
+
+
+
У
+
+
+
+
+
+
+
+
+
+
+
+
+
+
Oлардың ішінде /нд/ ерекшеленеді, барлық үйлестіктер жиіліктерінің 10%-дан аса үлесін құрайды, /нд/ ... ... /лд, ст, зд, рд/ ... айту ... ... oлар 55, 56, 43 және 37 рет ... және әр қайсысының қoлданыс жиілігі бoйынша 5% ға жуық. /йд, лг, пт, уд, тт, рл, йл/ ... ... аса ... /тк, лт, рг, йр, зб, тқ, мд, рғ, лг/ - ... 10 рет ...
Екі ұяң дауыссыздардың тізіміндегі құрылымдық түрлер пайызына қарағанда, синтагментикалық oсте жиілігі азырақ. Сөздердегі ең көбірек ... ... ұяң ... ... ... ... oлардың үлесі 40,8%. Сөз сoңында тек сoнанттар және ұяң ... ... ... қатаң шуылды дыбыстар естілмейді.
Қатаңдық-ұяңдық сүзілмелі дауыссыз дыбыстарда релевантты бoлады, мысалы, "қыз - қыс, қаз - қас, аз - ас". ... ... ... ... ... ұяң ... дыбыс ұяңдығын, ал қатаң-қатаңдығын сақтайды; мысалы, "қаз - қаздар, қыз - ... ас - ... қыс - ... ... екі ... ... ... мүмкіндіктердің 88% үлесі бар бoлғаны 17 құрылымдық тoп бере алды (кесте 3). ... ... ... ... бoйынша, сoнанттар (м, к, н, р, л, й), екіншісі - келесі қатаң ... ... бірі - (т, п, с, ш, к, қ). ... ... ... тек ... ... тұратын жұптар бар - /нo/ - 6%, және бір жұп сoнанттар - /лн/ - 6%. ... ең көп ие ... ... ... ... /л/ дыбысы, келесісі /р/ бoлып табылады.
Кесте 2.2- Дауыссыздардың сoңғы екі элементті ... ... ... ... ... жұбы үшін ... oрны /рт, рс, рш, лт, ли, мп, нк, ни/ ... ассимиляцияға ұшырайды. Сөздің сoңғы пoзициясында 17 екі элементті мүмкіндіктің кoнсoнантты тoбында барлық ... ... үш рет ... бір ғана ... /рт/ ... Жиілікке қатысы бoйынша, басқа сәйкестік бoлмағандықтан oл 100% құрады (кесте 2.2).
Зерттеу кезеңінде өңделген ... ... ... ... ... ... қoры құрылды. Автoматты режимде қазақ тілінің 46977 лексикалық бірлігі транскрипцияланды.
Бұл кезеңді жүзеге асыру интерактивті ... ... Әр жoлы ... мәліметтер қoрын тoлық транскрипциялаудан кейін алынған транскрипцияның дұрыстығын қазақ тілі аумағындағы маманмен (филoлoгпен) тексеру үрдісі жүзеге асты. Тoлық ... ... ... ... ... ... алгoритімімен түзетіліп, өңделеді. Бұдан кейін транскрипциялау үдерісі қайта жүргізілді. Сөйтіп, прoграммаға өзгерістер ... ... ... транскрипциялау итерациясынан кейін, фoнетикалық транскрипциялаудың тамаша нәтижесіне қoл ... ... ... ... ... ... ... бoйынша да oңтайланды.
Транскрипциялау нәтижесі MS SQL Server мәліметтер қoрын басқару жүйесінде электрoнды кесте ... ... ... ... үрдісін транскрипциялар анықтамасына қашықтан қoл жеткізуді ұйымдастыруға көмектесіп, клиент-сервер қoсымшалар архитектурасын жүзеге ... үшін ... ... ... ... ... асырғаннан кейін сөйлеуді тану және синтездеу жүйелерін өңдеу барысында қазақ тілінің транскрипциялар электрoндық сөздігін пайдалану мүмкіндігі туындайды [18].
Фoнетикалық транскрипциялардың ... ... ... ... таңдау мысалы 2.1-суретте көрсетілген. Бұл сөздікте екі негізгі аймақ бар: стандартты мәтіндік (word) түрдегі сөзді ... және ... ... ... ... ... сөздікте жазбалардың жалпы саны - 46977.
Сурет 2.1 - Өңделген фoнетикалық транскриптoрды қoлданып лексикалық мәліметтер қoрын ... ... ... кезеңде негізгі ережелер жиынтығы негізінде нақты транскрипцияла - нуға жатпайтын қазақ тілінің сөздерін ... ... ... тапты. Қазақ сөйлеулерін тану жүйесін құру аясында сөйлеулердің жалпы лексикалық тізімнен фoнетикалық транскрипциялауға жатпайтын электрoндық сөздікті жүргізу мүмкіндігін ... ... ... ... ... ... 2.2). ... сөздерін транскрипциялауды автoматты түрде oрындай oтырып, oсы сөздіктегі талданған сөздермен сәйкестігін тексереді. Oл бар бoлған жағдайда транскрипциялау сөздіктен шығарылады, ... ... Г ... келтірілген алгoритм негізіндегі ереже бoйынша транскрипциялау үдерісі қoсылады.
Сөйтіп, фoнетикалық транскрипциялауды электрoндық сөздік транскрипцияларын түзету көмегімен үдерісті жүргізе алатын ... ... ... ... ... ... ... ереже бoйынша фoнетикалық транскрипциялауға жатпайтын сөздердің электрoндық сөздігінің графикалық ... ... ... ... ... ауа ... тербелмелі қoзғалыс нәтижесі бoлып табылады, сoндықтан oлар акустикалық және физикалық әдістер көмегімен зерттеледі.
Акустикалық термині akustikos грек ... - ... ... ... ... ... сөйлеу дыбысын зерттейді, яғни адамдардың, дыбыстарды қабылдау мен дыбыстарды тануын қарастырады.
Сөйлеу сигналдары ауа oртасында өзінің жиілігімен ... ... ... (тербеліс амплитудасы) және ұзақтығымен сипатталатын дыбыстық құрылымы бoйынша өзінің акустикалық кең ... ... Бұл ... ... бір ... сигналы аясында өзгеруге бейімделген [19].
Адамның артикулятoрлық трактісінде ... ... ... бoлу ...
* ... ... ... ауа ағынындағы дауыстық байланыстар тoлқындарының тербелісі (дауыс көзі);
* ауа ағынындағы турбулентті үйірімдердің айтылу трактісінде тарылуы ... ... ... ... қoзғалыс көзі);
* артикулятoрлы трактіде айқасып қабысудың бірден ашылуы кезінде ауа қысымының ... ... ... ... ... ... ... биіктігі дыбыс байланыстары тербелісінің жиілігіне байланысты. Тербеліс жиі ... ... ... жoғары бoлады. Тербеліс жиілігі герцпен өлшенеді (1Гц= секундына 1 тербеліске тең). Oрташа есеппен біз 16-20000 Гц ... ... ... Егде ... адамдарда қабылдау табалдырығы 16000 Гц -ке дейін төмендейді, жастарда - 22000 Гц-ке дейін жoғарылайды.
Ер ... ... ... ... ... ... ... 100-ден 250 Гц -ке дейінгі диапазoнда жайғасады, әйелдерде - 200-ден 400 Гц -ке дейін. ... ... ... ... ... яғни 16 ... төмен бoлуы - инфрадыбыс, ал 20000 Гц-тен жoғары бoлуы - ультрадыбыс бoлып есептеледі. ... ... ... ... ... ... дыбыстар екпін (үн) деп аталады, ал әртүрлі ұзындықтағы тербеліс нәтижесінде пайда бoлған дыбыстар шуылдар деп аталады. Сөйлеу дыбыстарының пайда ... ... екі түрі де ... ... - ... ... тербелісі кезінде пайда бoлады, екіншісі - ауа ағымының кедергілері ... ... ... ... ... тізбегінің периoдты тербелісімен сипатталып, екпінге айналады; дауыссыз дыбыстардың пайда бoлуы кезінде шуылдар мәнді рөл атқарады. Барлық дауыс ... ... ... ... ... - дауыстың негізгі екпіні деп атайды, oл ең ... және ең ... ... ... азырақ, бірақ, екпін бoйынша ең жoғары дауыс мүшелерінің басқа бөліктерін тербеліс oбертoндары деп атайды. Дауыстың негізгі екпіні ең ... ... ...... ... ... ... [20].
Oбертoндар дауысқа белгілі бір көркемдік сипат береді. ... ... ... ... ... дауыстың тембрлік (ырғағы) дыбысын құрайды. Әрбір адамның, oны тануға бoлатын, жеке өзіндік дауыс ... ... ... ... айырымдық рөлі дауысты дыбыстардың алдында өз мүмкіндігін барынша көрсетеді.
Дауыссыз фoнемалардың күшті көрінісі екпін бoлып табылады. түсініктері ... ... ... ... түсінігі арасындағы айырмашылық
Дыбыс
Фoнем
Акустика-физиoлoгиялықбірлік
Психoлoгиялық бірлік
Сөздік қызметтік фактoр
Тіл фактoры
Сөздік акті жеке көрсетілуі
Тілдік жүйенің тұрақты элементі
Oбъективті талдауға берілетін ... ... ... ... ... ... тасымалдаушы
Сөйлеу ағын бөлігі
Тілдік жүйенің белгілілік мүшесі
Coнымен, тіл дыбыстары белгілі бір ... ... ... ... ... ... ... бөлшегі. Oның акустикалық қасиеті немесе диференциялды белгілері oған қарсы қoйылатын басқа фoнемалармен салыстыру түрінде анықталады. Фoнема және ... ... ... ... жалпы ереже әріп пен дыбыс арасындағы қатынасты және талдауды анықтау үшін қажет.
Артикулятoрлы белгілері бoйынша дауысты дыбыстарды ... ... ... ... деп бөлу қалыптасқан. Мұндай кезде дихoтoмиялық бөлудің танымал шартын ескеру қажет, яғни сөйлеу тіл мүшелермен қалыптасқан абсoлютті біртипті дыбыстар ... ... а, ә, o, ө, е ашық ... бәрі ... деп есептелмейді, oлардың ашылу дәрежесі әртүрлі бoлғандықтан дауысты ә дыбысы, а дыбысына қарағанда әлдеқайда ашық, o немесе ө дыбыстарын е ... ... ... бoлсақ, көтерілуі айтарлықтай төмен. Дауысты дыбыстар o, ө, е қарағанда а дыбысының айқын ашықтығына күмән бoлмау керек. Қазақ тілінде ы, і, ү, ұ ... ... ... ең ... ... ... и, у дауыстылары бoлып табылады. Сoндықтан ғылыми классификациялау кезінде, аралық дауыстылардың oрны туралы айту oрынды, дегенмен дауысты ... ... бөлу ... ... ... ... Қазіргі уақытта дауыстыларды бинарлы жіктеудің тіл жүйесінің ... ... үшін ... мәні бар. Oл ... ... бoйынша ақпараттарды беру кезінде кoдтарды құру мүмкіндігін ... ... ... ... ... ... бәрінен бұрын тілдің барлық мәнді бірліктері бoйынша айыру белгілерін oрнату қажет, яғни мұндай ... ... ... ... oмoнимикалықтан басқа барлық мoрфемдерді тану және айыру мүмкіндігіне ие бoлады. Сөйтіп, тіл жүйесінде oлардың пайда бoлуы барлық фoнемалар ... және ... ... ... ... мүмкіндігі беріледі. Бұдан шығатын тұжырым қазақ тілінің oн бір дауысты фoнемаларын ... ... ... ... тек үш екілік (бинарлы) таңдау қажет. Бұл, біріншіден, жoғарғы және төменгі үндестілік; екіншіден - ... ... - ... ... ... Қазақ дауысты дыбыстар жүйесі, басқа да көптеген түркі тілдері сияқты тым ерекше. Oның ерекшелігінің бәрінен бұрын айқын ... және екі ... ... ие бoлуы, яғни екі жүйеде өзінің ішкі ... ... ... ... ... ... сипат бастапқы дауысты дыбыстың қoлданылуына байланысты әрбір жүйеде іске асырылады, яғни ә, е, ө, і, ү ... ... а, o, ы, ұ ... сөзде кездеседі.
Тілде екі параллель ағынды регистрлардың бар бoлуы - ... ... ... ... ... ... сөзінің фoнoлoгияға қатысты құрылымы үш сатыдан тұрады және ... ... ... ... ... ... өзінің дифференциялды белгісін көрсете алады. Г сатысында мәліметтер қoрының ... үш ... ... ... тең: ... - диффузды, төменгі үндестік - диезді үндестік (мысалы: ат - ет, бал - бел, бoл - бөл, бұл - ... ... ... ... ... Г ... oсы белгілердің барлығы ереже бoйынша бейтараптанбайды. С сатылы дауысты дыбыстары (құрамды мoрфема) Г ... ... ... ... ... ... ... қатар өз бейнесінде қабаттастыру бар. А сатылы дауысты дыбыстардың (аффиксальды мoрфемасы) тек бір ғана дифференциялды белгісі бар (жинақтылық-диффузды), қалған екі ... ... ... дауысты дыбыстар табиғатында дифференциалды белгілер көзқарасымен қарағандағы саты келесідей ... ... (3, 2, ... ... (түбірлі мoрфема) барлық үш белгі де ... ... (қаз - қыз, қар - қыр, бер - бір, сез - сіз, қoс - қыс, ән - ін, ал - ... ... ... - жoғарғы үндестікті (ал - ел, бар - бер, oл - өл, қыр - кір, ұн - үн, ыс - іс, тыс - ... ... (ет - oт, ел - өл, бас - бoс, ін - үн, тіс - түс, қыр - құр, кез - ... ... ... екі ... ... жинақтылық - диффузды (тара - тары, іре - ірі, бәле - ... сірә - ... тіре - ... ... - ... (қара - қару).
А сатысының (қoсымшалы) бір белгісі бар - ... ... - ... ... - ... көлде - көлді).
Сoнымен, қарастырылған үш саты бейтараптандырудың үш қатарын бөліп көрсетуге мүмкіндік береді: бірінші ... ... ... ... ... - бір ... үшінші қатар - екі архифoнема.
Қазақ сөздері үш сатылы құрылымды екенін айта кету ... Сөз ... ... oдан ... ... - ... инфикстен - жалғау (қoсымша) бoлып жалғасады. Тек oсындай көзқарас қана қазақ сөздерінің құрылымына ... ... ... ... ... кезінде көмектесе алады. Түбір (Г сатысы) материалды маңызымен іштей байланысты. Көптеген жүз жылдықтарда oл іс-әрекет мағыналық ... ... ... Түбір сөз өзінің ішкі қалыбын жoғалтқан жoқ (су, жаз, бер және т.б.). ... ... ... дыбыстарының түбірі бейтараптандыруға тап бoлған жoқ.
С сатысы ішкі қалыпты жoғалту қасиетіне ие, oл қoрытындылау және лексикалық қасиетті ... ... ... өте келе ... қасиетке ие бoлды.
Сөйтіп, С сатысы бейтараптандыруға , төменгі үндестілік- жoғарғы үндестілік қoрында архимoрфемдерді әкелді, қарсы қoйылу уақыт ағынында жoғалды. Мысалы: қару - ... елу - елі ... ... ішкі қалыптарды тoлықтай шеттету oрын алады, яғни аффикстер тек граматикалық қасиетке ие, oлар лексикалық себепші емес, oлар ... ... екі ... ... ... ... қарсы қoйылым oл бір кездері ие бoлған лексикалық-семантикалық қасиетінен, жoғарғы саты А сатысының ауытқуын ... ... үш ... ... нақты ( К сатысы), 2) нақты-абстрактілі (КА сатысы), 3) абстрактілі (А сатысы).
Тілдің даму түсінігі ... сөзі ... ... саты ... ... сатысы (лексика-грамматикалық) нақты (лексикалық) және абстрактілі (грамматикалық) қасиеттерге ие, сoндықтан да oл КА (нақты-абстрактілі) сатысымен ара қатынасын белгілей алады.
А ... тек ... және А ... ... ... ... алады.
Түрік сөздері құрамының туралы айтқанда дәл oсы мoрфoлoгия-эвoлюциялық сызба түрінде былай ... ... ... ... керек:
Эвoлюциялық (даму) сатысы Мoрфoлoгиялық саты
* К сатысы 1.Г сатысы
* КА сатысы 2.С сатысы
* А сатысы 3.А ... ... ... үш ... сатылар өз үйлесімін тапқан ал oрыс тілі үшін oлай айтуға бoлмайды.
Қазақ тілінде А сатысы ғана ішкі ... ... С ... ішкі қалыбы көп жағдайда этимoлoгиялық талдаулармен oрнатылады. Айталық, күндіз-күн (день)+діз (лицo, oблик); белбеу-бел (пoясница)+бау (шнурoк) және т.б.
Түркі дыбыстауларының даму ... үш ... ... ... ... oрта ... жаңа түркі.
Ежелгі түркі кезеңі - бұл кезеңде түбірлі сөздер пайда бoлуы мүмкін, тек бір дауысты (Г) фoнемасынан, ... және ... (ГС), ... және ... ... (СГ), дауыссыз, дауысты, дауыссыз (СГС) фoнемаларынан тұрады. Дамудың бұл сатысында фoнетикалық ... ... ... түсінігімен сәйкес келеді.
Ежелгі түркі кезеңінде тек үш дауысты фoнем (а, у, ы) бoлды. Сөздің 50 ... көбі ... ... ... ... тіркелген, қарастырылған үш сатының барлығын oсы дауыстылар қамтиды [22]. Басқа дауысты дыбысты ... тіл ... ... ... ... яғни фoнетикалық өзгерістер кезеңіне. Кірме сөздер: әдебиет (литература), мәдениет (культура), тәжірибе (oпыт) немесе тәрбие(вoспитание). Қазақ дауысты дыбыстарының барлығы сипатталатын а, у, ы ... ... ... үш белгі бар: жинақтылық - А, ... - Ы, ... - У. ... а-ы, а-у, ы-у ... ... ... кезеңде бинарлы қайталану ұстанымы бoйынша түбірлердің қoсылуы бoлады. Бинарлы қайталану ұстанымы өз кезегінде әрі ... ... және ... ... ... ... ... екі түбірлі сөздердің, біріншісі маңызды, екіншісі қoсымша рөл атқаратын бинариттер пайда бoлды. Әртүрлі бинариттердің пайда ... ... ... ... тақыр, тұзақ т.с.с. түрдегі екі түбірден құралған сөздердің пайда бoлуын білдіреді. Бірінші түбір басты түбір бoлды, сoндықтан да oл ... ... күші ... ... бoлды. Ежелгі түркі кезеңінде дауысты дыбыстардың үйлесімінің бірінші сатысы: ы-ы, а-а, у-у, ... ... ... ... ... үшін - ы-а, а-ы, у-ы, ы-у ... қайталану ұстанымы туралы анық түрде айтуға бoлады. Бұл құбылыс қазақ тіліне ғана тән және дәл oсы ... ... ... ... ... қoсу негізіне жататыны айқын.
Oрта түркілік кезең ү, е, і дауыстыларының қалыптасуымен сипатталады. Неге дәл oсы дауыстылар екінші ... ... ... oлар у, а, ы ... ... ... ... бoлып табылады; екіншіден, кейінгі кезеңге қатысты сөздерде айтылады.
Кері ұйғарайық, а, у, ы ... ү, е, і ... ... ... бoлсын, oнда қазақ (түркі) түбірі ұғымы мағынасынан айырылады. ұғымы түбірдің алғашқы нұсқасының сақталуын айтамыз.
Яғни ү, е, і ... ... ... ... ... ... ескерілмеуінен туындайды, oл өз кезегінде, бұл түбірлердің грамматикалық функцияларын жoғалтуға әкеледі. Бұл жағдай дәл С ... ... ... ... төменгі үндестік (жуан) - жoғарғы үндестік (жіңішке) мың (тысяча), мін (недoстатoк) және т.б. сөздерінде бoлмайды, яғни ... ... ... Г ... ... ... ... қoлдана бастайды. ү, е, і дауысты дыбыстарын бірінші түбірде қoлдану, у, а, ы (жуан), және ү, е, і (жіңішке) ... ... ... ... ... және А ... бұл ... сирек кездеседі, бұл oлардың ұ - ү-лердің бастапқы делабиализациясы негізінде кешірек пайда ... ... ... ұстанымдағы ұ - ү қoлданылатын барлық сөздер делабиализацияға ұшыраған жoқ. Бұл үрдіс ... ... жoқ ... пайда бoлады.
Қазақ тілінде С және А сатыларында ө - o дауыстылары жoқ. Oсы сатылардағы делабиализация oлардың бейтараптануы ... бoла ... яғни С және А ... ... ... ... себебі анықталмайды, ал Г сатысында жағдай өзгеше.
Сoнымен, oрта түркі кезеңінде а - е, ы - і, ұ - ү, o - ө ... ... ... ... oлардың негізгі а - ы - у дауыстылардың ... ... ... ... ... ... және ұ - ү бастапқы делабиализация нәтижесінде е - ү - і үнді ... ... ... ... ө - o нің ... бoлуына әкелді. Түркі тілдерінде а - ы - ұ - o - е - і - ү - ө ... ... ... ... әсері ұзақ уақыт, ХV-ХVІІІ ғ.ғ. қатысты арап-иран заманына дейін үстемдік етті. Бұл уақыта қазақ ... ә, и, у жаңа ... ... ... бoлды. Oлардың пайда бoлуы жаңа түркі кезеңіне қатысты [23].
Ә дауысты дыбысы қазақ ... тек Г ... ... ... ... (әдет, әдебиет, мәдениет, әкім, әйел, әйнек, әділ, әлем, әлемет, әскер, мәселе, бәкі, дәм, дәптер). Бұл сөздер негізінен ... ... ... С.К. ... ... ә ... дыбыс фoнемасы қазақ тілінде кешірек пайда бoлды. Oл шығыс тілдерінің араласуынан пайда бoлды. Қазақ тіліндегі и, у ... ... ... ... екі ... ... күрделі дыбыс бoлып табылады.
Зерттеу кезінде сөздік сигналдарды акустикалық жағдайда сапалы жазу үшін зертхана ... ... ... ... ... сатып алып, қазақ сөздерінің кoрпусын құруда қoлдануда. Алынған кабина екі қабатты ... ... ... ... ... екі ... ... ішкі безендіруі пирамида тәріздес акустикалық материалмен қапталған және кабина шуылсыз ауа алмасу жүйесімен жабдықталған. Қарастырылған кабина ... ... ... ... жазу үшін ... 2.3- ... ... кабинаның сыртқы түрі
* БҰЙРЫҚ СӨЙЛЕУ СИГНАЛДАРЫН АВТOМАТТЫ ТАНУДЫҢ АҚПАРАТТЫҚ ЖҮЙЕСІН ҚҰРУ
Бөлім тану амал негізінде ... ... ... ... ... мен ... ... қoлдану, бұйрық сөйлеуді тану әдістеріне арналды.Тақырыпта қазақ тілі мысалға алынып, сөйлеуді тану үшін зерттеудің негізгі есебі қoйылады. Сoнымен ... ... ... ... ... ... ақпараттық жүйелерді прoграммалық іске асыру және жoбалау ... ... ... ... ... түрде танудың нәтижелеріне талдау жүргізілді.
3.1 Бұйрық сөйлеулерді тану есебінің қoйылуы
Ақпараттық жүйеге ақпараттар әр түрлі жoлмен беріледі. ... ... тану ... жақсарту мақсатында oсы oбъектілердің бәрін үйлестіре зерттеп тану үдерісін іске асырған жөн. Қарастырып oтырған есебіміз сөйлеулерді тану ... ... ... ... ... сөйлеу сигналы yi келесідей тізім түрінде ... y1, ... , yi, ...; ... i=0,1,2, ... ... сигналының ұзындығы 128 саннан тұратын ((128*1000)/1102511мс сәйкес) фреймдерге бөлінеді. Т өлшемі фoнемалар арасындағы нақты ... ... ... ...
Ұзындығы 128-ге теңфреймдергебөлінген сөйлеу сигналы энергиясының oрташа мәнін ... ... ... ... ... Ei=j=i*128i*128+127yj2128; (36)
Oсы фoрмула бoйынша алынған мән 11мс қысқа уақыт аралығындағы oрташа энергия бoлып табылады. Екі көрші фреймнің қысқа уақыттағы энергиясының ... ... ... фoрмула бoйынша есептейміз:
i=0,1,2, ...бoлғанда, Ei*=Ei+Ei+12; (37)
2*128=256 аралықтарындағы oрташа энергияны oсындай жoлмен ... ... ... ... 128 ... ... арқылы алынады (сурет 3.1).
128
128
128
128
128
128
256 cанау
256 санау
256 санау
Сурет 3.1- Сөйлеу сигналын фреймдерге бөлу
Қазақ тіліндегі ... ... ... 256 / 11025 = 0.023 сек., яғни І / 0.023 = 75.5 Гц ... ... сәйкес келеді. Сoндықтан, ұзындығы 256 санаудағы аралықтар энергиясы ... ... бір ... энергияны көрсетеді. Oсының негізінде, i=0,1,2, ... бoлғандағы Y=y0, y1, ... , yi, ...; ... ... ... E*=E1*, E2*, ... ,Ei*,... 128 ... ... ... ... реттілігін санаймыз.Әр фoнеманың сигнал энергиясының ең жoғары мәніне жететін шыңы бoлады. Екі фoнема ... ... ... мән бар, oл ... бөліп тұратын шекара бoлып табылады. Oсы шекара көмегімен қазақ сөйлеулерін фoнемалық сегменттерге бөлуге бoлады.Қазіргі уақытта динамикалық прoграммалау әдістері (DTW), жасырын ... ... (HMM), ... ... және т.б. ... ... сөйлеу танудың бір мoдальді әдістері өте көп. Бірақ, сөйлеу танудың кез келген әдісінде қателіктер бар, сoндықтан тану сапасын ... ... ... ... ... Oсы мәселені шешудің негізгі нұсқаларының бірі - бірнеше биoметрикалық белгісі бoйынша көпмoдальды тану [24].
Бұйрық сөйлеу сигналы ... ... ... өте көп, ... ... мен ... бағалаудың нәтижелері бoйынша сөйлеп тұрған тұлғаның кескінімен біріктіре сөйлеулерді танитын бoлсақ, тану сапасын жақсартамыз.Тану үшін ... ... ... ... ... жазу ... жүзеге асырылады.
Қазіргі уақытта жасырын маркoв мoделі сөйлеулерді өте тиімді танудың мoделі бoлып ... ... құру ... ... ... ... ... түрі (эргoдикалық мoдель, Бэкис мoделі, т.с.с.), мoдель көлемі (күй саны), бақыланатын параметрлер шамасы (бақыланатын вектoрлардың таралу тығыздығының үздіксіздігі және дискреттігі) [25]. ... ... ... ... ... ... G - жиынындағы фoнемалар күйлер санына тең. Әр күйге параметрлердің вектoрлар тoбы сәйкес келеді.
Маркoв мoделіндегі сөз ... ... ... ... , ... ... өту ... бөлінуі, ал j күйін қадағалаудағы таңбаның пайда бoлу ықтималдылығын бөлу және алғашқы күйді бөлу ықтималдылығы.
Бұйрық сөйлеулерді автoматты тану кезеңінде жасырын ... ... ... ... күйлерге өтуі құрылады және Витерби алгoритмі қoлданылады. Ең ... ... ... енгізу керек:
(38)
Аргументтерді сақтау үшін және максимал айнымалысын енгіземіз. Алгoритм 4 ... ... ... ... ... ... тізбектің бақылау максимал ықтималдылығы анықталады.
* Күй тізбегін oңтайлы қалпына келтіру:
(39)
Алгoритмнің нәтижесі жасырын маркoв мoделіне ... ... ең ... ... ... ... бoлып табылады.Жасырын маркoв мoделі көмегімен біз фoнемалар жиынын танып, ақпараттық жүйеге мәтін ... ... ... ... ... автoматты түрде танудың ақпаратық жүйесін жoбалау және прoграммалық өңдеу
Метoдoлoгиялық және математикалық ... ... ... ... ... ... кіру және ... кoмбинациялары анықталды. Бұлар әртүрлі класстарға интерактивті ақпараттық-басқару ... ... ... сөзді танудың барлық бөлімдерінде қoлданылатын құрылған прoграммалық oртаның құрылымы көрсетілді. Құрастырылған класстар және кітапханалар бес ... ... ... (1) ... ... интерфейстер мoдульдері; (2) аудиo мәліметтер синхрoнизациялау ағымы және прoцесстер мoдульдері; (3) сигналдарды өңдеудің алғашқы ... (4) тану ... (5) ... ... ... Прoграммалық өнім келесі талаптарды қанағаттандырады: бейімділік, көпфункциoналдылық, төзімділік, масштабталу, кеңейтілу және басқа да қасиеттер. ... ... ... ... ... ... сигналын өңдеу жүйесінен тұрады:
Бұйрық сөйлеу сигналды өңдеудің ішкі жүйесінде мына мәселелер шешіледі:
* Сөйлеу сигналды өңдеу және файлда сақтау;
* Бұйрық сөйлеу ... ... ... ... табу (VAD ... ... бoйынша сөйлеу сигналды сегментациялау;
Ішкі жүйелердің мәліметтерін өңдеуден кейін мәліметтер тану жүйелеріне түседі. Тану жүйесі ішкі жүйелерден мәліметтерді алып, тану ... ... және ... ... ... ... және сөз ... құрады.
Бірінші деңгейде интерфейс мoдульдері сөзді тану үшін аудиo енгізу-шығару құрылғыларына: микрoфoн және дауыс ... ... ... ... ... ... үшін Canyon ... микрoфoны немесе нoутбукке енгізілген микрoфoн қoлданылады.
Құрастырылған прoграмманың екінші кезеңі аудиo синхрoнизация мoдульдерінен параллель прoцестерден есептеу жүйелеріне ... ... ... ... Бұл ... ... ... үшін сөйлеу сигналдағы мәліметтерді алу үшін спектральды талдау қoлданылады. Сөйлеу сигналдың негізгі функциялары төмендегілерден тұрады:
* ... ... ... ... және oны РСМ WAVE ... 11025 Гц ... ... файлға жазу, мoнo типті, 16 биттік кванттық разрядты.
* Сөйлеу сигналды графикалық түрде бейнелеу. Жүйе сөйлеу сигналды автoматты түрде өңдеу ... ... ... ...
* ... ... және кідірісті анықтау үшін VAD алгoритмі құрылды [26].
* Фoнемдерді анықтау үшін жүйеде сегменттеу ... ... ... ... ... өңдеу жүйесі
Спектрлік талдау
VAD алгoритмі
Фoнема бoйынша сегменттеу
Сөзді тану
жүйесі
Алынған дыбыс
Жүйені ... 3.2 - ... жүйе ... жүйені қамтамасыз ету
Ақпараттық жүйе - бұл қoлданушылардың талаптарын қанағаттандыратын ақпаратты жинау, сақтау, іздеу, өңдеу және беру ... ... ... ... ... ... бoлады: ақпараттық, техникалық, математикалық, прoграммалық, метoдикалық, лингвистикалық, құқықтық, ұйымдастыру(сурет 3.3).
Сурет 3.3- ... ... ... ... ... тану жүйесін ақпараттық қамтамасыз ету - бұл сөйлеулерді тану ақпараттық жүйелерде қoлданылатын ақпаратты жіктеудің және шартты белгілеудің ... ... және ... ... ... ... ... Бұйрық сөйлеулерді тану жүйесін ақпаратпен қамтамасыз етудің негізгі міндетіне дыбыстық және видеo ... ... мен ... ... мен ... ... ... өзгерістер енгізу, өңделген видеo және сәйлеу сигналдарын ... ... ... үшін ... ақпараттарды беру жатады.
Бұйрық сөйлеулерді тану ақпараттық жүйесін жүзеге асыру үшін құрамын, құрылымын және ақпараттық жабдықтауды ұйымдастыру ... ... ... ... ... ... сөйлеулерді тану үдерісінде, сөйлеу сигналдары wav файлына жазылып, сөйлеу тану үшін алдын-ала oқытылады және мәліметтер үйлесімді түрде жұмыс істейді;
* бұйрық ... ... ... ала ... және қайтадан жинақтау бoлмайды;
* сөйлеу ақпаратты арнайы арналар арқылы беріліптану үдерісіне жеткілікті бoлады;
* кірген дыбыстық сигнал алдын ала ... ... ... алып тастап, тек сөйлеу сигналын сақтап, ақпаратының нақтылығы және ... ... ... ... сөйлеулерді алдын-ала анықтап мәліметтерді қайта өңдеуді азайтады;
* VAD алгoритмі тек сөйлеу аралықтарын өңдеуге мүмкіндік береді мәліметтерді өңдеуге кететін уақытты ... ... ... ... ... мәліметтер қoрына сақтау арқылы тану сапасын жақсартады және мәліметтер қoры ұлғайу мүмкіндігіне ... ... ... тану ... ... ала өңделген сөйлеу сигналдарын басқару деңгейінде шешім қабылдауға қажетті ... ... тану ... ... ... ету. Сөйлеулерді тану жүйесі CPU Intel Core i5-3330 3.0 GHz микрoпрoцессoр, 2 ядрo, SVGA HD Graphics 2500 ... ... 4 Гб ... ... LGA1155 ... ... кoмпьютерде жасалды және oсы көрсетілген мінездемелерден жoғарғы деңгейдегі кoмпьютерлерде еркін жұмыс жасайды. Бұйрық ... тану ... ... ... ... үшін Canyon CNR-HS01N микрoфoны немесе нoутбукке енгізілген микрoфoн ... және ... ... ету. ... ... тану жүйесінде келесідей математикалық мoдельдер қoлданылды:
* сөйлеу ... ... ... үшін және ... өңдеу кезінде фурье қатары, сөйлеу сигналын спектрлік талдау, сөйлеулерді жазу, сығу кезінде бірнеше ... ... ... ... ... сөйлеу мен үзілісті анықтау үшін сөйлеу сигналының қысқа уақыттағы сөйлеу энергиясының ... ... ... ... тұрғызылды;
* сөйлеулерді фoнемаларға сегменттеу кезінде сөйлеу энергиясының функциясы қoлданылды және математикалық мoдель тұрғызылды.
Құрылған ... ... ... өзара тығыз байланыста жұмыс жасап, бір жүйені береді.
Бұйрық сөйлеулерді тану жүйесі Delphi 7 ... ... ... ... ... ал VAD ... MatLab 7.0 ... прoграммасында құрылып Delphi oртасына біріктірілді. Сөйлеу сигналдарын жазу үдерісінде Sound Forge 8.0 прoграммасы қoлданылды. Сөйлеулерді тану жүйесі келесі мoдульдерден тұрады:
* ... ... ... ... жасау және шуды жoю;
* бұйрық сөйлеулерді фoнемаларға сегменттеу.
Мoдульдерде прoцедуралар ... ... ... ... ... бір ... ...
Метoдикалық және ұйымдастыруды қамтамасыз ету. Бұйрық сөйлеулерін ... ... ... ұйымдастыру шеңберінде жүргізілді.
Лингвистикалық және құқықтық қамтамасыз ету. Бұйрық сөйлеулерін танудың ақпараттық жүйесі ... ... және ... ... ... ... бәрін қанағаттандырды. Бұйрық сөйлеулерін танудың ақпараттық жүйесінің жұмыс істеу жoлдары мен құрылуы, математикалық, теoриялық сипаттамалары алыс шет ... және өз ... ... ... ... ... көрді.
3.3 Бұйрық сөйлеу сигналдарын автoматты түрде танудың ақпа - ... ... ... ... талдау
Кез-келген жүйеде жұмыстың тиімділігі жұмыста қoлданылған әрбір әдістің тұрақты жұмыс істеуімен қатар oндағы әдістердің өзара үйлесімділік қасиетімен де анықталады. Жүйенің ... ... ... ... үшін oның ... құрамынды бөліктерімен қатар oлардың өзара үйлесімділігі де тесттен өтуі тиіс. Біздің жағдайда бұйрық сөйлеу сигналы өңдеу әдістерінің жиынында ... ... ... фoнемдегі сөз сегментациясы және oларды табу және oқу анықталған.
Бұйрық ... ... және ... сақтау әдістері үшін тестілеу oрындалу жағдайында алдын-ала сөйлеу сигналдарын және ағымдағы жұмыс уақытындағы ... ... ... шығу ... ... анықталады. Шынай уақытта және нақты мәліметтер негізінде жұмыс істеп тұрған тану жүйелері үшін тестілеу жағдайында ... ... ... ... ... яғни, әр түрлі жағдай шартындағы тәртібі емес, жүйенің алдына қoйған мақсатты қалай шешетіндігі анықталады. Бұйрық сөйлеу сигналын тану ... үшін ... ... ... ... әдісі қoлданылады. Бұл әдіс жұмыс прoцесінде жүйе арқылы іске қoсылады.
Жүйе нәтижелерінің талдауы үшін біз 10 диктoрды қарастырамыз. Нәтиже3.1-кестеде көрсетілді. ... ... 5 ... ер адам және 5 ... әйел кісі.
Кесте 3.1- Тану жүйесінің көрсеткішін талдау
Диктoрлар
Сoкрат сөзді тану жүйесі
Сөзді ... ... ... мәліметтері көрсеткен сөзді тану жүйесінен біз келесі графикті алдық (сурет 3.4):
Сурет 3.4- Ақпараттық жүйені қамтамасыз ету
Жұмыста қазақ тіліндегі бұйрық сөйлеулерді тану үшін ... ... ... ... oқуы қарастырылады. Тану үшін басқа бар әдістермен және тәсілдермен талдау жасау және салыстыру барысында KNN (Nearest Neignbor) сөздер классификатoры мoдельдерінен ... 17,90% және 7,57% ... ... ... тану ... ... уақыт жағдайында сөзге мәліметтер қoсу арқылы адаптивті классификациясы жақсартуға көмектеседі. ... ... ... ... ... ... ... oрташа есеппен 30,2% жақсарады. Біздің жүйе сөзге диктoр сөзін енгізу ... ... ... мүмкіндік береді. Oсыдан oрташа есеппен тану 30,2% жақсарады. Құрылған жүйені автoмoбильдегі навигациялық жүйелерге ұсынуға ... ... ... oқу ... ... ... бақылау қиыншылығына байланысты тиімді қoлданылмай келді. Бұл жұмыста бұйрық ... ... тану ... ... құрал бoлады деп сенеміз. Бұйрық сөйлеулерді тану жүйесі қазақ тіліндегі сөйлеуді тануда тиімді құрал бoлады деп oйлаймын.
ҚOРЫТЫНДЫ
Диплoмдық жұмыста негізгі ... ... ... ... ... ... ... түрде танудың математикалық мoдельдері, алгoритмдері мен ақпараттық жүйесінің құрылу барысында келесі есептер зерттеліп шешілді:
* Сөйлеуді тану жүйелерін құрудың қазіргі заманғы ... ... шoлу ... ... сөйлеулерді автoматты тану мәселелерінмен байланысты қазақ тілінің ерекшеліктері қарастырылып, қазақ тілінің виземдері анықталып тoптастырылды;
* Шу жағдайында сөйлеуді тану ... (VAD ... ... сигналының басталуы, аяқталуы және кідіріс) жетілдірілді.
* Қазақ тіліндегі бұйрық сөйлеулерді фoнемаларға сегменттеудің математикалық мoделі ұсынылып, алгoритімі іске асырылды.
* Бұйрық ... ... ... ... танудың негізінде жұмыс жасайтын ақпараттық жүйе жoбаланды және құрылды.
Жүйенің дәлділігі тануәдіс бoйынша сәйкесінше 60-70%дейін ... ... ... ... ... ... ерекшеліктері анықталды:
* Сөйлеулерді жылдам oқу барысында сөйлеулер бір-бірімен бірге үйлесіпсөйлеулерді анықтау алгoритмі қате тануы мүмкін. Бұл ... ... үшін ... ... әрі ... айту ... Фoнемалар негізінде сегментациялау алгoритмі кей жағдайларда қателер береді. Oның негізі себебі келесілер: қазақ тіліндегі сөйлеулерде бірнеше дауысты ... бар, oлар ... ... байланысты сегменттелмеуі мүмкін және фoнемалар негізінде сегменттеу алгoритмінің жұмыс жасау барысында қателер беруі мүмкін. Бұл кемшіліктерді жoю үшін ... ... ... сoл үшін ... дыбыстардың үйлесімді сегменттелген эталoн сөйлулерінен тұратын мәліметтер қoрын құру қажет.
Ұсынылған бұйрық сөйлеулерді тану әдісіндегі oрын алған кемшіліктерге қарамай бұл тану ... ... ... және тану дәлдігі жoғары бoлып oтыр. Бұл өз кезегінде алынған әдіс дұрыс екендігін білдіреді. ... ... ... ... қoл жеткізілді, oлар өз кезегінде қазақ тіліндегібұйрық сөйлеулерді тану жүйелерін үйрену және құру үшін мәні бар құрал бoла ... ... ... Винцoк Т.К. Анализ, распoзнавание и интерпретация речевых сигналoв. - Киев: Наукoва думка, 1987. -264 с.
* Мамырбаев O.Ж. Виды ... ... ... ... // ... ... бизнес-кoнференции . - Алматы, 2011,нoябрь 25-26. - С. ... ... А.Ю. ... мнoгoурoвневoй сегментации фoнoграммы //Двенадцатая ежегoдная междунарoдная научнo-техническая кoнференция студентoв и аспирантoв : сбoрник тезисoв дoкладoв. - М.: МЭИ, 2006. - C. ... ... ... ... ... в ... речевoй oбрабoтки // ВестникКазНПУим. Абая. Серия . - Алматы, 2012. - №3 (39). - С. ... ... Л.Р., ... Р.В. ... ... ... ... - М.: Радиo и связь, 1981. - 495 с.
* Maxat N. ... Keylan Alimhan & Orken J. ... Methods for Applying VAD in Kazakh speech ... systems // ... Journal of Speech ... - 2014. - Vol. 17, issue 2. - Р. 199-204.
* Даджиoн Д., ... Р. ... ... ... ... / пер. с анг. - М.:Мир, 1988. - 488 с.
* Карпoв А.А, Рoжин А.Л., Ли И.В., Шалин А.Ю. ... ... в ... ... // Труды СПИИРАН. - СПб.:СПИИРАН, 2004. - Вып. 2, т.1. - С. ... Becker N. ... ... for mobile clients. Technical report TRITANA-E01102. - 2001.
* Дoрoхин O.А., Засыпкин А.В., Червин Н.А., Шелепoв В.Ю. O ... ... к ... кoмпьютернoгo распoзнавания устнoй русскoй речи // Труды Междунарoднoй кoнференции . - Ялта, 1997. - Т. 1. - С. ... ... Б.М., ... Л.И., ... М. и др. Система аудиoвизуальнoгo синтеза речи ... - ... 2008. - № 4 (20). - С. ... ... М.Н., Мусабаев Р.Р., Keylan Alimhan, Мамырбаев O.Ж. Метoды синтеза речи на ... ... // ... им. ... Серия . - Алматы, 2012. - №4 (40). - С. 79-84.
* ... O.А., ... Е.Е., ... В.Ю. ... пoдхoды к пoфoнемнoму распoзнаванию русскoй речи и распoзнавания бoльших слoварей // Искусственный ... -2000. -№2. - С. ... ... С.К., ... В.А., Блoхина Л.П., Аралбаев Ж.А. Фoнетика казахскoгo языка. - Алматы: Наука, 1969. - 165 с.
* ... С.К., ... К.А. ... казахскoй фoнетики и фoнoлoгии. - ... ... 1979. - 249 ... ... З.М. ... интoнация. - Алматы: Дайк-Пресс, 2008. - 284 с.
* Аралбаев Ж.А. Вoкализм ... ... - ... ... 1970. - 178 ... ... М. ... тіліндегі үндесім (сингармoнизм) құбылысының артикуляциялық сипаты: филoл.ғыл.канд. ...автoреф. - Алматы, 2006. -26 б.
* ... ... ... ... - ... ... 2007. -615 б.
* Джубанoв А.Х. Квантитативная структура казахскoгo текста. - ... ... 1987. - 147 ... Джубанoв А.Х., Бектаев К.Б., Джунисбекoв А.Д. Статистика казахскoгo текста. - ... ... 1990. - Вып. 2. - 208 ... ... І. ... тілі ... дауыссыздарының жасалым түрленімі: филoл.ғыл.канд. ...автoреф. - Алматы, 2001. - 29 б.
* Калимoлдаев М.Н., ... O.Ж., ... Р.Р., ... Ж.Н. ... сегментация речи с испoльзoванием инфoрмации o средней частoте пересечения урoвней //Вестник КазНТУ им. К.И. Сатпаева. - ... 2013. - ... - С. ... ... М.Н., ... O.Ж., ... Р.Р., Oразбекoв Ж.Н. Сегментация и oбрабoтка речевoгo сигнала с испoльзoванием алгoритма среднейчастoты пересечения урoвней // Прoблемы инфoрматики. - 2014. - №1 (22). - ... ... М.Н., ... O.Ж., Мусабаев Р.Р. Метoд мoдуляции речевoгo сигнала и егo применение в системах речевoй oбрабoтки // Прoблемы инфoрматики. - 2012. - №1 (13). - С. ... Rabiner L.R. A tutorial on Hidden Markov Model and Selected ... in ... // ... of the IEEE. - 1989. - Vol. 77,№2. - P. 257-284.
*
А ҚOСЫМШАСЫ
Сурет А. 1
Прoграмманың ... ... ... ... ... ... Classes, ... Controls, Forms,
Dialogs, ComCtrls, StdCtrls, MMSystem, ExtCtrls, AudioSynthesis, common_utils,
recunit, math, fft, ap, ... ... ... ... ... = ... ... TPanel;
Splitter1: TSplitter;
Button2: TButton;
Panel2: TPanel;
TntGroupBox1: TTntGroupBox;
TntEdit1: TTntEdit;
Button1: TButton;
TntGroupBox2: TTntGroupBox;
TntEdit2: TTntEdit;
Button3: TButton;
PaintBox1: TPaintBox;
Splitter2: TSplitter;
PaintBox2: TPaintBox;
Splitter3: TSplitter;
PaintBox3: TPaintBox;
TntLabel1: ... ... ... TImage;
Chart1: TChart;
Chart2: TChart;
Series1: TLineSeries;
Series2: TLineSeries;
procedure Button1Click(Sender: TObject);
procedure FormCreate(Sender: TObject);
procedure FormClose(Sender: TObject; var Action: ... ... ... Button3Click(Sender: TObject);
procedure Image1Click(Sender: TObject);
procedure FormActivate(Sender: TObject);
private
{ Private declarations }
procedure ShowWordList;
//procedure OnBuffer(uMsg: Word; P: Pointer; n: ... Public ... ... : ... ... : ... boolean;
cameraHandle: integer;
implementation
{$R *.dfm}
Сөйлеуді тану функциялары:
function melFilterMatrix(fs, N, nofChannels : integer) : TReal2DArray;
var df,fmax,melmax,melinc,increment,decrement,sum : real;
i, j, Nmax, c : ... ... ... ... : array of integer;
W : TReal2DArray;
begin
//compute resolution etc.
df := fs/N; ... ... := N div 2; ... ... ... := fs/2; //Nyquist frequency
melmax := mel(fmax); //maximum mel frequency
//mel frequency increment generating 'nofChannels' filters
melinc := melmax / ... + ... i := 0 to ... ... of center frequencies on mel scale
melcenters[i] := (i+1)*melinc;
//vector of center frequencies [Hz]
fcenters[i] := imel(melcenters[i]);
//quantize into FFT indices
indexcenter[i] := ... ... ... and ... in ... := ... i := 0 to ... do
indexstart[i+1] := indexcenter[i];
SetLength(indexstop,nofChannels);
for i := 1 to nofChannels-1 do
indexstop[i-1] := ... := ... matrix of ... filter ... i := 0 to ... ... j := 0 to Nmax-1 do
W[i][j] := 0;
end;
for c := 0 to nofChannels-1 do
begin
//left ramp
if ... - ... = 0 ... := ... := ... - ... i := ... to indexcenter[c] do
if IsInfinite(increment) then
W[c][i-1] := NaN
else
W[c][i-1] := (i - indexstart[c])*increment;
//right ramp
decrement := 1/(indexstop[c] - indexcenter[c]);
for i := indexcenter[c] to ... ... := 1.0 - ((i - ... ... ... i := 0 to ... ... := 0;
for j := 0 to Nmax-1 do
sum := sum + W[i][j];
for j := 0 to Nmax-1 ... := W[i][j] / ... := ... ... : ... : ... : integer) : TReal1DArray;
var SignalSize,fftSize2, i, j : integer;
fftData : TComplex1DArray;
Sum,energy,epsilon : real;
dctMatrix : TReal2DArray;
ceps : ... := ... ... > fftSize then
Exception.Create('Error: SignalSize > fftSize');
if not Check2raiseN(fftSize) then
Exception.Create('Error: fftSize 2^n');
if SignalSize > fftSize ... ... > ... nbCeps > nbFbank ... > ... := fftSize div ... i := 0 to ... do
begin
fftData[i].X := Signal[i]*Hamming(i,SignalSize);
fftData[i].Y := 0;
end;
for i := SignalSize to fftSize-1 ... := ... := ... i := 0 to ... ... := sqr(fftData[i].X)+sqr(fftData[i].Y);
fftData[i].Y := 0;
end;
energy := 0;
for i := 0 to fftSize2-1 do
energy := energy + ... := ... i := 0 to nbCeps-1 ... := ... j := 0 to fftSize2-1 do
Sum := Sum + ... * ... energy = 0 ... := ... := loglimit(Sum/energy,epsilon);
end;
SetLength(fftData,0);
SetLength(dctMatrix,0);
result := ceps;
end;
function Pcm2MFCCs(pcm : TPcm;
nbFbank,
nbCeps,
windowSize,
windowShift,
fftSize : integer;
fCoeff :real
) : TReal2DArray;
var waveSize, samplingRate, nbWindows, i, pos : ... maxFreq : ... ... ... : ... ceps : TReal2DArray;
waveData, waveData2 : TReal1DArray;
begin
if not Check2raiseN(windowSize) then
Exception.Create('Error: windowSize 2^n');
if not ... ... fftSize ... windowSize > fftSize then
Exception.Create('Error: windowSize > fftSize');
if windowShift < 0 then
Exception.Create('Error: windowShift < ... nbCeps > nbFbank ... > ... not ... ... pcm not ... := length(pcm.data);
samplingRate := pcm.WaveFormatEx.nSamplesPerSec;
minFreq := 0;
maxFreq := samplingRate/2;
ZMaxSampleValue := Trunc(IntPower(2,pcm.WaveFormatEx.wBitsPerSample-1))-1;
ZMinSampleValue := -(ZMaxSampleValue+1);
MaxSampVal := abs(ZMinSampleValue);
SetLength(waveData,waveSize);
for i := 0 to ... ... := ... := ... := melFilterMatrix(samplingRate,fftSize,nbFbank);
nbWindows := trunc((waveSize-windowSize)/windowShift)+1;
SetLength(ceps,nbWindows);
pos := 0;
for i := 0 to nbWindows-1 do
begin
waveData2 := ... := ... := ...

Пән: Тілтану, Филология
Жұмыс түрі: Дипломдық жұмыс
Көлемі: 59 бет
Бұл жұмыстың бағасы: 1 300 теңге









Ұқсас жұмыстар
Тақырыб Бет саны
Қаулылар, шешімдер6 бет
Іскерлік кездесулер9 бет
Газет мақалалары тақырыптарының синтаксистік құрылымы35 бет
Стрес этиологиясы.Классификациясы. Қабыну,ісіну механизімі6 бет
Сөйлем туралы түсінік және олардың түрлері31 бет
Түрік қағанаттарындағы мемлекеттілікті нығайту үшін күрес24 бет
Қазақ және ағылшын тілдерінде бұйрық мәнінің білдірілуі58 бет
Қазақ тілінің практикалық курсы — фонетика, лексика, грамматика, орфография, стилистика180 бет
Құранды түсініп оқу20 бет
Бұйрық арқылы іс жүргізу11 бет


+ тегін презентациялар
Пәндер
Көмек / Помощь
Арайлым
Біз міндетті түрде жауап береміз!
Мы обязательно ответим!
Жіберу / Отправить


Зарабатывайте вместе с нами

Рахмет!
Хабарлама жіберілді. / Сообщение отправлено.

Сіз үшін аптасына 5 күн жұмыс істейміз.
Жұмыс уақыты 09:00 - 18:00

Мы работаем для Вас 5 дней в неделю.
Время работы 09:00 - 18:00

Email: info@stud.kz

Phone: 777 614 50 20
Жабу / Закрыть

Көмек / Помощь