Қазақ тілінен орыс тіліне машиналық аударудың лингвистикалық сөздіктерін Apertium платформасының негізінде жасау
КІРІСПЕ 7
1 Машиналық аударма 8
1.1 Машиналық аударманың даму тарихы 8
1.2 Машиналық аударманың түрлері 11
2 Apertium машиналық аударма жүйесі 16
2.1 Apertium платформасының құрылымы 16
2.2 Жүйені құрудағы дәстүрлі модельдері 25
2.3 Eсeптердің қойылымы 25
3 Жаңа тілдік жұп құру 26
3.1 Бір тілді орыс тілі сөздігі 28
3.2 Екі тілді сөздіктерді құру 33
3.3 Трансферлік ережелер 33
3.4 Екі тілдік сөздіктерге етістіктерді қосу ерекшеліктері 36
3.5 Жіктеу есімдіктерін сөздіктерге қосу барысы 41
3.6 Қазақ тілі сөздігін құру ерекшеліктері 43
3.6.1 Зат есімдерді енгізейік 43
3.6.2 Қосымшаларды сөздіктерге енгізу барысы 45
3.6.3 Сын есімдерді сөздіктерге енгізу ерекшелігі 46
3.6.4 Сан есімдерді сөздікке енгізу 48
3.6.5 Есімдік сөз табын сөздікке енгізу 49
3.6.6 Етістік сөз табын сөздікке енгізу 50
3.6.7 Үстеу сөз табын сөздікке енгізу 52
3.6.8 Еліктеу сөздерді сөздікке енгізу 55
3.6.9 Шылауларды сөздікке енгізу 55
3.6.10 Одағай сөз табын сөздікке енгізу 57
4 Сөз таптарын тәгтеу . part.of.speech tagging 59
4.1 Сөз таптарын тәгтеу 59
4.2 Сөз таптарын тәгтеу ережелері негізінде 60
4.3 Сөз таптарын тәгтеуде жасырын Марков моделін қолдану 62
4.4 ЖMM тәгтеу үшін өзекті алгоритм 64
ҚОРЫТЫНДЫ 66
ПАЙДАЛАНЫЛҒАН ӘДЕБИЕТТЕР ТІЗІМІ 67
1 Машиналық аударма 8
1.1 Машиналық аударманың даму тарихы 8
1.2 Машиналық аударманың түрлері 11
2 Apertium машиналық аударма жүйесі 16
2.1 Apertium платформасының құрылымы 16
2.2 Жүйені құрудағы дәстүрлі модельдері 25
2.3 Eсeптердің қойылымы 25
3 Жаңа тілдік жұп құру 26
3.1 Бір тілді орыс тілі сөздігі 28
3.2 Екі тілді сөздіктерді құру 33
3.3 Трансферлік ережелер 33
3.4 Екі тілдік сөздіктерге етістіктерді қосу ерекшеліктері 36
3.5 Жіктеу есімдіктерін сөздіктерге қосу барысы 41
3.6 Қазақ тілі сөздігін құру ерекшеліктері 43
3.6.1 Зат есімдерді енгізейік 43
3.6.2 Қосымшаларды сөздіктерге енгізу барысы 45
3.6.3 Сын есімдерді сөздіктерге енгізу ерекшелігі 46
3.6.4 Сан есімдерді сөздікке енгізу 48
3.6.5 Есімдік сөз табын сөздікке енгізу 49
3.6.6 Етістік сөз табын сөздікке енгізу 50
3.6.7 Үстеу сөз табын сөздікке енгізу 52
3.6.8 Еліктеу сөздерді сөздікке енгізу 55
3.6.9 Шылауларды сөздікке енгізу 55
3.6.10 Одағай сөз табын сөздікке енгізу 57
4 Сөз таптарын тәгтеу . part.of.speech tagging 59
4.1 Сөз таптарын тәгтеу 59
4.2 Сөз таптарын тәгтеу ережелері негізінде 60
4.3 Сөз таптарын тәгтеуде жасырын Марков моделін қолдану 62
4.4 ЖMM тәгтеу үшін өзекті алгоритм 64
ҚОРЫТЫНДЫ 66
ПАЙДАЛАНЫЛҒАН ӘДЕБИЕТТЕР ТІЗІМІ 67
Машиналық аударма жаңа ақпараттық технологиялар жиегінде мәтіндерді автоматты өңдеудің өзекті мәселесі болып табылады. Ғаламторда қол жетімді, заманауи машиналық аударма жүйелерінде орын алатын аударманың төмен сапасы, машиналық аудармадан бас тартудың себебі болып табылмайды. Қазіргі таңда қол жетімді қазақ тілі орыс бағытындағы және кері бағыттағы аударма жүйелері жетерлік. Аударма жүйелері көпшілік жағдайларда қанағаттанарлықсыз нәтиже береді. Аударылатын мәтіндердің көпшілігі ғылыми-техникалық болып табылатындықтан, және олардың аудармасы ғылыми-техникалық үрдіске септігін тигізетіндіктен, сапалы машиналық аударма адамзат өркениетінің дамуында өзекті.
Кейбір аударма жүйелері мәтіндерді өңдейді қажетсінбей жеткілікті жақсы аударады, дегенмен басқа мәтіндер сол пәндік аймаққа қатысты болғанымен, қайта өңдеуді талап ететін қолайсыз аудармалар алынады.
Дипломдық жұмыстың тақырыбының өзектілігі сөздердің тиянақты және тура аудармасына қол жеткізу үшін қазақ тілінен орыс тіліне машиналық аударудың лингвистикалық сөздіктерін құру.
Дипломдық жұмыстың зерттеу пәні: қазақ тілінен орыс тіліне машиналық аудармадағы екі тілдік және бір тілдік сөздіктер.
Дипломдық жұмыстың мақсаты – аpertium платформасының негізінде қазақ-орыс тілі бағытындағы машиналық аударманың лингвистикалық сөздіктерін дайындау болып табылады.
Дипломдық жұмыстың мақсаты бойынша анықталған міндеттер:
• Қазақ-орыс тілі бағытындағы екі тілді сөздіктердің құрылуы;
• Қазақ-орыс тілі бағытындағы бір тілді сөздіктердің құрылуы;
• Сөз таптары бойынша сөздердің енгізілуі.
Зерттеудің ғылыми мәні: аpertium платформасы негізінде қазақ-орыс тілі бағытында бір тілді және екі тілді сөздіктер құрылды.
Зерттеудің тәжірибелік мәні: бір тілді және екі тілді сөздіктердегі сөздер енгізілуіне байланысты жеке-жеке аударылады.
Зерттеу жұмыстарында қолданылған кіріс деректері: екі тілді сөздік және бір тілді сөздіктер.
Кейбір аударма жүйелері мәтіндерді өңдейді қажетсінбей жеткілікті жақсы аударады, дегенмен басқа мәтіндер сол пәндік аймаққа қатысты болғанымен, қайта өңдеуді талап ететін қолайсыз аудармалар алынады.
Дипломдық жұмыстың тақырыбының өзектілігі сөздердің тиянақты және тура аудармасына қол жеткізу үшін қазақ тілінен орыс тіліне машиналық аударудың лингвистикалық сөздіктерін құру.
Дипломдық жұмыстың зерттеу пәні: қазақ тілінен орыс тіліне машиналық аудармадағы екі тілдік және бір тілдік сөздіктер.
Дипломдық жұмыстың мақсаты – аpertium платформасының негізінде қазақ-орыс тілі бағытындағы машиналық аударманың лингвистикалық сөздіктерін дайындау болып табылады.
Дипломдық жұмыстың мақсаты бойынша анықталған міндеттер:
• Қазақ-орыс тілі бағытындағы екі тілді сөздіктердің құрылуы;
• Қазақ-орыс тілі бағытындағы бір тілді сөздіктердің құрылуы;
• Сөз таптары бойынша сөздердің енгізілуі.
Зерттеудің ғылыми мәні: аpertium платформасы негізінде қазақ-орыс тілі бағытында бір тілді және екі тілді сөздіктер құрылды.
Зерттеудің тәжірибелік мәні: бір тілді және екі тілді сөздіктердегі сөздер енгізілуіне байланысты жеке-жеке аударылады.
Зерттеу жұмыстарында қолданылған кіріс деректері: екі тілді сөздік және бір тілді сөздіктер.
1 Ванников Ю.В. Языковая сложность текста как фактор трудности перевода. – М.: Всесоюзный центр переводов, 1988.
2 Вейзе А.А, Киреев Н.Б., Мирончиков К. Перевод технической литературы с ангилийского языка на русский. – Минск, 1997.
3 Nirenburg S., Wilks Y. Machine Transition in 50 ,1986 г. стр. 3
4 Melby, Alan. The Possibility of Language. – Аmsterdam:Benjamins, 1995. – С. 27-41.
5 Васильев А. Компьютер на месте переводчика // Подводная лодка. – 1998, № 6.
6 Молчанов А. Статистические и гибридные методы перевода в технологиях компании PROMT // Control Engineering Россия. – 2013.
7 Матенова Г.Д. Қазақ тілі мен орыс тіліндегі айырмашылықтыр және оны салыстыра оқыту [Электрон. ресурс]. – 2015. – URL: http://worldofteacher.com/7641-bayandama-aza-tl-men-orys-tlndeg-ayyrmashylytyr-zhne-ony-salystyra-oytu.html (қаралған күні: 12.02.2015)
8 Аханов К. Тіл білімінің негіздері. – Алматы: Санат, 1993. – 542 б.
9 Исаев С. Қазіргі қазақ тіліндегі сөздердің грамматикалық сипаты. – Алматы: Рауан, 1998. – 303 б.
10 Нысанбаев Ә. “Қазақстан”: Ұлттық энцклопедия. – Алматы: Қазақ энциклопедиясы,1998.
11 Ortiz-Rojas S., Forcada M.L., Ramírez-Sánchez G. Construccion y minimizacion eficiente de transductores de letras a partir de diccionarios con paradigmas // Procesamiento del Lenguaje Natural. – 2005. – № 25. – P. 51-57.
12 Garrido А., Iturraspe А., Montserrat S. A compiler for morphological analysers and generators based on finite-state transducers // Procesamiento del Lenguaje Natural. -1999. – № 25.P. 93–98.
13 Jurafsky D., Martin J.H. Speech And Language Processing,1999.
14 Францис Таерз. Знакомство с системой Apertium [Электрон. ресурс]. – 2012. – URL: https://svn.code.sf.net/p/apertium/svn/branches/xupaixkar/slides/ session0a.pdf (қаралған күні: 20.02.2015)
15 Руководство по созданию новой языковой пары [Электрон. ресурс]. – 2015.– URL: http://wiki.apertium.org/wiki/Руководство_по_созданию_новой_ языковой_пары (қаралған күні: 12.01.2015)
16 Машинный перевод [Электрон. ресурс]. – 2015.– URL: http://www.promt.ru/company/technology/machine_translation/(қаралған күні: 20.01.2015)
2 Вейзе А.А, Киреев Н.Б., Мирончиков К. Перевод технической литературы с ангилийского языка на русский. – Минск, 1997.
3 Nirenburg S., Wilks Y. Machine Transition in 50 ,1986 г. стр. 3
4 Melby, Alan. The Possibility of Language. – Аmsterdam:Benjamins, 1995. – С. 27-41.
5 Васильев А. Компьютер на месте переводчика // Подводная лодка. – 1998, № 6.
6 Молчанов А. Статистические и гибридные методы перевода в технологиях компании PROMT // Control Engineering Россия. – 2013.
7 Матенова Г.Д. Қазақ тілі мен орыс тіліндегі айырмашылықтыр және оны салыстыра оқыту [Электрон. ресурс]. – 2015. – URL: http://worldofteacher.com/7641-bayandama-aza-tl-men-orys-tlndeg-ayyrmashylytyr-zhne-ony-salystyra-oytu.html (қаралған күні: 12.02.2015)
8 Аханов К. Тіл білімінің негіздері. – Алматы: Санат, 1993. – 542 б.
9 Исаев С. Қазіргі қазақ тіліндегі сөздердің грамматикалық сипаты. – Алматы: Рауан, 1998. – 303 б.
10 Нысанбаев Ә. “Қазақстан”: Ұлттық энцклопедия. – Алматы: Қазақ энциклопедиясы,1998.
11 Ortiz-Rojas S., Forcada M.L., Ramírez-Sánchez G. Construccion y minimizacion eficiente de transductores de letras a partir de diccionarios con paradigmas // Procesamiento del Lenguaje Natural. – 2005. – № 25. – P. 51-57.
12 Garrido А., Iturraspe А., Montserrat S. A compiler for morphological analysers and generators based on finite-state transducers // Procesamiento del Lenguaje Natural. -1999. – № 25.P. 93–98.
13 Jurafsky D., Martin J.H. Speech And Language Processing,1999.
14 Францис Таерз. Знакомство с системой Apertium [Электрон. ресурс]. – 2012. – URL: https://svn.code.sf.net/p/apertium/svn/branches/xupaixkar/slides/ session0a.pdf (қаралған күні: 20.02.2015)
15 Руководство по созданию новой языковой пары [Электрон. ресурс]. – 2015.– URL: http://wiki.apertium.org/wiki/Руководство_по_созданию_новой_ языковой_пары (қаралған күні: 12.01.2015)
16 Машинный перевод [Электрон. ресурс]. – 2015.– URL: http://www.promt.ru/company/technology/machine_translation/(қаралған күні: 20.01.2015)
ӘЛ-ФАРАБИ АТЫНДАҒЫ ҚАЗАҚ ҰЛТТЫҚ УНИВЕРСИТЕТІ
МЕХАНИКА-МАТЕМАТИКА ФАКУЛЬТЕТІ
АҚПАРАТТЫҚ ЖҮЙЕЛЕР КАФЕДРАСЫ
Қазақ тілінен орыс тіліне машиналық аударудың лингвистикалық сөздіктерін
Apertium платформасының негізінде жасау тақырыбына жазылған
ДИПЛОМДЫҚ ЖҰМЫС
Орындаған ____________________ Адильбекова А.Ж.
(қолы)
Ғылыми жетекші, ____________________ Сапакова С.З.
ф.-м.ғ.к., доцент (қолы)
Норма бақылаушы ____________________ Жуманов Ж.М.
(қолы)
Қорғауға жіберілді:
Кафедра меңг.м.а, ____________________ Есенгалиева Ж.С.
PhDдоктор (қолы)
Алматы 2015
Реферат
Дипломдық жұмыс 67 беттен, 25 суреттен, 6 кестеден, 16 әдебиеттен
тұрады.
Кілттік сөздер: МАШИНАЛЫҚ АУДАРМА, APERTIUM ПЛАТФОРМАСЫ, БІР ТІЛДІК
СӨЗДІК, ЕКІ ТІЛДІК СӨЗІК, НЕГІЗГІ ТІЛ,МАҚСАТ ТІЛ, МАШИНАЛЫҚ АУДАРМА ЖҮЙЕСІ,
МОРФОЛОГИЯЛЫҚ СӨЗДІК, ПАРАДИГМАЛАР, СӨЗДІК МАҚАЛАСЫ, СӨЗ ТАПТАРЫ.
Дипломдық жұмыстың зерттеу нысаны: қазақ-орыс тілі бағытындағы
машиналық аударманың лингвистикалық сөздіктері.
Дипломдық жұмыстың мақсаты: қазақ-орыс тілі бағытындағы машиналық
аударманың лингвистикалық сөздіктерін дайындау.
Дипломдық жұмыстың зерттеу әдістері: морфологиялық сөздіктерді құру
әдісі, сөз таптарын тәгтеу.
Дипломдық жұмыс нәтижесі: сөздік құрамы толықтырылды, екі тілдік
сөздіктерде қазақ-орыс бағытындағы және кері бағыт үшін жазылған ережелерде
қолданылатын парадигмалар анықталды.
Дипломдық жұмыстың негізгі мінездемелері: дипломдық жұмыста келтірілген
ақпараттар арқылы лингвистикалық сөздікті құру тәсілі, сөздіктерге сөздерді
енгізу тәсілі, машиналық аударма жайлы жалпы түсінік келтірілді.
Дипломдық жұмыстың ендірілу деңгейі: Математика және механика ғылыми-
зерттеу институтының Интеллектуалдық ақпараттық жүйелер зертханасында
Apertium платформасының негізінде қазақ тілінен ағылшын және орыс
тілдеріне (және кері бағытта) тегінашық кодты машиналық аударма жүйесін
құру жобасы аясында Аликанте Университетінің профессоры Микель Форкада мен
механика-математика факультетінің профессоры Тукеев Уалшер Ануарбековичтің
жетекшілігімен жұмыс жүргізілуде.
Дипломдық жұмыстың қолдану аймағы: машиналық аударманың сөздіктермен
жұмыс жасау аймағы.
Дипломдық жұмыс зерттеулерінің болашақта даму барысы: Сөздік қорын әр
сала бойынша термин сөздермен толықтыру керек, жаңа сөздермен толықтыру
керек, қазақ тілінен орыс тіліне және орыс тілінен қазақ тіліне сөздерді
аудару үшін қолданылатын парадигмаларды оңтайландыру керек.
Реферат
Дипломная работа состоит из 67 страниц, 25 рисунков, 6 таблиц, 16
источников.
Ключевые слова: МАШИННЫЙ ПЕРЕВОД, ПЛАТФОРМА APERTIUM, ОДНОЯЗЫЧНЫЙ
СЛОВАРЬ, ДВУЯЗЫЧНЫЙ СЛОВАРЬ, ВЫБОРАННЫЙ ЯЗЫК, ЯЗЫК ПЕРЕВОДА, СИСТЕМА
МАШИННОГО ПЕРЕВОДА, МОРФОЛОГИЧЕСКИЙ СЛОВАРЬ, ПАРАДИГМЫ, СЛОВАРНАЯ СТАТЬЯ,
ЧАСТИ РЕЧИ.
Объект исследования дипломной работы: Лингвистические словари машинного
перевода казахско-русского направления.
Цель дипломной работы: Разработка лингвистических словарей машинного
перевода казахско-русского направления.
Методы исследования дипломной работы: Метод разработки морфологических
словарей, тэгирование частей речи.
Результаты дипломной работы: Было дополнено словарь, определены
парадигмы, которые используется в правилах написанных для казахско-русского
и наоборот русско-казахского направления в двуязычных словарях.
Основные характеристики дипломной работы: Приведено общее понятие о
машинном переводе, способ создания лингвистического словаря, способ ввода
слов в словари с помощью информаций которые приведены в дипломной работе.
Степень внедрения дипломной работы: ведутся работы в рамках проекта
Разработка свободнойоткрытой системы машинного перевода с казахского
языка на английcкий и русский языки (и обратно) на базе платформы Apertium
на лаборатории Интелектуальных информационных систем научно-
исследовательского института математики и механики под руководством
профессора из Университета Аликанте Микелем Форкада и профессора механика-
математического факультета Тукеев Уалшер Ануарбековича.
Область применения дипломной работы: Область работы со словарями
машинного перевода.
Дальнейшее развитие исследований дипломной работы:
Необходимо дополнить словарный ресурс словами терминов разной сферы,
необходимо дополнить новыми словами, необходимо адаптировать парадигмы
которые используются для перевода слов с казахского языка на русский язык и
с русского языка на казахский язык.
Abstract
Diploma work consists of 67 pages, 25 figures, 6 tables, 16 sources.
Кeywords: MACHINE TRANSLATION, PLATFORM APERTIUM, MONOLINGUAL
DICTIONARY, BILINGUAL DICTIONARY, SELECT LANGUAGE, TERGET LANGUAGE, SYSTEM
OF MACHINE TRANSLATION, MORPHOLOGICAL DICTIONARY, PARADIGMS, DICTIONARY
ENTRIES, PARTS OF SPEECH
The object of research of the diploma work: Linguistic dictionaries for
machine translation from Kazakh into Russian
The aim of the diploma work: Development of linguistic dictionaries for
machine translation from Kazakh into Russian
The methods of research of the diploma work: Method development of
morphological dictionaries, parts of speech tagging.
The results of the diploma work: It was supplemented by a dictionary,
defined the paradigm, that is used in the rules written for the Kazakh-
Russian and Russian-Kazakh contrary directions in bilingual dictionaries.
Main characteristics of the diploma work: A general concept of machine
translation, linguistic way to create a dictionary entry method of words in
the dictionary with the information given in the diploma work.
The degree of implementation of the diploma work: work is underway
within the framework of the project “The development of freeopen system of
machine translation from Kazakh into English and Russian (and vice versa)
based on platform Apertium” on laboratory of “Intellectual Information
Systems” of the Research Institute of Mathematics and Mechanics led by
Professor of the University of Alicante Mikel L. Forcada and by Professor
of the faculty of Mechanics and Mathematics Tukeyev Ualsher Anuarbekovich.
Scope of the diploma work: Scope of work with machine translation
dictionaries
Further development of research of the diploma work: It is necessary to
supplement the vocabulary resource with terms words of different areas,
must be supplemented by new words, it is necessary to adapt the paradigms
which are used to translate the words of the Kazakh language into Russian
and from Russian into Kazakh language.
МАЗМҰНЫ
КІРІСПЕ 7
1 Машиналық аударма 8
1.1 Машиналық аударманың даму тарихы 8
1.2 Машиналық аударманың түрлері 11
2 Apertium машиналық аударма жүйесі 16
2.1 Apertium платформасының құрылымы 16
2.2 Жүйені құрудағы дәстүрлі модельдері 25
2.3 Eсeптердің қойылымы 25
3 Жаңа тілдік жұп құру 26
3.1 Бір тілді орыс тілі сөздігі 28
3.2 Екі тілді сөздіктерді құру 33
3.3 Трансферлік ережелер 33
3.4 Екі тілдік сөздіктерге етістіктерді қосу ерекшеліктері 36
3.5 Жіктеу есімдіктерін сөздіктерге қосу барысы 41
3.6 Қазақ тілі сөздігін құру ерекшеліктері 43
3.6.1 Зат есімдерді енгізейік 43
3.6.2 Қосымшаларды сөздіктерге енгізу барысы 45
3.6.3 Сын есімдерді сөздіктерге енгізу ерекшелігі 46
3.6.4 Сан есімдерді сөздікке енгізу 48
3.6.5 Есімдік сөз табын сөздікке енгізу 49
3.6.6 Етістік сөз табын сөздікке енгізу 50
3.6.7 Үстеу сөз табын сөздікке енгізу 52
3.6.8 Еліктеу сөздерді сөздікке енгізу 55
3.6.9 Шылауларды сөздікке енгізу 55
3.6.10 Одағай сөз табын сөздікке енгізу 57
4 Сөз таптарын тәгтеу – part-of-speech tagging 59
4.1 Сөз таптарын тәгтеу 59
4.2 Сөз таптарын тәгтеу ережелері негізінде 60
4.3 Сөз таптарын тәгтеуде жасырын Марков моделін қолдану 62
4.4 ЖMM тәгтеу үшін өзекті алгоритм 64
ҚОРЫТЫНДЫ 66
ПАЙДАЛАНЫЛҒАН ӘДЕБИЕТТЕР ТІЗІМІ 67
БЕЛГІЛЕУЛЕР МЕН ҚЫСҚАРТУЛАР
МА – машиналық аударма
МАЖ – машиналық аударма жүйесі
SMT – статистикалық машиналық аударма
RBMT – ережелерге негізделген машиналық аударма
HMT – гибридті машиналық аударма
ТМ – аудармалардың жады
ADJ – сын есім
DET – детерминитив
LR – солдан оңға бағыттау
N – зат есім
NP – зат есімдік фраза
NUM – сан есім
POST – шылау
PP – жалғаулық фраза
PRN – есімдік
ADV – үстеу
IDEO – еліктеу сөз
SL – негізгі тіл (source language)
TL – мақсат тіл (target language)
VP – етістіктік фраза
ЖММ – жасырын Марков моделі
КІРІСПЕ
Машиналық аударма жаңа ақпараттық технологиялар жиегінде мәтіндерді
автоматты өңдеудің өзекті мәселесі болып табылады. Ғаламторда қол жетімді,
заманауи машиналық аударма жүйелерінде орын алатын аударманың төмен сапасы,
машиналық аудармадан бас тартудың себебі болып табылмайды. Қазіргі таңда
қол жетімді қазақ тілі орыс бағытындағы және кері бағыттағы аударма
жүйелері жетерлік. Аударма жүйелері көпшілік жағдайларда қанағаттанарлықсыз
нәтиже береді. Аударылатын мәтіндердің көпшілігі ғылыми-техникалық болып
табылатындықтан, және олардың аудармасы ғылыми-техникалық үрдіске септігін
тигізетіндіктен, сапалы машиналық аударма адамзат өркениетінің дамуында
өзекті.
Кейбір аударма жүйелері мәтіндерді өңдейді қажетсінбей жеткілікті жақсы
аударады, дегенмен басқа мәтіндер сол пәндік аймаққа қатысты болғанымен,
қайта өңдеуді талап ететін қолайсыз аудармалар алынады.
Дипломдық жұмыстың тақырыбының өзектілігі сөздердің тиянақты және тура
аудармасына қол жеткізу үшін қазақ тілінен орыс тіліне машиналық аударудың
лингвистикалық сөздіктерін құру.
Дипломдық жұмыстың зерттеу пәні: қазақ тілінен орыс тіліне машиналық
аудармадағы екі тілдік және бір тілдік сөздіктер.
Дипломдық жұмыстың мақсаты – аpertium платформасының негізінде қазақ-
орыс тілі бағытындағы машиналық аударманың лингвистикалық сөздіктерін
дайындау болып табылады.
Дипломдық жұмыстың мақсаты бойынша анықталған міндеттер:
• Қазақ-орыс тілі бағытындағы екі тілді сөздіктердің құрылуы;
• Қазақ-орыс тілі бағытындағы бір тілді сөздіктердің құрылуы;
• Сөз таптары бойынша сөздердің енгізілуі.
Зерттеудің ғылыми мәні: аpertium платформасы негізінде қазақ-орыс тілі
бағытында бір тілді және екі тілді сөздіктер құрылды.
Зерттеудің тәжірибелік мәні: бір тілді және екі тілді сөздіктердегі
сөздер енгізілуіне байланысты жеке-жеке аударылады.
Зерттеу жұмыстарында қолданылған кіріс деректері: екі тілді сөздік және
бір тілді сөздіктер.
1 Машиналық аударма
1.1 Машиналық аударманың даму тарихы
Аударманың ұзақ тарихы бар. Оның бастауы ата тіл жеке тілдерге ыдырай
бастаған және әртүрлі тіл қауымдар өкілдерімен қарым-қатынаста түсуде
арашашылардың рөлдеріндегі адамдардың бірнеше тілде сөз сөйлеу қажеттілігі
туындаған кезде жатыр.
Аударма ең басынан, адамдардың тіл-аралық қарым-қатынасына мүмкіндік
беретін ең маңызды әлеуметтік функцияны орындады. Жазбаша аудармалардың
таралуы басқа халықтардың мәдени табыстарын білуде кең мүмкіндік ашты.
Әдебиеттер және мәдениеттердің өзара әрекеттесуіне ықтимал жасады. [1]
Биографтардың куәлігі бойынша, XIX ғасырдың атақты математигі Чарльз
Бэббидж британдық үкіметті өзінің “есептеуіш машина” атты зерттеуін
қаржыландыру қажеттілігіне сендіруге тырысты. Ол бұл машинаның кейін ауызша
сөздерді автоматты түрде аудара алатынына уәде берді. Бэббидж компьютер
жұмысының негізінде көптеген идеялардың авторы болып танылғанымен, МА
қатысты уәдесін орындай және машинаны құрастыра алмады. Бүгінде бұл идея
қандай да бір дәрежеде іске аспаған болып саналады. Бірақ жаһандық байланыс
платформасы болып табылатын Internet-тің пайда болуына байланысты, қайтадан
көпшіліктің кең ықыласын және инвестицияларды қызықтырып отыр. [2]
Компьютерлер дүниеге келгеннен соң, бірер жылдардан кейін, 50-ші
жылдары МА бірінші бағдарламалары пайда бола бастады. ДК кең таралуына
дейін, МА есептеуіш техникада маңызды сала ретінде емес,ғылыми
зерттеулердің қызықты объектісі болып табылды. Ол екі себеп бойынша:
компьютерлік жұмыстар уақытының қымбатшылығы және оны қорлармен ұжымдық
пайдалану. Соңғы жағдай МА ең маңызды артықшылығы – жедел қимылдаушылық
қасиетін жоққа шығарып, дереу электронды көмекшіге жүгіне алмады.
МА дүниеге келуін 1947 жыл деп санау қабылданған, және бәрі Рокфеллеров
қорының жаратылыстану ғылымдары бөлімінің директоры Уоррен Уивердің хатынан
басталған. Сол жылдың наурыз айында Норберт Винерге жолдаған хатында,
аударманың мақсаты дешифрлеудің мақсатымен салыстырылған болатын. Сол кезде
соңғысы электромеханикалық құрылымдарда орындала бастаған еді.
Бұл хат артынан көптеген пікірталастар жиыны ерді, мақсаттар туралы
меморандум пайда болды, және әйтеуір, зерттеулерге қаражаттар бөлінген еді.
1952 ж. атақты математик Бар-Хиллел ұйымдастырған бірінші конференция өтті.
Конференцияда зерттеушілер семантиканы сипаттау тәсілдері, морфологиялық
құрылым, аударма жүйесі үшін сөздіктер құрылымы, тілдің семантикалық
ережелерінің жиынына қатысты ойлармен өзара бөлісті.
Академиялық зерттеулердегі табыстар МА мәселесіне коммерциялық жағдай
жасады, және 1954 жылы АҚШ-тағы Джорджтаун университетімен бірге IBM
фирмасы бірінші GAT жүйені көрсете алды. GAT(Джорджтаун автоматтандырылған
аудармасы) жүйесі 250 сөздерден және 6 синтаксистік ережелерден тұратын
сөздікке негізделген және 49 алдын ала таңдап алынған сөйлемдердің
аудармасын қамтамасыз ете алады. Бұл тәжірибе зерттеушілік шудың бастамасы
болды: келесі 10 жылда АҚШ үкіметі мен әскери мекемелері МА облысындағы
зерттеулерге 40 млн. доллар шамасында қаражат жұмсады. [3]
GAT жүйеcі кеңестік физиктер мен ядерщиктердің мәтіндерін орыс тілінен
ағылшын тіліне аудару үшін арналған болатын.
50-ші жылдардың аяғында Америка үкіметінің өтініші бойынша Й.Бар-Хиллел
Толық автоматты жоғарғы сапалы аударма машиналық аудармасының мүмкін
еместігне дәлелдер келтірген еді. Дәлел тұжырымның екі мәнділігінде
негізделген болатын. Келесі сөйлемді қарастырайық: Little John was looking
for his toy box. Finally he found it. The box was in the pen.
Pen сөзі 2 мағынаға ие болуы мүмкін: біріншісі – біз жазу үшін
қолданылатын нәрсе, екіншісі – нақты түрдегі бөлме. Адамға мағынасы, әрине,
түсінікті. Бірақ зерттеуші әмбебап анықтама көмегінсіз машина қойылған
есепті шеше алмайды деп тұжырымдады. Қазір мұндай семантикалық дәлсіздікті
машиналық аударма үшін, тек бір мағыналы сөздерден тұратын басқарылатын
тілде негізгі мәтінді жазу арқылы шешуге болады.
60-шы жылдары КСРО және АҚШ жүргізілген зерттеулер, орыс-ағылшын тілдік
жұбына негізделген болатын. Аударманың негізгі объектісі ретінде ғылыми
және техникалық құжаттар болды, мысалы ғылыми журналдардағы мақалалар.
Аударманың кедір-бұдір тұстары мақаланың негізгі көрінісіне кедергі
жасамады. Егерде мақалада қауіпсіздік жайлы сұрақтар талқыланса, онда
мақаланы аудармашыға дәл аударма үшін жіберетін болатын, егер қажеттілігі
жоқ болса, лақтырылатын болған.
1966 жылы ALPAC есептеу нәтижесі жарияланғаннан соң, машиналық аударма
облысында зерттеулерде үлкен соққы болды. Есепті АҚШ үкімет комиссиясы
құрған болатын және АҚШ ғылымдарының Ұлттық академиясы қолданбалы
лингвистика бойынша арнайы комитетімен (ALPAC) ұсынылған болатын. Оның
құрамына 1964 жылы АҚШ үкіметімен құрылған жеті ғалым кірді. АҚШ үкіметін
прогресс көлемі жобаны әзірлеу барысында жұмсалған шығындар көлемімен тең
келуі мазалады. Нәтижесінде машиналық аударманы адам арқылы жасалатын
аудармамен салыстырғанда, бағасы, жылдамдығы және дәлділігі жағынан артта
қалатынын айтты. Жақын арада машиналық аударма адам арқылы жасалатын
аударманың сапасына жете қоймас деп тұжырымдады.
Бірақ есептеу нәтижесі аудармашылар үшін қосалқы бағдарламалардың
дамытуы жайлы кеңес берді – мысалы, автоматты сөздіктерді – және
компъютерлік лингвистика облысында зерттеулерді қолдауды.
Есептеу нәтижесінің жариялануы Ресей мен Ұлыбританияға қарағанда үлкен
дәрежеде АҚШ машиналық аудармасының зерттеуіне әсерін тигізді. АҚШ
зерттеулері асып кетсе, он жылға тоқтатыла тұрды. Канада, Франция және
Германияда зерттеулер жалғаса берді. АҚШ-та Systran компаниясының негізін
салушылар(Питер Том) ғана зерттеулерін жалғастыды. [4]
Егер 60-шы жылдары нақты тілдік жұптар және енгізу міндетті болса, 70-
ші жылдары негізгі талаптар ретінде техникалық және коммерциялық
бағыттардағы мәтіндерді аудару қабілетіне ие, аз шығынды жүйелер болды.
Тек 80-ші жылдардың басынан бастап, ДК сенімді және қуатты түрде әлемді
жаулап ала бастағанда, олардың жұмыс уақытысы арзандады, әрине, оларды кез
келген уақытта қол жеткізуге болды. Ал бұл өз кезегінше МА экономикалық
түрде тиімді бола бастағанын білдіреді. Келесі жылдары бағдарламалардың
әбден жетілдіруі көптеген мәтіндерді айнытпай аударып бере алатын болды,
дегенмен МА байланысты кейбір мәселелер қазіргі таңда да шешілмеген болып
табылады.
80-ші жылдарда машиналық аударма үшін бағдарламалар саны да алуан
түрлілігі де үлкейді. Metal сияқты, әмбебап есептеуіш машиналар
технологияларына негізделген аудармашылық жүйелер қолданды.
Микрокомпьютерлер жарамдылығының үлкею нәтижесінде, машиналық
аударманың бюджеттік бағдарламалары нарықта пайда болды. Еуропа, Жапония
және АҚШ көптеген серіктестіктері осы мүмкіндікті пайдаланды. Жүйелер
КСРО, Шығыс Еуропа, Корея және Қытай нарықтарында көрсетілген еді.
80-ші жылдары Жапонияда машиналық аудармамен байланысты үлкен шу болды.
Бесінші ұрпақтың компьютерлері пайда болумен Жапония техника және
программалау облысында улкен мақсаттарды жоспарлады, ағылшын тіліне және
ағылшын тілінен аудару негізінде программаларды құрастыруға байланысты
көптеген компанияларды (Fujitsu, Toshiba, NTT, Brother, Catena, Matsushita,
Mitsubishi, Sharp, Sanyo, Hitachi, NEC, Panasonic, Kodensha, Nova, Oki)
қызықтырды.
80-ші жылдардағы зерттеулер морфологиялық, синтаксистік және
семантикалық талдаулар көмегімен лингвистикалық бірліктердің аудармасына
негізделген болатын.
80-ші жылдардың соңында машиналық аудармада қолданылатын әдістердің
сандары өсті. IBM компаниясы құрастырған жүйе статистикалық аудармасына
негізделген болатын. Басқа топтар кқптеген аудармалардың мысалдарына
негізделген әдісті қолданды,мұндай әдістер мысалдар негізіндегі машиналық
аударма деп аталады.Екі әдісті де анықтайтын сызығы семантикалық және
синтаксистік ережелердің жеткіліксіздігі болды.
90-шы жылдарды МА дамуының қайта туу дәуірі деп санауға болады, ол тек ДК
жоғары деңгейдегі мүмкіндіктерімен байланысты емес, сонымен қатар
сканерлердің және OCR бағдарламаларының пайда болуы, Интернетинтранет
(Internetintranet) кең таралуы МА деген нақты сұраныстардың артуына себеп
болды.Ол инвесторлар үшін капитал салатын салада, және де мемлекеттік
құрылымға да тартымды облысқа айналды.
МА технологиясы көптеген кемшіліктерден азап шегіп
жатқандықтан,көптеген ұйымдар Бэббидждің уәдесіне байыппен қарай бастады.
Машинаық аударма әбден жетілген жоқ, дегенмен әрбір қалаушы оның көмегімен
құжаттыі негізгі мағынасын түсіне алады, - деп, Alta Vista технологиялық
директоры Луи Монье санайды, ауқымды Web-түйінді іздестіруін, МА-мен
тәжірибені онлайндық режимде бастаған.
МА мәселелері АҚШ глобалді ақпараттық кеңістікте бәсекеге түсе алатынын
қамтамасыз етуде және жоғарғы технологиялардың дамуында кілттік сұрақ
ретінде қарастырылады. [5]
XXI ғасыр адамзаттың ақпараттық кеңістігінде жаңа есептерді қойып
жатыр. Жаппай ақпараттың арқасында аударманың адамзаттың өміріне деген ролі
артып келеді. Бүгінде аудармалық байланыстар адамзат қызметтерінің бүкіл
дерлік аумағын қамтып жатыр. Ақпараттық ағынның қозғалысы шекараны, не
уақытты, не кеңістікті білмейді.
Қазіргі заманның шексіз алуан түрлілігі ақпарат құралдарының және
халықаралық ақпараттық процесстердің көптеген қатысушыларының-
журналисттердің, корреспонденттердің, комментаторлардың,
телеоператорлардың көмегімен беріліп отыр. Сондықтанда аудармашылық
қызметтердің мәні тұрақты өсіп жатыр, және олармен бірге аудармашылық
мәселелер пайда болып жатыр. Тіл мәселелердің асқынуы жаңа шешімдерді
іздестіруге салады. Егер бұрын аудармашылық қызмет тек көркем әдебиет
аудармасымен байланыста қаралса, енді қазір арнайы – ақпараттық,
экономикалық, заң, техникалық және жарнамалық сипаттағы мәтіндердің
аудармасы көлемі және әлеуметтік мәні бойынша маңызды орында тұр.
Кибернетиканың дамуы машиналық аударманың дүниеге келуіне септігін
тигізді. Қазіргі таңда аудармашының еңбегін жеңілдететін арнайы
бағдарламалардың кең түрлері бар.
1.2 Машиналық аударманың түрлері
Қазіргі уақытқа машиналық аударма жүйесінің үш түрі бар:
• Грамматикалық ережелерге негізделген жүйелер (Rule-Based Machine
Translation, RBMT);
• Статистикалық жүйелер (Statistical Machine Translation, SMT);
• Гибридты жүйелер(Hybrid Machine Translation, HMT);
Ережелерге негізделген машиналық аударма (RBMT, Rule - based Machine
Translation) дегеніміз – нақты тілдердің грамматикалық ережелерінің
талдауына және сөздіктік ақпаратқа негізделген технология. Мұндай жүйелер
екі табиғи тілдің (морфологиялық, грамматикалық және семантикалық
мәліметтерден тұратын екі тілдік сөздіктер және басқа деректер қорлары)
лингвистикалық сипаттамаларының, формальді грамматика және аударма
алгоритмдері негізінде құрылады. Аударма сапасы лингвистикалық деректер
қорының және табиғи тілдерді сипаттау көлемдерінен тәуелді, кіріс және
шығыс тілдерінің грамматикалық құрылымдары ерекшеліктерінің максималды
санын есепке алу қажет. [16]
Rule – based жүйесінің екі типі бар:
• Transfer түрі бойынша жүйелер – кіріс тілдің мәтінінің морфологиялық,
синтаксистік және семантикалық талдауын болжайды;шығыс тілдің құрылымын
өрнектейді (TRANSFER); шығыс тіл мәтінінің синтезі;
• Interlingua түрі бойынша жүйелер – метатіл терминдерде кіріс тілдің
талдауын болжайды және шығыс тілде мәтін метақұрылымының синтезі.
RBMT – жүйесінің артықшылықтары:
• Синтаксистік және морфологиялық дәлдік;
• Нәтиженің тұрақтылығы мен болжалдылығы;
• Пәндік аймақты күйге келтіру мүмкіндігі.
RBMT – жүйесінің кемшіліктері:
• Құрастырудың қиындығы мен ұзақтығы;
• Лингвистикалық деректер қорын актуалдау және қолдау қажеттілігі.
Rule – based технологиясына негізделген машиналық аударма жүйесін
өндірушілер-серіктестіктеріне PROMT, Systran, Linguatec жатады. [16]
Статистикалық машиналық аударма (Statistical Machine Translation, SMT)
дегеніміз – технология екі тілді мәтіндер жиынтығынан алынған деректерді
қолдану арқылы жасалған сөйлемнің ең ықтимал болатын аудармасын
іздестіруінде негізделген. Мұндай аударма жүйелері параллелді мәтіндердің
үлкен көлемді корпустарын салыстыру негізінде құрылады. Параллелді
мәтіндердің корпусы – бұл бір тілдегі сөйлемдері бар және сәйкес
сөйлемдерді екінші тілде қамтитын мәтіндер. Статистикалық машиналық аударма
өздігінен үйрету қасиетіне ие: параллелді корпустар көбірек және олардың
сәйкестігі дәлірек болса, статистикалық машиналық аударманың нәтижесі
жақсырақ болады. [16]
SMT - жүйесінің артықшылықтары:
• Аударманың тегістігі;
• Параллелді корпустардың жеткілікті санында құрастыру жеңілдігі;
• Технологиялардың кез келген тілдік жұптарға тасымалданғыштығы.
SMT - жүйесінің кемшіліктері:
• Табиғатта параллелді корпустардың шектеулігі;
• Морфология және синтаксисті орындау білместігі;
• Мәліметтерді бұрмалау(қайталау, рұқсатнама, мәліметті ауыстырып
жіберуі).
Статистикалық машиналық аударма жүйелерінің өндірушілер-
серіктестіктері: PROMT, Google, SDL Language Weaver, Microsoft, IBM Asia
Online,. [16]
Hybrid Machine Translation (Гибридті машиналық аударма, HMT) дегеніміз
– SMT және RBMT технологиялары өзіндік кемшіліктері мен қиыншылықтарына ие
болғандықтан, сонымен қатар өзіндік дамудың нақты шегіне жеткендіктен, МА
қатысты шешімдер құрастырушылары аударманың гибридті технологиясын
құрастыру есебінен технологиялық жарып шығуға үміт артып жатыр. [16]
Бұл технология RBMT және SMT әдістерін қосарлануда негізделген . Мұндай
тұрғы екі технологияның күшті тұстарын алуғы мүмкіндік береді. (RBMT
бойынша аударуда грамматикалық дәлдік және SMT бойынша аударманың
тегістігі).
Гибридті технология негізіндегі машиналыұ аударма жүйелерінің
өндірушілер-серіктестіктері: Systran PROMT.
Гибридті жүйе статистикалық жүйе сияқты параллелді деректерге уйрену
үрдісінен өтеді. Үйренуді үш кезеңге бөлсе болады:
• Параллелді корпустың бастапқы бөлігінің аудармасы негізгі тілде базалық
RBMT-модулі арқылы орындалады;
• Машиналық тілден адами тілге аударудың статистикалық моделі
келтіріледі;
• Аударма тілінің корпусы негізінде статистикалық модел келтіріледі.
Гибридті жүйелерді үйрету схемасы 1.1 суретінде көрсетілген.
Сурет 1.1 – Аударманың гибридті жүйесін үйрету сызбасы
PROMT гибридті жүйесі екі негізгі компоненттен тұрды: аударманың
базалық RBMT – модулі және үйрену кезеңінде алынған деректерді
қолданатын(аударманың статистикалық моделі, мақсатты тілдің статистикалық
моделі) теріп-түзетудің статистикалық модулі. Аударма кезінде алдымен
негізгі сөйлем базалық модуль арқылы аударылады,сосын алынған аударма
статистикалық компонент арқыла өңделеді, іс жүзінде бұл кезеңде машиналық
аударманың статистикалық ережелері бойынша машиналық тілден адами тілге
аударма жүзеге асырылады. Гибридті жүйенің аударма үдерісі 1.2 суретінде
көрсетілген.
Сурет 1.2 – Гибридті жүйеде сөйлемді аудару үдерісі
Машиналық аударма жүйелерінен басқа, жұмыстар қағидасы Translation
Memory технологиясына негізделген бағдарламалар бар. [14]
Аудармалардың жады (Translation Memory, TM) дегеніміз – сөйлемдерде жиi
кездесетін екі тілді базалар. Технология негізінде бір мәтінді екі рет
аудармау қағидасы бар.
Технология алдын ала жасалған аудармалар базасында сақталған
деректерден аудару керек құжаттарды салыстыруда негізделеді. Жалпы мәтін
массивінде жүйе алдын аударылған сегменттерді табады және Translation
Memory аудармалар базасынан аударманы алады.
ТМ жүйeci мәтіннің ұқcac бөліктерің қайталап аудару мүмкіндігін
береді. Сегменттің аудармасы тек қана бір рет аудармашымен іске асады, ал
содан соң әрбір келесі сегмент мәліметтер қорымен (толық немесе айқын емес)
ұқсастығын, сәйкестігін тексереді, eгeр ұқсас не сәйкес сегмент табылса
онда ол аударма түпнұсқасы ретінде ұсынылады.
Қaзiргi уaқытта ТМ жүйелерін жетілдіру бойынша әзірлеулер жүргізіліп
жатыр. Мысaлы, Transit жүйесінің өзeгi Star фирмасының нейрондық желілер
технологиясы негізінде жүзеге асырылған.
ТМ жүйелердің өз артықшылықтары мен кемшіліктері бар, және өзінің
қолдану аймағы бар. Бiрақ TM жүйелерінің негізгі кемшілігі олардың
қымбатшылығы болып отыр.
TM жүйелерінің өндірушілер-серіктестіктері : PROMT, SDL Trados, Atril
(Déjà Vu жүйелері), OmegaT.
Бір үлгідегі құжаттаманың үлкен көлемдерін аудару үшін TM және МТ
технологияларын бірге қолдану қабылданған, себебі олардың әрбірі ортақ
есептер шеңберінде әртүрлі төменгі есептерді шешеді: TM базасы алдын
аударылған контентті алмастыру және шығаруды қамтамасыз етеді, ал МТ
көмегімен жаңа контенттің аудармасын жүзеге асырады.
Аудармалар жадының және машиналық аударманың ерекше белгілері 1-кестеде
келтірілген. [16]
Кесте 1 – Аудармалар жадыны және машиналық аударманы салыстыру
Шешімі Артықшылықтары Кемшіліктері
Translation Memory 1.Алдын жасалған 1. Базаларды алдын ала
аудармаларды қайта толтыру қажет.
қолдану. 2. Қайтадан қолдану
2.Теріп-түзетудің аударылатын контент
төменгі көлемде қажет.пен ТМ базасының
ұқсастығына тәуелді;
жаңа контентті аудару
мүмкін емес.
Машиналық аударма(МТ)1.Жаңа контентте 1.Жоғары тиімділік
қолданыла аладын. (теріп-түзетудің
2.Жоғары жылдамдық. төменгі көлемі) үшін
алдын ала баптау
қажет.
2. Аударма сапасы мен
баптауы негізгі мәтін
сапасына байланысты.
TM + MT Теріп-түзетудің ең
төменгі көлемімен кез
келген контентті
аударудың жоғары
жылдамдығы.
2 Apertium машиналық аударма жүйесі
Apertium – бұл машиналық аударма жүйесі. Дәлірек айтсақ, Apertium – бұл
машиналық аударма платформасы. Ол өзіндік машиналық аударма жүйелерін
құруға мүмкіндік беретін құралдардан тұрады. Базалық деңгейде жүйе үш
сөздіктен және ережелерден тұрады, олар негізгі тілден мақсатты тілге
аудару кезінде грамматикалық трансформацияны қамтамасыз етеді. Бұл ашық
(еркін) программалық жабдықтама және ол тегін түрде GNU GPL шарттары
бойынша әзірленеді. [14]
Apertium OpenTrad жобасының көлемінде машиналық аударма құралы ретінде
пайда болды. Бастапқы кезде тек қана тектес тілдерді аударуға арналған,
бірақ уақыт өте келе жүйенің мүмкіндіктері кеңейіп, тектес емес тілдерді
арасында мәтіндер аударыла бастады. Жаңа автоматты аударма жүйесін жасау
кезінде XML форматында лингвистикалық базаны (сөздіктер, ережелер) құру
керек. [14]
2004 жылы қазанда Испанияның өнеркәсіп министрлігі Испания тідері үшін
машиналық аударманың тегін қолжетімді жүйесін құруға ақшалай қаржы бөледі:
• EHU, UA, UPC, UVigo университеттері;
• Eleka, Elhuyar, Imaxin Software фирмалары.
Сөзбе сөз аудармаға негізделген
Егер тілдер жақын-туыстас болса, сөзбе сөз аударма жиі 80% нәтиже
береді.
Келесілерді қолдану арқылы, сөзбе сөз аудармаға сүйене аламыз:
• Толық лексикалық өңдеу (мысалы, символдар және сөз тіркестеріне
ажырату);
• Көп мәнділіктің лексикалық дәрежесі (мысалы, маркалаушы сөз таптары);
• Жергілікті құрылымдық өрнектеулер (мысалы, келісу, сөздердің орналасу
ретінің өзгерісі).
Туыстас емес тілдер үшін біз минимум дегенде мәтіннің мағынасын беретін
ұқсас үлгіны құрастыра аламыз.
Машиналық аударманың бір қозғағышын движок бірнеше тілдік жұптарға
құру мүмкіндігі:
• Арнайы программалау тілдерін білу қажет емес;
• Жүйе лингвистикалық ережелердің жай сипаттамалары арқылы құрылуы мүмкін
(сөздіктер,маркерлеу ережелері, тасымалдау ережелері);
• Мәліметтер өзара әрекеттесетін қалыпта жазылуы керек (XML). [14]
2.1 Apertium платформасының құрылымы
Apertium платформасының құрылымы 2.1 суретінде көрсетілген.
Сурет 2.1 – Apertium платформасының құрылымы
Форматқа келтіруді басқару:
• Форматқа келтіруге қатысты ақпараттан мәтіннен бөліп алу;
• Қазіргі таңда HTML, RTF, ODF, OpenOffice.org, DocX және т.с.с жай
мәтіндік редакторлар қолжетімді.
Деформатор жұмысы үшін:
$ echo ”emköpekem” apertium-deshtml [em]köpek.[][ nem]
Деформатор жұмысы үшін:
$ echo ”emköpekem” apertium-deshtml apertium-rehtml
emköpekem
Форматқа келтіруді басқару 2.2 суретінде көрсетілген. [14]
Сурет 2.2 – Форматқа келтіруді басқару
Морфологиялық талдау:
• Түпкі мәтінді беттік формаларға бөледі (SFs);
• Әрбір формаға қосымша бір немесе бірнеше лексикалық форманы қосымша
жазып береді.
Морфологиялық анализатордың (hfst-proc) жұмыстарының орындалуы:
$ echo ”пахчара” hfst-proc cv-tr.automorf.hfst
ˆпахчарапахчаnlocпахчаnpx2pldat$
Морфологиялық анализатордың (lt-proc) жұмыстарының орындалуы
$ echo ”саду” lt-proc ru-sh.automorf.bin
ˆсадусадnmnnsgnomсадn mnnsgacc$
Морфологиялық талдау 2.3 суретінде көрсетілген. [14]
Сурет 2.3 – Морфологиялық талдау
Морфологиялық бір мәнді еместіктердің шешімі:
• Әрбір беттік формаға сай бір лексикалық форма таңдайды;
• Марковтың жасырын модельдер және қолдан жазылған морфологиялық көп
мәнділіктің шешімінің комбинациясын қолданады.
(cg-proc) маркалаушының жұмыстарының орындалуы:
$ echo ”Все эти регионы являются частью Европейского союза.” lt-proc
ru-sh-automorf.bin cg-proc ru-sh.rlx.bin
ˆВсеВесьdetindmfnplnom$
ˆэтиэтотdetdemmfnplnom$
ˆрегионырегионnmnnplnom$ ...
Морфологиялық бір мәнді еместіктердің шешімі 2.4 суретінде
көрсетілген.[14]
Сурет 2.4 – Морфологиялық бір мәнді еместіктердің шешімі
Лексикалық тасымалдау:
• Әрбір лексикалық форманы лайықты аударма тілдің лексикалық формасына
түрлендіреді;
• ХML-ге екі тілден алынған ақырғы түрлендіргіштерді өрнектейді.
Лексикалық тасымалдаудың орындалуы:
$ echo ”Әхмәт һәм Гөлнара бакчада.” hfst-proc tt-ba.automorf.hfst cg-
proc
tt-ba.rlx.bin apertium-tagger -g tt-ba.prob lt-proc -b
tt-ba.autobil.bin
ˆӘхмәтnpantmnomӘхмәтnpa ntmnom$
ˆһәмcnjcooһәмcnjcoo$
ˆГөлнараnpantfnomГөлнараn pantfnom$
ˆбакчаnlocбаҡсаnloc$
Лексикалық тасымалдау 2.5 суретінде көрсетілген.
Сурет 2.5 – Лексикалық тасымалдау
Лексикалық іріктеу:
• Контекст бойынша әр тілдік жұпқа сай аударманы таңдайды;
• XML формада жазылған ережелер ақырғы түрлендіргішке компиляцияланған.
Лексикалық іріктеудің орындалуы (apertium-lrx-proc):
$ echo ”Minä pidän sinusta.” hfst-proc
fin-sme.automorf.hfst cg-proc fin-sme.rlx.bin
apertium-tagger -g fin-sme.prob lt-proc -b
fin-sme.autobil.bin apertium-lrx-proc fin-sme.lrx.bin
ˆMinäPronPersSgNomMunPron PersSgNom$
ˆpitääVIndPrsSg1liikotV IndPrsSg1$
ˆsinäPronPersSgEladonPron PersSgEla$
Лексикалық іріктеу 2.6 суретінде көрсетілген.
Сурет 2.6 – Лексикалық іріктеу
Құрылымдық тасымалдау:
• Ережелер шаблонға әрекет формасына ие;
• Солдан оңға қарай фразаларды талдау стратегиясын қолдана отырып, өңдеу
қажет, маңызды лексикалық формалардың үлгілерін айқындайды;
• Аударма тіліне сай лексикалық форманы құрудың шаблондық әрекет
ережелерін бұйрық берілген файлдармен орындайды.
Сурет 2.7 – Құрылымдық тасымалдау
Құрылымдық тасымалдың орындалуы:
$ echo ”Әхмәт тиз генә иске зур бер агачка йөгерә, аның артына
Гөлнарадан яшеренә.” ... apertium-transfer -b
apertium-tt-ky.tt-ky.t1x tt-ky.t1x.bin
apertium-interchunk apertium-tt-ky.tt-ky.t2x tt-ky.t2x.bin
apertium-postchunk apertium-tt-ky.tt-ky.t3x tt-ky.t3x.bin
ˆАкматnpantmnom$ ˆэскиadjpst$ ˆчоңadjpst$
ˆбирdetind$ ...
Морфологиялық генерация:
• Беттік форманы құрады;
• Әрбір сөз формасының сәйкес өзгерісінен соң, ақырғы түрлендіргіштерді
генерацияланған морфологиялық сөздікке жүктейді.
Сурет 2.8 –Морфологиялық генерация
2.2 Жүйені құрудағы дәстүрлі модельдері
Apertium-да жүйені әзірлеудің әртүрлі тұрғылары көрсетілген, бірақ біз
қолданатын және жетілдіретін – ол жүйенің қоғамдық дамулары. Келесі
дәстүрлі модельдерді қарастырайық:
• Коммерциялық: Компания жүйені құрады және кәдімгі жолмен жұмыс
лицензиясын сатады.
• Үлкензерттеу: үлкен қауымдастық немесе өңдеушілердің тобы жүйені құрып
және оның қолданысы үшін ақша алып отырады;
• Кішігірім зерттеу: кішігірім адамдар тобы жүйені құрып және оны
университет сайтына қойып қояды. Олар мұны зерттеуші бірақ коммерциялық
емес жоба екенін ескеріп кетеді.
Бір адам: мұғалім не студент немесе қызыққан адам жүйені құрып және оны
коммерциялық емес мақсатта жариялайды. Жоғарыдағы модельдермен
салыстырғанда, бұл модель айырмашылығы келесі сипаттамаларға ие:
• Клиентк бағытталғын: қолданушылар қажеттілігін ойлау;
• Ашықтық: лингвисттер дербес өңдеушілер, ұйымдар; оқу мекемелер;
студенттер. [14]
2.3 Eсeптердің қойылымы
Аpertium платформасының негізінде қазақ-орыс тілі бағытындағы машиналық
аударманың лингвистикалық сөздіктерін дайындау барысындағы есептердің
қойылымы:
• Қазақ-орыс тілі бағытындағы екі тілді сөздіктерді құру;
• Қазақ-орыс тілі бағытындағы екі тілді сөздіктерді құру барысында
трансферлік ережелермен танысу;
• Қазақ-орыс тілі бағытындағы екі тілді сөздіктерге етістік сөз табын
енгізу;
• Қазақ-орыс тілі бағытындағы екі тілді сөздіктерге жіктеу есімдігін
енгізу;
• Қазақ-орыс тілі бағытындағы бір тілді сөздіктерді құру;
• Қазақ-орыс тілі бағытындағы бір тілді орыс тілі сөздігін құру;
• Сөзіктерді құру барысында элементтерді және парадигмаларды сипаттау;
• Қазақ-орыс тілі бағытындағы бір тілді қазақ тілі сөздігін құру;
• Бір тілді қазақ тілі сөздігін құру барысында сөз таптарын ерекшеліктері
бойынша енгізу.
3 Жаңа тілдік жұп құру
Біздің жүйемізде сөздіктердің 3 түрі бар: әрбір тіл үшін морфологиялық
(бір тілді) сөздіктер; әр түрлі қос тілдер үшін екі тілді сөздіктер, және
әрбір тіл үшін пост-генераторлық сөдіктер (пост-генераторлық сөздіктер
әдеттегі леммалар мен морфологиялық ақпараттан тұратын сөздік емес,
сөздердің өзара әрекеттесуі кезінде туындайтын орфографиялық өзгерістері
бар кішкене сөздік болып табылады). [11]
Морфологиялық сөздіктер морфологиялық талдаушыларды құру үшін
қолданылады — негізгі нақты сыртқы форма үшін мүмкін болатын барлық
лексикалық формаларды алу қолданылатын аударма жүйесінің модулі; және де
морфологиялық генераторларды — мақсатты тілде әр сөздің лексикалық
формаларынан сыртқы формалар құратын модульдер. Бұл екі модульдер бір
морфологиялық сөздіктен бағыт бойынша генерацияланады: солдан оңға
(талдаушыларды құрғанда), және оңнан солға(генераторларды құрғанда).
Бұл сөздіктердің типтік блок-құрылымы келесідей:
• Әліпбиді анықтау. Бұл анықтама морфологиялық талдаушыларды құру үшін
қолданылады; сонымен қатар, ол талдаушыға белгісіз сөздерді және де
сөздіктің шартты бөлімдерінде орналасқан сөздерді лексемаларға бөуге
мүмкіндік береді; морфологиялық генераторлар бұл анықтауда
қажетсінбейді;
• Символдарды анықтау. Ол сөздік мақалаларында қолданылатын грамматикалық
символдар декларациясынан тұрады;
• Парадигмаларды анықтау. Парадигмалар сөздіктердің бөлімдерінде немесе
басқа парадигмаларда алғышартпен қолданысы анықталады;
• Сөздіктің шартты токенизациясымен бір немесе бірнеше бөлімдері.
Сөздіктен сөздердің көпшілігін бүркеуі;
• Сөздіктің шартсыз токенизациясымен бір немесе бірнеше бөлімдері.
Нақтылы типті құрылымды сөздерді немесе тікелей олардан кейін мәтінді
есепке алусыз токенизациялануға тиісті сөздерді қосу үшін.
Екі тілді сөздіктер жүйеде лексикалық трансферлер процессін
көрсетедеі, яғни мақсатты тілдің лексикалық формасын негізгі тілдің
лайықты лексикалық формасына тағайындау. [11]
Жүйемен оқылған сөздікте екі тілді сөздіктен бағытқа байланысты екі
өнімде шығарылады. Сөздік солдан оңға оқылғанда, бір бағытты аударма үшін
лексикалық трансферлердің модулін, ал оғнан солға оқылған кезде, басқа
бағыт үшін аламыз.
Екі тілді сөздіктердің құрылым келесідей:
• Символдарды анықтау. Ол сөздік мақалаларында қолданылатын грамматикалық
символдар декларациясынан тұрады;
• Жалғыз меншікті сөздік бөлімі. Онда аударма сәйкестіктері көрсетіледі.
Пост-генераторлық сөздіктер мақсатты тілде сыртқы формалар жасалған соң
және олардың өзара әрекеттесуі басталған соң кейбір өрнектеулерді орындау
үшін қолданылады (емле өзгерістері, апострофтардың қосу және т.б.).
Бұл қызмет символдық жолдардың трансляциясы ретінде бейнеленуі мүмкін
болғандықтан,сол сөздіктің түрін қолдану шешілді.
Бұл сөздіктерде парадигмаларды анықтау сөздердің өзара әрекеттесу
құбылыстарында жүйелі өзгерістерді өрнектеу үшін пайдалы. Басқа
сөздіктердің түрлерінен айырмашылығы, олар грамматикалық символдарды
қоспайды, себебі тек қана сыртқы формаларды түрендіреді. Пост-генераторлық
сөздіктердің құрылымы келесідей:
• Парадигмаларды анықтау. Оларды сөздік мақалаларында қолдану үшін;
• Сөздік бөлімі. Пост-генерация бойынша операциялар үлгілері сипатталады.
[11]
Апертиум машиналық аударманың беттік-трансферлік типіне жататын жүйе.
Демек, негізі беттік-трансферлік сөздіктермен және ережелерімен жұмыс
жасайды. Тәжірибеде беттік трансфердің тереңнен айырмашылығы, онда
сөйлемнің толық синтаксистік талдауы орындалмайды, ал ережелердің
синтаксистік талдау ағашындағы оперциялардан айырмашылығы, ол лексикалық
бірліктер топтарымен жасайтын операцияларды көрсетеді. Бұл сөздіктер үшеу:
Қазақ тілі үшін морфологиялық сөздік: қазақ тіліндегі сөздерді
өзгерту(септеу немесе жіктеу) жайындағы ақпарат:
• (apertium-kaz.kaz.lexc)
Орыс тілі үшін морфологиялық сөздік: ол өз кезегінде орыс тіліндегі
сөздерді өзгерту(септеу немесе жіктеу) жайлы ақпарат қамтиды:
• (apertium-rus.rus.dix)
Қазақ-орыс екітілді сөздігі: екі тілдің символдар және сөздердің сәйкес
аудармасын қамтиды:
• (apertium-kaz-rus.kaz-rus.dix)
Қазақ тілінен орыс тіліне трансферлік ережелері: бұл ережелер қазақ
тілін орыс тіліне аударғанда, қандай өзгерістерге ұшырайтынын
сипаттайды.Біздің мысалда бұл келесі файл:
• apertium-kaz-rus.kaz-rus.t1x
Орыс тілінен қазақ тіліне трансферлік ережелері: бұл ережелер уу тілін
хх тіліне аударғанда, қандай өзгерістерге ұшырайтынын сипаттайды.Біздің
мысалда бұл келесі файл:
• apertium-kaz-rus.rus-kaz.t1x
Көптеген тілдік жұптарда басқа да файлдар бар. Олар функционалды жүйе
құру үшін қажет.
Жалғастырмас бұрын, бірнеше терминдердің мағынасын айқындап алған жөн.
Лемма– бұл сөздің канондық формасы. Мысалы, был сөзінің леммасы –
будеть болады. Ал, орыс тіліндегі етістіктер үшін сөз леммасы – инфинитив
формасы болады. Мысалы, был сөзінің леммасы – будеть болады. Орыс және
қазақ тілдерінде зат есімнің леммасы сол сөздің жекеше түрдегі, атау
септігіндегі формасымен сәйкес келеді.
Екінші тоқталатын терминіміз – символдар. Apertium модулінде символдар
бұрыштық жақшаларға алынады. Мысалы:
• n — зат есімдер үшін;
• pl — көпше түр үшін;
• sg — жекеше түр үшін,
• p1 — бірінші жақ;
• pri — ашық райдың осы шағы.
Символдар sdef тәгтерінде анықталады және s тегтерінде қолданылады.
[15]
Келесі термин парадигма деп аталады. Apertium жүйеі контестінде
парадигмаар сөздер тобының септеужіктеу мысалы болып табылады.
Морфологиялық сөздікте леммалар парадигмаларға сілтеме жасап отырады, бізге
мүмкін болатын қосымшалардың барлығын жазу қажеттілігісіз бұл леммалардың
барлық формасын көрсете алады. Парадигманы қолданудың мысалы ретінде келесі
қызмет көрсете алады. Имбирь және кисель сын есімдерін сөздікке енгізгіміз
келсе, бірдей қосымшалар орнына:
• имбирь, имбир;
• кисель, кисел;
біз имбирь сөзінің қосымшаларын жазып, сосын " кисель сөзі имбирь сөзі
секілді өзгереді" деп, немесе "щавель сөзі имбирь сөзі секілді өзгереді ",
"ревень сөзі имбирь сөзі секілді өзгереді ", "нашатырь сөзі имбирь сөзі
секілді өзгереді " және т.с.с.. Бұл мысалда имбирь парадигма, яғни басқа
сөздер үшін өзгеріс үлгісі болады. Парадигмалар pardef тегтерінде
анықталады және рar тегтерінде қолданылады. [15]
3.1 Бір тілді орыс тілі сөздігі
Орыс тілдің бірінші сөздігін құрудан бастайық. Сөздік XML-файл болып
табылады:
?xml version="1.0" encoding="UTF-8"?
dictionary
dictionary
Сөздіктің dictionary элементі. Бұл түбірлік элемент, және ол өзіне
барлық сөздікті қосады. Ол алфавиттық символдардың анықтамасынан, сөздердің
морфологиялық тәгтері болып табылатын символдардың анықтамасынан, флекті
парадигмалардың және сөздіктің бір немесе бірнеше бөлімдердің
анықтамаларынан тұрады. Олар лексикалық формалы (сыртқы форма-лексикалық
форма жұптарынан тұратын) сөздікті мақалалардан тұрады. [11]
Енді файл біздің сөздік жасауды бастағымыз келгенін анықтап жатыр. Бұл
файл көп пайдалы болу үшін, біз оған әлі бірнеше жазбалар қосуға тиіспіз,
бірінші әліпбиден бастаймыз. Ол орыс тіл үшін сөздікте қолдана алатын
әріптердің жиынын анықтайды. Ол төменде көрсетілгендей орыс әліпбинің балық
сөздерін қамтиды. [15]
alphabetАБВГДЕЁЖЗИЙКЛМНОПРСТУФХЦЧ ШЩЪЫЬЭЮЯабвгдеёжзийклмнопрстуфхцчшщ ъы
ьэюяalphabet
Сөздіктің alphabet элементі. Ол әліпбидің символдар спецификациясы
үшін қолданылады. Бұл спецификация мақсаты модульдерге символдық
түрлендіргіштер көмегімен енгізу және бөлек сөздерді токенизациялауға
мүмкіндік беру. [11]
dictionary тегінен соң әліпбиді қосамыз.Бұдан әрі бізге бірнеше
символдарды анықтау қажет. Жекеше (sg) және көпше (pl) түрдегі зат есім (n)
сияқты қарапайымдардан бастайық.
sdefs
sdef n="n"
sdef n="sg"
sdef n="pl"
sdefs
sdefs символдарды анықтау бөлімі үшін арналған элемент.
Ол сөздікте (sdef) барлық символдардың анықтамаларын біріктіреді. [15]
Символды анықтау үшін арналған sdef элементі. Ол бос элемент боп
келеді:n атрибутының мәні негізінде, лексикалық формаларды морфологиялық
тұрғыда белгілеу үшін сөздікте қолданылатын грамматикалық символдардың
атауын нұсқау үшін қолданылады. [11]
Символдардың аттары міндетті түрде қысқаша болуға тиіс емес, оларды
тіпті толық жазуға болады, бірақ мұны көп істек керек болған
соң,қысқартудың мәні бар.
Өкінішке орай, барлығы оңай емес, орыс тілінде сөздердің көптік және
жекеше түрде тұрғанын анықтап қана қоймай, сонымен қатар, септік және род
санаттары бар. Біздің мысалымыз үшін сөзді мужской род –та тұрған атау
септігіндегі зат есім деп аламыз. Келесі қадамда парадигмалар бөлімін
анықтаймыз:
pardefs
pardefs
және сөздік бөлімін:
section id="main" type="standard"
section
Сөздік бөлімі үшін арналған section элементі
Ол сөздікпен айырылып танылатын сөздерді қамтиды. Сөздікті бөлімдерге
ажыратудың себебі, кейбір формалар - мысалы, анықталған регулярлы
құрылымдардың идентификациялануынан кейін түсетін немесе нақты диалектте
жататын (ерекше) өңдеуді қажетсінеді. [11]
Сөздікте бөлімдерді қолдану мәселесінің шешімі морфологиялық талдау
шеңберіндегі токенизация рәсімі болып табылады. Формалардың көпшілігі
шартты белгі бойынша токенизацияланады: өңделетін символдан соң әліпби
емес, яғни анықталмаған alphabet символ болса, идентификациялау жүреді.
type атрибутының мағынасы сөздіктің әрбір секциясы үшін қолданылатын
токенизация түрін өрнектеу үшін қолданылады. Бұл атрибуттың мүмкін болатын
мәндері: standard, сөздіктің барлық формалары үшін дерлік (токенизацияның
шартты режимі), postblank, шартсыз токенизацияны және бос орынды қойдыруды
талап ететін формалар үшін, және inconditional қалған шартсыз токенизацияны
талап ететін формалар. [11]
id атрибуты сөздіктің бөлімдеріне атау тағайындау үшін қолданылады.
Бөлімдердің екі түрі бар. Бірінші — стандартты бөлім, ол сөздерді,
энклитикаларды қамтиды және т.б. Екіншісі — тыныс белгілерін және т.с.с
қамтитын сөзсіз бөлім. Біздің бөлімде сөзсіз бөлім жоқ.
Біздің файлымыз осылай көрінетін болады:
?xml version="1.0" encoding="UTF-8"?
dictionary
sdefs
sdef n="n"
sdef n="sg"
sdef n="pl"
sdefs
pardefs
pardefs
... жалғасы
МЕХАНИКА-МАТЕМАТИКА ФАКУЛЬТЕТІ
АҚПАРАТТЫҚ ЖҮЙЕЛЕР КАФЕДРАСЫ
Қазақ тілінен орыс тіліне машиналық аударудың лингвистикалық сөздіктерін
Apertium платформасының негізінде жасау тақырыбына жазылған
ДИПЛОМДЫҚ ЖҰМЫС
Орындаған ____________________ Адильбекова А.Ж.
(қолы)
Ғылыми жетекші, ____________________ Сапакова С.З.
ф.-м.ғ.к., доцент (қолы)
Норма бақылаушы ____________________ Жуманов Ж.М.
(қолы)
Қорғауға жіберілді:
Кафедра меңг.м.а, ____________________ Есенгалиева Ж.С.
PhDдоктор (қолы)
Алматы 2015
Реферат
Дипломдық жұмыс 67 беттен, 25 суреттен, 6 кестеден, 16 әдебиеттен
тұрады.
Кілттік сөздер: МАШИНАЛЫҚ АУДАРМА, APERTIUM ПЛАТФОРМАСЫ, БІР ТІЛДІК
СӨЗДІК, ЕКІ ТІЛДІК СӨЗІК, НЕГІЗГІ ТІЛ,МАҚСАТ ТІЛ, МАШИНАЛЫҚ АУДАРМА ЖҮЙЕСІ,
МОРФОЛОГИЯЛЫҚ СӨЗДІК, ПАРАДИГМАЛАР, СӨЗДІК МАҚАЛАСЫ, СӨЗ ТАПТАРЫ.
Дипломдық жұмыстың зерттеу нысаны: қазақ-орыс тілі бағытындағы
машиналық аударманың лингвистикалық сөздіктері.
Дипломдық жұмыстың мақсаты: қазақ-орыс тілі бағытындағы машиналық
аударманың лингвистикалық сөздіктерін дайындау.
Дипломдық жұмыстың зерттеу әдістері: морфологиялық сөздіктерді құру
әдісі, сөз таптарын тәгтеу.
Дипломдық жұмыс нәтижесі: сөздік құрамы толықтырылды, екі тілдік
сөздіктерде қазақ-орыс бағытындағы және кері бағыт үшін жазылған ережелерде
қолданылатын парадигмалар анықталды.
Дипломдық жұмыстың негізгі мінездемелері: дипломдық жұмыста келтірілген
ақпараттар арқылы лингвистикалық сөздікті құру тәсілі, сөздіктерге сөздерді
енгізу тәсілі, машиналық аударма жайлы жалпы түсінік келтірілді.
Дипломдық жұмыстың ендірілу деңгейі: Математика және механика ғылыми-
зерттеу институтының Интеллектуалдық ақпараттық жүйелер зертханасында
Apertium платформасының негізінде қазақ тілінен ағылшын және орыс
тілдеріне (және кері бағытта) тегінашық кодты машиналық аударма жүйесін
құру жобасы аясында Аликанте Университетінің профессоры Микель Форкада мен
механика-математика факультетінің профессоры Тукеев Уалшер Ануарбековичтің
жетекшілігімен жұмыс жүргізілуде.
Дипломдық жұмыстың қолдану аймағы: машиналық аударманың сөздіктермен
жұмыс жасау аймағы.
Дипломдық жұмыс зерттеулерінің болашақта даму барысы: Сөздік қорын әр
сала бойынша термин сөздермен толықтыру керек, жаңа сөздермен толықтыру
керек, қазақ тілінен орыс тіліне және орыс тілінен қазақ тіліне сөздерді
аудару үшін қолданылатын парадигмаларды оңтайландыру керек.
Реферат
Дипломная работа состоит из 67 страниц, 25 рисунков, 6 таблиц, 16
источников.
Ключевые слова: МАШИННЫЙ ПЕРЕВОД, ПЛАТФОРМА APERTIUM, ОДНОЯЗЫЧНЫЙ
СЛОВАРЬ, ДВУЯЗЫЧНЫЙ СЛОВАРЬ, ВЫБОРАННЫЙ ЯЗЫК, ЯЗЫК ПЕРЕВОДА, СИСТЕМА
МАШИННОГО ПЕРЕВОДА, МОРФОЛОГИЧЕСКИЙ СЛОВАРЬ, ПАРАДИГМЫ, СЛОВАРНАЯ СТАТЬЯ,
ЧАСТИ РЕЧИ.
Объект исследования дипломной работы: Лингвистические словари машинного
перевода казахско-русского направления.
Цель дипломной работы: Разработка лингвистических словарей машинного
перевода казахско-русского направления.
Методы исследования дипломной работы: Метод разработки морфологических
словарей, тэгирование частей речи.
Результаты дипломной работы: Было дополнено словарь, определены
парадигмы, которые используется в правилах написанных для казахско-русского
и наоборот русско-казахского направления в двуязычных словарях.
Основные характеристики дипломной работы: Приведено общее понятие о
машинном переводе, способ создания лингвистического словаря, способ ввода
слов в словари с помощью информаций которые приведены в дипломной работе.
Степень внедрения дипломной работы: ведутся работы в рамках проекта
Разработка свободнойоткрытой системы машинного перевода с казахского
языка на английcкий и русский языки (и обратно) на базе платформы Apertium
на лаборатории Интелектуальных информационных систем научно-
исследовательского института математики и механики под руководством
профессора из Университета Аликанте Микелем Форкада и профессора механика-
математического факультета Тукеев Уалшер Ануарбековича.
Область применения дипломной работы: Область работы со словарями
машинного перевода.
Дальнейшее развитие исследований дипломной работы:
Необходимо дополнить словарный ресурс словами терминов разной сферы,
необходимо дополнить новыми словами, необходимо адаптировать парадигмы
которые используются для перевода слов с казахского языка на русский язык и
с русского языка на казахский язык.
Abstract
Diploma work consists of 67 pages, 25 figures, 6 tables, 16 sources.
Кeywords: MACHINE TRANSLATION, PLATFORM APERTIUM, MONOLINGUAL
DICTIONARY, BILINGUAL DICTIONARY, SELECT LANGUAGE, TERGET LANGUAGE, SYSTEM
OF MACHINE TRANSLATION, MORPHOLOGICAL DICTIONARY, PARADIGMS, DICTIONARY
ENTRIES, PARTS OF SPEECH
The object of research of the diploma work: Linguistic dictionaries for
machine translation from Kazakh into Russian
The aim of the diploma work: Development of linguistic dictionaries for
machine translation from Kazakh into Russian
The methods of research of the diploma work: Method development of
morphological dictionaries, parts of speech tagging.
The results of the diploma work: It was supplemented by a dictionary,
defined the paradigm, that is used in the rules written for the Kazakh-
Russian and Russian-Kazakh contrary directions in bilingual dictionaries.
Main characteristics of the diploma work: A general concept of machine
translation, linguistic way to create a dictionary entry method of words in
the dictionary with the information given in the diploma work.
The degree of implementation of the diploma work: work is underway
within the framework of the project “The development of freeopen system of
machine translation from Kazakh into English and Russian (and vice versa)
based on platform Apertium” on laboratory of “Intellectual Information
Systems” of the Research Institute of Mathematics and Mechanics led by
Professor of the University of Alicante Mikel L. Forcada and by Professor
of the faculty of Mechanics and Mathematics Tukeyev Ualsher Anuarbekovich.
Scope of the diploma work: Scope of work with machine translation
dictionaries
Further development of research of the diploma work: It is necessary to
supplement the vocabulary resource with terms words of different areas,
must be supplemented by new words, it is necessary to adapt the paradigms
which are used to translate the words of the Kazakh language into Russian
and from Russian into Kazakh language.
МАЗМҰНЫ
КІРІСПЕ 7
1 Машиналық аударма 8
1.1 Машиналық аударманың даму тарихы 8
1.2 Машиналық аударманың түрлері 11
2 Apertium машиналық аударма жүйесі 16
2.1 Apertium платформасының құрылымы 16
2.2 Жүйені құрудағы дәстүрлі модельдері 25
2.3 Eсeптердің қойылымы 25
3 Жаңа тілдік жұп құру 26
3.1 Бір тілді орыс тілі сөздігі 28
3.2 Екі тілді сөздіктерді құру 33
3.3 Трансферлік ережелер 33
3.4 Екі тілдік сөздіктерге етістіктерді қосу ерекшеліктері 36
3.5 Жіктеу есімдіктерін сөздіктерге қосу барысы 41
3.6 Қазақ тілі сөздігін құру ерекшеліктері 43
3.6.1 Зат есімдерді енгізейік 43
3.6.2 Қосымшаларды сөздіктерге енгізу барысы 45
3.6.3 Сын есімдерді сөздіктерге енгізу ерекшелігі 46
3.6.4 Сан есімдерді сөздікке енгізу 48
3.6.5 Есімдік сөз табын сөздікке енгізу 49
3.6.6 Етістік сөз табын сөздікке енгізу 50
3.6.7 Үстеу сөз табын сөздікке енгізу 52
3.6.8 Еліктеу сөздерді сөздікке енгізу 55
3.6.9 Шылауларды сөздікке енгізу 55
3.6.10 Одағай сөз табын сөздікке енгізу 57
4 Сөз таптарын тәгтеу – part-of-speech tagging 59
4.1 Сөз таптарын тәгтеу 59
4.2 Сөз таптарын тәгтеу ережелері негізінде 60
4.3 Сөз таптарын тәгтеуде жасырын Марков моделін қолдану 62
4.4 ЖMM тәгтеу үшін өзекті алгоритм 64
ҚОРЫТЫНДЫ 66
ПАЙДАЛАНЫЛҒАН ӘДЕБИЕТТЕР ТІЗІМІ 67
БЕЛГІЛЕУЛЕР МЕН ҚЫСҚАРТУЛАР
МА – машиналық аударма
МАЖ – машиналық аударма жүйесі
SMT – статистикалық машиналық аударма
RBMT – ережелерге негізделген машиналық аударма
HMT – гибридті машиналық аударма
ТМ – аудармалардың жады
ADJ – сын есім
DET – детерминитив
LR – солдан оңға бағыттау
N – зат есім
NP – зат есімдік фраза
NUM – сан есім
POST – шылау
PP – жалғаулық фраза
PRN – есімдік
ADV – үстеу
IDEO – еліктеу сөз
SL – негізгі тіл (source language)
TL – мақсат тіл (target language)
VP – етістіктік фраза
ЖММ – жасырын Марков моделі
КІРІСПЕ
Машиналық аударма жаңа ақпараттық технологиялар жиегінде мәтіндерді
автоматты өңдеудің өзекті мәселесі болып табылады. Ғаламторда қол жетімді,
заманауи машиналық аударма жүйелерінде орын алатын аударманың төмен сапасы,
машиналық аудармадан бас тартудың себебі болып табылмайды. Қазіргі таңда
қол жетімді қазақ тілі орыс бағытындағы және кері бағыттағы аударма
жүйелері жетерлік. Аударма жүйелері көпшілік жағдайларда қанағаттанарлықсыз
нәтиже береді. Аударылатын мәтіндердің көпшілігі ғылыми-техникалық болып
табылатындықтан, және олардың аудармасы ғылыми-техникалық үрдіске септігін
тигізетіндіктен, сапалы машиналық аударма адамзат өркениетінің дамуында
өзекті.
Кейбір аударма жүйелері мәтіндерді өңдейді қажетсінбей жеткілікті жақсы
аударады, дегенмен басқа мәтіндер сол пәндік аймаққа қатысты болғанымен,
қайта өңдеуді талап ететін қолайсыз аудармалар алынады.
Дипломдық жұмыстың тақырыбының өзектілігі сөздердің тиянақты және тура
аудармасына қол жеткізу үшін қазақ тілінен орыс тіліне машиналық аударудың
лингвистикалық сөздіктерін құру.
Дипломдық жұмыстың зерттеу пәні: қазақ тілінен орыс тіліне машиналық
аудармадағы екі тілдік және бір тілдік сөздіктер.
Дипломдық жұмыстың мақсаты – аpertium платформасының негізінде қазақ-
орыс тілі бағытындағы машиналық аударманың лингвистикалық сөздіктерін
дайындау болып табылады.
Дипломдық жұмыстың мақсаты бойынша анықталған міндеттер:
• Қазақ-орыс тілі бағытындағы екі тілді сөздіктердің құрылуы;
• Қазақ-орыс тілі бағытындағы бір тілді сөздіктердің құрылуы;
• Сөз таптары бойынша сөздердің енгізілуі.
Зерттеудің ғылыми мәні: аpertium платформасы негізінде қазақ-орыс тілі
бағытында бір тілді және екі тілді сөздіктер құрылды.
Зерттеудің тәжірибелік мәні: бір тілді және екі тілді сөздіктердегі
сөздер енгізілуіне байланысты жеке-жеке аударылады.
Зерттеу жұмыстарында қолданылған кіріс деректері: екі тілді сөздік және
бір тілді сөздіктер.
1 Машиналық аударма
1.1 Машиналық аударманың даму тарихы
Аударманың ұзақ тарихы бар. Оның бастауы ата тіл жеке тілдерге ыдырай
бастаған және әртүрлі тіл қауымдар өкілдерімен қарым-қатынаста түсуде
арашашылардың рөлдеріндегі адамдардың бірнеше тілде сөз сөйлеу қажеттілігі
туындаған кезде жатыр.
Аударма ең басынан, адамдардың тіл-аралық қарым-қатынасына мүмкіндік
беретін ең маңызды әлеуметтік функцияны орындады. Жазбаша аудармалардың
таралуы басқа халықтардың мәдени табыстарын білуде кең мүмкіндік ашты.
Әдебиеттер және мәдениеттердің өзара әрекеттесуіне ықтимал жасады. [1]
Биографтардың куәлігі бойынша, XIX ғасырдың атақты математигі Чарльз
Бэббидж британдық үкіметті өзінің “есептеуіш машина” атты зерттеуін
қаржыландыру қажеттілігіне сендіруге тырысты. Ол бұл машинаның кейін ауызша
сөздерді автоматты түрде аудара алатынына уәде берді. Бэббидж компьютер
жұмысының негізінде көптеген идеялардың авторы болып танылғанымен, МА
қатысты уәдесін орындай және машинаны құрастыра алмады. Бүгінде бұл идея
қандай да бір дәрежеде іске аспаған болып саналады. Бірақ жаһандық байланыс
платформасы болып табылатын Internet-тің пайда болуына байланысты, қайтадан
көпшіліктің кең ықыласын және инвестицияларды қызықтырып отыр. [2]
Компьютерлер дүниеге келгеннен соң, бірер жылдардан кейін, 50-ші
жылдары МА бірінші бағдарламалары пайда бола бастады. ДК кең таралуына
дейін, МА есептеуіш техникада маңызды сала ретінде емес,ғылыми
зерттеулердің қызықты объектісі болып табылды. Ол екі себеп бойынша:
компьютерлік жұмыстар уақытының қымбатшылығы және оны қорлармен ұжымдық
пайдалану. Соңғы жағдай МА ең маңызды артықшылығы – жедел қимылдаушылық
қасиетін жоққа шығарып, дереу электронды көмекшіге жүгіне алмады.
МА дүниеге келуін 1947 жыл деп санау қабылданған, және бәрі Рокфеллеров
қорының жаратылыстану ғылымдары бөлімінің директоры Уоррен Уивердің хатынан
басталған. Сол жылдың наурыз айында Норберт Винерге жолдаған хатында,
аударманың мақсаты дешифрлеудің мақсатымен салыстырылған болатын. Сол кезде
соңғысы электромеханикалық құрылымдарда орындала бастаған еді.
Бұл хат артынан көптеген пікірталастар жиыны ерді, мақсаттар туралы
меморандум пайда болды, және әйтеуір, зерттеулерге қаражаттар бөлінген еді.
1952 ж. атақты математик Бар-Хиллел ұйымдастырған бірінші конференция өтті.
Конференцияда зерттеушілер семантиканы сипаттау тәсілдері, морфологиялық
құрылым, аударма жүйесі үшін сөздіктер құрылымы, тілдің семантикалық
ережелерінің жиынына қатысты ойлармен өзара бөлісті.
Академиялық зерттеулердегі табыстар МА мәселесіне коммерциялық жағдай
жасады, және 1954 жылы АҚШ-тағы Джорджтаун университетімен бірге IBM
фирмасы бірінші GAT жүйені көрсете алды. GAT(Джорджтаун автоматтандырылған
аудармасы) жүйесі 250 сөздерден және 6 синтаксистік ережелерден тұратын
сөздікке негізделген және 49 алдын ала таңдап алынған сөйлемдердің
аудармасын қамтамасыз ете алады. Бұл тәжірибе зерттеушілік шудың бастамасы
болды: келесі 10 жылда АҚШ үкіметі мен әскери мекемелері МА облысындағы
зерттеулерге 40 млн. доллар шамасында қаражат жұмсады. [3]
GAT жүйеcі кеңестік физиктер мен ядерщиктердің мәтіндерін орыс тілінен
ағылшын тіліне аудару үшін арналған болатын.
50-ші жылдардың аяғында Америка үкіметінің өтініші бойынша Й.Бар-Хиллел
Толық автоматты жоғарғы сапалы аударма машиналық аудармасының мүмкін
еместігне дәлелдер келтірген еді. Дәлел тұжырымның екі мәнділігінде
негізделген болатын. Келесі сөйлемді қарастырайық: Little John was looking
for his toy box. Finally he found it. The box was in the pen.
Pen сөзі 2 мағынаға ие болуы мүмкін: біріншісі – біз жазу үшін
қолданылатын нәрсе, екіншісі – нақты түрдегі бөлме. Адамға мағынасы, әрине,
түсінікті. Бірақ зерттеуші әмбебап анықтама көмегінсіз машина қойылған
есепті шеше алмайды деп тұжырымдады. Қазір мұндай семантикалық дәлсіздікті
машиналық аударма үшін, тек бір мағыналы сөздерден тұратын басқарылатын
тілде негізгі мәтінді жазу арқылы шешуге болады.
60-шы жылдары КСРО және АҚШ жүргізілген зерттеулер, орыс-ағылшын тілдік
жұбына негізделген болатын. Аударманың негізгі объектісі ретінде ғылыми
және техникалық құжаттар болды, мысалы ғылыми журналдардағы мақалалар.
Аударманың кедір-бұдір тұстары мақаланың негізгі көрінісіне кедергі
жасамады. Егерде мақалада қауіпсіздік жайлы сұрақтар талқыланса, онда
мақаланы аудармашыға дәл аударма үшін жіберетін болатын, егер қажеттілігі
жоқ болса, лақтырылатын болған.
1966 жылы ALPAC есептеу нәтижесі жарияланғаннан соң, машиналық аударма
облысында зерттеулерде үлкен соққы болды. Есепті АҚШ үкімет комиссиясы
құрған болатын және АҚШ ғылымдарының Ұлттық академиясы қолданбалы
лингвистика бойынша арнайы комитетімен (ALPAC) ұсынылған болатын. Оның
құрамына 1964 жылы АҚШ үкіметімен құрылған жеті ғалым кірді. АҚШ үкіметін
прогресс көлемі жобаны әзірлеу барысында жұмсалған шығындар көлемімен тең
келуі мазалады. Нәтижесінде машиналық аударманы адам арқылы жасалатын
аудармамен салыстырғанда, бағасы, жылдамдығы және дәлділігі жағынан артта
қалатынын айтты. Жақын арада машиналық аударма адам арқылы жасалатын
аударманың сапасына жете қоймас деп тұжырымдады.
Бірақ есептеу нәтижесі аудармашылар үшін қосалқы бағдарламалардың
дамытуы жайлы кеңес берді – мысалы, автоматты сөздіктерді – және
компъютерлік лингвистика облысында зерттеулерді қолдауды.
Есептеу нәтижесінің жариялануы Ресей мен Ұлыбританияға қарағанда үлкен
дәрежеде АҚШ машиналық аудармасының зерттеуіне әсерін тигізді. АҚШ
зерттеулері асып кетсе, он жылға тоқтатыла тұрды. Канада, Франция және
Германияда зерттеулер жалғаса берді. АҚШ-та Systran компаниясының негізін
салушылар(Питер Том) ғана зерттеулерін жалғастыды. [4]
Егер 60-шы жылдары нақты тілдік жұптар және енгізу міндетті болса, 70-
ші жылдары негізгі талаптар ретінде техникалық және коммерциялық
бағыттардағы мәтіндерді аудару қабілетіне ие, аз шығынды жүйелер болды.
Тек 80-ші жылдардың басынан бастап, ДК сенімді және қуатты түрде әлемді
жаулап ала бастағанда, олардың жұмыс уақытысы арзандады, әрине, оларды кез
келген уақытта қол жеткізуге болды. Ал бұл өз кезегінше МА экономикалық
түрде тиімді бола бастағанын білдіреді. Келесі жылдары бағдарламалардың
әбден жетілдіруі көптеген мәтіндерді айнытпай аударып бере алатын болды,
дегенмен МА байланысты кейбір мәселелер қазіргі таңда да шешілмеген болып
табылады.
80-ші жылдарда машиналық аударма үшін бағдарламалар саны да алуан
түрлілігі де үлкейді. Metal сияқты, әмбебап есептеуіш машиналар
технологияларына негізделген аудармашылық жүйелер қолданды.
Микрокомпьютерлер жарамдылығының үлкею нәтижесінде, машиналық
аударманың бюджеттік бағдарламалары нарықта пайда болды. Еуропа, Жапония
және АҚШ көптеген серіктестіктері осы мүмкіндікті пайдаланды. Жүйелер
КСРО, Шығыс Еуропа, Корея және Қытай нарықтарында көрсетілген еді.
80-ші жылдары Жапонияда машиналық аудармамен байланысты үлкен шу болды.
Бесінші ұрпақтың компьютерлері пайда болумен Жапония техника және
программалау облысында улкен мақсаттарды жоспарлады, ағылшын тіліне және
ағылшын тілінен аудару негізінде программаларды құрастыруға байланысты
көптеген компанияларды (Fujitsu, Toshiba, NTT, Brother, Catena, Matsushita,
Mitsubishi, Sharp, Sanyo, Hitachi, NEC, Panasonic, Kodensha, Nova, Oki)
қызықтырды.
80-ші жылдардағы зерттеулер морфологиялық, синтаксистік және
семантикалық талдаулар көмегімен лингвистикалық бірліктердің аудармасына
негізделген болатын.
80-ші жылдардың соңында машиналық аудармада қолданылатын әдістердің
сандары өсті. IBM компаниясы құрастырған жүйе статистикалық аудармасына
негізделген болатын. Басқа топтар кқптеген аудармалардың мысалдарына
негізделген әдісті қолданды,мұндай әдістер мысалдар негізіндегі машиналық
аударма деп аталады.Екі әдісті де анықтайтын сызығы семантикалық және
синтаксистік ережелердің жеткіліксіздігі болды.
90-шы жылдарды МА дамуының қайта туу дәуірі деп санауға болады, ол тек ДК
жоғары деңгейдегі мүмкіндіктерімен байланысты емес, сонымен қатар
сканерлердің және OCR бағдарламаларының пайда болуы, Интернетинтранет
(Internetintranet) кең таралуы МА деген нақты сұраныстардың артуына себеп
болды.Ол инвесторлар үшін капитал салатын салада, және де мемлекеттік
құрылымға да тартымды облысқа айналды.
МА технологиясы көптеген кемшіліктерден азап шегіп
жатқандықтан,көптеген ұйымдар Бэббидждің уәдесіне байыппен қарай бастады.
Машинаық аударма әбден жетілген жоқ, дегенмен әрбір қалаушы оның көмегімен
құжаттыі негізгі мағынасын түсіне алады, - деп, Alta Vista технологиялық
директоры Луи Монье санайды, ауқымды Web-түйінді іздестіруін, МА-мен
тәжірибені онлайндық режимде бастаған.
МА мәселелері АҚШ глобалді ақпараттық кеңістікте бәсекеге түсе алатынын
қамтамасыз етуде және жоғарғы технологиялардың дамуында кілттік сұрақ
ретінде қарастырылады. [5]
XXI ғасыр адамзаттың ақпараттық кеңістігінде жаңа есептерді қойып
жатыр. Жаппай ақпараттың арқасында аударманың адамзаттың өміріне деген ролі
артып келеді. Бүгінде аудармалық байланыстар адамзат қызметтерінің бүкіл
дерлік аумағын қамтып жатыр. Ақпараттық ағынның қозғалысы шекараны, не
уақытты, не кеңістікті білмейді.
Қазіргі заманның шексіз алуан түрлілігі ақпарат құралдарының және
халықаралық ақпараттық процесстердің көптеген қатысушыларының-
журналисттердің, корреспонденттердің, комментаторлардың,
телеоператорлардың көмегімен беріліп отыр. Сондықтанда аудармашылық
қызметтердің мәні тұрақты өсіп жатыр, және олармен бірге аудармашылық
мәселелер пайда болып жатыр. Тіл мәселелердің асқынуы жаңа шешімдерді
іздестіруге салады. Егер бұрын аудармашылық қызмет тек көркем әдебиет
аудармасымен байланыста қаралса, енді қазір арнайы – ақпараттық,
экономикалық, заң, техникалық және жарнамалық сипаттағы мәтіндердің
аудармасы көлемі және әлеуметтік мәні бойынша маңызды орында тұр.
Кибернетиканың дамуы машиналық аударманың дүниеге келуіне септігін
тигізді. Қазіргі таңда аудармашының еңбегін жеңілдететін арнайы
бағдарламалардың кең түрлері бар.
1.2 Машиналық аударманың түрлері
Қазіргі уақытқа машиналық аударма жүйесінің үш түрі бар:
• Грамматикалық ережелерге негізделген жүйелер (Rule-Based Machine
Translation, RBMT);
• Статистикалық жүйелер (Statistical Machine Translation, SMT);
• Гибридты жүйелер(Hybrid Machine Translation, HMT);
Ережелерге негізделген машиналық аударма (RBMT, Rule - based Machine
Translation) дегеніміз – нақты тілдердің грамматикалық ережелерінің
талдауына және сөздіктік ақпаратқа негізделген технология. Мұндай жүйелер
екі табиғи тілдің (морфологиялық, грамматикалық және семантикалық
мәліметтерден тұратын екі тілдік сөздіктер және басқа деректер қорлары)
лингвистикалық сипаттамаларының, формальді грамматика және аударма
алгоритмдері негізінде құрылады. Аударма сапасы лингвистикалық деректер
қорының және табиғи тілдерді сипаттау көлемдерінен тәуелді, кіріс және
шығыс тілдерінің грамматикалық құрылымдары ерекшеліктерінің максималды
санын есепке алу қажет. [16]
Rule – based жүйесінің екі типі бар:
• Transfer түрі бойынша жүйелер – кіріс тілдің мәтінінің морфологиялық,
синтаксистік және семантикалық талдауын болжайды;шығыс тілдің құрылымын
өрнектейді (TRANSFER); шығыс тіл мәтінінің синтезі;
• Interlingua түрі бойынша жүйелер – метатіл терминдерде кіріс тілдің
талдауын болжайды және шығыс тілде мәтін метақұрылымының синтезі.
RBMT – жүйесінің артықшылықтары:
• Синтаксистік және морфологиялық дәлдік;
• Нәтиженің тұрақтылығы мен болжалдылығы;
• Пәндік аймақты күйге келтіру мүмкіндігі.
RBMT – жүйесінің кемшіліктері:
• Құрастырудың қиындығы мен ұзақтығы;
• Лингвистикалық деректер қорын актуалдау және қолдау қажеттілігі.
Rule – based технологиясына негізделген машиналық аударма жүйесін
өндірушілер-серіктестіктеріне PROMT, Systran, Linguatec жатады. [16]
Статистикалық машиналық аударма (Statistical Machine Translation, SMT)
дегеніміз – технология екі тілді мәтіндер жиынтығынан алынған деректерді
қолдану арқылы жасалған сөйлемнің ең ықтимал болатын аудармасын
іздестіруінде негізделген. Мұндай аударма жүйелері параллелді мәтіндердің
үлкен көлемді корпустарын салыстыру негізінде құрылады. Параллелді
мәтіндердің корпусы – бұл бір тілдегі сөйлемдері бар және сәйкес
сөйлемдерді екінші тілде қамтитын мәтіндер. Статистикалық машиналық аударма
өздігінен үйрету қасиетіне ие: параллелді корпустар көбірек және олардың
сәйкестігі дәлірек болса, статистикалық машиналық аударманың нәтижесі
жақсырақ болады. [16]
SMT - жүйесінің артықшылықтары:
• Аударманың тегістігі;
• Параллелді корпустардың жеткілікті санында құрастыру жеңілдігі;
• Технологиялардың кез келген тілдік жұптарға тасымалданғыштығы.
SMT - жүйесінің кемшіліктері:
• Табиғатта параллелді корпустардың шектеулігі;
• Морфология және синтаксисті орындау білместігі;
• Мәліметтерді бұрмалау(қайталау, рұқсатнама, мәліметті ауыстырып
жіберуі).
Статистикалық машиналық аударма жүйелерінің өндірушілер-
серіктестіктері: PROMT, Google, SDL Language Weaver, Microsoft, IBM Asia
Online,. [16]
Hybrid Machine Translation (Гибридті машиналық аударма, HMT) дегеніміз
– SMT және RBMT технологиялары өзіндік кемшіліктері мен қиыншылықтарына ие
болғандықтан, сонымен қатар өзіндік дамудың нақты шегіне жеткендіктен, МА
қатысты шешімдер құрастырушылары аударманың гибридті технологиясын
құрастыру есебінен технологиялық жарып шығуға үміт артып жатыр. [16]
Бұл технология RBMT және SMT әдістерін қосарлануда негізделген . Мұндай
тұрғы екі технологияның күшті тұстарын алуғы мүмкіндік береді. (RBMT
бойынша аударуда грамматикалық дәлдік және SMT бойынша аударманың
тегістігі).
Гибридті технология негізіндегі машиналыұ аударма жүйелерінің
өндірушілер-серіктестіктері: Systran PROMT.
Гибридті жүйе статистикалық жүйе сияқты параллелді деректерге уйрену
үрдісінен өтеді. Үйренуді үш кезеңге бөлсе болады:
• Параллелді корпустың бастапқы бөлігінің аудармасы негізгі тілде базалық
RBMT-модулі арқылы орындалады;
• Машиналық тілден адами тілге аударудың статистикалық моделі
келтіріледі;
• Аударма тілінің корпусы негізінде статистикалық модел келтіріледі.
Гибридті жүйелерді үйрету схемасы 1.1 суретінде көрсетілген.
Сурет 1.1 – Аударманың гибридті жүйесін үйрету сызбасы
PROMT гибридті жүйесі екі негізгі компоненттен тұрды: аударманың
базалық RBMT – модулі және үйрену кезеңінде алынған деректерді
қолданатын(аударманың статистикалық моделі, мақсатты тілдің статистикалық
моделі) теріп-түзетудің статистикалық модулі. Аударма кезінде алдымен
негізгі сөйлем базалық модуль арқылы аударылады,сосын алынған аударма
статистикалық компонент арқыла өңделеді, іс жүзінде бұл кезеңде машиналық
аударманың статистикалық ережелері бойынша машиналық тілден адами тілге
аударма жүзеге асырылады. Гибридті жүйенің аударма үдерісі 1.2 суретінде
көрсетілген.
Сурет 1.2 – Гибридті жүйеде сөйлемді аудару үдерісі
Машиналық аударма жүйелерінен басқа, жұмыстар қағидасы Translation
Memory технологиясына негізделген бағдарламалар бар. [14]
Аудармалардың жады (Translation Memory, TM) дегеніміз – сөйлемдерде жиi
кездесетін екі тілді базалар. Технология негізінде бір мәтінді екі рет
аудармау қағидасы бар.
Технология алдын ала жасалған аудармалар базасында сақталған
деректерден аудару керек құжаттарды салыстыруда негізделеді. Жалпы мәтін
массивінде жүйе алдын аударылған сегменттерді табады және Translation
Memory аудармалар базасынан аударманы алады.
ТМ жүйeci мәтіннің ұқcac бөліктерің қайталап аудару мүмкіндігін
береді. Сегменттің аудармасы тек қана бір рет аудармашымен іске асады, ал
содан соң әрбір келесі сегмент мәліметтер қорымен (толық немесе айқын емес)
ұқсастығын, сәйкестігін тексереді, eгeр ұқсас не сәйкес сегмент табылса
онда ол аударма түпнұсқасы ретінде ұсынылады.
Қaзiргi уaқытта ТМ жүйелерін жетілдіру бойынша әзірлеулер жүргізіліп
жатыр. Мысaлы, Transit жүйесінің өзeгi Star фирмасының нейрондық желілер
технологиясы негізінде жүзеге асырылған.
ТМ жүйелердің өз артықшылықтары мен кемшіліктері бар, және өзінің
қолдану аймағы бар. Бiрақ TM жүйелерінің негізгі кемшілігі олардың
қымбатшылығы болып отыр.
TM жүйелерінің өндірушілер-серіктестіктері : PROMT, SDL Trados, Atril
(Déjà Vu жүйелері), OmegaT.
Бір үлгідегі құжаттаманың үлкен көлемдерін аудару үшін TM және МТ
технологияларын бірге қолдану қабылданған, себебі олардың әрбірі ортақ
есептер шеңберінде әртүрлі төменгі есептерді шешеді: TM базасы алдын
аударылған контентті алмастыру және шығаруды қамтамасыз етеді, ал МТ
көмегімен жаңа контенттің аудармасын жүзеге асырады.
Аудармалар жадының және машиналық аударманың ерекше белгілері 1-кестеде
келтірілген. [16]
Кесте 1 – Аудармалар жадыны және машиналық аударманы салыстыру
Шешімі Артықшылықтары Кемшіліктері
Translation Memory 1.Алдын жасалған 1. Базаларды алдын ала
аудармаларды қайта толтыру қажет.
қолдану. 2. Қайтадан қолдану
2.Теріп-түзетудің аударылатын контент
төменгі көлемде қажет.пен ТМ базасының
ұқсастығына тәуелді;
жаңа контентті аудару
мүмкін емес.
Машиналық аударма(МТ)1.Жаңа контентте 1.Жоғары тиімділік
қолданыла аладын. (теріп-түзетудің
2.Жоғары жылдамдық. төменгі көлемі) үшін
алдын ала баптау
қажет.
2. Аударма сапасы мен
баптауы негізгі мәтін
сапасына байланысты.
TM + MT Теріп-түзетудің ең
төменгі көлемімен кез
келген контентті
аударудың жоғары
жылдамдығы.
2 Apertium машиналық аударма жүйесі
Apertium – бұл машиналық аударма жүйесі. Дәлірек айтсақ, Apertium – бұл
машиналық аударма платформасы. Ол өзіндік машиналық аударма жүйелерін
құруға мүмкіндік беретін құралдардан тұрады. Базалық деңгейде жүйе үш
сөздіктен және ережелерден тұрады, олар негізгі тілден мақсатты тілге
аудару кезінде грамматикалық трансформацияны қамтамасыз етеді. Бұл ашық
(еркін) программалық жабдықтама және ол тегін түрде GNU GPL шарттары
бойынша әзірленеді. [14]
Apertium OpenTrad жобасының көлемінде машиналық аударма құралы ретінде
пайда болды. Бастапқы кезде тек қана тектес тілдерді аударуға арналған,
бірақ уақыт өте келе жүйенің мүмкіндіктері кеңейіп, тектес емес тілдерді
арасында мәтіндер аударыла бастады. Жаңа автоматты аударма жүйесін жасау
кезінде XML форматында лингвистикалық базаны (сөздіктер, ережелер) құру
керек. [14]
2004 жылы қазанда Испанияның өнеркәсіп министрлігі Испания тідері үшін
машиналық аударманың тегін қолжетімді жүйесін құруға ақшалай қаржы бөледі:
• EHU, UA, UPC, UVigo университеттері;
• Eleka, Elhuyar, Imaxin Software фирмалары.
Сөзбе сөз аудармаға негізделген
Егер тілдер жақын-туыстас болса, сөзбе сөз аударма жиі 80% нәтиже
береді.
Келесілерді қолдану арқылы, сөзбе сөз аудармаға сүйене аламыз:
• Толық лексикалық өңдеу (мысалы, символдар және сөз тіркестеріне
ажырату);
• Көп мәнділіктің лексикалық дәрежесі (мысалы, маркалаушы сөз таптары);
• Жергілікті құрылымдық өрнектеулер (мысалы, келісу, сөздердің орналасу
ретінің өзгерісі).
Туыстас емес тілдер үшін біз минимум дегенде мәтіннің мағынасын беретін
ұқсас үлгіны құрастыра аламыз.
Машиналық аударманың бір қозғағышын движок бірнеше тілдік жұптарға
құру мүмкіндігі:
• Арнайы программалау тілдерін білу қажет емес;
• Жүйе лингвистикалық ережелердің жай сипаттамалары арқылы құрылуы мүмкін
(сөздіктер,маркерлеу ережелері, тасымалдау ережелері);
• Мәліметтер өзара әрекеттесетін қалыпта жазылуы керек (XML). [14]
2.1 Apertium платформасының құрылымы
Apertium платформасының құрылымы 2.1 суретінде көрсетілген.
Сурет 2.1 – Apertium платформасының құрылымы
Форматқа келтіруді басқару:
• Форматқа келтіруге қатысты ақпараттан мәтіннен бөліп алу;
• Қазіргі таңда HTML, RTF, ODF, OpenOffice.org, DocX және т.с.с жай
мәтіндік редакторлар қолжетімді.
Деформатор жұмысы үшін:
$ echo ”emköpekem” apertium-deshtml [em]köpek.[][ nem]
Деформатор жұмысы үшін:
$ echo ”emköpekem” apertium-deshtml apertium-rehtml
emköpekem
Форматқа келтіруді басқару 2.2 суретінде көрсетілген. [14]
Сурет 2.2 – Форматқа келтіруді басқару
Морфологиялық талдау:
• Түпкі мәтінді беттік формаларға бөледі (SFs);
• Әрбір формаға қосымша бір немесе бірнеше лексикалық форманы қосымша
жазып береді.
Морфологиялық анализатордың (hfst-proc) жұмыстарының орындалуы:
$ echo ”пахчара” hfst-proc cv-tr.automorf.hfst
ˆпахчарапахчаnlocпахчаnpx2pldat$
Морфологиялық анализатордың (lt-proc) жұмыстарының орындалуы
$ echo ”саду” lt-proc ru-sh.automorf.bin
ˆсадусадnmnnsgnomсадn mnnsgacc$
Морфологиялық талдау 2.3 суретінде көрсетілген. [14]
Сурет 2.3 – Морфологиялық талдау
Морфологиялық бір мәнді еместіктердің шешімі:
• Әрбір беттік формаға сай бір лексикалық форма таңдайды;
• Марковтың жасырын модельдер және қолдан жазылған морфологиялық көп
мәнділіктің шешімінің комбинациясын қолданады.
(cg-proc) маркалаушының жұмыстарының орындалуы:
$ echo ”Все эти регионы являются частью Европейского союза.” lt-proc
ru-sh-automorf.bin cg-proc ru-sh.rlx.bin
ˆВсеВесьdetindmfnplnom$
ˆэтиэтотdetdemmfnplnom$
ˆрегионырегионnmnnplnom$ ...
Морфологиялық бір мәнді еместіктердің шешімі 2.4 суретінде
көрсетілген.[14]
Сурет 2.4 – Морфологиялық бір мәнді еместіктердің шешімі
Лексикалық тасымалдау:
• Әрбір лексикалық форманы лайықты аударма тілдің лексикалық формасына
түрлендіреді;
• ХML-ге екі тілден алынған ақырғы түрлендіргіштерді өрнектейді.
Лексикалық тасымалдаудың орындалуы:
$ echo ”Әхмәт һәм Гөлнара бакчада.” hfst-proc tt-ba.automorf.hfst cg-
proc
tt-ba.rlx.bin apertium-tagger -g tt-ba.prob lt-proc -b
tt-ba.autobil.bin
ˆӘхмәтnpantmnomӘхмәтnpa ntmnom$
ˆһәмcnjcooһәмcnjcoo$
ˆГөлнараnpantfnomГөлнараn pantfnom$
ˆбакчаnlocбаҡсаnloc$
Лексикалық тасымалдау 2.5 суретінде көрсетілген.
Сурет 2.5 – Лексикалық тасымалдау
Лексикалық іріктеу:
• Контекст бойынша әр тілдік жұпқа сай аударманы таңдайды;
• XML формада жазылған ережелер ақырғы түрлендіргішке компиляцияланған.
Лексикалық іріктеудің орындалуы (apertium-lrx-proc):
$ echo ”Minä pidän sinusta.” hfst-proc
fin-sme.automorf.hfst cg-proc fin-sme.rlx.bin
apertium-tagger -g fin-sme.prob lt-proc -b
fin-sme.autobil.bin apertium-lrx-proc fin-sme.lrx.bin
ˆMinäPronPersSgNomMunPron PersSgNom$
ˆpitääVIndPrsSg1liikotV IndPrsSg1$
ˆsinäPronPersSgEladonPron PersSgEla$
Лексикалық іріктеу 2.6 суретінде көрсетілген.
Сурет 2.6 – Лексикалық іріктеу
Құрылымдық тасымалдау:
• Ережелер шаблонға әрекет формасына ие;
• Солдан оңға қарай фразаларды талдау стратегиясын қолдана отырып, өңдеу
қажет, маңызды лексикалық формалардың үлгілерін айқындайды;
• Аударма тіліне сай лексикалық форманы құрудың шаблондық әрекет
ережелерін бұйрық берілген файлдармен орындайды.
Сурет 2.7 – Құрылымдық тасымалдау
Құрылымдық тасымалдың орындалуы:
$ echo ”Әхмәт тиз генә иске зур бер агачка йөгерә, аның артына
Гөлнарадан яшеренә.” ... apertium-transfer -b
apertium-tt-ky.tt-ky.t1x tt-ky.t1x.bin
apertium-interchunk apertium-tt-ky.tt-ky.t2x tt-ky.t2x.bin
apertium-postchunk apertium-tt-ky.tt-ky.t3x tt-ky.t3x.bin
ˆАкматnpantmnom$ ˆэскиadjpst$ ˆчоңadjpst$
ˆбирdetind$ ...
Морфологиялық генерация:
• Беттік форманы құрады;
• Әрбір сөз формасының сәйкес өзгерісінен соң, ақырғы түрлендіргіштерді
генерацияланған морфологиялық сөздікке жүктейді.
Сурет 2.8 –Морфологиялық генерация
2.2 Жүйені құрудағы дәстүрлі модельдері
Apertium-да жүйені әзірлеудің әртүрлі тұрғылары көрсетілген, бірақ біз
қолданатын және жетілдіретін – ол жүйенің қоғамдық дамулары. Келесі
дәстүрлі модельдерді қарастырайық:
• Коммерциялық: Компания жүйені құрады және кәдімгі жолмен жұмыс
лицензиясын сатады.
• Үлкензерттеу: үлкен қауымдастық немесе өңдеушілердің тобы жүйені құрып
және оның қолданысы үшін ақша алып отырады;
• Кішігірім зерттеу: кішігірім адамдар тобы жүйені құрып және оны
университет сайтына қойып қояды. Олар мұны зерттеуші бірақ коммерциялық
емес жоба екенін ескеріп кетеді.
Бір адам: мұғалім не студент немесе қызыққан адам жүйені құрып және оны
коммерциялық емес мақсатта жариялайды. Жоғарыдағы модельдермен
салыстырғанда, бұл модель айырмашылығы келесі сипаттамаларға ие:
• Клиентк бағытталғын: қолданушылар қажеттілігін ойлау;
• Ашықтық: лингвисттер дербес өңдеушілер, ұйымдар; оқу мекемелер;
студенттер. [14]
2.3 Eсeптердің қойылымы
Аpertium платформасының негізінде қазақ-орыс тілі бағытындағы машиналық
аударманың лингвистикалық сөздіктерін дайындау барысындағы есептердің
қойылымы:
• Қазақ-орыс тілі бағытындағы екі тілді сөздіктерді құру;
• Қазақ-орыс тілі бағытындағы екі тілді сөздіктерді құру барысында
трансферлік ережелермен танысу;
• Қазақ-орыс тілі бағытындағы екі тілді сөздіктерге етістік сөз табын
енгізу;
• Қазақ-орыс тілі бағытындағы екі тілді сөздіктерге жіктеу есімдігін
енгізу;
• Қазақ-орыс тілі бағытындағы бір тілді сөздіктерді құру;
• Қазақ-орыс тілі бағытындағы бір тілді орыс тілі сөздігін құру;
• Сөзіктерді құру барысында элементтерді және парадигмаларды сипаттау;
• Қазақ-орыс тілі бағытындағы бір тілді қазақ тілі сөздігін құру;
• Бір тілді қазақ тілі сөздігін құру барысында сөз таптарын ерекшеліктері
бойынша енгізу.
3 Жаңа тілдік жұп құру
Біздің жүйемізде сөздіктердің 3 түрі бар: әрбір тіл үшін морфологиялық
(бір тілді) сөздіктер; әр түрлі қос тілдер үшін екі тілді сөздіктер, және
әрбір тіл үшін пост-генераторлық сөдіктер (пост-генераторлық сөздіктер
әдеттегі леммалар мен морфологиялық ақпараттан тұратын сөздік емес,
сөздердің өзара әрекеттесуі кезінде туындайтын орфографиялық өзгерістері
бар кішкене сөздік болып табылады). [11]
Морфологиялық сөздіктер морфологиялық талдаушыларды құру үшін
қолданылады — негізгі нақты сыртқы форма үшін мүмкін болатын барлық
лексикалық формаларды алу қолданылатын аударма жүйесінің модулі; және де
морфологиялық генераторларды — мақсатты тілде әр сөздің лексикалық
формаларынан сыртқы формалар құратын модульдер. Бұл екі модульдер бір
морфологиялық сөздіктен бағыт бойынша генерацияланады: солдан оңға
(талдаушыларды құрғанда), және оңнан солға(генераторларды құрғанда).
Бұл сөздіктердің типтік блок-құрылымы келесідей:
• Әліпбиді анықтау. Бұл анықтама морфологиялық талдаушыларды құру үшін
қолданылады; сонымен қатар, ол талдаушыға белгісіз сөздерді және де
сөздіктің шартты бөлімдерінде орналасқан сөздерді лексемаларға бөуге
мүмкіндік береді; морфологиялық генераторлар бұл анықтауда
қажетсінбейді;
• Символдарды анықтау. Ол сөздік мақалаларында қолданылатын грамматикалық
символдар декларациясынан тұрады;
• Парадигмаларды анықтау. Парадигмалар сөздіктердің бөлімдерінде немесе
басқа парадигмаларда алғышартпен қолданысы анықталады;
• Сөздіктің шартты токенизациясымен бір немесе бірнеше бөлімдері.
Сөздіктен сөздердің көпшілігін бүркеуі;
• Сөздіктің шартсыз токенизациясымен бір немесе бірнеше бөлімдері.
Нақтылы типті құрылымды сөздерді немесе тікелей олардан кейін мәтінді
есепке алусыз токенизациялануға тиісті сөздерді қосу үшін.
Екі тілді сөздіктер жүйеде лексикалық трансферлер процессін
көрсетедеі, яғни мақсатты тілдің лексикалық формасын негізгі тілдің
лайықты лексикалық формасына тағайындау. [11]
Жүйемен оқылған сөздікте екі тілді сөздіктен бағытқа байланысты екі
өнімде шығарылады. Сөздік солдан оңға оқылғанда, бір бағытты аударма үшін
лексикалық трансферлердің модулін, ал оғнан солға оқылған кезде, басқа
бағыт үшін аламыз.
Екі тілді сөздіктердің құрылым келесідей:
• Символдарды анықтау. Ол сөздік мақалаларында қолданылатын грамматикалық
символдар декларациясынан тұрады;
• Жалғыз меншікті сөздік бөлімі. Онда аударма сәйкестіктері көрсетіледі.
Пост-генераторлық сөздіктер мақсатты тілде сыртқы формалар жасалған соң
және олардың өзара әрекеттесуі басталған соң кейбір өрнектеулерді орындау
үшін қолданылады (емле өзгерістері, апострофтардың қосу және т.б.).
Бұл қызмет символдық жолдардың трансляциясы ретінде бейнеленуі мүмкін
болғандықтан,сол сөздіктің түрін қолдану шешілді.
Бұл сөздіктерде парадигмаларды анықтау сөздердің өзара әрекеттесу
құбылыстарында жүйелі өзгерістерді өрнектеу үшін пайдалы. Басқа
сөздіктердің түрлерінен айырмашылығы, олар грамматикалық символдарды
қоспайды, себебі тек қана сыртқы формаларды түрендіреді. Пост-генераторлық
сөздіктердің құрылымы келесідей:
• Парадигмаларды анықтау. Оларды сөздік мақалаларында қолдану үшін;
• Сөздік бөлімі. Пост-генерация бойынша операциялар үлгілері сипатталады.
[11]
Апертиум машиналық аударманың беттік-трансферлік типіне жататын жүйе.
Демек, негізі беттік-трансферлік сөздіктермен және ережелерімен жұмыс
жасайды. Тәжірибеде беттік трансфердің тереңнен айырмашылығы, онда
сөйлемнің толық синтаксистік талдауы орындалмайды, ал ережелердің
синтаксистік талдау ағашындағы оперциялардан айырмашылығы, ол лексикалық
бірліктер топтарымен жасайтын операцияларды көрсетеді. Бұл сөздіктер үшеу:
Қазақ тілі үшін морфологиялық сөздік: қазақ тіліндегі сөздерді
өзгерту(септеу немесе жіктеу) жайындағы ақпарат:
• (apertium-kaz.kaz.lexc)
Орыс тілі үшін морфологиялық сөздік: ол өз кезегінде орыс тіліндегі
сөздерді өзгерту(септеу немесе жіктеу) жайлы ақпарат қамтиды:
• (apertium-rus.rus.dix)
Қазақ-орыс екітілді сөздігі: екі тілдің символдар және сөздердің сәйкес
аудармасын қамтиды:
• (apertium-kaz-rus.kaz-rus.dix)
Қазақ тілінен орыс тіліне трансферлік ережелері: бұл ережелер қазақ
тілін орыс тіліне аударғанда, қандай өзгерістерге ұшырайтынын
сипаттайды.Біздің мысалда бұл келесі файл:
• apertium-kaz-rus.kaz-rus.t1x
Орыс тілінен қазақ тіліне трансферлік ережелері: бұл ережелер уу тілін
хх тіліне аударғанда, қандай өзгерістерге ұшырайтынын сипаттайды.Біздің
мысалда бұл келесі файл:
• apertium-kaz-rus.rus-kaz.t1x
Көптеген тілдік жұптарда басқа да файлдар бар. Олар функционалды жүйе
құру үшін қажет.
Жалғастырмас бұрын, бірнеше терминдердің мағынасын айқындап алған жөн.
Лемма– бұл сөздің канондық формасы. Мысалы, был сөзінің леммасы –
будеть болады. Ал, орыс тіліндегі етістіктер үшін сөз леммасы – инфинитив
формасы болады. Мысалы, был сөзінің леммасы – будеть болады. Орыс және
қазақ тілдерінде зат есімнің леммасы сол сөздің жекеше түрдегі, атау
септігіндегі формасымен сәйкес келеді.
Екінші тоқталатын терминіміз – символдар. Apertium модулінде символдар
бұрыштық жақшаларға алынады. Мысалы:
• n — зат есімдер үшін;
• pl — көпше түр үшін;
• sg — жекеше түр үшін,
• p1 — бірінші жақ;
• pri — ашық райдың осы шағы.
Символдар sdef тәгтерінде анықталады және s тегтерінде қолданылады.
[15]
Келесі термин парадигма деп аталады. Apertium жүйеі контестінде
парадигмаар сөздер тобының септеужіктеу мысалы болып табылады.
Морфологиялық сөздікте леммалар парадигмаларға сілтеме жасап отырады, бізге
мүмкін болатын қосымшалардың барлығын жазу қажеттілігісіз бұл леммалардың
барлық формасын көрсете алады. Парадигманы қолданудың мысалы ретінде келесі
қызмет көрсете алады. Имбирь және кисель сын есімдерін сөздікке енгізгіміз
келсе, бірдей қосымшалар орнына:
• имбирь, имбир;
• кисель, кисел;
біз имбирь сөзінің қосымшаларын жазып, сосын " кисель сөзі имбирь сөзі
секілді өзгереді" деп, немесе "щавель сөзі имбирь сөзі секілді өзгереді ",
"ревень сөзі имбирь сөзі секілді өзгереді ", "нашатырь сөзі имбирь сөзі
секілді өзгереді " және т.с.с.. Бұл мысалда имбирь парадигма, яғни басқа
сөздер үшін өзгеріс үлгісі болады. Парадигмалар pardef тегтерінде
анықталады және рar тегтерінде қолданылады. [15]
3.1 Бір тілді орыс тілі сөздігі
Орыс тілдің бірінші сөздігін құрудан бастайық. Сөздік XML-файл болып
табылады:
?xml version="1.0" encoding="UTF-8"?
dictionary
dictionary
Сөздіктің dictionary элементі. Бұл түбірлік элемент, және ол өзіне
барлық сөздікті қосады. Ол алфавиттық символдардың анықтамасынан, сөздердің
морфологиялық тәгтері болып табылатын символдардың анықтамасынан, флекті
парадигмалардың және сөздіктің бір немесе бірнеше бөлімдердің
анықтамаларынан тұрады. Олар лексикалық формалы (сыртқы форма-лексикалық
форма жұптарынан тұратын) сөздікті мақалалардан тұрады. [11]
Енді файл біздің сөздік жасауды бастағымыз келгенін анықтап жатыр. Бұл
файл көп пайдалы болу үшін, біз оған әлі бірнеше жазбалар қосуға тиіспіз,
бірінші әліпбиден бастаймыз. Ол орыс тіл үшін сөздікте қолдана алатын
әріптердің жиынын анықтайды. Ол төменде көрсетілгендей орыс әліпбинің балық
сөздерін қамтиды. [15]
alphabetАБВГДЕЁЖЗИЙКЛМНОПРСТУФХЦЧ ШЩЪЫЬЭЮЯабвгдеёжзийклмнопрстуфхцчшщ ъы
ьэюяalphabet
Сөздіктің alphabet элементі. Ол әліпбидің символдар спецификациясы
үшін қолданылады. Бұл спецификация мақсаты модульдерге символдық
түрлендіргіштер көмегімен енгізу және бөлек сөздерді токенизациялауға
мүмкіндік беру. [11]
dictionary тегінен соң әліпбиді қосамыз.Бұдан әрі бізге бірнеше
символдарды анықтау қажет. Жекеше (sg) және көпше (pl) түрдегі зат есім (n)
сияқты қарапайымдардан бастайық.
sdefs
sdef n="n"
sdef n="sg"
sdef n="pl"
sdefs
sdefs символдарды анықтау бөлімі үшін арналған элемент.
Ол сөздікте (sdef) барлық символдардың анықтамаларын біріктіреді. [15]
Символды анықтау үшін арналған sdef элементі. Ол бос элемент боп
келеді:n атрибутының мәні негізінде, лексикалық формаларды морфологиялық
тұрғыда белгілеу үшін сөздікте қолданылатын грамматикалық символдардың
атауын нұсқау үшін қолданылады. [11]
Символдардың аттары міндетті түрде қысқаша болуға тиіс емес, оларды
тіпті толық жазуға болады, бірақ мұны көп істек керек болған
соң,қысқартудың мәні бар.
Өкінішке орай, барлығы оңай емес, орыс тілінде сөздердің көптік және
жекеше түрде тұрғанын анықтап қана қоймай, сонымен қатар, септік және род
санаттары бар. Біздің мысалымыз үшін сөзді мужской род –та тұрған атау
септігіндегі зат есім деп аламыз. Келесі қадамда парадигмалар бөлімін
анықтаймыз:
pardefs
pardefs
және сөздік бөлімін:
section id="main" type="standard"
section
Сөздік бөлімі үшін арналған section элементі
Ол сөздікпен айырылып танылатын сөздерді қамтиды. Сөздікті бөлімдерге
ажыратудың себебі, кейбір формалар - мысалы, анықталған регулярлы
құрылымдардың идентификациялануынан кейін түсетін немесе нақты диалектте
жататын (ерекше) өңдеуді қажетсінеді. [11]
Сөздікте бөлімдерді қолдану мәселесінің шешімі морфологиялық талдау
шеңберіндегі токенизация рәсімі болып табылады. Формалардың көпшілігі
шартты белгі бойынша токенизацияланады: өңделетін символдан соң әліпби
емес, яғни анықталмаған alphabet символ болса, идентификациялау жүреді.
type атрибутының мағынасы сөздіктің әрбір секциясы үшін қолданылатын
токенизация түрін өрнектеу үшін қолданылады. Бұл атрибуттың мүмкін болатын
мәндері: standard, сөздіктің барлық формалары үшін дерлік (токенизацияның
шартты режимі), postblank, шартсыз токенизацияны және бос орынды қойдыруды
талап ететін формалар үшін, және inconditional қалған шартсыз токенизацияны
талап ететін формалар. [11]
id атрибуты сөздіктің бөлімдеріне атау тағайындау үшін қолданылады.
Бөлімдердің екі түрі бар. Бірінші — стандартты бөлім, ол сөздерді,
энклитикаларды қамтиды және т.б. Екіншісі — тыныс белгілерін және т.с.с
қамтитын сөзсіз бөлім. Біздің бөлімде сөзсіз бөлім жоқ.
Біздің файлымыз осылай көрінетін болады:
?xml version="1.0" encoding="UTF-8"?
dictionary
sdefs
sdef n="n"
sdef n="sg"
sdef n="pl"
sdefs
pardefs
pardefs
... жалғасы
Ұқсас жұмыстар
Пәндер
- Іс жүргізу
- Автоматтандыру, Техника
- Алғашқы әскери дайындық
- Астрономия
- Ауыл шаруашылығы
- Банк ісі
- Бизнесті бағалау
- Биология
- Бухгалтерлік іс
- Валеология
- Ветеринария
- География
- Геология, Геофизика, Геодезия
- Дін
- Ет, сүт, шарап өнімдері
- Жалпы тарих
- Жер кадастрі, Жылжымайтын мүлік
- Журналистика
- Информатика
- Кеден ісі
- Маркетинг
- Математика, Геометрия
- Медицина
- Мемлекеттік басқару
- Менеджмент
- Мұнай, Газ
- Мұрағат ісі
- Мәдениеттану
- ОБЖ (Основы безопасности жизнедеятельности)
- Педагогика
- Полиграфия
- Психология
- Салық
- Саясаттану
- Сақтандыру
- Сертификаттау, стандарттау
- Социология, Демография
- Спорт
- Статистика
- Тілтану, Филология
- Тарихи тұлғалар
- Тау-кен ісі
- Транспорт
- Туризм
- Физика
- Философия
- Халықаралық қатынастар
- Химия
- Экология, Қоршаған ортаны қорғау
- Экономика
- Экономикалық география
- Электротехника
- Қазақстан тарихы
- Қаржы
- Құрылыс
- Құқық, Криминалистика
- Әдебиет
- Өнер, музыка
- Өнеркәсіп, Өндіріс
Қазақ тілінде жазылған рефераттар, курстық жұмыстар, дипломдық жұмыстар бойынша біздің қор #1 болып табылады.
Ақпарат
Қосымша
Email: info@stud.kz