Қазақ тілінен орыс тіліне машиналық аударма жасайтын программалық кешенін өңдеуі (генератор)
КІРІСПЕ 5
1 АНАЛИТИКАЛЫҚ ШОЛУ 7
1.1 Машиналық аудармашының тарихы 7
1.2 Машиналық аудармашының сәулеті 9
1.3 Қазақ.орыс аудармашысының қазіргі күйі 9
2 ҚАЗАҚ.ОРЫС ТІЛДЕРІНДЕГІ ТАЛДАУДЫҢ МОДЕЛІН ҚҰРУ 11
2.1 Машиналық аударманың талдауы 11
2.2 Қазақ тілінен орыс тіліне машиналық аудармашының концептуалдық моделі 14
2.3 Формальді грамматика 17
2.3.1 Формальді грамматиканың және тілдің анықтамасы 18
2.3.2 Формальды грамматиканың типтері 21
2.3.3 Қазақ тілінің формалды грамматикасы 24
2.4 Лексикалық талдау моделі 24
2.4.1 Сөз таптары 25
2.5 Синтаксистік талдау моделі 32
2.5.1 Қазақ тілі мен орыс тілінің жалғауларының арасындағы байланыс 33
3 ҚАЗАҚ ТІЛІНДЕГІ СӨЗДЕРДІ ТАЛДАУДЫҢ ӘДІСТЕРІ МЕН АЛГОРИТМДЕРІН ҚҰРУ 38
3.1 Лексикалық талдау 38
3.2 Синтаксистік талдау 40
3.3 Синтаксистік генератор 40
4 АҚПАРАТТЫҚ ЖАБДЫҚТАУ 42
4.1 Мәліметтер қорының құрылымы 42
5 ПРОГРАММАЛЫҚ ЖАБДЫҚТАУ 47
5.1 Қолданылған программалау тілі 47
5.2 Қолданылатын программалық процедура 48
6 ЭКСПЕРИМЕНТАЛДЫҚ ЕСЕПТЕУ ЖҰМЫСТАРЫНЫҢ НӘТИЖЕЛЕРІ 50
7 ЖОБАНЫҢ ЭКОНОМИКАЛЫҚ ТИІМІДІЛІГІНІҢ БАҒАЛАНУЫ 52
7.1 Машиналық аудармашының сапасын бағалау үшін әдістемені құру 52
7.2 Машиналық аудармашының сапасын бағалауға шолу 52
7.3 Машиналық аудармашы сапасының эксперттік бағалау методикасын құру 54
ҚОРЫТЫНДЫ 56
ҚОЛДАНЫЛҒАН ӘДЕБИЕТТЕР ТІЗІМІ 57
А ҚОСЫМШАСЫ 58
Ә ҚОСЫМШАСЫ 62
Б ҚОСЫМШАСЫ 63
1 АНАЛИТИКАЛЫҚ ШОЛУ 7
1.1 Машиналық аудармашының тарихы 7
1.2 Машиналық аудармашының сәулеті 9
1.3 Қазақ.орыс аудармашысының қазіргі күйі 9
2 ҚАЗАҚ.ОРЫС ТІЛДЕРІНДЕГІ ТАЛДАУДЫҢ МОДЕЛІН ҚҰРУ 11
2.1 Машиналық аударманың талдауы 11
2.2 Қазақ тілінен орыс тіліне машиналық аудармашының концептуалдық моделі 14
2.3 Формальді грамматика 17
2.3.1 Формальді грамматиканың және тілдің анықтамасы 18
2.3.2 Формальды грамматиканың типтері 21
2.3.3 Қазақ тілінің формалды грамматикасы 24
2.4 Лексикалық талдау моделі 24
2.4.1 Сөз таптары 25
2.5 Синтаксистік талдау моделі 32
2.5.1 Қазақ тілі мен орыс тілінің жалғауларының арасындағы байланыс 33
3 ҚАЗАҚ ТІЛІНДЕГІ СӨЗДЕРДІ ТАЛДАУДЫҢ ӘДІСТЕРІ МЕН АЛГОРИТМДЕРІН ҚҰРУ 38
3.1 Лексикалық талдау 38
3.2 Синтаксистік талдау 40
3.3 Синтаксистік генератор 40
4 АҚПАРАТТЫҚ ЖАБДЫҚТАУ 42
4.1 Мәліметтер қорының құрылымы 42
5 ПРОГРАММАЛЫҚ ЖАБДЫҚТАУ 47
5.1 Қолданылған программалау тілі 47
5.2 Қолданылатын программалық процедура 48
6 ЭКСПЕРИМЕНТАЛДЫҚ ЕСЕПТЕУ ЖҰМЫСТАРЫНЫҢ НӘТИЖЕЛЕРІ 50
7 ЖОБАНЫҢ ЭКОНОМИКАЛЫҚ ТИІМІДІЛІГІНІҢ БАҒАЛАНУЫ 52
7.1 Машиналық аудармашының сапасын бағалау үшін әдістемені құру 52
7.2 Машиналық аудармашының сапасын бағалауға шолу 52
7.3 Машиналық аудармашы сапасының эксперттік бағалау методикасын құру 54
ҚОРЫТЫНДЫ 56
ҚОЛДАНЫЛҒАН ӘДЕБИЕТТЕР ТІЗІМІ 57
А ҚОСЫМШАСЫ 58
Ә ҚОСЫМШАСЫ 62
Б ҚОСЫМШАСЫ 63
Бұл дипломдық жұмыс қазақ тілінен орыс тіліне машиналық аударма жасау технологиясына арналған. Қазіргі заманда мұндай технологияның қажеттілігі өте жоғарғы деңгейде.
Бұл программаны жасау үшін бірінші қазақ тілімен орыс тілінің грамматикасын терең зерттеп, олардың арасындағы байланысты қарастырып, келесі бөліктерге бөлдім:
• Сөздердің түбірлерінің және сәйкес аудармаларының қорын құру;
• Қазақ тілінің лексикалық (морфологиялық) талдауы;
• Қазақ тілінің синтаксистік талдауы;
• Орыс тілінің лексикалық және синтаксистік талдауы;
• Машиналық аудармашының көмегімен мәтіндерді өндіру.
Қазіргі күнде Қазақстан Ресубликасында барлық құжаттар мемлекеттік тілге аударылуда. Техникалық терминологияның аудармасы үлкен жағымсыздықтар алып келеді. Осы мәселені шешуде машиналық аудармашының тигізер көмегі өте зор. Мысалы, белгілі бір өндіріс саласындағы стандарттарды, бұйрықтарды, заңдардың барлығын аудару үшін сол саланың терминологиясы енгізілген машиналық аудармашыны қолдану жұмысты ондаған есе жеңілдетеді.
Тіпті көп жағдайларда мәтінді терудің де қажеті болмайды. Сканермен өткізіп, алынған мәтінді аудармашыға көшірген жеткілікті.
Қазіргі заманғы жүйелерді дұрыс қолдану үшін, машина сөйлемді қалай аударатынын түбегейлі білу секілді машиналық аудармашыны бағалау үшін өзінің бір стандарты қажет. Мұндай стандартты орнату туралы негізгі талқылаулар тек қазіргі уақытта басталды, бірақ келісімді қабыладу үшін көп уақыт кетпейді, себебі оларды қарастыратын болсақ, әсер ететін көптеген факторлар бар. Бағалау факторлары қолдану мақсатына қарай бөлінеді. Бағалауда қарастырылуы қажет факторлар:
1. Өнім, операция және қызмет көрсету бағасы; үйрету, мәтіндік енгізу, қарапайым сөздер және арнайы терминология үшін сөздікті жаңарту; өңдеу, қорытынды мәтіндік дайындық, аударма сапасы мен бағасы арасындағы қатынас.
2. Мәтінді енгізу жылдамдығы, алдын ала өңдеу (жұмыс үстелі мен сандарды, және т.с.с. өңдеулерді қоса алғанда), машиналық аудармашы, қорытынды мәтінді өңдеу келсімді форматтайды (жұмыс үстелі мен сандарды, және т.с.с. өңдеулерді қоса алғанда), алдын ала өңдеу мен кейінгі өңдеу қатынасы.
3. Дұрыстығы, түсініктілігі, және қарапайымдылығы көз қарасы бойынша алынған сапалылығы.
4. Сөздікті өзгертудің жетілідірілгендігі, жүйенің негізгі сөздігі мен тұтынушылық сөздігі деңгейін жоғарылату, әсіресе белгілі бір аумақтағы әлеуметтік диалект үшін грамматиканы жетілідіру, тұтынушыларға сөздік пен грамматиканы жақсартудың рұқсат етілген деңгейі, және жетілідірілгеннен кейін әдісті тексеруге болатын жүйе мүмкіндігі.
5. Жүйені бір мәтіндік аумақтан екіншісіне және бір тілден екінші тілге кеңейту мүмкіндігі.
Бұл программаны жасау үшін бірінші қазақ тілімен орыс тілінің грамматикасын терең зерттеп, олардың арасындағы байланысты қарастырып, келесі бөліктерге бөлдім:
• Сөздердің түбірлерінің және сәйкес аудармаларының қорын құру;
• Қазақ тілінің лексикалық (морфологиялық) талдауы;
• Қазақ тілінің синтаксистік талдауы;
• Орыс тілінің лексикалық және синтаксистік талдауы;
• Машиналық аудармашының көмегімен мәтіндерді өндіру.
Қазіргі күнде Қазақстан Ресубликасында барлық құжаттар мемлекеттік тілге аударылуда. Техникалық терминологияның аудармасы үлкен жағымсыздықтар алып келеді. Осы мәселені шешуде машиналық аудармашының тигізер көмегі өте зор. Мысалы, белгілі бір өндіріс саласындағы стандарттарды, бұйрықтарды, заңдардың барлығын аудару үшін сол саланың терминологиясы енгізілген машиналық аудармашыны қолдану жұмысты ондаған есе жеңілдетеді.
Тіпті көп жағдайларда мәтінді терудің де қажеті болмайды. Сканермен өткізіп, алынған мәтінді аудармашыға көшірген жеткілікті.
Қазіргі заманғы жүйелерді дұрыс қолдану үшін, машина сөйлемді қалай аударатынын түбегейлі білу секілді машиналық аудармашыны бағалау үшін өзінің бір стандарты қажет. Мұндай стандартты орнату туралы негізгі талқылаулар тек қазіргі уақытта басталды, бірақ келісімді қабыладу үшін көп уақыт кетпейді, себебі оларды қарастыратын болсақ, әсер ететін көптеген факторлар бар. Бағалау факторлары қолдану мақсатына қарай бөлінеді. Бағалауда қарастырылуы қажет факторлар:
1. Өнім, операция және қызмет көрсету бағасы; үйрету, мәтіндік енгізу, қарапайым сөздер және арнайы терминология үшін сөздікті жаңарту; өңдеу, қорытынды мәтіндік дайындық, аударма сапасы мен бағасы арасындағы қатынас.
2. Мәтінді енгізу жылдамдығы, алдын ала өңдеу (жұмыс үстелі мен сандарды, және т.с.с. өңдеулерді қоса алғанда), машиналық аудармашы, қорытынды мәтінді өңдеу келсімді форматтайды (жұмыс үстелі мен сандарды, және т.с.с. өңдеулерді қоса алғанда), алдын ала өңдеу мен кейінгі өңдеу қатынасы.
3. Дұрыстығы, түсініктілігі, және қарапайымдылығы көз қарасы бойынша алынған сапалылығы.
4. Сөздікті өзгертудің жетілідірілгендігі, жүйенің негізгі сөздігі мен тұтынушылық сөздігі деңгейін жоғарылату, әсіресе белгілі бір аумақтағы әлеуметтік диалект үшін грамматиканы жетілідіру, тұтынушыларға сөздік пен грамматиканы жақсартудың рұқсат етілген деңгейі, және жетілідірілгеннен кейін әдісті тексеруге болатын жүйе мүмкіндігі.
5. Жүйені бір мәтіндік аумақтан екіншісіне және бір тілден екінші тілге кеңейту мүмкіндігі.
1. Бектаев “Қазақ-орыс сөздігі”
2. Э.Д Сулейменова и др. “Анықтағыш.” Учебный курс по изучению казахского языка / Э.Д Сулейменова, К.К Кадешова, Д.Х Аканова – Асатана: Издательство «Арман-ПВ» 2007 г – 240 стр. 227-229
3. Бектұров Ш.К “Қазақ тілі: лексика, фонетика, морфология, синтаксис” / - Алматы: Атамұра, 2006.-336 бет.
4. “Build Your Own ASP.NET 3.5 Web Site Using C# & VB” by Cristian Darie and Wyatt Barnet, 3rd edition.
5. N.Kultin “C# in tasks and its solutions”, Saint-Petersburg, Science 2007, 241p.
6. Мырзатай Серғалиев “Қазақ тілі” оқыту методикасы / Алматы – Атамұра 1992, 80 бет.
2. Э.Д Сулейменова и др. “Анықтағыш.” Учебный курс по изучению казахского языка / Э.Д Сулейменова, К.К Кадешова, Д.Х Аканова – Асатана: Издательство «Арман-ПВ» 2007 г – 240 стр. 227-229
3. Бектұров Ш.К “Қазақ тілі: лексика, фонетика, морфология, синтаксис” / - Алматы: Атамұра, 2006.-336 бет.
4. “Build Your Own ASP.NET 3.5 Web Site Using C# & VB” by Cristian Darie and Wyatt Barnet, 3rd edition.
5. N.Kultin “C# in tasks and its solutions”, Saint-Petersburg, Science 2007, 241p.
6. Мырзатай Серғалиев “Қазақ тілі” оқыту методикасы / Алматы – Атамұра 1992, 80 бет.
Пән: Информатика, Программалау, Мәліметтер қоры
Жұмыс түрі: Дипломдық жұмыс
Тегін: Антиплагиат
Көлемі: 57 бет
Таңдаулыға:
Жұмыс түрі: Дипломдық жұмыс
Тегін: Антиплагиат
Көлемі: 57 бет
Таңдаулыға:
ҚАЗАҚСТАН РЕСПУБЛИКАСЫНЫҢ БІЛІМ ЖӘНЕ ҒЫЛЫМ МИНИСТРЛІГІ
ӘЛ-ФАРАБИ АТЫНДАҒЫ ҚАЗАҚ ҰЛТТЫҚ УНИВЕРСИТЕТІ
Механика-математика факультеті
Ақпараттық жүйелер кафедрасы
Кафедра меңгерушісінің міндетін атқарушы
У.А. Тукеев
(қолы)
рұқсатымен қорғауға жіберілді
(күні)
ДИПЛОМДЫҚ ЖҰМЫС
Қазақ тілінен орыс тіліне машиналық аударма жасайтын программалық
кешенін өңдеуі (генератор)
050703 – “Ақпараттық жүйелер” мамандығы
Орындаған 4 курс студенті
М.А. Ильжанов
Ғылыми жетекшісі
Ж.М. Жұманов
к.ф.-м.н.., доцент
Норма бақылаушы
А. Қожанова
Алматы 2012
РЕФЕРАТ
В данной дипломной работе иследовался перевод текста с казахского на
русский язык.
В данный момент есть несколько вариантов программ, переводящих текст с
казахского на русский язык. Но все эти труды еще не разработаны в
достаточной степени. Учитывая все минусы, которые присутствуют в ранних
версиях переводчиков, были разработаны новые способы смыслового перевода.
Работа содержит Введение, 7 глав, Заключение, Список использованной
литературы и Приложение. Объем работы 52 страницы. На работе применились 2
таблицы, 19 рисунков.
ГЛОССАРИЙ
Машиналық аудармашы - ЭЕМ-де бір табиғи тілдегі мәтіннің мазмұны
жағынан эквивалентті басқа тілдегі мәтінге түрлендірілуі.Машиналық аударма
қазіргі жүйелеріне адам (редактор) қатысады.
Тіл — адамзат қоғамының белгілі бір кезенінде туып, заңды түрде
дамыған семантикалық жүйе. Онын ең басты қызметі ақпарат хабарлардың
жасалу, сақталуымен және оларды таратумен байланысты. Тіл адамды коршаған
шындык өмір туралы білімді сактаумен бірге, жаңа білімді кабылдайтын,
сөйтіп, адамның ойлау процесін жетілдіріп қамтамасыз ететін қоғамдык сипаты
бар құбылыс. Сөз тіркесі ( орыс. словосочетание ) деп толық мағыналы екі я
бірнеше сөздің бір-біріне тұлғалық әрі мағыналық жағынан бағына байланысуын
атаймыз.
Сөйлем деп бір шама ойды білдіретін бір сөзді я бірнеше сөз тіркесін
атаймыз. Тиянақталған ойды ауызша да, жазбаша да білдіруге болады. Ауызекі
сөйлеуде сөйлем мен сөйлемнің арасында кідіріс (пауза) болады. Жазуда бір
сөйлем екінші сөйлемнен нүкте, сұрау және белгілерінің бірімен айырылады.
Лексика(грек. лексикос — сөздік) — тілдегі сөздердің жиынтығы, сөздік
құрам. Лексикаға тілдегі барлық сөздер кіреді. Сөздер қолданылуына қарай
актив және пассив болып бөлінеді. Актив сөздерге күнделікті өмірде жиі
қолданылатын сөздер жатады. Ал пассив сөздерге қолданылу өрісі шектеулі
көнерген сөздер, диалектілер мен кәсіби сөздер, терминдер жатады.
Морфология (биология) - ағзаның пішіні мен құрылымы туралы ғылым.
Морфология (гр. morf — түр, тұлға, logos — сөз, ілім) — дербес
сөздердің грамматикалық мағыналарын тексеретін, грамматикалық сөз
тұлғалардың қызметі мен қалыптасу, даму заңдылықтарын зерттейтін тіл
ғылымының бір сапасы.
Синтаксис ( гр. σύνταξις - құру, тәртіп, амал-тәсіл ) - сөз тіркесі
туралы, сөйлем туралы ғылым. Сөйлеу дағдысы бойынша сөздер өз ара белгілі
бір жүйемен тіркеседі. Сол тіркестердің де, сөйлемдердің де өз жүйелері, өз
заңдары болады. Синтаксис сөйлеудің калыптасу ережелерің зерттейді.
Семантика (көне грекше σημαντικός - танбалаушы, білдіруші) — тіл және
тіл бірліктері (сөз, грамматикалық тұлға, сөз тіркесі,сөйлем) арқылы
білдірілетін хабарды, заттар мен құбылыстардың мән-мазмұның зерттейтін тіл
білімінің саласы, семиотиканың негізгі бөлімдерінің бірі.
Грамматика (гр. 'grammatіke, γράμμα' – әріп, жазу) – тіл білімінің сөз
таптарын, сөздердің өзгеруі мен сөйлем құрылысын зерттейтін саласы.
МАЗМҰНЫ
КІРІСПЕ 5
1 АНАЛИТИКАЛЫҚ ШОЛУ 7
1.1 Машиналық аудармашының тарихы 7
1.2 Машиналық аудармашының сәулеті 9
1.3 Қазақ-орыс аудармашысының қазіргі күйі 9
2 ҚАЗАҚ-ОРЫС ТІЛДЕРІНДЕГІ ТАЛДАУДЫҢ МОДЕЛІН ҚҰРУ 11
2.1 Машиналық аударманың талдауы 11
2.2 Қазақ тілінен орыс тіліне машиналық аудармашының концептуалдық моделі
14
2.3 Формальді грамматика 17
2.3.1 Формальді грамматиканың және тілдің анықтамасы 18
2.3.2 Формальды грамматиканың типтері 21
2.3.3 Қазақ тілінің формалды грамматикасы 24
2.4 Лексикалық талдау моделі 24
2.4.1 Сөз таптары 25
2.5 Синтаксистік талдау моделі 32
2.5.1 Қазақ тілі мен орыс тілінің жалғауларының арасындағы байланыс 33
3 ҚАЗАҚ ТІЛІНДЕГІ СӨЗДЕРДІ ТАЛДАУДЫҢ ӘДІСТЕРІ МЕН АЛГОРИТМДЕРІН ҚҰРУ
38
3.1 Лексикалық талдау 38
3.2 Синтаксистік талдау 40
3.3 Синтаксистік генератор 40
4 АҚПАРАТТЫҚ ЖАБДЫҚТАУ 42
4.1 Мәліметтер қорының құрылымы 42
5 ПРОГРАММАЛЫҚ ЖАБДЫҚТАУ 47
5.1 Қолданылған программалау тілі 47
5.2 Қолданылатын программалық процедура 48
6 ЭКСПЕРИМЕНТАЛДЫҚ ЕСЕПТЕУ ЖҰМЫСТАРЫНЫҢ НӘТИЖЕЛЕРІ 50
7 ЖОБАНЫҢ ЭКОНОМИКАЛЫҚ ТИІМІДІЛІГІНІҢ БАҒАЛАНУЫ 52
7.1 Машиналық аудармашының сапасын бағалау үшін әдістемені құру 52
7.2 Машиналық аудармашының сапасын бағалауға шолу 52
7.3 Машиналық аудармашы сапасының эксперттік бағалау методикасын құру
54
ҚОРЫТЫНДЫ 56
ҚОЛДАНЫЛҒАН ӘДЕБИЕТТЕР ТІЗІМІ 57
А ҚОСЫМШАСЫ 58
Ә ҚОСЫМШАСЫ 62
Б ҚОСЫМШАСЫ 63
КІРІСПЕ
Бұл дипломдық жұмыс қазақ тілінен орыс тіліне машиналық аударма жасау
технологиясына арналған. Қазіргі заманда мұндай технологияның қажеттілігі
өте жоғарғы деңгейде.
Бұл программаны жасау үшін бірінші қазақ тілімен орыс тілінің
грамматикасын терең зерттеп, олардың арасындағы байланысты қарастырып,
келесі бөліктерге бөлдім:
• Сөздердің түбірлерінің және сәйкес аудармаларының қорын құру;
• Қазақ тілінің лексикалық (морфологиялық) талдауы;
• Қазақ тілінің синтаксистік талдауы;
• Орыс тілінің лексикалық және синтаксистік талдауы;
• Машиналық аудармашының көмегімен мәтіндерді өндіру.
Қазіргі күнде Қазақстан Ресубликасында барлық құжаттар мемлекеттік
тілге аударылуда. Техникалық терминологияның аудармасы үлкен жағымсыздықтар
алып келеді. Осы мәселені шешуде машиналық аудармашының тигізер көмегі өте
зор. Мысалы, белгілі бір өндіріс саласындағы стандарттарды, бұйрықтарды,
заңдардың барлығын аудару үшін сол саланың терминологиясы енгізілген
машиналық аудармашыны қолдану жұмысты ондаған есе жеңілдетеді.
Тіпті көп жағдайларда мәтінді терудің де қажеті болмайды. Сканермен
өткізіп, алынған мәтінді аудармашыға көшірген жеткілікті.
Қазіргі заманғы жүйелерді дұрыс қолдану үшін, машина сөйлемді қалай
аударатынын түбегейлі білу секілді машиналық аудармашыны бағалау үшін
өзінің бір стандарты қажет. Мұндай стандартты орнату туралы негізгі
талқылаулар тек қазіргі уақытта басталды, бірақ келісімді қабыладу үшін көп
уақыт кетпейді, себебі оларды қарастыратын болсақ, әсер ететін көптеген
факторлар бар. Бағалау факторлары қолдану мақсатына қарай бөлінеді.
Бағалауда қарастырылуы қажет факторлар:
1. Өнім, операция және қызмет көрсету бағасы; үйрету, мәтіндік енгізу,
қарапайым сөздер және арнайы терминология үшін сөздікті жаңарту; өңдеу,
қорытынды мәтіндік дайындық, аударма сапасы мен бағасы арасындағы қатынас.
2. Мәтінді енгізу жылдамдығы, алдын ала өңдеу (жұмыс үстелі мен
сандарды, және т.с.с. өңдеулерді қоса алғанда), машиналық аудармашы,
қорытынды мәтінді өңдеу келсімді форматтайды (жұмыс үстелі мен сандарды,
және т.с.с. өңдеулерді қоса алғанда), алдын ала өңдеу мен кейінгі өңдеу
қатынасы.
3. Дұрыстығы, түсініктілігі, және қарапайымдылығы көз қарасы бойынша
алынған сапалылығы.
4. Сөздікті өзгертудің жетілідірілгендігі, жүйенің негізгі сөздігі мен
тұтынушылық сөздігі деңгейін жоғарылату, әсіресе белгілі бір аумақтағы
әлеуметтік диалект үшін грамматиканы жетілідіру, тұтынушыларға сөздік пен
грамматиканы жақсартудың рұқсат етілген деңгейі, және жетілідірілгеннен
кейін әдісті тексеруге болатын жүйе мүмкіндігі.
5. Жүйені бір мәтіндік аумақтан екіншісіне және бір тілден екінші
тілге кеңейту мүмкіндігі.
6. Операциялық штат саны, алдын ала өңдеу, кейін өңдеу, және сөздікке
қызмет көрсететін адамдар көзқарасы жағынан тұтынушымен қойылатын күш салу
деңгейі, құжаттар жүйесі құрылымын машианлық аударуға бейімдеу үшін және
авторлар негізіг мәтінді дайындау кезінде бастапқы тілдің тұжырымдарын
басқаруға қажетті сынақтан өткізу мен ретке келтіру уақыты.
7. Грамматика, семантикамен, анафора мен ellipsis қоса алғандағы
сөздік ақпараты- әңгімелесу, программалық жабдықтаудың жылдамдығы,
мүмкіндігін зерттеу, интерактивтік аударма немесе кейіннен өңдеу, ауыспалы
мағыналылық шешімі, тек ең жақсы аударма өнімін немесе сөйлемдер үшін
барлық мүмкін құрылымдар жасау үшін жүйенің қуаттылығы мен шектеулері.
Бұл мәселе әрқашанда өзекті қазіргі заман талабына сай, және қажетті
екенін білдіреді.
1 АНАЛИТИКАЛЫҚ ШОЛУ
1.1 Машиналық аудармашының тарихы
Соңғы кездері шет тілін білу тек саяхаттау немесе шет елден келген
қонақтарды күтіп алу кезінде ғана емес, өз үйіңнің ішінде де, мысалы,
танымал голливуд киноларын көргенде, теңіздің арғы жағынан келген
өнімдердің қолдануға арналған нұсқауларын немесе шаршамайтын браузер бүкіл
әлемнен іздеп шығатын Web-беттерін оқыған кезде қажет болады. Осылайша,
үйімізден шықпай жатып–ақ бізге аудармашылар көмегі қажет екенін түсінеміз.
Алайда бізге қажетті көмекті үйде тұрған компьютер көрсете алады.
Машиналық аударма (МА) жүйелері таң қаларлық нәрсе болудан қалған.
Олар өзінің балалық кезеңінен біртіндеп шығып, және де байланыспаған бала
былдыры орнына жеткілікті түрде түсінікті адамзат тілінде сөйлеуде. Аяққы
кезге дейін мұндай бағдарламалар, бағасы жағынан қуатты графикалық және
баспалық жүйлермен бірдей қымбат болып қана қоймай, олармен жұмыс істеу
өте қиын және күрделі болатын. Міне, үйдегі жеке компьтерлерде қолдануға
жарамды алғашұқы аудармашылар пайда болды. Олармен жақынырақ танысып,
мүмкіндіктерін бағалайық. Бірақ, әрине алдымен МА тарихынан бастаймыз.
Биографтар айтуы бойынша, XIX ғасырдың өзінде атақты математик Чарльз
Бэббидж британдық үкіметті оның есептеуіш машинаны жасау бойынша
зерттеулерін қаражаттандыру керек екендігіне көз жеткізуге тырысқан. Басқа
да жақсы жақтарының ішнде, ол әйтеу бір кезде бұл машина автоматты түрде
сөздерді аударады деп уәде еткен. Қазіргі кезде Бэббидж компьютер
жұмысының негізінде жатқан көптеген идеялар авторы болып саналғанмен, ол
өзінің машинасын да, уәде еткенің де іске асыра алмай қалды. Ал бұл идея
қазіргі күнге дейін айтарлықтай деңгейде жүзеге асырылмаған болып тұр.
Алайда бүкіләлемдік байланыс негізі болып тұрған Интернеттің пайда болуына
байланысты бұл идея қайтадан инвестициялар тарту мен қызығушылық тудыруда.
Жалпы, МА-ның алғашқы бағдарламалары, компьютер пайда болғаннан кейін
бірнеше ғана жылдар өткен соң, 50-ші жылдары шықты, бірақ ПК кең таралуына
дейін МА есептеуіш техниканы қолданудың маңызды саласынан гөрі ғылыми
зерттеулердің қызықты объектісі ғана болды, оның негізгі екі себебі бар:
компьютердің жұмыс істеу уақытының қымбаттығынан және оның ресурстарымен
ұжымды түрде қолдану. Соңғы жағдай, МА-ның оның қарапайым,
оперативтілігінен маңызды артықшылықтарын жойып электрондық көмекшіні
бірден қолдануға мұрсат бермеді.
МА-ның туылған күні болып (зерттеу саласы ретіндегі) 1947 ж саналады,
оның бәрі Уоррен Уивердің, Рокфеллеров фондының жаратылыстану ғылымы
бөлімінің директоры, Норберт Винерге сол жылдың наурыз айында жазған
хатынан басталды. Онда аудару мәселесі мәтінді дешифровка мәселесімен
салыстырылған. Соңғысы сол кездің өзінде ақ электромеханикалық құрылғыларда
орындалатын. Бұл хаттың артынан көптеген талқылаулар жүргізілді, және
зерттеу жұмыстарына қаражат бөлінді.
1952 ж атақты математик Бар Хиллелмен ұйымдастырылған бірінші
конференция өтті. Онда зерттеушілер тілдің көптеген синтаксистік ережелерін
ұймдастыруға, семантиканы, морфологиялық құрылымды, аудару жүйесі үшін
сөздіктер құрылымын сипаттау әдістеріне қатысты өз ойларымен бөлісті.
Академиялық зерттеулердегі жетістіктер МА мәселесіне коммерциялық
қызығушылық тудырды, және IBM фирмасы АҚШ-тағы Джорджтаундық университетпен
бірге 1954 жылы 250 сөзден тұратын сөздік пен 6 синтаксистік ережеге
негізделген және 49 алдын ала таңдалған сөйлемнің аудармасын қамтамасыз
ететін бірінші жүйені көрсете алды. Бұл тәжірибе зерттеулер тізімін
көбейтті: келесі он жылда АҚШ үкіметі және әскери мекемесі МА саласын
зерттеуге 40 млн. долларға жуық қаражат жұмсады.
Бірінші нәтижеден алынған эйфориядан МА іске аспауын толығымен жойылуы
арасында ек сегіз жыл өтті. Мұндай шешімге АҚШ ғыллымының Ұлттық
Академисының қолданбалы лингвистика бойынша арнайы комитетінің (ALPAC)
шолуына сүйеніп келді. Онда автоматты аудару жүйесі болашақта қажетті
сапаны қаматамасыз ете алмайды деп жазылды. Бұл есеп беру МА дамуына кері
әсерін тигізді, соның салдарынан АҚШ пен Европада қаражат болмағандықтан
қандай болмасын зерттеу жұмыстары тоқтатылды. Тек 70 жылдардың соңында,
ақпаратты компьютерлік іздеу мен жасанды интеллекттің лингвистикалық
мәселесін проектілеушілер мен зерттеушілердің қызығушылығы артуына
байланысты МА зерттеулері қайта жандандырылды.
Тек 80 жылдардың басынан, ПК сенімді және қуатты түрде әлемді жаулап
ала бастағаннан кейін, олардың жұмыс істеу уақыты арзандады және оны кез
келген уақытта қолдану мүмкін бола бастады. Демек, МА әйтеуір экономикалық
жағынан пайдалы бола бастады. Сол жылдары және одан кейін де
бағдарламлардың жетілдірілуі мәтіндердің көптеген түрін тура аударуға
мүмкін бере бастады, алайда МА проблемалары осы күнге дейін шешілмей тұр.
90 жылдарды МА-ның дамуының қайта жандануының негізігі кезеңі деп
санауға болады, ол ПК мүмкіндігінің жоғары деңгейімен, сканерлер мен OCR
программасының пайда болуымен ғана емес, Интернетинтранет
(Internetintranet) де пайда болуымен байланысты. Ол жеке инвесторлар мен
мемлекеттік құрылым үшін қаражат салудың ең тартымды түрі бола бастады.
МА технологиясының көптеген кемшіліктері болғанымен, көптеген ұйымдар
Бэббидждің берген уәдесін еске түсіре бастады. Машиналық аудармашы
жетілдірулерден әлі алыс, бірақ кез-келген оның көмегімен құжаттың негізгі
мағынасын түсіне алады,- МА-мен экспериментті онлайн режимде бастаған. ірі
Web-узелдің Alta Vista технологиялық директоры Луи Монье солй деп санайды.
Европалық Бірлестіктің Мемлекеттері соңғы 15 жылда осы мәселе бойынша
зерттеулерге 70 млн. доллардан артық қаражат жұмсады, ал жапон мемлекеттік
ұйымдары - 200млн. доллардан артық. MT SUMMIT VI де МА-ның өз елі үшін
стратегиялық маңыздылығы туралы қызықты баяндама жасаған Т.Р.Педтке айтуы
бойынша бұл бағыттың дамуындағы маңызды рөлді үкімет атқарады. МА
проблемасы жоғарғы технологиялардың дамуындағы және АҚШ-тың бүкіләлемдік
ақпараттық кеңістікте бәсекелестікке жарамдылығын қамтамасыз ету үшін
негізгі қарастырылатын мәселе болып тұр.
1.2 Машиналық аудармашының сәулеті
ПРОМТ машиналық аударма жүйесінің архитектурасы үш қабатты болады:
• Бірінші , “базалық” қабат – бұл translation engines, сөздік тіркесті
бір тілден екінші тілге аударуға мүмкіндік беретін және сөздік мәтінді
өңдеуге мүмкіндік беретін модульдер.
• Translation kernel – біздің программалық қамтамасыз етуіміздегі
ортаңғы деңгей. Ол жүйенің барлық объектілерін басқаратын,
мәліметтерді бірдейлестіретін, құжат форматтарын өңдейтін және
бастапқы құжаттарды жүйенің ішкі форматында көрсетуді қамтамасыз
ететін модульдер жиынынан тұрады. Бұл қабаттың жүйенің күрделі
байланысты объектілері мен оңай жұмыс істейтін және құжаттарды жөнелту
функциялары бекітілетін қосымшаларға осы объектілерге қол жеткізуге
мүмкіндік беретін қуатты API болады.
Біз жасаған архитектура функционалдылық пен тұтынушы интерфейсі
тұрғысынан қарағанда жаңа программалар жасауға мүмкіндік береді, және пайда
болған архитектураға жөнелтудің жаңа бағыттарын да енгізе алады.
• Үшінші қабат – шет тілдерде мәтіндерді өңдеу барысында тұтынушыларға
тиімді болуы мүмкін әр түрлі қызметтер көрсететін қолдану
моделдеріне арналған кең көлемдегі қосымшалар жиынтығы.
Ол бізге нарық сұраныстарына оңтайлы жауап беруге, жаңа нарыққа тез
шығу, жаңа өнімдерге қол жеткізу, жаңа операциялық жүйелерге өнімдер
даярлау немесе жөнелтудің жаңа бағыттарын шығаруға мүмкіндік береді.
Мысалы, әлемдік деңгейдегі ERPCRM тапсырысы бойынша осы компанияның
ішкі қажеттіліктері үшін Элертронды сөздікдың мамандандырылған жүйесі
жасалды. ПРОМТ компаниясының жөнелтудің тапсырылған бағыты үшін қандай да
бір өнімі болмаса да, бұл тапсырма небәрі бірнеше ай ішінде жасап
шығарылды.
1.3 Қазақ-орыс аудармашысының қазіргі күйі
Машиналық аудармашылардың арасында ағылшын-орыс, орыс-неміс сөздіктері
әлдеқашан іске асырылған, ал орысша-қазақша аудармаға келетін болсақ, оны
жүзеге асыру идеясы кемінде 10-15 жыл бұрын пайда болған. Бірақ 1990-1995
жылдары осы мәселемен айналысқан фирмалардың бұл істеріне мемлекет
тарапынан ешқандай қолдау болмағандықтан тек идея түрінде ғана болып қала
берді. Жобаның іске асырылуы баяу дамыды, тек 2006 жылы ҚР мәдениет және
ақпарат Министерлігінің жанындағы тілдер Комитетінде, компьютерлік
технологияда қазақ тілін дамытуға байланысты бірнеше тендерлар өткізілді.
Соның ішінде компьютерлік қазақша-орысша және орысша-қазақша сөздіктерін
өңдеуге де тендерлар жарияланған болатын.
Қазіргі таңда машиналық аударма идеясын іске асыруда әл-Фараби
атындағы ҚазҰУ, Л.Н. Гумилев атындағы ЕҰУ, Абай атындағы АМУ және тағы
басқа Қазақстанның ірі жоғарғы оқу орындарымен қатар бірнеше Қазақстандық
Санасофт, Алтон, Бимаш және Ізет сияқты фирмалар жұмыс атқарауда
және электронды аудармашылары бар сайттарда жетіп артылады. Мысалы, INDEX
GROUP интернет агенттігінің қолдауымен жасалған SOZDIK.KZ орысша-қазақша
сөздік жобасы, Ербол Панабердиевтің басшылығымен жасалған 4 бағытта аударма
жасайтын ILK.KZ онлайн-аудармашысы және сөздік көлемі 750 мыңнан артық
сөз бен сөзтіркестерінен тұратын Каюпов Табылды Қайсағалиұлының
басшылығымен жасалған SOYLEM аударма жүйесі.
Аталған автоматты аударма жасау жүйесінің басым бөлігі тек жалғыз
сөзді ғана аударуға арналған. Ал сөз тіркестерін, сөйлемдерді аударатын
аударма программасын Ізет фирмасы Тілмаш деген атпен ұсынған болатын.
Бірақ фирма директоры Ізетәлі Тілешовтің: Бағдарламада қазақ тіліндегі
сөздер 120 мың шамасында, оның бер жағында нақты саны 6127 жұрнақ-жалғау
топтастырылды деп айтқанымызбен, бұл әлі толықтыруды, жетілдіруді қажет
етеді. Өйткені, қазақ тілі — бай тіл. Рас, “Тілмаштың” тіліміздегі тұрақты
тіркестер мен еркін тіркестерді аударуға шамасы жетпейді. Осы тұрғыдан
алғанда, бағдарлама аудармашыға көмек құралы болғанымен, онымен бірдей
дәрежеде жұмыс істей алмайды. Сондықтан біз өз жұмысымызға жоғары оқу
орындарының жүздеген ғалымдарын жұмылдырсақ дейміз. Сол кезде бұдан да
жақсы нәтиже беретініне сеніміміз мол. - деп айтуына қарағанда қазіргі
уақытқа дейін барлық талапты қанағаттандыратын машиналық аударма құралы жоқ
деуге болады.
Машиналық аудармада қолданылатын қазіргі жүйелер екі тілге ғана
(орысша-қазақша, ағылшынша-орысша, ағылшынша-қазақша, немісше-ағылшынша
т.с.с.) бағытталған, сонымен қатар енгізілетін және аударылған тілдер
арасындағы аралық деңгейде немесе сөзбе-сөз аударма жасау деңгейінде ғана
қолданылады.
Дегенмен көп жұмысты қажет ететін машиналық аударма жүйесі кез келген
қоданушыға жақсы жәрдем болмақ. Пайдаланушы тілді жақсы меңгермесе де
электронды аударма нәтижесінде алынған алғашқы мәтінді қарай отырып
мәтіннің жалпы мағынасын тезірек түсіне алады.
2 ҚАЗАҚ-ОРЫС ТІЛДЕРІНДЕГІ ТАЛДАУДЫҢ МОДЕЛІН ҚҰРУ
2.1 Машиналық аударманың талдауы
Машиналық аудармашы түрінде берілген программалық жабдықтармен жұмыс
істеу барысында мәтіннің аудармасына қатысты көптеген олқылықтарды
кездестіруге болады. Аударылған мәтіндерді лексикалық талдау нәтижесі
көрсеткендей, көп мөлшердегі машиналық аудармашылар қарапайым сөз таптарын
дұрыс аударғанымен, септіктерді, сын есімге қатысты сөздерді, сөз
айналымдарын аударуға келгенде қате жіберіп, сөйлемді мағынасына қарай
дұрыс құрастыра алмайды екен.
Кейбір аударғыштардың ақсайтын тұстары - бірнеше мағынаға ие болатын
сөздердің аудармасының нақты болмайтындығы. Негізінен дұрыс аударма алу
үшін сөйлемнің әр түрлі сөз таптары мен олардың граммтикалық ережелеріне
сай келетін грамматикалық құрылуының эвристикалық талдауын ұсынуға болады
және мамандандырылған мәтіндерді аудару кезінде сөздіктер
келіспеушіліктерін ескермеуге болады.
Мәтіндерді грамматикалық талдау нәтижесі көрсеткендей, машиналық
аудармашы жекеше және көпше түрдегі сөздерді оңай аударғанымен, септіктер
мен етістіктерді қажетті мөлшерде қолдануға келгенде қиындықтарға ұшырайды
екен.
Сонымен, әзірге компьютер көп жағдайда аударғышты алмастыра алмайды.
Жалпы алғанда машиналық аударма жүйелерін қолдану қажет пе? Әрине, қажет.
Егер компьютер әдеби шығармаларды аударатын болса, онда пайда болған
аударма түпнұсқалық тілді жеткілікті деңгейде жақсы меңгермеген, бірақ
жақсы әдеби редактор - адамның өнер туындысы болатын шимайбет нұсқасы пайда
болады. Егер аударылатын мәтін техникалық жанрға жататын болса, онда
бұл жағдайда мамандыққа байланысты сөздік (жиегіне мәтін жазылған) дұрыс
таңдалса, онда толықтыруларды қажет етпейтін қанағаттанарлық нәтижеге қол
жеткіземіз деп айтуға болады. Жалпы алғанда компьютерлік аударманы өңдеуге
деген қажеттілік жоғарыда аталған проблемаларға байланысты туындауы мүмкін.
Ол үшін машиналық аударма жүйелерінде мәтінді өңдейтін механизмдер
міндетті түрде болуы тиіс.
Кейбір тұтынушылар үшін аударманың мұндай дәрежеде болуы тіптен
жарамайды. Компанияның жаһандық интражелісін құруға қатысушы Electronic
Data Systems (Плейно, Техас штаты) корпорациясының жұмысшысы Линн Сешедри
Машиналық аудармашы – ол аңыз!, - деп санайды.
— Мүмкін, ол техникалық құжаттарға қолданылатын шығар, бірақ қалған
жағдайдың барлығында дерлік сіз 15% мағына мен 85% бос сөзге қол
жеткізесіз. Өзінің EDS интражелісінің мазмұнын аудартуда ол шарттық
негізде мамандандырылған аудармашылар көмегіне жүгінеді екен. Алайда
басқаларының машиналық аударғыштарға деген еш өкпесі жоқ, себебі оған
арналған шынайы альтернативалар жоқ. Гуманизмнің даму үшін! атты
париждық фонд да өз мерзімінде мынадай таңдау алдында тұрған еді: өз
бюджеттерінің көлемді мөлшерін аудармашыларға жұмсау немесе машиналық
аударма жүйелерінің қызметін пайдаланып көру. Жекеше көздермен
қаржыландырылатын бұл ұйым экология, экономика және тағы басқа салалардың
ғалымдарының халықаралық қоғамын құрамыз деген қызығушылықтар оята білді.
Осы ұйымның таңдауы машиналық аударма технологияларына, атап айтсақ
қолданбалы компьютер үшін сапалы және аса қымбат емес қызмет түрлерін
көрсететін Globalink фирмасының өніміне түсті. FPH әр тілде сөйлейтін
мамандардың арақатынасы қарапайым және нәтижелі болсын деген мақсатпен оны
электрондық пошта серверіне орналастырды. FPH кеңесшісі Марина Урквиди
Бұл дұрыс шешім – деп есептейді, - Көптеген адамдар жұмысты ағылшын
тілінде емес, өздерінің туған тілдерінде істеуді қалайтын еді. Енді оларда
осыған мүмкіндік бар. Машиналық аудармашының өзіндік кем тұстары бар
екендігін де ол жоққа шығармайды, бірақ егер адам шынымен қаласа машина
жасаған аударманы түсінуге әбден болады деп есептейді. Егер сіз аздап
ойланып көрсеңіз, онда сөйлем мағынасын да түсінуіңізге болады. Сонымен,
егер машиналық аудармашыға көп талап қоймасақ, онда аударма жайлы
Бэббидждің берген антының орындалып қалуы да мүмкін.
Машиналық аудармашыға - ол ... ... ... құрал. Мәтіннің дұрыс
аудармасы – ол тек қана өнер емес, сонымен қатар көп еңбекті қажет ететін
жұмыс. Айта кететін жайт, өте дұрыс жасалған аударманың өзі де қажетті
мөлшерде өңделуі тиіс. Өнер тұрғысына келер болсақ, болашақтағы компьютер
мен адам арасындағы жарыста әрқашан тірі аудармашы жеңімпаз атанатын
болады.
Алайда аударманың көп еңбекті қажет ететіндігін шешу мәселесіне
келсек, машиналық аударма жүйелері бәстесудің жақсы құралы болып табылады.
Мұны жақсырақ түсіну үшін машиналық аудармашының негізгі ерекшеліктерін
атап өтейік (барлық машиналық аударма жүйелеріне және жекеше алғанда PROMT
жүйесіне де ортақ ):
1. Жоғары жылдамдық. Небәрі бірнеше секунд ішінде сіз көпбеттік
мәтіннің аудармасын ала аласыз. Ол мәтін мағынасын тезірек түсінуге жол
ашады, ал егер жүйе берілген тақырыптағы мәтіндерді аударуға арналған
болса, онда аз мөлшердегі редакторлық өңдеу қажет.
2. Төмен баға. Оны өте оңай есептеуге болады: егер сіз маманданған
аудармашыға жүгінетін болсаңыз, аударылған мәтіннің әрқайсы беті үшін ақша
төлеуіңіз қажет болады, (аудармашының отыратын орны мен аударма дәрежесіне
байланысты ол 5 доллар мен 20 доллар арасындағы төлем болуы мүмкін) немесе
сіз жалақы төлеуге тиіс болатын штаттық аудармашыны жалдайсыз. Машиналық
аударғышты таңдайтын болсаңыз, сіз тек бір мәрте – программаны сатып
алғанда ғана ақша төлейсіз. Сіз қайсысын таңдайсыз: бірреттік ақша төлеу
ме, жоқ әлде белгілі бір уақыт сайын ақша шығара бергіңіз келе ме?
ПРОМТ компаниясының қолданушылардың мәліметі бойынша, 50 беттен
асатын аударма жасау кезінде ПРОМТ аударма-программасы айына 98 мәрте
айналым жасайды екен.
3. Қызметке қол жетімділік. Машиналық аударма жүйелерінің сыншылары
назарға ала бермейтін аса қажетті емес қасиет. Аударма-программа әрқашан
сіздің қол астыңызда, ал аудармашылар бюросына хабарласу көп жағдайларда
қосымша уақыт пен күш шығындарын қажет етеді.
4. Құпиялық. Машиналық аударма жүйелеріне сіз кез-келген ақпаратты
сеніп тапсыра аласыз. Жеке хаттарыңызды аудармаға беру сізге жағымды әсер
сыйлай ма? Өзіңіздің қаржылық істеріңізге бөтен аудармашыны кірістіруге
дайынсыз ба? Қандай да бір эротикалық әдебиетті аудару үшін сіз
аудармашылар бюросына барасыз ба? Егер иә болса, онда әрине сауал жоқ.
Бірақ бұл жағдайдың өзінде сізді көп тұтынушылардың қолдай қоймайтындығымен
келісетін боларсыз?! Көптеген тұтынушылардың біздің жүйемізді жеке хаттарды
аудару үшін де қолданатындықтарын біздің жүйе жеке бас мәселелерін тиімді
шешіп берген тұтынушылар хаттарынан білеміз. Аударма – программа сіз сеніп
тапсырған кез-келген ақпаратты құпияда сақтайды.
5. Әмбебаптылық. Кез-келген аударғыштың өзінің жақсы меңгерген
тақырыбы болады, және ол сол тақырып бойынша аударады. Көркем әдебиет
аударғышы техникалық мәтіндерді аударатын болса, кедергілерден айналып
өтуге болмайды. Бір ғана мысал келтірсек:"Жалаңаш жолсерік автобус ішінде
жүгіреді" (түпнұсқасы "Naked conductor runs along the bus"). Бұл компьютер
өнерінің нәтижесі емес, бұл тарихи мысал компьютердің аз кезінде қолданса
керек.
МА жүйелері абсолютті әмбебап екендіктерімен ерекшеленеді. Тек қана
мамандандырылған сөздікті сай келетін тақырыпқа сауатты қолдана білу
қажет. Машиналық аударма жүйелерінің тағы бір айта кетерлік ерекше қасиеті:
олардың мамандандырылған сөздіктеріне жаңа терминдердің енуі полиграфикалық
толтырулар арқылы енгізілетін аналогтық сөздіктерге қарағанда әлдеқайда
жылдамырақ жүреді. Өзіндік жеке жаңа терминдер мен олардың мағыналары
туралы сөздікті ұстауға да болады. Бұл жағдайда сіз аударманың
кепілдендірілген түріне қол жеткізесіз.
6. Ақпаратты Интернетте аудару. Онлайн түрде машиналық аударма
жүйелерінің барлық қасиеттері көрінеді. Ақпаратты интернетте аударудың
көптеген жағдайларында , әрине егер сіз бірнеше тіл меңгермеген болсаңыз,
тек аударма-программалар арқылы ғана жүзеге асады. Дәл осы қажеттілік әлем
бойынша машиналық аударма жүйелеріне деген сұранысты арттырды. Тек
онлайндық жүйелер арқасында ғана машиналық аударма жүйелеріне оларды
аударуда еш қиындық көрмей шетелдік сайттарға кіруге жол берілді. Сонымен
қатар, осы жерде машиналық аударма жүйелерінің жоғарыда аталған барлық
қасиеттері қатысады: кез-келген тақырыптағы мәтінді аудару тез және нақты
түрде жүзеге асады.
Машиналық аударма жүйелерін ұжымдарда қолдану оның келесі
артықшылықтарын көрсетеді:
1. Стиль мен қолданбалы терминологияның сәйкестілігі. Аудармашылар
ұжымында жұмыс істегенде мәтінді өңдеуге кететін шығын аударма құнының
100-140 % құрайды. Машиналық аударма жүйелері жасаған аударманы өңдеу де
оңай, себебі ол бір стильде сақталған. Егер мәтінде жиі кездесетін қандай
да бір термин дұрыс аударылмаса, онда бұл қателіктерді қарапайым
автоауыстыру әдісімен түзетуге болады. Көлемді мәтін аудармашылар тобымен
аударылса, онда әрқайсы аудармашы жіберген жеке-жеке қателіктерді іздеу
қажет болады. Бұл жағдайда редакторға түзету жұмыстары мен аударма стилі
қажет болады.
2. Мәтінді форматтауға қажетті шығынның болмауы. Бұл әсіресе
электрондық түрдегі құжатты аударғанда қажет. Аударма-программа бастапқы
форматты толығымен сақтайды, ал ол өз кезегінде аударма кезінде уақыт пен
ақшаны үнемдейді. Алайда машиналық аударма ұсынатын артықшылықтарды қолдану
орнына кейбір адамдар тапсырманы абсурдты жағдайға дейін апарады, мысалы,
мақалдарды, әндер мен тақпақтарды, яғни машиналық аударманың нағыз
бағытталмаған нәрселерін аудармақшы болады. Енді кейбіреулері программаның
сипатталуын толық оқымай жатып, медициналық тақырыптағы мәтінді банктік
істер сөздігімен аудармақшы болады, артынша мағынасыз сөздер тіркесін
көрісімен айқайға басып, бір мәз боп қалады. Дәл сол мезетте олар осы
жолмен өздерінің комплекстерімен күресіп, бірінші кезекте компьютерден де
ақылды екендіктерін дәлелдемекші болғандай күй кешеді.
2.2 Қазақ тілінен орыс тіліне машиналық аудармашының концептуалдық
моделі
Үстіде көрсетілген бөлімдерге қарасақ, машиналық аудармашы өзінің ұзақ
тарихына қарамастан, дамып келе жатқан білім саласы болып тұр. Машиналық
аудармашыға заттар саласы киын және біріңғай тәсілдің болмағандығы негізгі
мәселе болып тұр.
Біржағынан, тілдің құрылысын құрып жатқан кезде, бір нақты тілден
екінші нақты тілге ережеге сүйенбей аудару, кемінде өте қиын. Басқа
жағынан, басқа амалдарды қолдану(статистикалық, ережеге сүйене отырып,
“аударма жады”) көп көлемдегі мәтінді(басқаша айтқанда дене) екі тілде
анализдеу және қалыптастыру барысында, үлкен жұмыс жасауды талап етеді. Осы
уақытта түрып қалған әдістер мен зерттеулер жоқ, және осы бағытта қолайлы
нәтижелер бар екені туралы айту өте қиын.
Салада амалдарды анализдеу, гибридтті амалды қодану ең сапалы
екендігін көрсетеді.
Үстіде жазылғандай, моделдер мен компьютерлік жабдықтамаларды,
гибридтті амал арқылы құруды шештік.
Машиналық аудармашының концептуалды моделі (2.2.1-сурет).
Сөйлемді қазақ тілінен орыс тіліне машиналық аударуда келесі модульдер
орналасады:
• Қазақ тіліндегі сөйлемдегі, жай сөздерді анализдеудің лексикалық
модулі және олар аударылған сөйлемдерден тұрады. Берілген модуль қазақ
тілінің агглютинативтікті және суффиктивті спецификаларын ескереді.
• Казақ тілінің жай сөйлемдегі грамматиканың синтаксистік анализдеудің
модулі, сөйлемдерді құрамы бойынша талдау үдерісі. Берілген модуль
қазақ тілінің синтаксисін және оның синтаксистік табиғаттың
номинативті ерекшеліктерін ескереді; ол грамматикалық байланыстардың
негізінде құрылған.
• Көпмағыналы сөздер мен сөзтіркестердің модулі, бірнеше мағыналы
сөздерді сыпайы аудару үшін қолданылады.
• Қазақ тілінен орыс тіліне жай сөйлемдерді аудару құрылымдардың модулі.
Берілген модуль екі тілдегі сөздердің реттін қатал ұсталуын ескереді,
және кіріс(қазақ) тілдегі құрылымның баяндалуы бойынша, шығыс(орыс)
тілінде сәйкестікті табу.
• Орыс тілінде аударуды қалыптастыру модулі аударманы құру үшін,
алдындағы барлық жұмыстың нәтижелерін қолданады.
• Лексикалық деректер қорында, қазақ тілінен орыс тіліне сөзтіркестерді
аудару туралы мәліметтер сақталынады.
• Пәндік облыстың тарихи мәтіні, көпмағыналы сөздерді және
сөзтіркестерді өндеу модулі көмегімен статистикалық анализ үшін
қолданылады.
• Статситикалық деректер қоры өзінде, екі тілдің сұлбаларымен олардың
сәйкестігі туралы ақпаратты сақтайды.
Осылайша, қазақ тіліндегі жай сөйлемдерді орыс тіліне компьютерлік
аудармашысының авторлары оның концептуалды моделін келесі этаптардан дұрады
деп есептейді:
• 1. Енгізілген сөйлем екі сөзге бөлінеді. Лексикалық талдау модулінің
және мәліметтер қорындағы ақпараттың көмегімен әрбір сөз талданып,
оның барлық грамматикалық мінездемелері анықталады.
• 2. Лексикалық талдау нәтижелерінің негізінде сөйлемді синтаксистік
талдау жүргізіледі. Әрбір сөздің сөйлемдегі рөлі анықталады және қазақ
тіліндегі сөйлемнің сұлбасы құрастырылады.
• 3. Қазақ тіліндегі сөйлемнің сұлбасына орыс тіліндегі сәйкес сұлба
келтіріледі.
• 4. Енгізілген сөйлемнің сөздері сөйлемдегі рөлі мен грамматикалық
формасына сүйене отырып орыс тіліне аударылады. Көпмағыналы сөздерді
өңдеу оларды қолдану контекстін ескере отырып орындалады.
• 5. Қажетті грамматикалық формада тұрған аударма нәтижелері орыс
тіліндегі сөйлем сұлбасына қойылады.
2.2.1-сурет. Машиналық аудармашының концептуалды моделі
Бұл концептуалды модельде кез-келген 2 тілдің арасындағы аударма
жүргізудің жалпы моделі көрсетілген. Аударма кезінде сөйлемді талдауға
лексикалық және синтаксистік 2 мәліметтер қоры болған ыңғайлы. Яғни, сөдің
түбірі бөлек және оның атрибуттары бөлек анықталады (2.2.2-сурет).
2.2.2-сурет. Қазақ-орыс машиналық аудармашысының жалпы алгоритмі
2.3 Формальді грамматика
Жасанды тілдер әртүрлі ұлт адамдары қолданатын нақты тілдерге
қарағанда негізі хат мәтіндерін жазуға арналған. Мұндай тілдер нақты
тілдерге қарағанда әлдеқайд қарапайым болып табылады. Себебі, олар тұрақты,
оларда синонимдер қолданылмайды және синтаксисі мен семантикасы
жеңілдетілген. Жасанды тілдердің негізгі мақсаты компьютерлерге және
басқару құрылғыларына ақпаратты жіберу болып табылады. Мәтін басқару
құрылғысы немесе компьютер орындау тиіс тапсырма ретінде жүреді. Мұндай
мәтінді адам жазады. Сондықтан кіріс тілі деп аталатын тіл оны қолданатын
адамдарға түсінікті және ыңғайлы болып жазылады. Адамдарға арналған тіл
компьютер орындайтын командалардың түрімен сәйкес келмейді. Кіріс тіліндегі
мәтінді компьютерге түсінікті командалар тізіміне айналдыру үшін
трансляторлар деп аталатын арнайы құрылғылар мен программалар қолданылады.
Трансляторды құрастыру жауапкершілігі көп және күрделі тапсырма.
Айналдыру үшін қажетті ресурстар оның шешімінің сапасына байланысты. Ал
трянсляторға негізгі талап – оның кіріс тіліндегі мәтіннің мазмұнын дәл
жеткізуі болып табылады. Осы айналдыруды қамтамасыз ету үшін тіл синтаксисі
деп аталатын кіріс мәтіндерін құрастыру ережелерінің дәл сипаттамасы және
тіл семантикасы деп аталатын мәтіндердің мағынасын сипаттайтын ережелердің
болуы қажет.
Синтаксис пен семантиканы сиппатаудың бірнеше құралдары бар. Осылай
тіл синтаксисінің сипаттамасы формальді грамматикалардың көмегімен, ал оның
семантикасының сипаттамасы атрибутты грамматикалардың көмегімен орындалады.
Нақты тілге ұқсастыра отырып формальді тілді белгілі бір ережелермен
құрастырылған сөйлемдер ретінде елестетсе болады. Формальді тілдегі
сөйлемдердің құрылу әдісін және ережелерін формальді грамматика көмегімен
анықтауға болады. Құрастыру ережелерінің көбін грамматика сүлбесі деп
атайды, ал құрастыру реті шығыс түсінігінің көмегімен анықталады.
Грамматика ережелерінің көмегімен нәтижесі тіл сөйлемдерінің ережесі
болатын әртүрлі баспаларды құрастыруға болады. Сондықтан формальді
грамматикаларды жиі тудырушы грамматикалар, ал шығыс нәтижесін – оның
процессі дейді.
Әрі қарай келесі негізгі түсініктер анықталған: алфавит, тізбек,
грамматика, шығыс нәтиже, тіл және т.б. Келесі материал осы түсініктерге
қатысты. Содан соң формальді грамматикалардың классификацияларының бірі –
Хомский классификациясы қарастырылады.
2.3.1 Формальді грамматиканың және тілдің анықтамасы
Формальді тілді және грамматиканы анықтаудың алғашқы және ең қарапайым
түсініктері алфавит және алфавиттегі сөз болып табылады.
Анықтама: бөлінбейтін символдар жиыны сөдік немесе алфавит деп
аталады, ал оған кіретін символдар алфавит әріптері деп аталады.
Мысалы, A = {a, b, c, +, !} алфавиті 5 әріптен тұрады, ал B = {00, 01,
10, 11} алфавиті әрқайсысы екі символдан тұратын 4 әріптен құралған.
Анықтама: Алфавит әріптерінің қатары сөз немесе сол алфавиттегі тізбек
деп аталады. Сөзге кіретін әріптердің саны, оның ұзындығы деп аталады.
Мысалы, A алфавитінде (=ab++c сөзіну ұзындығы l(() = 5, ал B
алфавитіндегі (=00110010 сөзінің ұзындығы l(() = 4.
Егер A алфавиті берілсе, онда A алфавитіндегі әріптерден құралған
мүмкін болатын тізбектер жиынын A* деп белгілейік. Және $ деп белгіленетін
бос тізбек те A*жиынына кіретінін ескерейік. Бос тізбек дегеніміз –
құрамында ешқандай әріп жоқ тізбек. Кез-келген ( тізбегіне бос тізбектің
сол жақтан немесе оң жақтан қосылғанынан ( тізбегі өзгермейді.
( $ = $ ( = (
А алфавитінің құрамында бос тізбек жоқ барлық мүмкін болатын
тізбектердің жиынын А+деп белгілейді.
Анықтама : Г формальді грамматикасы деп келесі 4 объекттің қатарын
айтады:
Г = { VТ, VA, I, R },
VT - терминалды алфавит (сөздік); бұл алфавиттің әріптері
терминалды символдар деп аталады; олар грамматикадан туындайтын
тізбектерді құрады;
терминалды сөздіктің әріптерін немесе терминалды символдарды алдағы
уақытта латын алфавитінің кіші әріптерімен белгілейік;
VA – терминалды емес, қосымша алфавит (сөздік); бұл алфавиттің
әріптері тізбектерді құрған кезде қолданылады;
олар аралық тізбектерге кіруі мүмкін, бірақ құрылым нәтижесіне кіре
алмайды;
терминалды емес символдарды белгілеу үшін латын алфавитінің бұрыштық
жақшаларға алынған бас әріптерін құлданайық;
I - грамматиканың бастапқы символы немесе аксиомасы I ∈ VA.
R – α → β түріндегі шығыс ережелерінің жиыны,
мұндағы α и β - VТ ( VA алфавитінің әріптерінен құралған тізбектер,
оны Г грамматикасының толық алфавиті (сөздігі) деп атайды.
Грамматика ережелерінің қатарына сонымен қатар Е → түріндегі оң жағы
бос ережелер кіру мүмкін. Оң жағы бос болғандықтан анықталмағандық болмас
үшін бос тізбек символын қолданайық. Оны мынадай түрде жазайық Е → $.
Грамматиканы шығару ережелері түзбектерді құру үшін қолданылады.
Анықтама: r = τ → γ - Г грамматикасының ережесі болсын және α = χ' τ
χ" – символдар тізбегі болсын, сонымен қатар χ', χ"∈(Vт ∪ VA) *. Онда β= χ'
γ χ" тізбегі тізбектен r ережесін қолдану арқылы алынуы мүмкін (яғни m-де
τ−тізбегін γ−ға ауыстыру арқылы).
Бұл жағдайда β−тізбегі α−тізбегінен шығарылған және α ⇒β екенін
білдіредідеп айтады.
Анықтама: Егер Ω = ((0, (1,...,(n) тізбектер қатары берілсе, және
олардың шығыс нәтижелері:
(0 ⇒ (1, (1 ⇒ (2, ... ,(n-1 ⇒(n болса, онда мұндай қатарды (0-дан (n-
ның шығысы деп атайды және Г грамматикасында (0 ⇒* (n деп белгілейді.
Анықтама: Бастапқы I символынан шығарылатын Г грамматикасының Vт
терминалды алфавитінің ақырғы тізбектерінің көптігі, Г грамматикасынан
туындайтын тіл деп аталады және L( Г) деп белгіленеді.
L( Г ) = {( ∈ VТ* I ⇒*( }.
Осыған байланысты бірнеше мысал қарастырайық:
Мысал – 1:
Г1.1 грамматикасы берілген, осы грамматика арқылы пайда болатын, тілді
анықтау керек:
Г1.1: VТ = {a, b, c}, VА = {I}, R = {I → abc}.
Грамматиканың сұлбасы бір ережеден тұрады, сол үшін Г1.1 бір сөзден
тіл тудырады
L(Г1.1) = {abc}.
Мысал – 2:
Г1.2 грамматикасы берілген, және осы грамматика арқылы пайда болатын
тілді анықтау керек:
Г1.2 : VТ = {a, b, c}, VА = {I, B, C}
R = { I → aB,
B → Cd,
B → dc,
C → $}.
Осы грамматикадағы барлық шығатын мәліметтерді құрастырайық. Осыны екі
мүмкіндік арқылы жасауға болады. Ең алдымен 1,2,4 ережелерін қолданайық,
содан кейін 1 және 3 ережелерін қолданып, екінші шығатын мәліметтерді
құрастырайық. Нәтижесінде:
I ⇒ aB⇒ aCd ⇒ ad,
I ⇒ aB ⇒ adc.
Демек осы грамматика арқылы пайда болатын тіл, екі байланыс тізбектен
тұрады
L(Г1.2) = {adc, ad}.
Мысал – 3:
Г1.3 грамматикасы берілген, және осы грамматика арқылы пайда болатын
тілді анықтау керек:
Г1.3 : VА = {I, A}, VТ= {0, 1},
R = {I → 0A1,
A →0A1,
A → $}.
Келтірілген грамматика сұлбасы 3 ережеден тұрады. Екінші ереже А
терминалды емес белгіні сол жақ және оң жақ ереже бөлігінде сақтайды. Осы
ережелерді рекурсивті деп атайды.
А терминал емес байланыс тізбегіне осы ережені қолдануы, жаңа
байланыс тізбектің пайда болуына әкеледі, және оның ішіне кайтадан А
кіреді. Сонымен ереженің оң жақ бөлігімен А терминал еместі бірнеше рет
ауыстыруға болады, және ол бізге шексіз ұзын байланыс ьізбектерді құруға
мүмкундік береді. Рекурсивті ережелер арқылы шығатын мәліметтер шексіз
болмау үшін, грамматика сұлбасында, кемінде А белгісі сол жағында болу
керек. Егер А-ны шығатын байланыс тізбегіне қоспағанда, осы ереже
рекурсияны аяқтайды. Қарасытырылып жатқан грамматикада, шығаруды аяқтау
үшін А→$ ережесі қолданады. Нәтижені құрастыруды Г1.3 грамматика
ережелері арқылы қарастырайық. Бірінші және екінші ережелерді қолдану
кезінде:
I ⇒ 0A1 ⇒ 01.
Бірінші, екінші және үшінші ережелерді қолдану кезінде:
I ⇒ 0A1 ⇒ 00A11 ⇒ 0011.
Екінші ережені k рет қолданғанда, нәтижесінде k нольдер және k
бірліктерден тұратын тізбек пайда болады. Соңдықтан Г1.3 грамматикасы
арқылы пайда болатын тіл, мүмкін болытын барлық тізбектерден тұрады, соның
ішінде нолдер саны бірліктер санына тең.
Мысал – 4:
Г1.4 грамматикасы берілген, және осы грамматика арқылы пайда болатын
тілді құрастыру керек:
Г1.4 : VТ= {a, b}, VА = {I, A},
R = { I → aA, A → bA}.
Осы грамматикада мәліметтерді шығаруды құрастыру әрекеті, бізді мына
тізбекке алып келеді:
I ⇒ aA ⇒ abA ⇒ abbA ⇒ ...,
осы тізбек шексіз болып келеді. Карастырылып жатқан грамматикада
рекурсияны аяқтауға қажетті ереже жоқ, сол үшін осы грамматиканың ережесі
көмегімен, бір тізбекті аяқтауға мүмкіндік жоқ. Басқа сөзбен айтқанда,
Г1.4 бос тілді құрады.
Анықтама: Егер тіл, Г грамматикасы арқылы пайда болатын болса, және
ол бірде-бір аяқталмаған тізбектен тұратын болса(қорытынды сөз), сонда ол
бос деп аталады.
2.3.2 Формальды грамматиканың типтері
Формальдық тілдер теориясында грамматиканың 4 типі бар, және оларға
тілдердің типі сәйкес келеді. Грамматиканың ережелеріне шектеулер қою
арқылы, осы грамматикалар шыға бастайды.
0 типті грамматикалар, оларды грамматиканың жалпы түрі деп атайды,
тудыратын ережелерге ешқандай шектеулер жоқ. Кез келген ереже
r = η → ψ
өзінің тізбектері көмегімен құрылуы мүмкін η, ψ ∈ (Vт ∪ Va)*. Мысалы,
T W → W T или x A b C D → x H D.
1 типті грамматикалар, сондай-ақ оларды контексті-байланысты
грамматика деп атайды, кез-келген ережені қолдануға мүмкіндік бермейді.
Осындай грамматикада мәліметтерді шығару ережелері осындай түрде болу
керек:
χ1 A χ2 → χ1 ω χ2,
осында χ1, χ2 – тізбектер, бос болуы мүмкін, көпшіліктен(Vт ∪ Va)*,
белгі А ∈ Va және ω ∈ (Vт ∪ Va)* тізбегі. χ1 және χ тізбектері
ережелерді қолданған кезде өзгеріссіз қалады, соңдықтан оларды контексті
деп атайды(сол және оң), ал грамматиканы контексті-байланысты.
0 типті грамматикаға қарағанда, 1 типті грамматика практикада өте
ыңғайлы, өйткені сол жақта ереже әрқашанда терминалды емес белгімен
алмастырылады, және оны синтаксистік мағынамен байланыстыруға болады, 0
типті грамматикада бірнеше символды алмастыруға болады, және соңын ішінде
терминалдыларды да.
Мысалы грамматика:
Г1.5:
VТ = {a, b, c, d}, VА = {I, A, B}
R = { I → a A I,
A I → A A I,
A A A → A B A,
A → b,
b B A → b c d A,
b I → b a }
контексті-байланысты болып келеді, өйткені екінші және алтыншы
ережелерде, сол контекст бос емес болып келеді, ал үшінші және бесінші
ережелері екі контексті құрады. Осы грамматиканың нәтижесі осындай түрде
болуы мүмкін:
I ⇒ aAI ⇒ aAAI ⇒ abAI ⇒ abbI ⇒ abba.
2 типті грамматикаларды контексті-бос деп атайды және контексті емес
грамматикалар (КС-грамматикалар немесе Б-грамматикалары). Осы
грамматикаларды шығару ережесі келесі түрде болады:
A → α,
осында A ∈ VА и α ∈ (VТ ∪ VА)*.
Әлбетте, осы ережелер 1 типті грамматика ережелерінен пайда болады,
егер осы шарт
χ1 = χ2 = $ орындалса. Контексті грамматикалар болмағандықтан, 1 типті
грамматикаға ... жалғасы
ӘЛ-ФАРАБИ АТЫНДАҒЫ ҚАЗАҚ ҰЛТТЫҚ УНИВЕРСИТЕТІ
Механика-математика факультеті
Ақпараттық жүйелер кафедрасы
Кафедра меңгерушісінің міндетін атқарушы
У.А. Тукеев
(қолы)
рұқсатымен қорғауға жіберілді
(күні)
ДИПЛОМДЫҚ ЖҰМЫС
Қазақ тілінен орыс тіліне машиналық аударма жасайтын программалық
кешенін өңдеуі (генератор)
050703 – “Ақпараттық жүйелер” мамандығы
Орындаған 4 курс студенті
М.А. Ильжанов
Ғылыми жетекшісі
Ж.М. Жұманов
к.ф.-м.н.., доцент
Норма бақылаушы
А. Қожанова
Алматы 2012
РЕФЕРАТ
В данной дипломной работе иследовался перевод текста с казахского на
русский язык.
В данный момент есть несколько вариантов программ, переводящих текст с
казахского на русский язык. Но все эти труды еще не разработаны в
достаточной степени. Учитывая все минусы, которые присутствуют в ранних
версиях переводчиков, были разработаны новые способы смыслового перевода.
Работа содержит Введение, 7 глав, Заключение, Список использованной
литературы и Приложение. Объем работы 52 страницы. На работе применились 2
таблицы, 19 рисунков.
ГЛОССАРИЙ
Машиналық аудармашы - ЭЕМ-де бір табиғи тілдегі мәтіннің мазмұны
жағынан эквивалентті басқа тілдегі мәтінге түрлендірілуі.Машиналық аударма
қазіргі жүйелеріне адам (редактор) қатысады.
Тіл — адамзат қоғамының белгілі бір кезенінде туып, заңды түрде
дамыған семантикалық жүйе. Онын ең басты қызметі ақпарат хабарлардың
жасалу, сақталуымен және оларды таратумен байланысты. Тіл адамды коршаған
шындык өмір туралы білімді сактаумен бірге, жаңа білімді кабылдайтын,
сөйтіп, адамның ойлау процесін жетілдіріп қамтамасыз ететін қоғамдык сипаты
бар құбылыс. Сөз тіркесі ( орыс. словосочетание ) деп толық мағыналы екі я
бірнеше сөздің бір-біріне тұлғалық әрі мағыналық жағынан бағына байланысуын
атаймыз.
Сөйлем деп бір шама ойды білдіретін бір сөзді я бірнеше сөз тіркесін
атаймыз. Тиянақталған ойды ауызша да, жазбаша да білдіруге болады. Ауызекі
сөйлеуде сөйлем мен сөйлемнің арасында кідіріс (пауза) болады. Жазуда бір
сөйлем екінші сөйлемнен нүкте, сұрау және белгілерінің бірімен айырылады.
Лексика(грек. лексикос — сөздік) — тілдегі сөздердің жиынтығы, сөздік
құрам. Лексикаға тілдегі барлық сөздер кіреді. Сөздер қолданылуына қарай
актив және пассив болып бөлінеді. Актив сөздерге күнделікті өмірде жиі
қолданылатын сөздер жатады. Ал пассив сөздерге қолданылу өрісі шектеулі
көнерген сөздер, диалектілер мен кәсіби сөздер, терминдер жатады.
Морфология (биология) - ағзаның пішіні мен құрылымы туралы ғылым.
Морфология (гр. morf — түр, тұлға, logos — сөз, ілім) — дербес
сөздердің грамматикалық мағыналарын тексеретін, грамматикалық сөз
тұлғалардың қызметі мен қалыптасу, даму заңдылықтарын зерттейтін тіл
ғылымының бір сапасы.
Синтаксис ( гр. σύνταξις - құру, тәртіп, амал-тәсіл ) - сөз тіркесі
туралы, сөйлем туралы ғылым. Сөйлеу дағдысы бойынша сөздер өз ара белгілі
бір жүйемен тіркеседі. Сол тіркестердің де, сөйлемдердің де өз жүйелері, өз
заңдары болады. Синтаксис сөйлеудің калыптасу ережелерің зерттейді.
Семантика (көне грекше σημαντικός - танбалаушы, білдіруші) — тіл және
тіл бірліктері (сөз, грамматикалық тұлға, сөз тіркесі,сөйлем) арқылы
білдірілетін хабарды, заттар мен құбылыстардың мән-мазмұның зерттейтін тіл
білімінің саласы, семиотиканың негізгі бөлімдерінің бірі.
Грамматика (гр. 'grammatіke, γράμμα' – әріп, жазу) – тіл білімінің сөз
таптарын, сөздердің өзгеруі мен сөйлем құрылысын зерттейтін саласы.
МАЗМҰНЫ
КІРІСПЕ 5
1 АНАЛИТИКАЛЫҚ ШОЛУ 7
1.1 Машиналық аудармашының тарихы 7
1.2 Машиналық аудармашының сәулеті 9
1.3 Қазақ-орыс аудармашысының қазіргі күйі 9
2 ҚАЗАҚ-ОРЫС ТІЛДЕРІНДЕГІ ТАЛДАУДЫҢ МОДЕЛІН ҚҰРУ 11
2.1 Машиналық аударманың талдауы 11
2.2 Қазақ тілінен орыс тіліне машиналық аудармашының концептуалдық моделі
14
2.3 Формальді грамматика 17
2.3.1 Формальді грамматиканың және тілдің анықтамасы 18
2.3.2 Формальды грамматиканың типтері 21
2.3.3 Қазақ тілінің формалды грамматикасы 24
2.4 Лексикалық талдау моделі 24
2.4.1 Сөз таптары 25
2.5 Синтаксистік талдау моделі 32
2.5.1 Қазақ тілі мен орыс тілінің жалғауларының арасындағы байланыс 33
3 ҚАЗАҚ ТІЛІНДЕГІ СӨЗДЕРДІ ТАЛДАУДЫҢ ӘДІСТЕРІ МЕН АЛГОРИТМДЕРІН ҚҰРУ
38
3.1 Лексикалық талдау 38
3.2 Синтаксистік талдау 40
3.3 Синтаксистік генератор 40
4 АҚПАРАТТЫҚ ЖАБДЫҚТАУ 42
4.1 Мәліметтер қорының құрылымы 42
5 ПРОГРАММАЛЫҚ ЖАБДЫҚТАУ 47
5.1 Қолданылған программалау тілі 47
5.2 Қолданылатын программалық процедура 48
6 ЭКСПЕРИМЕНТАЛДЫҚ ЕСЕПТЕУ ЖҰМЫСТАРЫНЫҢ НӘТИЖЕЛЕРІ 50
7 ЖОБАНЫҢ ЭКОНОМИКАЛЫҚ ТИІМІДІЛІГІНІҢ БАҒАЛАНУЫ 52
7.1 Машиналық аудармашының сапасын бағалау үшін әдістемені құру 52
7.2 Машиналық аудармашының сапасын бағалауға шолу 52
7.3 Машиналық аудармашы сапасының эксперттік бағалау методикасын құру
54
ҚОРЫТЫНДЫ 56
ҚОЛДАНЫЛҒАН ӘДЕБИЕТТЕР ТІЗІМІ 57
А ҚОСЫМШАСЫ 58
Ә ҚОСЫМШАСЫ 62
Б ҚОСЫМШАСЫ 63
КІРІСПЕ
Бұл дипломдық жұмыс қазақ тілінен орыс тіліне машиналық аударма жасау
технологиясына арналған. Қазіргі заманда мұндай технологияның қажеттілігі
өте жоғарғы деңгейде.
Бұл программаны жасау үшін бірінші қазақ тілімен орыс тілінің
грамматикасын терең зерттеп, олардың арасындағы байланысты қарастырып,
келесі бөліктерге бөлдім:
• Сөздердің түбірлерінің және сәйкес аудармаларының қорын құру;
• Қазақ тілінің лексикалық (морфологиялық) талдауы;
• Қазақ тілінің синтаксистік талдауы;
• Орыс тілінің лексикалық және синтаксистік талдауы;
• Машиналық аудармашының көмегімен мәтіндерді өндіру.
Қазіргі күнде Қазақстан Ресубликасында барлық құжаттар мемлекеттік
тілге аударылуда. Техникалық терминологияның аудармасы үлкен жағымсыздықтар
алып келеді. Осы мәселені шешуде машиналық аудармашының тигізер көмегі өте
зор. Мысалы, белгілі бір өндіріс саласындағы стандарттарды, бұйрықтарды,
заңдардың барлығын аудару үшін сол саланың терминологиясы енгізілген
машиналық аудармашыны қолдану жұмысты ондаған есе жеңілдетеді.
Тіпті көп жағдайларда мәтінді терудің де қажеті болмайды. Сканермен
өткізіп, алынған мәтінді аудармашыға көшірген жеткілікті.
Қазіргі заманғы жүйелерді дұрыс қолдану үшін, машина сөйлемді қалай
аударатынын түбегейлі білу секілді машиналық аудармашыны бағалау үшін
өзінің бір стандарты қажет. Мұндай стандартты орнату туралы негізгі
талқылаулар тек қазіргі уақытта басталды, бірақ келісімді қабыладу үшін көп
уақыт кетпейді, себебі оларды қарастыратын болсақ, әсер ететін көптеген
факторлар бар. Бағалау факторлары қолдану мақсатына қарай бөлінеді.
Бағалауда қарастырылуы қажет факторлар:
1. Өнім, операция және қызмет көрсету бағасы; үйрету, мәтіндік енгізу,
қарапайым сөздер және арнайы терминология үшін сөздікті жаңарту; өңдеу,
қорытынды мәтіндік дайындық, аударма сапасы мен бағасы арасындағы қатынас.
2. Мәтінді енгізу жылдамдығы, алдын ала өңдеу (жұмыс үстелі мен
сандарды, және т.с.с. өңдеулерді қоса алғанда), машиналық аудармашы,
қорытынды мәтінді өңдеу келсімді форматтайды (жұмыс үстелі мен сандарды,
және т.с.с. өңдеулерді қоса алғанда), алдын ала өңдеу мен кейінгі өңдеу
қатынасы.
3. Дұрыстығы, түсініктілігі, және қарапайымдылығы көз қарасы бойынша
алынған сапалылығы.
4. Сөздікті өзгертудің жетілідірілгендігі, жүйенің негізгі сөздігі мен
тұтынушылық сөздігі деңгейін жоғарылату, әсіресе белгілі бір аумақтағы
әлеуметтік диалект үшін грамматиканы жетілідіру, тұтынушыларға сөздік пен
грамматиканы жақсартудың рұқсат етілген деңгейі, және жетілідірілгеннен
кейін әдісті тексеруге болатын жүйе мүмкіндігі.
5. Жүйені бір мәтіндік аумақтан екіншісіне және бір тілден екінші
тілге кеңейту мүмкіндігі.
6. Операциялық штат саны, алдын ала өңдеу, кейін өңдеу, және сөздікке
қызмет көрсететін адамдар көзқарасы жағынан тұтынушымен қойылатын күш салу
деңгейі, құжаттар жүйесі құрылымын машианлық аударуға бейімдеу үшін және
авторлар негізіг мәтінді дайындау кезінде бастапқы тілдің тұжырымдарын
басқаруға қажетті сынақтан өткізу мен ретке келтіру уақыты.
7. Грамматика, семантикамен, анафора мен ellipsis қоса алғандағы
сөздік ақпараты- әңгімелесу, программалық жабдықтаудың жылдамдығы,
мүмкіндігін зерттеу, интерактивтік аударма немесе кейіннен өңдеу, ауыспалы
мағыналылық шешімі, тек ең жақсы аударма өнімін немесе сөйлемдер үшін
барлық мүмкін құрылымдар жасау үшін жүйенің қуаттылығы мен шектеулері.
Бұл мәселе әрқашанда өзекті қазіргі заман талабына сай, және қажетті
екенін білдіреді.
1 АНАЛИТИКАЛЫҚ ШОЛУ
1.1 Машиналық аудармашының тарихы
Соңғы кездері шет тілін білу тек саяхаттау немесе шет елден келген
қонақтарды күтіп алу кезінде ғана емес, өз үйіңнің ішінде де, мысалы,
танымал голливуд киноларын көргенде, теңіздің арғы жағынан келген
өнімдердің қолдануға арналған нұсқауларын немесе шаршамайтын браузер бүкіл
әлемнен іздеп шығатын Web-беттерін оқыған кезде қажет болады. Осылайша,
үйімізден шықпай жатып–ақ бізге аудармашылар көмегі қажет екенін түсінеміз.
Алайда бізге қажетті көмекті үйде тұрған компьютер көрсете алады.
Машиналық аударма (МА) жүйелері таң қаларлық нәрсе болудан қалған.
Олар өзінің балалық кезеңінен біртіндеп шығып, және де байланыспаған бала
былдыры орнына жеткілікті түрде түсінікті адамзат тілінде сөйлеуде. Аяққы
кезге дейін мұндай бағдарламалар, бағасы жағынан қуатты графикалық және
баспалық жүйлермен бірдей қымбат болып қана қоймай, олармен жұмыс істеу
өте қиын және күрделі болатын. Міне, үйдегі жеке компьтерлерде қолдануға
жарамды алғашұқы аудармашылар пайда болды. Олармен жақынырақ танысып,
мүмкіндіктерін бағалайық. Бірақ, әрине алдымен МА тарихынан бастаймыз.
Биографтар айтуы бойынша, XIX ғасырдың өзінде атақты математик Чарльз
Бэббидж британдық үкіметті оның есептеуіш машинаны жасау бойынша
зерттеулерін қаражаттандыру керек екендігіне көз жеткізуге тырысқан. Басқа
да жақсы жақтарының ішнде, ол әйтеу бір кезде бұл машина автоматты түрде
сөздерді аударады деп уәде еткен. Қазіргі кезде Бэббидж компьютер
жұмысының негізінде жатқан көптеген идеялар авторы болып саналғанмен, ол
өзінің машинасын да, уәде еткенің де іске асыра алмай қалды. Ал бұл идея
қазіргі күнге дейін айтарлықтай деңгейде жүзеге асырылмаған болып тұр.
Алайда бүкіләлемдік байланыс негізі болып тұрған Интернеттің пайда болуына
байланысты бұл идея қайтадан инвестициялар тарту мен қызығушылық тудыруда.
Жалпы, МА-ның алғашқы бағдарламалары, компьютер пайда болғаннан кейін
бірнеше ғана жылдар өткен соң, 50-ші жылдары шықты, бірақ ПК кең таралуына
дейін МА есептеуіш техниканы қолданудың маңызды саласынан гөрі ғылыми
зерттеулердің қызықты объектісі ғана болды, оның негізгі екі себебі бар:
компьютердің жұмыс істеу уақытының қымбаттығынан және оның ресурстарымен
ұжымды түрде қолдану. Соңғы жағдай, МА-ның оның қарапайым,
оперативтілігінен маңызды артықшылықтарын жойып электрондық көмекшіні
бірден қолдануға мұрсат бермеді.
МА-ның туылған күні болып (зерттеу саласы ретіндегі) 1947 ж саналады,
оның бәрі Уоррен Уивердің, Рокфеллеров фондының жаратылыстану ғылымы
бөлімінің директоры, Норберт Винерге сол жылдың наурыз айында жазған
хатынан басталды. Онда аудару мәселесі мәтінді дешифровка мәселесімен
салыстырылған. Соңғысы сол кездің өзінде ақ электромеханикалық құрылғыларда
орындалатын. Бұл хаттың артынан көптеген талқылаулар жүргізілді, және
зерттеу жұмыстарына қаражат бөлінді.
1952 ж атақты математик Бар Хиллелмен ұйымдастырылған бірінші
конференция өтті. Онда зерттеушілер тілдің көптеген синтаксистік ережелерін
ұймдастыруға, семантиканы, морфологиялық құрылымды, аудару жүйесі үшін
сөздіктер құрылымын сипаттау әдістеріне қатысты өз ойларымен бөлісті.
Академиялық зерттеулердегі жетістіктер МА мәселесіне коммерциялық
қызығушылық тудырды, және IBM фирмасы АҚШ-тағы Джорджтаундық университетпен
бірге 1954 жылы 250 сөзден тұратын сөздік пен 6 синтаксистік ережеге
негізделген және 49 алдын ала таңдалған сөйлемнің аудармасын қамтамасыз
ететін бірінші жүйені көрсете алды. Бұл тәжірибе зерттеулер тізімін
көбейтті: келесі он жылда АҚШ үкіметі және әскери мекемесі МА саласын
зерттеуге 40 млн. долларға жуық қаражат жұмсады.
Бірінші нәтижеден алынған эйфориядан МА іске аспауын толығымен жойылуы
арасында ек сегіз жыл өтті. Мұндай шешімге АҚШ ғыллымының Ұлттық
Академисының қолданбалы лингвистика бойынша арнайы комитетінің (ALPAC)
шолуына сүйеніп келді. Онда автоматты аудару жүйесі болашақта қажетті
сапаны қаматамасыз ете алмайды деп жазылды. Бұл есеп беру МА дамуына кері
әсерін тигізді, соның салдарынан АҚШ пен Европада қаражат болмағандықтан
қандай болмасын зерттеу жұмыстары тоқтатылды. Тек 70 жылдардың соңында,
ақпаратты компьютерлік іздеу мен жасанды интеллекттің лингвистикалық
мәселесін проектілеушілер мен зерттеушілердің қызығушылығы артуына
байланысты МА зерттеулері қайта жандандырылды.
Тек 80 жылдардың басынан, ПК сенімді және қуатты түрде әлемді жаулап
ала бастағаннан кейін, олардың жұмыс істеу уақыты арзандады және оны кез
келген уақытта қолдану мүмкін бола бастады. Демек, МА әйтеуір экономикалық
жағынан пайдалы бола бастады. Сол жылдары және одан кейін де
бағдарламлардың жетілдірілуі мәтіндердің көптеген түрін тура аударуға
мүмкін бере бастады, алайда МА проблемалары осы күнге дейін шешілмей тұр.
90 жылдарды МА-ның дамуының қайта жандануының негізігі кезеңі деп
санауға болады, ол ПК мүмкіндігінің жоғары деңгейімен, сканерлер мен OCR
программасының пайда болуымен ғана емес, Интернетинтранет
(Internetintranet) де пайда болуымен байланысты. Ол жеке инвесторлар мен
мемлекеттік құрылым үшін қаражат салудың ең тартымды түрі бола бастады.
МА технологиясының көптеген кемшіліктері болғанымен, көптеген ұйымдар
Бэббидждің берген уәдесін еске түсіре бастады. Машиналық аудармашы
жетілдірулерден әлі алыс, бірақ кез-келген оның көмегімен құжаттың негізгі
мағынасын түсіне алады,- МА-мен экспериментті онлайн режимде бастаған. ірі
Web-узелдің Alta Vista технологиялық директоры Луи Монье солй деп санайды.
Европалық Бірлестіктің Мемлекеттері соңғы 15 жылда осы мәселе бойынша
зерттеулерге 70 млн. доллардан артық қаражат жұмсады, ал жапон мемлекеттік
ұйымдары - 200млн. доллардан артық. MT SUMMIT VI де МА-ның өз елі үшін
стратегиялық маңыздылығы туралы қызықты баяндама жасаған Т.Р.Педтке айтуы
бойынша бұл бағыттың дамуындағы маңызды рөлді үкімет атқарады. МА
проблемасы жоғарғы технологиялардың дамуындағы және АҚШ-тың бүкіләлемдік
ақпараттық кеңістікте бәсекелестікке жарамдылығын қамтамасыз ету үшін
негізгі қарастырылатын мәселе болып тұр.
1.2 Машиналық аудармашының сәулеті
ПРОМТ машиналық аударма жүйесінің архитектурасы үш қабатты болады:
• Бірінші , “базалық” қабат – бұл translation engines, сөздік тіркесті
бір тілден екінші тілге аударуға мүмкіндік беретін және сөздік мәтінді
өңдеуге мүмкіндік беретін модульдер.
• Translation kernel – біздің программалық қамтамасыз етуіміздегі
ортаңғы деңгей. Ол жүйенің барлық объектілерін басқаратын,
мәліметтерді бірдейлестіретін, құжат форматтарын өңдейтін және
бастапқы құжаттарды жүйенің ішкі форматында көрсетуді қамтамасыз
ететін модульдер жиынынан тұрады. Бұл қабаттың жүйенің күрделі
байланысты объектілері мен оңай жұмыс істейтін және құжаттарды жөнелту
функциялары бекітілетін қосымшаларға осы объектілерге қол жеткізуге
мүмкіндік беретін қуатты API болады.
Біз жасаған архитектура функционалдылық пен тұтынушы интерфейсі
тұрғысынан қарағанда жаңа программалар жасауға мүмкіндік береді, және пайда
болған архитектураға жөнелтудің жаңа бағыттарын да енгізе алады.
• Үшінші қабат – шет тілдерде мәтіндерді өңдеу барысында тұтынушыларға
тиімді болуы мүмкін әр түрлі қызметтер көрсететін қолдану
моделдеріне арналған кең көлемдегі қосымшалар жиынтығы.
Ол бізге нарық сұраныстарына оңтайлы жауап беруге, жаңа нарыққа тез
шығу, жаңа өнімдерге қол жеткізу, жаңа операциялық жүйелерге өнімдер
даярлау немесе жөнелтудің жаңа бағыттарын шығаруға мүмкіндік береді.
Мысалы, әлемдік деңгейдегі ERPCRM тапсырысы бойынша осы компанияның
ішкі қажеттіліктері үшін Элертронды сөздікдың мамандандырылған жүйесі
жасалды. ПРОМТ компаниясының жөнелтудің тапсырылған бағыты үшін қандай да
бір өнімі болмаса да, бұл тапсырма небәрі бірнеше ай ішінде жасап
шығарылды.
1.3 Қазақ-орыс аудармашысының қазіргі күйі
Машиналық аудармашылардың арасында ағылшын-орыс, орыс-неміс сөздіктері
әлдеқашан іске асырылған, ал орысша-қазақша аудармаға келетін болсақ, оны
жүзеге асыру идеясы кемінде 10-15 жыл бұрын пайда болған. Бірақ 1990-1995
жылдары осы мәселемен айналысқан фирмалардың бұл істеріне мемлекет
тарапынан ешқандай қолдау болмағандықтан тек идея түрінде ғана болып қала
берді. Жобаның іске асырылуы баяу дамыды, тек 2006 жылы ҚР мәдениет және
ақпарат Министерлігінің жанындағы тілдер Комитетінде, компьютерлік
технологияда қазақ тілін дамытуға байланысты бірнеше тендерлар өткізілді.
Соның ішінде компьютерлік қазақша-орысша және орысша-қазақша сөздіктерін
өңдеуге де тендерлар жарияланған болатын.
Қазіргі таңда машиналық аударма идеясын іске асыруда әл-Фараби
атындағы ҚазҰУ, Л.Н. Гумилев атындағы ЕҰУ, Абай атындағы АМУ және тағы
басқа Қазақстанның ірі жоғарғы оқу орындарымен қатар бірнеше Қазақстандық
Санасофт, Алтон, Бимаш және Ізет сияқты фирмалар жұмыс атқарауда
және электронды аудармашылары бар сайттарда жетіп артылады. Мысалы, INDEX
GROUP интернет агенттігінің қолдауымен жасалған SOZDIK.KZ орысша-қазақша
сөздік жобасы, Ербол Панабердиевтің басшылығымен жасалған 4 бағытта аударма
жасайтын ILK.KZ онлайн-аудармашысы және сөздік көлемі 750 мыңнан артық
сөз бен сөзтіркестерінен тұратын Каюпов Табылды Қайсағалиұлының
басшылығымен жасалған SOYLEM аударма жүйесі.
Аталған автоматты аударма жасау жүйесінің басым бөлігі тек жалғыз
сөзді ғана аударуға арналған. Ал сөз тіркестерін, сөйлемдерді аударатын
аударма программасын Ізет фирмасы Тілмаш деген атпен ұсынған болатын.
Бірақ фирма директоры Ізетәлі Тілешовтің: Бағдарламада қазақ тіліндегі
сөздер 120 мың шамасында, оның бер жағында нақты саны 6127 жұрнақ-жалғау
топтастырылды деп айтқанымызбен, бұл әлі толықтыруды, жетілдіруді қажет
етеді. Өйткені, қазақ тілі — бай тіл. Рас, “Тілмаштың” тіліміздегі тұрақты
тіркестер мен еркін тіркестерді аударуға шамасы жетпейді. Осы тұрғыдан
алғанда, бағдарлама аудармашыға көмек құралы болғанымен, онымен бірдей
дәрежеде жұмыс істей алмайды. Сондықтан біз өз жұмысымызға жоғары оқу
орындарының жүздеген ғалымдарын жұмылдырсақ дейміз. Сол кезде бұдан да
жақсы нәтиже беретініне сеніміміз мол. - деп айтуына қарағанда қазіргі
уақытқа дейін барлық талапты қанағаттандыратын машиналық аударма құралы жоқ
деуге болады.
Машиналық аудармада қолданылатын қазіргі жүйелер екі тілге ғана
(орысша-қазақша, ағылшынша-орысша, ағылшынша-қазақша, немісше-ағылшынша
т.с.с.) бағытталған, сонымен қатар енгізілетін және аударылған тілдер
арасындағы аралық деңгейде немесе сөзбе-сөз аударма жасау деңгейінде ғана
қолданылады.
Дегенмен көп жұмысты қажет ететін машиналық аударма жүйесі кез келген
қоданушыға жақсы жәрдем болмақ. Пайдаланушы тілді жақсы меңгермесе де
электронды аударма нәтижесінде алынған алғашқы мәтінді қарай отырып
мәтіннің жалпы мағынасын тезірек түсіне алады.
2 ҚАЗАҚ-ОРЫС ТІЛДЕРІНДЕГІ ТАЛДАУДЫҢ МОДЕЛІН ҚҰРУ
2.1 Машиналық аударманың талдауы
Машиналық аудармашы түрінде берілген программалық жабдықтармен жұмыс
істеу барысында мәтіннің аудармасына қатысты көптеген олқылықтарды
кездестіруге болады. Аударылған мәтіндерді лексикалық талдау нәтижесі
көрсеткендей, көп мөлшердегі машиналық аудармашылар қарапайым сөз таптарын
дұрыс аударғанымен, септіктерді, сын есімге қатысты сөздерді, сөз
айналымдарын аударуға келгенде қате жіберіп, сөйлемді мағынасына қарай
дұрыс құрастыра алмайды екен.
Кейбір аударғыштардың ақсайтын тұстары - бірнеше мағынаға ие болатын
сөздердің аудармасының нақты болмайтындығы. Негізінен дұрыс аударма алу
үшін сөйлемнің әр түрлі сөз таптары мен олардың граммтикалық ережелеріне
сай келетін грамматикалық құрылуының эвристикалық талдауын ұсынуға болады
және мамандандырылған мәтіндерді аудару кезінде сөздіктер
келіспеушіліктерін ескермеуге болады.
Мәтіндерді грамматикалық талдау нәтижесі көрсеткендей, машиналық
аудармашы жекеше және көпше түрдегі сөздерді оңай аударғанымен, септіктер
мен етістіктерді қажетті мөлшерде қолдануға келгенде қиындықтарға ұшырайды
екен.
Сонымен, әзірге компьютер көп жағдайда аударғышты алмастыра алмайды.
Жалпы алғанда машиналық аударма жүйелерін қолдану қажет пе? Әрине, қажет.
Егер компьютер әдеби шығармаларды аударатын болса, онда пайда болған
аударма түпнұсқалық тілді жеткілікті деңгейде жақсы меңгермеген, бірақ
жақсы әдеби редактор - адамның өнер туындысы болатын шимайбет нұсқасы пайда
болады. Егер аударылатын мәтін техникалық жанрға жататын болса, онда
бұл жағдайда мамандыққа байланысты сөздік (жиегіне мәтін жазылған) дұрыс
таңдалса, онда толықтыруларды қажет етпейтін қанағаттанарлық нәтижеге қол
жеткіземіз деп айтуға болады. Жалпы алғанда компьютерлік аударманы өңдеуге
деген қажеттілік жоғарыда аталған проблемаларға байланысты туындауы мүмкін.
Ол үшін машиналық аударма жүйелерінде мәтінді өңдейтін механизмдер
міндетті түрде болуы тиіс.
Кейбір тұтынушылар үшін аударманың мұндай дәрежеде болуы тіптен
жарамайды. Компанияның жаһандық интражелісін құруға қатысушы Electronic
Data Systems (Плейно, Техас штаты) корпорациясының жұмысшысы Линн Сешедри
Машиналық аудармашы – ол аңыз!, - деп санайды.
— Мүмкін, ол техникалық құжаттарға қолданылатын шығар, бірақ қалған
жағдайдың барлығында дерлік сіз 15% мағына мен 85% бос сөзге қол
жеткізесіз. Өзінің EDS интражелісінің мазмұнын аудартуда ол шарттық
негізде мамандандырылған аудармашылар көмегіне жүгінеді екен. Алайда
басқаларының машиналық аударғыштарға деген еш өкпесі жоқ, себебі оған
арналған шынайы альтернативалар жоқ. Гуманизмнің даму үшін! атты
париждық фонд да өз мерзімінде мынадай таңдау алдында тұрған еді: өз
бюджеттерінің көлемді мөлшерін аудармашыларға жұмсау немесе машиналық
аударма жүйелерінің қызметін пайдаланып көру. Жекеше көздермен
қаржыландырылатын бұл ұйым экология, экономика және тағы басқа салалардың
ғалымдарының халықаралық қоғамын құрамыз деген қызығушылықтар оята білді.
Осы ұйымның таңдауы машиналық аударма технологияларына, атап айтсақ
қолданбалы компьютер үшін сапалы және аса қымбат емес қызмет түрлерін
көрсететін Globalink фирмасының өніміне түсті. FPH әр тілде сөйлейтін
мамандардың арақатынасы қарапайым және нәтижелі болсын деген мақсатпен оны
электрондық пошта серверіне орналастырды. FPH кеңесшісі Марина Урквиди
Бұл дұрыс шешім – деп есептейді, - Көптеген адамдар жұмысты ағылшын
тілінде емес, өздерінің туған тілдерінде істеуді қалайтын еді. Енді оларда
осыған мүмкіндік бар. Машиналық аудармашының өзіндік кем тұстары бар
екендігін де ол жоққа шығармайды, бірақ егер адам шынымен қаласа машина
жасаған аударманы түсінуге әбден болады деп есептейді. Егер сіз аздап
ойланып көрсеңіз, онда сөйлем мағынасын да түсінуіңізге болады. Сонымен,
егер машиналық аудармашыға көп талап қоймасақ, онда аударма жайлы
Бэббидждің берген антының орындалып қалуы да мүмкін.
Машиналық аудармашыға - ол ... ... ... құрал. Мәтіннің дұрыс
аудармасы – ол тек қана өнер емес, сонымен қатар көп еңбекті қажет ететін
жұмыс. Айта кететін жайт, өте дұрыс жасалған аударманың өзі де қажетті
мөлшерде өңделуі тиіс. Өнер тұрғысына келер болсақ, болашақтағы компьютер
мен адам арасындағы жарыста әрқашан тірі аудармашы жеңімпаз атанатын
болады.
Алайда аударманың көп еңбекті қажет ететіндігін шешу мәселесіне
келсек, машиналық аударма жүйелері бәстесудің жақсы құралы болып табылады.
Мұны жақсырақ түсіну үшін машиналық аудармашының негізгі ерекшеліктерін
атап өтейік (барлық машиналық аударма жүйелеріне және жекеше алғанда PROMT
жүйесіне де ортақ ):
1. Жоғары жылдамдық. Небәрі бірнеше секунд ішінде сіз көпбеттік
мәтіннің аудармасын ала аласыз. Ол мәтін мағынасын тезірек түсінуге жол
ашады, ал егер жүйе берілген тақырыптағы мәтіндерді аударуға арналған
болса, онда аз мөлшердегі редакторлық өңдеу қажет.
2. Төмен баға. Оны өте оңай есептеуге болады: егер сіз маманданған
аудармашыға жүгінетін болсаңыз, аударылған мәтіннің әрқайсы беті үшін ақша
төлеуіңіз қажет болады, (аудармашының отыратын орны мен аударма дәрежесіне
байланысты ол 5 доллар мен 20 доллар арасындағы төлем болуы мүмкін) немесе
сіз жалақы төлеуге тиіс болатын штаттық аудармашыны жалдайсыз. Машиналық
аударғышты таңдайтын болсаңыз, сіз тек бір мәрте – программаны сатып
алғанда ғана ақша төлейсіз. Сіз қайсысын таңдайсыз: бірреттік ақша төлеу
ме, жоқ әлде белгілі бір уақыт сайын ақша шығара бергіңіз келе ме?
ПРОМТ компаниясының қолданушылардың мәліметі бойынша, 50 беттен
асатын аударма жасау кезінде ПРОМТ аударма-программасы айына 98 мәрте
айналым жасайды екен.
3. Қызметке қол жетімділік. Машиналық аударма жүйелерінің сыншылары
назарға ала бермейтін аса қажетті емес қасиет. Аударма-программа әрқашан
сіздің қол астыңызда, ал аудармашылар бюросына хабарласу көп жағдайларда
қосымша уақыт пен күш шығындарын қажет етеді.
4. Құпиялық. Машиналық аударма жүйелеріне сіз кез-келген ақпаратты
сеніп тапсыра аласыз. Жеке хаттарыңызды аудармаға беру сізге жағымды әсер
сыйлай ма? Өзіңіздің қаржылық істеріңізге бөтен аудармашыны кірістіруге
дайынсыз ба? Қандай да бір эротикалық әдебиетті аудару үшін сіз
аудармашылар бюросына барасыз ба? Егер иә болса, онда әрине сауал жоқ.
Бірақ бұл жағдайдың өзінде сізді көп тұтынушылардың қолдай қоймайтындығымен
келісетін боларсыз?! Көптеген тұтынушылардың біздің жүйемізді жеке хаттарды
аудару үшін де қолданатындықтарын біздің жүйе жеке бас мәселелерін тиімді
шешіп берген тұтынушылар хаттарынан білеміз. Аударма – программа сіз сеніп
тапсырған кез-келген ақпаратты құпияда сақтайды.
5. Әмбебаптылық. Кез-келген аударғыштың өзінің жақсы меңгерген
тақырыбы болады, және ол сол тақырып бойынша аударады. Көркем әдебиет
аударғышы техникалық мәтіндерді аударатын болса, кедергілерден айналып
өтуге болмайды. Бір ғана мысал келтірсек:"Жалаңаш жолсерік автобус ішінде
жүгіреді" (түпнұсқасы "Naked conductor runs along the bus"). Бұл компьютер
өнерінің нәтижесі емес, бұл тарихи мысал компьютердің аз кезінде қолданса
керек.
МА жүйелері абсолютті әмбебап екендіктерімен ерекшеленеді. Тек қана
мамандандырылған сөздікті сай келетін тақырыпқа сауатты қолдана білу
қажет. Машиналық аударма жүйелерінің тағы бір айта кетерлік ерекше қасиеті:
олардың мамандандырылған сөздіктеріне жаңа терминдердің енуі полиграфикалық
толтырулар арқылы енгізілетін аналогтық сөздіктерге қарағанда әлдеқайда
жылдамырақ жүреді. Өзіндік жеке жаңа терминдер мен олардың мағыналары
туралы сөздікті ұстауға да болады. Бұл жағдайда сіз аударманың
кепілдендірілген түріне қол жеткізесіз.
6. Ақпаратты Интернетте аудару. Онлайн түрде машиналық аударма
жүйелерінің барлық қасиеттері көрінеді. Ақпаратты интернетте аударудың
көптеген жағдайларында , әрине егер сіз бірнеше тіл меңгермеген болсаңыз,
тек аударма-программалар арқылы ғана жүзеге асады. Дәл осы қажеттілік әлем
бойынша машиналық аударма жүйелеріне деген сұранысты арттырды. Тек
онлайндық жүйелер арқасында ғана машиналық аударма жүйелеріне оларды
аударуда еш қиындық көрмей шетелдік сайттарға кіруге жол берілді. Сонымен
қатар, осы жерде машиналық аударма жүйелерінің жоғарыда аталған барлық
қасиеттері қатысады: кез-келген тақырыптағы мәтінді аудару тез және нақты
түрде жүзеге асады.
Машиналық аударма жүйелерін ұжымдарда қолдану оның келесі
артықшылықтарын көрсетеді:
1. Стиль мен қолданбалы терминологияның сәйкестілігі. Аудармашылар
ұжымында жұмыс істегенде мәтінді өңдеуге кететін шығын аударма құнының
100-140 % құрайды. Машиналық аударма жүйелері жасаған аударманы өңдеу де
оңай, себебі ол бір стильде сақталған. Егер мәтінде жиі кездесетін қандай
да бір термин дұрыс аударылмаса, онда бұл қателіктерді қарапайым
автоауыстыру әдісімен түзетуге болады. Көлемді мәтін аудармашылар тобымен
аударылса, онда әрқайсы аудармашы жіберген жеке-жеке қателіктерді іздеу
қажет болады. Бұл жағдайда редакторға түзету жұмыстары мен аударма стилі
қажет болады.
2. Мәтінді форматтауға қажетті шығынның болмауы. Бұл әсіресе
электрондық түрдегі құжатты аударғанда қажет. Аударма-программа бастапқы
форматты толығымен сақтайды, ал ол өз кезегінде аударма кезінде уақыт пен
ақшаны үнемдейді. Алайда машиналық аударма ұсынатын артықшылықтарды қолдану
орнына кейбір адамдар тапсырманы абсурдты жағдайға дейін апарады, мысалы,
мақалдарды, әндер мен тақпақтарды, яғни машиналық аударманың нағыз
бағытталмаған нәрселерін аудармақшы болады. Енді кейбіреулері программаның
сипатталуын толық оқымай жатып, медициналық тақырыптағы мәтінді банктік
істер сөздігімен аудармақшы болады, артынша мағынасыз сөздер тіркесін
көрісімен айқайға басып, бір мәз боп қалады. Дәл сол мезетте олар осы
жолмен өздерінің комплекстерімен күресіп, бірінші кезекте компьютерден де
ақылды екендіктерін дәлелдемекші болғандай күй кешеді.
2.2 Қазақ тілінен орыс тіліне машиналық аудармашының концептуалдық
моделі
Үстіде көрсетілген бөлімдерге қарасақ, машиналық аудармашы өзінің ұзақ
тарихына қарамастан, дамып келе жатқан білім саласы болып тұр. Машиналық
аудармашыға заттар саласы киын және біріңғай тәсілдің болмағандығы негізгі
мәселе болып тұр.
Біржағынан, тілдің құрылысын құрып жатқан кезде, бір нақты тілден
екінші нақты тілге ережеге сүйенбей аудару, кемінде өте қиын. Басқа
жағынан, басқа амалдарды қолдану(статистикалық, ережеге сүйене отырып,
“аударма жады”) көп көлемдегі мәтінді(басқаша айтқанда дене) екі тілде
анализдеу және қалыптастыру барысында, үлкен жұмыс жасауды талап етеді. Осы
уақытта түрып қалған әдістер мен зерттеулер жоқ, және осы бағытта қолайлы
нәтижелер бар екені туралы айту өте қиын.
Салада амалдарды анализдеу, гибридтті амалды қодану ең сапалы
екендігін көрсетеді.
Үстіде жазылғандай, моделдер мен компьютерлік жабдықтамаларды,
гибридтті амал арқылы құруды шештік.
Машиналық аудармашының концептуалды моделі (2.2.1-сурет).
Сөйлемді қазақ тілінен орыс тіліне машиналық аударуда келесі модульдер
орналасады:
• Қазақ тіліндегі сөйлемдегі, жай сөздерді анализдеудің лексикалық
модулі және олар аударылған сөйлемдерден тұрады. Берілген модуль қазақ
тілінің агглютинативтікті және суффиктивті спецификаларын ескереді.
• Казақ тілінің жай сөйлемдегі грамматиканың синтаксистік анализдеудің
модулі, сөйлемдерді құрамы бойынша талдау үдерісі. Берілген модуль
қазақ тілінің синтаксисін және оның синтаксистік табиғаттың
номинативті ерекшеліктерін ескереді; ол грамматикалық байланыстардың
негізінде құрылған.
• Көпмағыналы сөздер мен сөзтіркестердің модулі, бірнеше мағыналы
сөздерді сыпайы аудару үшін қолданылады.
• Қазақ тілінен орыс тіліне жай сөйлемдерді аудару құрылымдардың модулі.
Берілген модуль екі тілдегі сөздердің реттін қатал ұсталуын ескереді,
және кіріс(қазақ) тілдегі құрылымның баяндалуы бойынша, шығыс(орыс)
тілінде сәйкестікті табу.
• Орыс тілінде аударуды қалыптастыру модулі аударманы құру үшін,
алдындағы барлық жұмыстың нәтижелерін қолданады.
• Лексикалық деректер қорында, қазақ тілінен орыс тіліне сөзтіркестерді
аудару туралы мәліметтер сақталынады.
• Пәндік облыстың тарихи мәтіні, көпмағыналы сөздерді және
сөзтіркестерді өндеу модулі көмегімен статистикалық анализ үшін
қолданылады.
• Статситикалық деректер қоры өзінде, екі тілдің сұлбаларымен олардың
сәйкестігі туралы ақпаратты сақтайды.
Осылайша, қазақ тіліндегі жай сөйлемдерді орыс тіліне компьютерлік
аудармашысының авторлары оның концептуалды моделін келесі этаптардан дұрады
деп есептейді:
• 1. Енгізілген сөйлем екі сөзге бөлінеді. Лексикалық талдау модулінің
және мәліметтер қорындағы ақпараттың көмегімен әрбір сөз талданып,
оның барлық грамматикалық мінездемелері анықталады.
• 2. Лексикалық талдау нәтижелерінің негізінде сөйлемді синтаксистік
талдау жүргізіледі. Әрбір сөздің сөйлемдегі рөлі анықталады және қазақ
тіліндегі сөйлемнің сұлбасы құрастырылады.
• 3. Қазақ тіліндегі сөйлемнің сұлбасына орыс тіліндегі сәйкес сұлба
келтіріледі.
• 4. Енгізілген сөйлемнің сөздері сөйлемдегі рөлі мен грамматикалық
формасына сүйене отырып орыс тіліне аударылады. Көпмағыналы сөздерді
өңдеу оларды қолдану контекстін ескере отырып орындалады.
• 5. Қажетті грамматикалық формада тұрған аударма нәтижелері орыс
тіліндегі сөйлем сұлбасына қойылады.
2.2.1-сурет. Машиналық аудармашының концептуалды моделі
Бұл концептуалды модельде кез-келген 2 тілдің арасындағы аударма
жүргізудің жалпы моделі көрсетілген. Аударма кезінде сөйлемді талдауға
лексикалық және синтаксистік 2 мәліметтер қоры болған ыңғайлы. Яғни, сөдің
түбірі бөлек және оның атрибуттары бөлек анықталады (2.2.2-сурет).
2.2.2-сурет. Қазақ-орыс машиналық аудармашысының жалпы алгоритмі
2.3 Формальді грамматика
Жасанды тілдер әртүрлі ұлт адамдары қолданатын нақты тілдерге
қарағанда негізі хат мәтіндерін жазуға арналған. Мұндай тілдер нақты
тілдерге қарағанда әлдеқайд қарапайым болып табылады. Себебі, олар тұрақты,
оларда синонимдер қолданылмайды және синтаксисі мен семантикасы
жеңілдетілген. Жасанды тілдердің негізгі мақсаты компьютерлерге және
басқару құрылғыларына ақпаратты жіберу болып табылады. Мәтін басқару
құрылғысы немесе компьютер орындау тиіс тапсырма ретінде жүреді. Мұндай
мәтінді адам жазады. Сондықтан кіріс тілі деп аталатын тіл оны қолданатын
адамдарға түсінікті және ыңғайлы болып жазылады. Адамдарға арналған тіл
компьютер орындайтын командалардың түрімен сәйкес келмейді. Кіріс тіліндегі
мәтінді компьютерге түсінікті командалар тізіміне айналдыру үшін
трансляторлар деп аталатын арнайы құрылғылар мен программалар қолданылады.
Трансляторды құрастыру жауапкершілігі көп және күрделі тапсырма.
Айналдыру үшін қажетті ресурстар оның шешімінің сапасына байланысты. Ал
трянсляторға негізгі талап – оның кіріс тіліндегі мәтіннің мазмұнын дәл
жеткізуі болып табылады. Осы айналдыруды қамтамасыз ету үшін тіл синтаксисі
деп аталатын кіріс мәтіндерін құрастыру ережелерінің дәл сипаттамасы және
тіл семантикасы деп аталатын мәтіндердің мағынасын сипаттайтын ережелердің
болуы қажет.
Синтаксис пен семантиканы сиппатаудың бірнеше құралдары бар. Осылай
тіл синтаксисінің сипаттамасы формальді грамматикалардың көмегімен, ал оның
семантикасының сипаттамасы атрибутты грамматикалардың көмегімен орындалады.
Нақты тілге ұқсастыра отырып формальді тілді белгілі бір ережелермен
құрастырылған сөйлемдер ретінде елестетсе болады. Формальді тілдегі
сөйлемдердің құрылу әдісін және ережелерін формальді грамматика көмегімен
анықтауға болады. Құрастыру ережелерінің көбін грамматика сүлбесі деп
атайды, ал құрастыру реті шығыс түсінігінің көмегімен анықталады.
Грамматика ережелерінің көмегімен нәтижесі тіл сөйлемдерінің ережесі
болатын әртүрлі баспаларды құрастыруға болады. Сондықтан формальді
грамматикаларды жиі тудырушы грамматикалар, ал шығыс нәтижесін – оның
процессі дейді.
Әрі қарай келесі негізгі түсініктер анықталған: алфавит, тізбек,
грамматика, шығыс нәтиже, тіл және т.б. Келесі материал осы түсініктерге
қатысты. Содан соң формальді грамматикалардың классификацияларының бірі –
Хомский классификациясы қарастырылады.
2.3.1 Формальді грамматиканың және тілдің анықтамасы
Формальді тілді және грамматиканы анықтаудың алғашқы және ең қарапайым
түсініктері алфавит және алфавиттегі сөз болып табылады.
Анықтама: бөлінбейтін символдар жиыны сөдік немесе алфавит деп
аталады, ал оған кіретін символдар алфавит әріптері деп аталады.
Мысалы, A = {a, b, c, +, !} алфавиті 5 әріптен тұрады, ал B = {00, 01,
10, 11} алфавиті әрқайсысы екі символдан тұратын 4 әріптен құралған.
Анықтама: Алфавит әріптерінің қатары сөз немесе сол алфавиттегі тізбек
деп аталады. Сөзге кіретін әріптердің саны, оның ұзындығы деп аталады.
Мысалы, A алфавитінде (=ab++c сөзіну ұзындығы l(() = 5, ал B
алфавитіндегі (=00110010 сөзінің ұзындығы l(() = 4.
Егер A алфавиті берілсе, онда A алфавитіндегі әріптерден құралған
мүмкін болатын тізбектер жиынын A* деп белгілейік. Және $ деп белгіленетін
бос тізбек те A*жиынына кіретінін ескерейік. Бос тізбек дегеніміз –
құрамында ешқандай әріп жоқ тізбек. Кез-келген ( тізбегіне бос тізбектің
сол жақтан немесе оң жақтан қосылғанынан ( тізбегі өзгермейді.
( $ = $ ( = (
А алфавитінің құрамында бос тізбек жоқ барлық мүмкін болатын
тізбектердің жиынын А+деп белгілейді.
Анықтама : Г формальді грамматикасы деп келесі 4 объекттің қатарын
айтады:
Г = { VТ, VA, I, R },
VT - терминалды алфавит (сөздік); бұл алфавиттің әріптері
терминалды символдар деп аталады; олар грамматикадан туындайтын
тізбектерді құрады;
терминалды сөздіктің әріптерін немесе терминалды символдарды алдағы
уақытта латын алфавитінің кіші әріптерімен белгілейік;
VA – терминалды емес, қосымша алфавит (сөздік); бұл алфавиттің
әріптері тізбектерді құрған кезде қолданылады;
олар аралық тізбектерге кіруі мүмкін, бірақ құрылым нәтижесіне кіре
алмайды;
терминалды емес символдарды белгілеу үшін латын алфавитінің бұрыштық
жақшаларға алынған бас әріптерін құлданайық;
I - грамматиканың бастапқы символы немесе аксиомасы I ∈ VA.
R – α → β түріндегі шығыс ережелерінің жиыны,
мұндағы α и β - VТ ( VA алфавитінің әріптерінен құралған тізбектер,
оны Г грамматикасының толық алфавиті (сөздігі) деп атайды.
Грамматика ережелерінің қатарына сонымен қатар Е → түріндегі оң жағы
бос ережелер кіру мүмкін. Оң жағы бос болғандықтан анықталмағандық болмас
үшін бос тізбек символын қолданайық. Оны мынадай түрде жазайық Е → $.
Грамматиканы шығару ережелері түзбектерді құру үшін қолданылады.
Анықтама: r = τ → γ - Г грамматикасының ережесі болсын және α = χ' τ
χ" – символдар тізбегі болсын, сонымен қатар χ', χ"∈(Vт ∪ VA) *. Онда β= χ'
γ χ" тізбегі тізбектен r ережесін қолдану арқылы алынуы мүмкін (яғни m-де
τ−тізбегін γ−ға ауыстыру арқылы).
Бұл жағдайда β−тізбегі α−тізбегінен шығарылған және α ⇒β екенін
білдіредідеп айтады.
Анықтама: Егер Ω = ((0, (1,...,(n) тізбектер қатары берілсе, және
олардың шығыс нәтижелері:
(0 ⇒ (1, (1 ⇒ (2, ... ,(n-1 ⇒(n болса, онда мұндай қатарды (0-дан (n-
ның шығысы деп атайды және Г грамматикасында (0 ⇒* (n деп белгілейді.
Анықтама: Бастапқы I символынан шығарылатын Г грамматикасының Vт
терминалды алфавитінің ақырғы тізбектерінің көптігі, Г грамматикасынан
туындайтын тіл деп аталады және L( Г) деп белгіленеді.
L( Г ) = {( ∈ VТ* I ⇒*( }.
Осыған байланысты бірнеше мысал қарастырайық:
Мысал – 1:
Г1.1 грамматикасы берілген, осы грамматика арқылы пайда болатын, тілді
анықтау керек:
Г1.1: VТ = {a, b, c}, VА = {I}, R = {I → abc}.
Грамматиканың сұлбасы бір ережеден тұрады, сол үшін Г1.1 бір сөзден
тіл тудырады
L(Г1.1) = {abc}.
Мысал – 2:
Г1.2 грамматикасы берілген, және осы грамматика арқылы пайда болатын
тілді анықтау керек:
Г1.2 : VТ = {a, b, c}, VА = {I, B, C}
R = { I → aB,
B → Cd,
B → dc,
C → $}.
Осы грамматикадағы барлық шығатын мәліметтерді құрастырайық. Осыны екі
мүмкіндік арқылы жасауға болады. Ең алдымен 1,2,4 ережелерін қолданайық,
содан кейін 1 және 3 ережелерін қолданып, екінші шығатын мәліметтерді
құрастырайық. Нәтижесінде:
I ⇒ aB⇒ aCd ⇒ ad,
I ⇒ aB ⇒ adc.
Демек осы грамматика арқылы пайда болатын тіл, екі байланыс тізбектен
тұрады
L(Г1.2) = {adc, ad}.
Мысал – 3:
Г1.3 грамматикасы берілген, және осы грамматика арқылы пайда болатын
тілді анықтау керек:
Г1.3 : VА = {I, A}, VТ= {0, 1},
R = {I → 0A1,
A →0A1,
A → $}.
Келтірілген грамматика сұлбасы 3 ережеден тұрады. Екінші ереже А
терминалды емес белгіні сол жақ және оң жақ ереже бөлігінде сақтайды. Осы
ережелерді рекурсивті деп атайды.
А терминал емес байланыс тізбегіне осы ережені қолдануы, жаңа
байланыс тізбектің пайда болуына әкеледі, және оның ішіне кайтадан А
кіреді. Сонымен ереженің оң жақ бөлігімен А терминал еместі бірнеше рет
ауыстыруға болады, және ол бізге шексіз ұзын байланыс ьізбектерді құруға
мүмкундік береді. Рекурсивті ережелер арқылы шығатын мәліметтер шексіз
болмау үшін, грамматика сұлбасында, кемінде А белгісі сол жағында болу
керек. Егер А-ны шығатын байланыс тізбегіне қоспағанда, осы ереже
рекурсияны аяқтайды. Қарасытырылып жатқан грамматикада, шығаруды аяқтау
үшін А→$ ережесі қолданады. Нәтижені құрастыруды Г1.3 грамматика
ережелері арқылы қарастырайық. Бірінші және екінші ережелерді қолдану
кезінде:
I ⇒ 0A1 ⇒ 01.
Бірінші, екінші және үшінші ережелерді қолдану кезінде:
I ⇒ 0A1 ⇒ 00A11 ⇒ 0011.
Екінші ережені k рет қолданғанда, нәтижесінде k нольдер және k
бірліктерден тұратын тізбек пайда болады. Соңдықтан Г1.3 грамматикасы
арқылы пайда болатын тіл, мүмкін болытын барлық тізбектерден тұрады, соның
ішінде нолдер саны бірліктер санына тең.
Мысал – 4:
Г1.4 грамматикасы берілген, және осы грамматика арқылы пайда болатын
тілді құрастыру керек:
Г1.4 : VТ= {a, b}, VА = {I, A},
R = { I → aA, A → bA}.
Осы грамматикада мәліметтерді шығаруды құрастыру әрекеті, бізді мына
тізбекке алып келеді:
I ⇒ aA ⇒ abA ⇒ abbA ⇒ ...,
осы тізбек шексіз болып келеді. Карастырылып жатқан грамматикада
рекурсияны аяқтауға қажетті ереже жоқ, сол үшін осы грамматиканың ережесі
көмегімен, бір тізбекті аяқтауға мүмкіндік жоқ. Басқа сөзбен айтқанда,
Г1.4 бос тілді құрады.
Анықтама: Егер тіл, Г грамматикасы арқылы пайда болатын болса, және
ол бірде-бір аяқталмаған тізбектен тұратын болса(қорытынды сөз), сонда ол
бос деп аталады.
2.3.2 Формальды грамматиканың типтері
Формальдық тілдер теориясында грамматиканың 4 типі бар, және оларға
тілдердің типі сәйкес келеді. Грамматиканың ережелеріне шектеулер қою
арқылы, осы грамматикалар шыға бастайды.
0 типті грамматикалар, оларды грамматиканың жалпы түрі деп атайды,
тудыратын ережелерге ешқандай шектеулер жоқ. Кез келген ереже
r = η → ψ
өзінің тізбектері көмегімен құрылуы мүмкін η, ψ ∈ (Vт ∪ Va)*. Мысалы,
T W → W T или x A b C D → x H D.
1 типті грамматикалар, сондай-ақ оларды контексті-байланысты
грамматика деп атайды, кез-келген ережені қолдануға мүмкіндік бермейді.
Осындай грамматикада мәліметтерді шығару ережелері осындай түрде болу
керек:
χ1 A χ2 → χ1 ω χ2,
осында χ1, χ2 – тізбектер, бос болуы мүмкін, көпшіліктен(Vт ∪ Va)*,
белгі А ∈ Va және ω ∈ (Vт ∪ Va)* тізбегі. χ1 және χ тізбектері
ережелерді қолданған кезде өзгеріссіз қалады, соңдықтан оларды контексті
деп атайды(сол және оң), ал грамматиканы контексті-байланысты.
0 типті грамматикаға қарағанда, 1 типті грамматика практикада өте
ыңғайлы, өйткені сол жақта ереже әрқашанда терминалды емес белгімен
алмастырылады, және оны синтаксистік мағынамен байланыстыруға болады, 0
типті грамматикада бірнеше символды алмастыруға болады, және соңын ішінде
терминалдыларды да.
Мысалы грамматика:
Г1.5:
VТ = {a, b, c, d}, VА = {I, A, B}
R = { I → a A I,
A I → A A I,
A A A → A B A,
A → b,
b B A → b c d A,
b I → b a }
контексті-байланысты болып келеді, өйткені екінші және алтыншы
ережелерде, сол контекст бос емес болып келеді, ал үшінші және бесінші
ережелері екі контексті құрады. Осы грамматиканың нәтижесі осындай түрде
болуы мүмкін:
I ⇒ aAI ⇒ aAAI ⇒ abAI ⇒ abbI ⇒ abba.
2 типті грамматикаларды контексті-бос деп атайды және контексті емес
грамматикалар (КС-грамматикалар немесе Б-грамматикалары). Осы
грамматикаларды шығару ережесі келесі түрде болады:
A → α,
осында A ∈ VА и α ∈ (VТ ∪ VА)*.
Әлбетте, осы ережелер 1 типті грамматика ережелерінен пайда болады,
егер осы шарт
χ1 = χ2 = $ орындалса. Контексті грамматикалар болмағандықтан, 1 типті
грамматикаға ... жалғасы
Ұқсас жұмыстар
Пәндер
- Іс жүргізу
- Автоматтандыру, Техника
- Алғашқы әскери дайындық
- Астрономия
- Ауыл шаруашылығы
- Банк ісі
- Бизнесті бағалау
- Биология
- Бухгалтерлік іс
- Валеология
- Ветеринария
- География
- Геология, Геофизика, Геодезия
- Дін
- Ет, сүт, шарап өнімдері
- Жалпы тарих
- Жер кадастрі, Жылжымайтын мүлік
- Журналистика
- Информатика
- Кеден ісі
- Маркетинг
- Математика, Геометрия
- Медицина
- Мемлекеттік басқару
- Менеджмент
- Мұнай, Газ
- Мұрағат ісі
- Мәдениеттану
- ОБЖ (Основы безопасности жизнедеятельности)
- Педагогика
- Полиграфия
- Психология
- Салық
- Саясаттану
- Сақтандыру
- Сертификаттау, стандарттау
- Социология, Демография
- Спорт
- Статистика
- Тілтану, Филология
- Тарихи тұлғалар
- Тау-кен ісі
- Транспорт
- Туризм
- Физика
- Философия
- Халықаралық қатынастар
- Химия
- Экология, Қоршаған ортаны қорғау
- Экономика
- Экономикалық география
- Электротехника
- Қазақстан тарихы
- Қаржы
- Құрылыс
- Құқық, Криминалистика
- Әдебиет
- Өнер, музыка
- Өнеркәсіп, Өндіріс
Қазақ тілінде жазылған рефераттар, курстық жұмыстар, дипломдық жұмыстар бойынша біздің қор #1 болып табылады.
Ақпарат
Қосымша
Email: info@stud.kz