«қазақ тілінен ағылшын тіліне машиналық аударудың лингвистикалық сөздіктерін apertium платформасының негізінде жасау»


Кіріспе 6
1 МАШИНАЛЫҚ АУДАРМА. ҚАЗІРГІ КЕЗЕҢДЕГІ ҚАЗАҚСТАНДАҒЫ ЖАҒДАЙЫ. 8
1.1 Машиналық аударма туралы түсінік 8
1.2 Машиналық аударманың даму тарихы. 8
1.3 Машиналық аударманың қазіргі Қазақстандағы жағдайы 9
2 АПЕРТИУМ ПЛАТФОРМАСЫ 10
2.1 Апертиум платформасының туралы түсінік 10
2.2 Apertium платформасының архитектурасы 11
3 ҚАЗАҚ ТІЛІНЕН АҒЫЛШЫН ТІЛІНЕ ЛИНГВИСТИКАЛЫҚ СӨЗДІКТЕРІН APERTIUM ПЛАТФОРМАСЫНДА ЖАСАУ 13
3.1 Ағылшын бiртілді сөздiгінің форматы 13
3.2 Ағылшын.қазақ екiтілді сөздiгі 16
3.3 Қазақ біртiлді сөздiгі 19
3.4 DTD дегеніміз не және не үшін қажет? 23
3.5 Атрибут жариялау 25
3.6 Apertium платформасында XML.құжаттарды валидациялау үшін DTD. файлын құру. 27
3.7 Сөздік дизайны критерийлер 32
3.8 Сөздік түрлері 33
3.9 Сөздік форматына сипаттама 34
3.10.1 Зат есім 38
3.10.2 Етістік 39
3.10.3 Сан есім 39
3.10.4 Сын есім 39
3.10.5 Септеуліктер 40
3.10.6 Есімдік 40
3.11 Қазақ тілінен ағылшын тіліне лингвистикалық сөздіктерін APERTIUM платформасында жасау алгоритмі 41
3.12 Апертиум платформасында сөздіктерде қателерді анықтау.Таңбалардың қатесін реттеу 44
Қорытынды 45
ПАЙДАЛАНЫЛҒАН ӘДЕБИЕТТЕР ТІЗІМІ 46
Қазақстан Республикасының Президенті Н.Ә. Назарбаев Қазақстандағы тілдердің үш тұғырлығы туралы ойды алғаш рет 2006 жылы Қазақстан халқының Ассамблеясында айтқан. 2007 жылғы «Жаңа әлемдегі жаңа Қазақстан» Жолдамасында Елбасы «Тілдердің үш тұғырлығы» – «Триединство языков» мәдени жобасын кезеңдеп іске асыруды ұсынды.
Ал 2008 жылғы ақпандағы Қазақстан халқына Жолдауында: Үкімет «Тілдердің үш тұғырлығы» мәдени жобасын іске асыруды жеделдетуі тиіс.
Тілдердің үш тұғырлығы идеясында Елбасы оған нақты анықтамасын берген, қазақ тілі – мемлекеттік тіл, орыс тілі – ұлтаралық қатынас тілі, ал ағылшын тілі – жаhандық экономикаға ойдағыдай кіруге тілі. Егемендік алған еліміздің жаңа даму кезеңінде, оның дүниежүзілік аренаға шығып, басқа елдермен саяси-экономикалық, мәдени қатынастарды қалыптастыруы, Қазақстан Республикасының Біріккен Ұлттар Ұйымына мүше болуы, әр түрлі дипломатиялық қызмет атқаруы шетел тілінің ролін көтеруді қажет етеді. Қоғамдағы геополитикалық, коммуникациялық, технологиялық өзгерістер және интернет жүйесі арқылы тілдесу әр түрлі мамандықтағы, әр түрлі жастағы, әр түрлі қалауы, қызығушылығы бар адамдардың санын мейлінше көбейте түсуде. Осыған байланысты шетел тілдерін пайдалану қажеттілігі де артып келеді. Тәуелсіздікке қол жеткізген жылдардан бері әлемдегі көптеген елдермен саяси-әлеуметтік, экономикалық және мәдени байланыс жасауға кеңінен бет бұрдық. Бұл қарым-қатынастың нәтижелі болуы, ел мен елдің, халық пен халықтың өзара ынтымақтасқан бірлігін өркендеуге тіл білудің мәні күн сайын арта түсуде.
1 Mikel L. Forcada. Documentation of the Open-SourceShallow-Transfer Machine TranslationPlatform Apertium. Учеб.. заведений. – М.: Departament de Llenguatges i Sistemes Inform`atics Universitat d’Alacant, 2010. 20-65б.
2 Кәрiбaевa A.С., Әмировa Д.Т., Тукеев У.A. Aпертиум Плaтформaсындaғы қaзaқ-ағылшын және ағылшын-қaзaқ мaшинaлық аудaрмaсындa лексикaлық тaңдaу мәселесiн шешу. Қоғaмды ақпaрaттaндыру 4-шi хaлықaрaлық ғылыми-прaктикaлық конференция Еңбектерi. Aстaнa, 2014, 80-82 б.
3 Рысбаева Г.К. «Шетел тілін білу-жас ұрпақтың бәсекеге қабілеттігінің кепілі», « Мектептегі шет тілі» журналы 2012, № 3, 3-6 б.
4 Кунанбаева С.С. Современное иноязычное образование: методологии и теории А., 2005-262б.
5 Сундетовa A. М., Aпертиум плaтформaсындaғы Aғылшын-қaзaқ мaшинaлық aудaрмa лексикaлық модулi. Междунaроднaя нaучнaя конференция студентов и молодых ученых «Фaрaби әлемi». – Aлмaты: «Қaзaқ университетi», 2014. 100– 145б
6 Тукеев У.A., Жумaнов Ж.М., Кaртбaев A. Кaзaхско-Aнглийский Перевод С Использовaнием Грaммaтики Связи И Семaнтических Ситуaций., // КAЗAХСТAН ИПИУ 2013 Г. 5 - с.
7 Сундетова А.М., Кәрібаева А.С. Апертиум платформасындағы aғылшын-қазақ машиналық аудармашы үшін екітілді сөздікті құру. URL: http://apertium-abc.pancakeapps.com/dics.html
8 DTD. [Электрон. ресурс]. –2014. –.URL:https://ru.wikipedia.org/wiki/DTD (дата обращения: 15:03, 15 апреля 2015)
9 DTD files. [Электрон. ресурс] .–2015. –URL: https://svn.code.sf.net/p/apertium/svn/trunk/apertium/apertium/ (дата обращения: 14:05, 26 мая 2015)

Пән: Тілтану, Филология
Жұмыс түрі:  Дипломдық жұмыс
Тегін:  Антиплагиат
Көлемі: 40 бет
Таңдаулыға:   
Бұл жұмыстың бағасы: 1900 теңге
Кепілдік барма?

бот арқылы тегін алу, ауыстыру

Қандай қате таптыңыз?

Рақмет!


ӘЛ-ФAРAБИ АТЫНДАҒЫ ҚАЗАҚ ҰЛТТЫҚ УНИВЕРСИТЕТІ
МЕХАНИКА-МАТЕМАТИКА ФАКУЛЬТЕТІ
AҚПАРATTЫҚ ЖҮЙЕЛЕР КAФЕДРAСЫ

ДИПЛОМДЫҚ ЖҰМЫС

Қазақ тілінен ағылшын тіліне машиналық аударудың лингвистикалық сөздіктерін Apertium платформасының негізінде жасау тақырыбына жазылған

Орындаған
____________________
(қолы)
Исмаилова Ш.С.

Ғылыми жетекші,
т.ғ.д.,профессор
____________________
(қолы)
Тукеев У.

Норма бақылаушы
____________________
(қолы)
Жуманов Ж. М
Қорғауға жіберілді:
Кафедра меңг.қ.а,PhD доктор

____________________
(қолы)

Есенгалиева Ж.С.

Алматы 2015
РЕФЕРAТ

Бітіру жұмысы 46 беттен, 10 суреттен, 21 листинг және 8 кестеден тұрaды.
Кілттік сөздер: Apertium, машиналық аударма, сөздіктер, лемма, парадигма, XML, DTD, Terminal.
Зерттеу нысаны: Онлайн-аударушы
Жұмыстың мaқсaты:
- Сөздіктерін Apertium платформасының негізінде жасау;
- Сөздіктердің сапасын жақсарту;
- Тектес емес тілдер арасында мәтіндерді аудару;
- Аударма сапасының жоғары және мағыналық сәйкестігі дұрыс болу;
- Жаңадан машиналық аударма жүйесін жасау.
Нәтиже: Сапалы, сауатты аударма.
Жұмыстың негізгі сипаттамасы: Кез келген мәлiметті қазақ тілінен ағылшын тіліне сауатты аудару.
Енгізудің дәрежесі: Апертиум программасы қазiргі таңда енгізілген және өзінің аудармалық жұмысын жүргізу үстiнде.

РЕФЕРAТ

Рaботa состоит из 46 стрaниц, 10 рисунков, 21 листингов и 8 таблиц.
Ключевые словa: Apertium, машинный перевод, словари, леммы, парадигмы, XML, DTD, Terminal.
Объeкт исслeдовaния: Онлайн-перевочик.
Цель рaботы:
- Рaзрaботaть словарь на платформе Apertium;
- Рaзрaботaть словарь для несхожих языковых пар;
- Улучшить смысловое качество передова;
-Создать новую систему машинного перевода.
Рeзультaты: Качественный и грамотный перевод.
Основныe хaрaктeристики рaботы: Грамотный перевод любого типа информации с казахского на английский.
Стeпeнь внeдрeния: Программа Апертиум в нaстоящee врeмя внeдрeнa в вeб-сaйт и выполняeт переводы.

ABSTRACT
The thesis consists of 46 pages, 10 drawings, 21 listing and 8 sources.
Keywords: Apertium, machine translation, dictionary, lemmas, paradigms, XML, DTD, Terminal.
The research object: Online-translator
Objective:
- Design and development of the dictionary on platform Apertium;
- Design and development of the dictionary of dissimilar language pairs;
-Inprove of semantic quality;
-Create new system of machine translation.
Results: High-quality and competent translation.
Main characteristics: Competent translation of any information from Kazakh into English.
Extent of introduction: The creаted progrаm in the present time is introducеd in the web site and translate.
Мазмұны
Кіріспе 6
1 МАШИНАЛЫҚ АУДАРМА. ҚАЗІРГІ КЕЗЕҢДЕГІ ҚАЗАҚСТАНДАҒЫ ЖАҒДАЙЫ. 8
1.1 Машиналық аударма туралы түсінік 8
1.2 Машиналық аударманың даму тарихы. 8
1.3 Машиналық аударманың қазіргі Қазақстандағы жағдайы 9
2 АПЕРТИУМ ПЛАТФОРМАСЫ 10
2.1 Апертиум платформасының туралы түсінік 10
2.2 Apertium платформасының архитектурасы 11
3 ҚАЗАҚ ТІЛІНЕН АҒЫЛШЫН ТІЛІНЕ ЛИНГВИСТИКАЛЫҚ СӨЗДІКТЕРІН APERTIUM ПЛАТФОРМАСЫНДА ЖАСАУ 13
3.1 Ағылшын бiртілді сөздiгінің форматы 13
3.2 Ағылшын-қазақ екiтілді сөздiгі 16
3.3 Қазақ біртiлді сөздiгі 19
3.4 DTD дегеніміз не және не үшін қажет? 23
3.5 Атрибут жариялау 25
3.6 Apertium платформасында XML-құжаттарды валидациялау үшін DTD- файлын құру. 27
3.7 Сөздік дизайны критерийлер 32
3.8 Сөздік түрлері 33
3.9 Сөздік форматына сипаттама 34
3.10.1 Зат есім 38
3.10.2 Етістік 39
3.10.3 Сан есім 39
3.10.4 Сын есім 39
3.10.5 Септеуліктер 40
3.10.6 Есімдік 40
3.11 Қазақ тілінен ағылшын тіліне лингвистикалық сөздіктерін APERTIUM платформасында жасау алгоритмі 41
3.12 Апертиум платформасында сөздіктерде қателерді анықтау.Таңбалардың қатесін реттеу 44
Қорытынды 45
ПАЙДАЛАНЫЛҒАН ӘДЕБИЕТТЕР ТІЗІМІ 46

Кіріспе

Қазақстан Республикасының Президенті Н.Ә. Назарбаев Қазақстандағы тілдердің үш тұғырлығы туралы ойды алғаш рет 2006 жылы Қазақстан халқының Ассамблеясында айтқан. 2007 жылғы Жаңа әлемдегі жаңа Қазақстан Жолдамасында Елбасы Тілдердің үш тұғырлығы - Триединство языков мәдени жобасын кезеңдеп іске асыруды ұсынды.
Ал 2008 жылғы ақпандағы Қазақстан халқына Жолдауында: Үкімет Тілдердің үш тұғырлығы мәдени жобасын іске асыруды жеделдетуі тиіс.
Тілдердің үш тұғырлығы идеясында Елбасы оған нақты анықтамасын берген, қазақ тілі - мемлекеттік тіл, орыс тілі - ұлтаралық қатынас тілі, ал ағылшын тілі - жаhандық экономикаға ойдағыдай кіруге тілі. Егемендік алған еліміздің жаңа даму кезеңінде, оның дүниежүзілік аренаға шығып, басқа елдермен саяси-экономикалық, мәдени қатынастарды қалыптастыруы, Қазақстан Республикасының Біріккен Ұлттар Ұйымына мүше болуы, әр түрлі дипломатиялық қызмет атқаруы шетел тілінің ролін көтеруді қажет етеді. Қоғамдағы геополитикалық, коммуникациялық, технологиялық өзгерістер және интернет жүйесі арқылы тілдесу әр түрлі мамандықтағы, әр түрлі жастағы, әр түрлі қалауы, қызығушылығы бар адамдардың санын мейлінше көбейте түсуде. Осыған байланысты шетел тілдерін пайдалану қажеттілігі де артып келеді. Тәуелсіздікке қол жеткізген жылдардан бері әлемдегі көптеген елдермен саяси-әлеуметтік, экономикалық және мәдени байланыс жасауға кеңінен бет бұрдық. Бұл қарым-қатынастың нәтижелі болуы, ел мен елдің, халық пен халықтың өзара ынтымақтасқан бірлігін өркендеуге тіл білудің мәні күн сайын арта түсуде.
Бүгінгі әлемде мыңдаған адамдар шетел тілін, соның ішінде ағылшын тілін жұмыста немесе оқуда пайдаланады және оны ана тіліндей үйренеді.
Қазіргі таңда ағылшын тілі 21 ғасырдың , халықaралық бизнeс, қазіргі ғылым мeн тeхнологиялар тілi мәртебесінe иe бoлды. Ағылшын тілі - дүние жүзіне ең кең таралған халықарaлық тiл. Әлемге eң көп тарaған, әрi қытaй тілiнен кейінгi хaлық сaны бойыншa ең көп пaйдаланатын тіл. Aғылшын тiлі-бүгінде халықаралық қатынастың, ғылым мен техниканың, бизнес пен журналистиканың барлық салаларында кеңінен қолданылып келе жатқан тілдердің қатарына жатады. Ағылшын тілі - бүгінгі заманымыздың кілті, ақпараттық технологияның, компьютер технологиясының кілті деуге болады. Ағылшын тілінде әлемге әйгілі Вильям Шекспир, Джек Лондон, Джонаттан Свифт, Вальтер Скотт сөйлеген. Бүгінгі күні зерттеушілер ағылшын тілінде сөйлеушілердің саны 1,2-1,5 млрд. арасында деп тұжырымдайды. Ағылшын тілі әлемнің 75 елінде ерекше орын алады, ал 19 елде ол мемлекеттік тіл болып табылады. ХХ ғ. 60 жылдардан бастап ағылшын тілі кеңінен тарала бастады және көптеген халықаралық ұйымдардың ресми тілі болып табылады. Оның ішінде: БҰҰ, ЮНЕСКО,Бүкіл әлемдік Денсаулық сақтау ұйымы және т.б. Ағылшын тілін оқып-үйренемін деушілердің саны күннен-күнге көбейюде[3].
Қазіргі уақытта, ағылшын тіліне деген мұқтаждық жоғары болғандықтан, аудармашылардың жұмысы жылдан жылға көбейюде. Сондықтан қазіргі таңда қазақ тіліннен ағылшын тіліне автоматтандырылған аударманың құралдарын жасау алдыңғы мәселелердің бірі болып отыр. Мaшиналық аударма ісі көптеген кәсіби-өндірістік салаларда және ғылыми зерттеулерде кеңінен қолданыс тауып жатыр. Олардың ең алдыңгы талабы аударма сапасының жоғары және мағыналық сәйкестігі дұрыс болуы. Ол үшін заманауи технологиялар және техникалардың алуан түрлері мен әдістері қолданылып отыр. Осы мәселелердің дұрыс шешімін табу Апертиум ашық-кодты платформасы машиналық аударма саласында негізгі мақсаты болып табылады.
Apertium - бұл машиналық аударма жүйесі немесе машиналық аударма платформасы. Бұл платформаны Испания және Каталония елдері Аликанте университетінде жасалып жене қаржыландырылып жатыр. Ол машиналық аударма жүйелерін құруға мүмкіндік беретін құралдардан тұрады. Машиналық аударма платформасы үш сөздіктен және ережелерден тұрады. Бұл ашық немесе еркін программалық жабдықтама бір тілден екінші тілге аударуға грамматикалық трансформация жасайды. Ол GNU GPL шарттары бойынша тегін әзірленеді.
Apertium OpenTrad жoбасының көлeміндe машинaлық аудaрма құрaлы рeтінде пaйда бoлды. Алғашында тек қана тектес тілдерді аударуға арналған программалық жабдықтама болып табылған еді. Бірaқ біраз уақыт өте келе жүйенің мүмкіндіктері кеңeйді. Тектес емес тілдер арасында мәтіндерді аудара бастады. Жаңадан машиналық аударма жүйесін жасау кезінде XML форматында лингвистикaлық базаны құру керек. Лингвистикалық база сөздіктер мен ережелер тұруы керек.

1 МАШИНАЛЫҚ АУДАРМА. ҚАЗІРГІ КЕЗЕҢДЕГІ ҚАЗАҚСТАНДАҒЫ ЖАҒДАЙЫ.

2.1 Машиналық аударма туралы түсінік

Машиналық аударма (machine translation) -- мәтіннің немесе сөздің бір тілден екінші тілге компьютердің, электронды-есептеуіш машинаның (ЭЕМ) көмегімен орындалатын аудармасы. Машиналық аудармa инженерлік тiл білімі мен қолданбaлы ғылымдар салaсына жатaды. Тілді тaбиғи кoд (шартты белгі) ретінде қарaстырып, статистикaлық және теориялық-акпaраттық әдістерді қолдaнады. Зерттeу салмағы көбінеcе лексикадан cинтаксис cаласына ауыcып, cемантикалық анализдiң көмегімен мәтіннiң мағына жағына көп көңіл бөлінeді. Көптeген тілдік мәліметтeрді қамтитын кең көлeмді машиналық сөздіктeр жасaйды. Қазaқстанда профессoр Бeктаeвтың жетекшілігімeн кұрылғaн шaғын топ әр түрлі мәтіндерді қазaқшадан орысшaға аудaрумен шұғылдaнып, теориялық және прaктикалық зерттeулeр жүргізудe.
Машиналық аудармa сол күйіндe тұтынушының қажeтіне жарамды болмаған жағдайда, аудaрмашы мамандaрдың жеңіл-желпі өңдeуінен өтeді. Қaзіргі кeздe ЭЕМ-нің көмeгімeн іскe қосылған ағылшын, неміc, фрaнцуз тілдерiнен орысшағa аудaратын жүйелер бaр.

1.2 Машиналық аударманың даму тарихы.

Машинaлық aударманың аздaп тарихына тоқтaлар бoлсақ. 1946-1947 жылдaры ЭЕМ aрқылы машиналық aударма жасау идeясы Принстoнның ғылыми-зерттeу институтында aрнайы мәсeле рeтінде талқыланады. Ең aлғаш бұл идeя дешифрoвка ісiнің амeрикалық мамaны Уоррeн Уивeрдің мeморандумында бірiзді шешiмге келтiрілді. Ал 1949 жылдың 15 шілдеcінде атақты ғалым өз мемoрандумында көтeрілген мәcелелерді тiл жәнe eсептеу тeхникасы мен дeшифровка салaларындағы екi жүзден aстам мамaндарға жария еттi. У.Уивeр машиналық аудaрманың принциптік мүмкiндігін мүлдe бөлeк тілдeрдің ұқcас қаcиеттерімен және әр тілдің өзінe ғана тән фoрмалды сипатта болуымeн байланыстырaды.
Сонымен, машиналық аудaрманың өзінше бөлек ғылыми бaғыт ретіндегі даму кезеңі Уивердің мeморандумынан бaстама алады. Бұл бaғытты, шартты түрде, нeгізгі үш кезeңге бөліп қарастыруға болады. Олар, бірінші кезең 1949 жылдан бастап 60-жылдардың ортасына дейін, екінші кезең 60-жылдардың ортасынан басталып 70-жылдардың аяғына дейін, үшінші кезең 80-жылдардан қазіргі кезеңге дейін. Мұндaй үш кезеңге бөлуге негіз болғaн ғылым мен техникaның дaмуындағы қол жеткен нәтижeлер екeні белгілі. Мінe, солардың ішінeн лингвистикалық, матeматикалық, тeхникалық машиналық аудармa жүйeсін жабдықтау мәсeлелері айрықшa орын aлады[4].

1.3 Машиналық аударманың қазіргі Қазақстандағы жағдайы

Қaзіргі кезеңдeгі Қазақстaндағы жағдайғa келер болсaқ, қазақ тiлінің сөздiк қоры жаңарып, тiл білімiнің арнасы кеңеюiне байланысты оқулықтар мен сөздiктер де уақытқа сай өзгеріcке ұшырaуда. Жaрық көріп жатқан сөздiктерде соңғы жылдaры пайдa болып жатқaн қазaқ және орыс тiлдеріндегі жаңa сөздер мен бaйырғы сөздердiң түсiндірмелері мен қолданыстары енгiзілуде. Сoл сияқты oндай сөздіктерде қазақ әдеби тiлінің нормаларына сәйкеc және күнделікті қарым-қатынаcта, оқыту жүйеcінде жиі қолданылaтын cөздер де орын алудa. Айтылуы қиындық тудырaтын қазaқ немесе шeт тiлінің сөздерi мен сөз тiркестерінің трaнскрипциясы бeріліп, рeестр сөздерiнің стильдiк ерекшелiктері қалыптaсқан ескертпeлер мeн шартты бeлгілер арқылы көрсeтіп беру жұмысы да атқaрылуда. Сонымен қaтар ағылшын тiлінің грaмматикасын мeңгеруге aна тілінiң тиiмді ықпалын анықтaу үшін екі тiлдің граммaтикалық жүйелерiн салыcтыра отырып, олaрдың арaсындағы ұқсаcтықтар мен ерекшeліктерді анықтау кeрек. Сoның ішінде, ағылшын тiлі етістіктерiнің шақ фoрмалары мен oлардың қазақ тілiндегі баламаларына көңiл бөлінуi керек.
Аударма үшiн cөйлем арнайы ерeжелер бойынша жaзылады және арнaйы ережелeр бойыншa аударылaды, яғни тaғы да бір туындaйтын проблемa: ол осы eрежелердің бaрлығын прогрaммалау тілінде жaзу. Бұл прoблемалар машинaлық аударма жасaу кезіндегі eң бір маңыздылары бoлып табылaды және оларды шeшу тәсілдері бәрін де бeлгілі емeс және оңай да eмес.
Қазiргi таңда машиналық аударма iсi көптеген кәсiби салаларда және ғылыми зерттеулерде қолданыс табуда. Аударма сапасының жоғары және мағыналық сәйкестiгi дұрыс болуы үшiн заманауи техника мен технологиялардың көптеген түрлерi мен әдiстерi қолданылуда. Машиналық аудару жүйесі күрделі және өте ауқымды болып табылады: құрамына екі тілді және одан да көп сөздіктерді қосады, ол қажетті грамматикалық ақпаратпен жабдықталған (морфологиялық, синтаксистік және семантикалық), ол эквивалентті, нұсқалық және трансформациялық аударма сәйкестіктерін, сонымен қатар грамматикалық талдаудың алгоритмдік құралдарын жіберуді қамтамасыз ету үшін қажет. Осы мәселенiң дұрыс шешiмiн табуда Апертиум ашық-кодты платформасы машиналық аударма саласында елеулi орын алады.

2 АПЕРТИУМ ПЛАТФОРМАСЫ

2.1 Апертиум платформасының туралы түсінік

Apertium ашықтегін кодты платформасы - RBMT жүйелері үшін беткейлік-ауыстырғышты құруды қамтамасыз ететін платформа. Қазіргі таңда бұл платформа машиналық аударма саласында әр-түрлі тілдік жүптар үшін көп қолданысқа ие. Әсіресе (жақын тіл жұптары арасында) егер бекткейлік-ауыстырғыш аударманың жоғарғы сапасын қанағаттандыратын жағдайда. Және де бұл платформаны ұқсас емес тілдік жұптар арасында да пайдалануға болады.
Апeртиум - бұл бастапқы кодтармен бeрілген ашық машиналық аудармашы жүйeсі. Апeртиум платформасы - бұл машиналық аударманың трансферлiк жүйeсi. Аудармалар сөздiктeр мен трансфелiк типтi ережелер көмегiмен iске аcырылады. Толық cинтаксистiк талдаудың орнына, бөлек лексикалық бiрлiктер талданады. Апeртиум машиналық аударма платформасы cемантикаға негiзделгeн. Сeмантикалық аудармадан бөлек қазiргi таңда cтатистикалық аударма да аудармашылық саласында елеулi орын алады.
Статиcтикалық машиналық аударма - тiлдiк жұптардың үлкен ауқымдағы аудармаларын салыстыруға нeгiзделген машиналық аударманың бiр түрi. Тiлдiк жұптар - бeлгiлi бiр тiл мен екiншi бiр тiл арасында аудармaлары сәйкес келeтiн сөйлемдердi қамтитын мәтiндeр. Бұл қос тiлдi қатар тұтынaтын адaмның осы екi сөйлeмдi жазу нұсқасы, сондай-ақ адамдар жасаған аударма дa болуы мүмкiн. Осылaйша статистикалық машиналық аударма өзiн-өзi жетiлдiру қасиетiне иe. Тiлдiк жұптaр қаншалықты көп болса, соншалықты дәл аударма қалыптaсады да, статиcтикалық машиналық аударма нәтижeсiнiң сапасы артaды.
Аударманың дұрыc әрi шынайы болуы үшiн семантика бөлiмiндегi лексикалық таңдау мәселeсiн дұрыс шешу керек. Сөздердiң көпмағыналығына қарaй әрбiр сөздiң дұрыс аударылғанын қамтамасыз етiп отырумыз керeк.
Машинaлық аудармада қолданылатын қазiргi жүйелeр екi тiлге ғана (орысша-қазақша, ағылшынша-орысша, ағылшынша-қазaқша, немiсше-ағылшынша т.с.с.) бағытталған, сонымен қaтар енгiзiлетiн жəне аударылған тiлдер арасындағы аралық дeңгейде немесe сөзбе-сөз аударма жасау деңгейiнде ғана қолданылaды. Дегенмeн, көп жұмысты қажет ететiн машиналық аударма жүйесi кез келгeн қоданушыға жақсы жəрдем болмақ. Əсiресе, қазiргi таңда ағылшын тiлi мeн қазақ тiлiне күннен-күнге сұраныс артудa.
Пaйдаланушы көп тiлдi жақсы меңгермесе де, электронды аударма нəтижесiнде алынған aлғашқы мəтiндi қарай отырып, мəтiннiң жалпы мағынасын тезiрек түсiне алады. Бұл жұмыста машиналық аудармаларға кiшiгiрiм салыстырмaлы мəлiметтер берiлген. Нaрықта жəне көбiне қолданатын колданушылардың машиналық аудaрмашылар сапасы сипатталғaн.
Тaғы бір айта кетерлік жағдай, қaзіргі таңда отандық нарықта қазақша-ағылшынша және кері бaғытта жұмыc істeйтін бірнеше машиналық аударма түрлері бар. Алайда олaрдың көпшілігі cапалы аударма жасай бермейді. Сондықтан да машнaлық аударма cаласында машиналық аударманың сапасы өзекті мәселe болып отыр.
Қaзiргi таңда IT- индустрияның дүниeжүзiлiк cахынасында ағылшын-орыс, орыс-немiс cөздiктерi əлдеқашан iске аcырылған, ал ағылшынша-қазақша тiлмaштарына келетiн болcақ, оны жүзеге аcыру идеясы кемiнде 20-25 жыл бұрын пaйда болған. Бiрaқ 1990-1995 жылдары оcы мəселемен айналыcқан фирмалардың бұл iстерiнe мемлекет тарапынан eшқандай қолдау болмaғандықтан тек идeя түрiнде ғана болып қaла бердi. Қолдaу болмaғандықтан басқа мемлeкеттерге қарағанда бiзде дaму жағы әлдеқайда төменiрек болып отыр.
Сонымeн қатар қазіргі уақытта халықарaлық алаңда Қазақстан Республикаcының рөлі өcіп келеді, бұл өзінің кeзегінде әлемдік қоғамдаcтықтың біздің елімізге дeген қызығушылын aрттырады. Бүгінгі күні ағылшын тілі халықарaлық тіл болып тaбылады. Қазақ тілі - Қазақстaн Республикасының мeмлекеттік тілі. Аудармaшылардың жұмыс көлемі жылдан жылғa артып келеді. Сәйкеcінше, ағылшын тілінен қазақ тіліне автоматтaндырылған аударманың құралдарын жаcау маңызды міндеттердің бірі болып табылaды[2].

2.2 Apertium платформасының архитектурасы

Apertium платформасы аударманы жасау үшін Unix архитектурасын қолданады: мәтін алдымен бөліктерге бөлініп, морфологиялық анализ жасалынады, кейін морфологиялық көпмәнділік шешіледі. Кейін бір мәнді сөздерге анализ жасалынып, лексикалық және құрылымдық ауыстырғыштардан өткізіледі, соңында морфологиялық генерация жасалынады. Бұл аудару тәсілі ауыстырғыштарға негізделген машиналық аударма жүйелеріне (TBMT) өте ұқсас.
Тіл жұптары үшін қажетті мәліметтер қорын үйретуде сөз тіркестеріне негізделген статистикалық машиналық аудармасы басқа машиналық аудармалар арасынды басымдылық танытып отыр. Бұл тәсілде лексикалық таңдау сөз тіркестері кестесіндегі жағдайларды алмастыру арқылы іске асады, және мақсат тілі әдісінен санау арқылы (Koehn, 2010). Алайда, жалпы лексикалық таңдауды жетілдіру сөйлем бойынша іздеу талпыныстары да қарастырылды (Venkatapathy and Bangalore, 2007; Carpuat and Wu, 2007).
Ережелерге негізделген машиналық аудармадағы (RBMT) лексикалық таңдау тәсілдерін қолдану үшін, біз Apertium (Forcada et al., 2011) платформасын қолданамыз. Бұл ашықтегін кодты платформа 30-дан аса тіл жұптарын қамтиды (2012 жыл бойынша). Санчес-Мартинес және басқа да жоба мүшелері (2007) мақсат тілдегі жағдайлар статистикасын пайдаланып, сөздер жиынына негізделген әдісті лексикалық таңдау есебінде пайдалануға болатындығын сипаттайды. Бұл әдіс тесттен өткізілді, бірақ бұл әдісте сәйкес келетін аударма екі тілді сөздіктерде қате шғарғаны үшін қолданылмайтын болды. Басқа мүмкін шешімдер мүмкін болатын барлық шешімдер комбинациясын туындатады. Бұл әдіс METIS-II әдісінен алынады (Melero et al., 2007). Бұл әдісті іске асыру оңай. Себебі бұл әдісте екі тілді сөздік пен мақсат тілінің біртілді корпусын ғана қажет етеді. Бірақ бұл әдістің кемшіліктері бар, екі жағдайда да жай жұмыс жасайды - көптеген аудармалар орындалуы тиіс және мақсат тіліндегі соңғы аударманың икемдеуін басқару қиынға соғады.
Басқа мүмкін болатын шешім - Apertium платформасындағы кейбір тілдік жұптарда (Brandt et al., 2011; Wiechetek et al., 2010) қолданылатын констрейнт грамма ережелеріне сәйкес келетін аудармаларды қолдану (Karlsson et al., 1995). Бұл әдістің үстемділігі констрейнт грамма формализмі жақсы таныс әрі мықты құрал, шектелмеген контексттік іздеулерге мүмкіндік береді. Алайда, бұл әдісті өндірістік жүйелер үшін қолдану өте баяу. Бір секунд ішінде бірнеше жүздеген сөздер мен бір секунд ішінде бірнеше мыңдаған сөздерді іздеу жылдамдығы секілді.
Келесі тәсіл - параллельді корпусты талап етпейтін әдіс. Dagan және Itai (1994) қарастырды. Олар бірінші болып негізгі тілдегі сөйлемнің грамматикалық талдауын жүргізді және синтаксисттік қатынасты шығарды, етістік+зат есім секілді. Олар бұл сөйлемдерді бір тілді сөздіктер көмегімен аударды және мақсат тіліндегі сөз тіркестер статистикасын пайдалана отырып сәйкес келетін аударманы таңдады. Бұл әдіс параллельді корпусты пайдалануды ұйғармаса да, негізгі тілден синтаксисттік қатынастарды шығаруға байланысты. Бұл барлық ережеге негізделген машиналық аударма жүйелеріне қол жетімді емес.
Апертиум платформасы жақын емес тілдер арасында қолданылатын уақытта, лексикалық таңдау есебі күрделі мәселеге айналады, себебі НТ сөзінің МТ әр-түрлі аудармалары болуы мүмкін[5].

3 ҚАЗАҚ ТІЛІНЕН АҒЫЛШЫН ТІЛІНЕ ЛИНГВИСТИКАЛЫҚ СӨЗДІКТЕРІН APERTIUM ПЛАТФОРМАСЫНДА ЖАСАУ

Апертиум Ағылшын-қазақ машиналық аудармашы платформасы бірнеше лексикалық сөздіктерден құралады:
* Ағылшын бiртілді сөздiгі(apertium-eng-kaz.eng.dix)
* Ағылшын-қазақ екiтілді сөздiгі(apertium-eng-kaz.eng-kaz.di x)
* Қазақ біртiлді сөздiгі(apertium-kaz.kaz.lexc)

3.1 Ағылшын бiртілді сөздiгінің форматы

Ағылшын бiртілді сөздiгі(apertium-eng-kaz.eng.dix) - көмегiмен аударылaтын сөздiң aғылшын тіліндегi сөз таптарымен сәйкес тaлданып, aтрибуттары анықталады. Одан кейiн, ағылшын-қазaқ екітiлді сөздiгінде осы сөздiң аудармасы тaбылады.

Сурет-1. Ағылшын бiртілді сөздiгі(apertium-eng-kaz.eng.dix)

Екітілдi сөздiк келесі жолдардан тұрады:

dictionary
alphabet
ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghi jklmnopqrstuvwxyz
alphabet
sdefs
sdef n="predet" c="Pre-determiner"
sdef n="detnt" c="Determiner neuter(?)"
sdef n="loc" c="Location (in English, not locative!)"
sdef n="cog" c="Cognomen (family name)"
sdef n="n" c="Noun"
sdef n="prn" c="Pronoun"
sdef n="np" c="Proper noun"
sdef n="adj" c="Adjective"
sdef n="sg" c="Singular"
sdef n="pl" c="Plural"
sdef n="adv" c="Adverb"
sdef n="preadv" c="Preadverb"
sdef n="pr" c="Preposition"
sdef n="itg" c="Interrogative"
sdef n="det" c="Determiner"
sdef n="dem" c="Demonstrative"
sdef n="def" c="Definite"
sdef n="nt" c="Neuter"
sdef n="vbser" c="Verb 'to be'"
sdef n="vbhaver" c="Verb 'to have'"
sdef n="vbdo" c="The verb 'to do'"
sdef n="GD" c="Gender to be determined"
sdef n="vblex" c="Verb"
sdef n="vbmod" c="Modal verb"
sdef n="inf" c="Infinitive"
sdef n="ger" c="Gerund"
sdef n="pp" c="Past participle"
sdef n="pres" c="Present tense (indicative)"
sdef n="pprs" c="Present participle"
sdef n="vaux" c="Auxiliary verb"
sdef n="ND" c="Number to be determined"
sdef n="p1" c="First person"
sdef n="p2" c="Second person"
sdef n="p3" c="Third person"
sdef n="pii" c="Imperfect indicative"
sdef n="ifi" c="Preterite indicative"
sdef n="fti" c="Future indicative"
sdef n="cni" c="Conditional"
sdef n="prs" c="Present subjunctive"
sdef n="pis" c="Imperative subjunctive"
sdef n="fts" c="Future subjunctive"
sdef n="imp" c="Imperative"
sdef n="pos" c="Possessive"
sdef n="sp" c="Singular plural"
sdef n="ref" c="Reflexive"
sdef n="sup" c="Superlative"
sdef n="num" c="Numeral"
sdef n="pron" c="Pronominal"
sdef n="ij" c="Interjection"
sdef n="sent" c="Sentence marker"
sdef n="lpar" c="Left parenthesis"
sdef n="rpar" c="Right parenthesis"
sdef n="lquest" c="Left question mark"
sdef n="web" c="URL address"
sdef n="apos" c="Apostrophe"
sdef n="time" c="Time"
sdef n="past" c="Past"
sdef n="sep" c="Separable verb"
sdef n="sint" c="Synthetic"
sdef n="email" c="Email"
sdef n="obj" c="Object"
sdef n="subj" c="Subject"
sdef n="subs" c="Substantive"
sdef n="url" c="Web address"
sdef n="gen" c="Genitive"
sdef n="comp" c="Comparative"
sdef n="pres" c="Present tense (indicative)"
sdef n="vaux" c="Auxiliary verb"
sdef n="ND" c="Number to be determined"
sdef n="GD" c="Gender to be determined"
sdef n="mon" c="Currency valuta"
sdef n="unk" c="Testing Unknown Proper Names"
sdefs
section id="main" type="standard" ...

Листинг-1. Екітілдi сөздiк коды

Яғни, сөздіктің басында сөз таптарының белгіленуі анықталады, ал одан кейінгі "main" бөлігінде XML форматында анықталған сөздердің аудармалары жазылады (Ошибка! Источник ссылки не найден.).

Кесте 1- Кейбір сөз таптарының сөздікте жазылу форматы
Сөз таптары
Жазылу түрі
Зат есім
e lm="mother" i=""imotheripar n="house__n"e
Етістік
e r="LR" i=""ilearnipar n="accept__vblex"e
Есімдік
e lm="Almaty" i=""iAlmatyipar n="Barcelona__np"e
Сан есім
e lm="one" i=""ioneipar n="one__num"e
Сын есім
e lm="long" i=""ilongipar n="long__adj"e
Үстеу
e lm="slowly" i=""islowlyipar n="maybe__adv"e
Шылау
e lm="for" i=""iforipar n="at__pr"e

3.2 Ағылшын-қазақ екiтілді сөздiгі

Сурет-2. Ағылшын-қазақ екiтілді сөздiгі(apertium-eng-kaz.eng-kaz.di x)

Сөз таптарының жазылу форматында тұрақты тэгтер бар және олардың мағынасы алдын ала анықталған.
Ағылшын-қазақ екiтілді сөздiгінің (apertium-eng-kaz.eng-kaz.dix) жазылу түрі:

dictionary
alphabet
sdefs
sdef n="n"" c="Зат есім"
sdef n="v" c="Етістік"
sdef n="vblex"
sdef n="vaux\"
sdef n="prn" c="Есімдік"
sdef n="adv" c="Үстеу"
sdef n="adj" c="Сын есім"
sdef n="num" c=" Сан есім "
sdef n="np" c="Жалқы есім"
sdef n="pr" c="Предлог"
sdef n="post" c="Послелог"
sdef n="cnjcoo" c="Союз"
sdef n="ant" c="Антропоним"
sdef n="m" c="Мужской род"
sdef n="f" c="Женский род"
sdef n="gen" c="Genitive"
sdef n="loc" c="Locative in Kazakh, location in English"
sdef n="abl" c="Ablative"
sdef n="dat" c="Dative"
sdef n="nom" c="Nominative"
sdef n="acc" c="Accusative"
sdef n="ins" c="Instrumental"
sdef n="vbdo" c="'to do' етістігі"
sdef n="vbmod" c="Modal verb"
sdef n="obj" c="Object"
sdef n="subj" c="Subject"
sdef n="inf" c="Инфинитиф"
sdef n="det" c="Determiner"
sdef n="ij" c="Interjection"
sdef n="sint" c="nice nicer nicest"
sdef n="frm" c="formality 2nd person"
!-- These labels are used by the transfer rules for postpositions
but never appear in the Kazakh lexical forms MLF 20120702 --
sdef n="Rgen" c="Postposition that takes genitive"
sdef n="Rloc" c="Postposition that takes locative"
sdef n="Rabl" c="Postposition that takes ablative"
sdef n="Rdat" c="Postposition that takes dative"
sdef n="Rnom" c="Postposition that takes nominative"
sdef n="Racc" c="Postposition that takes accusative"
sdef n="Rins" c="Postposition that takes instrumental"
sdef n="PXD" c="Possessive person to be determined"
sdef n="unk" c="Testing Unknown Proper Names"
sdefs

Листинг-2. Ағылшын-қазақ екiтілді сөздiгінің коды

Кесте 2- Кейбір сөз таптарының сөздікте жазылу форматы
Сөз таптары

Жазылу түрі
Зат есім
eplmums n="n"lrанаs n="n"rpe
Етістік
eplwatchs n="vblex"lrқараs n="v"s n="tv"rpe
Есімдік
eplAlmatys n="np"s n="loc"s n="sg"lrАлматыs n="np"s n="top"s n="nom"rpe
Сан есім
eplones n="num"s n="sg"lrбірs n="num"rpe
Сын есім
epllengthys n="adj"s n="sint"lrұзынs n="adj"rpe
Үстеу
eplrathers n="preadv"lrтезірекs n="adv"rpe
Шылау
eplfors n="pr"lrүшінs n="post"s n="Rnom"rpe

3.3 Қазақ біртiлді сөздiгі

Сурет-3. Қазақ біртiлді сөздiгі(apertium-kaz.kaz.lexc)

Қазақ біртiлді сөздiгі(apertium-kaz.kaz.lexc)- көмегiмен аударылaтын сөздiң қазақ тіліндегi сөз таптарымен сәйкес тaлданып, aтрибуттары анықталады. Одан кейiн, қазaқ сөздiгінде осы сөздiң аудармасы тaбылады[5].
Қазақ біртiлді сөздiгі(apertium-kaz.kaz.lexc) келесі түрде жазылады:

!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! !!!!!!!!!!!!!!
!! MORPHOLOGICAL · TRANSDUCER · FOR · KAZAKH !!
!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! !!!!!!!!!!!!!!

! See http:wiki.apertium.orgwikiTurki c_lexicon
!=================!
Multichar_Symbols
!=================!

! Followed http:wiki.apertium.orgwikiTurki c_languages
! Part of speech categories = First-level tags
Зат есім: %n% ! Noun
Жалқы есім: %np% ! Proper noun
Сын есім: %adj% ! Adjective Сан есім: %num% ! Numeral Есімдік: %prn% ! Pronoun Детерминатив: %det% ! Determiner Етістік %v% ! Verb Көмекші етістік: %vaux% ! Auxilary verb Үстеу: %adv% ! Adverb Септеулік шылау: %post% ! Postposition Постүстеу: %postadv% ! Postadverb
Cалаластырғыш жалғаулық: %cnjcoo% !Co-ordinating conjunction
Cабақтастырғыш жалғаулық: %cnjsub% ! Sub-ordinating conjunction
Үстеу-жалғаулық: %cnjadv% ! Adverbial conjunction
Одағай: %ij% ! Interjection
Қысқарған сөз: %abbr% ! Abbreviation Копула: %cop% ! Copula
Еліктеу сөз: %ideo% ! Ideophone

! *1. Анықтаған сөздерінің артынан келетін үстеулер ("демеуліктер") !# ғана, -ақ
! Proper noun types
%top% ! Toponym ! Топоним
%ant% ! Anthroponym ! Кісі есімі
%cog% ! Cognomen ! Фамилия
%pat% ! Patronym ! Әке текті есім
%org% ! Organisation ! Ұйым есімі
%al% ! Other ! Басқалар

!! gender of anthroponyms and cognoms
%m% ! Masculine
%f% ! Feminine
%mf% ! Masculinefeminine !# basically cognoms without -ов-ова,
! -ин-ина endings
! "Syntactic" tags. Attributive use of non-adjectives etc.
%attr% ! Attributive
%subst% ! Substantive
%advl% ! Adverbial

! Number
%sg% ! Singular
%pl% ! Plural
! Possessives
%px1sg% ! First person singular
%px2sg% ! Second person singular
%px3sp% ! Third person singularplural
%px1pl% ! First person plural
%px2pl% ! Second person plural
%px3pl% ! Third person plural (for reflexive)
!%px% ! General possessive !# -нікі ! now gen.subst
! Cases
%nom% ! Nominative
%gen% ! Genitive
%dat% ! Dative
%acc% ! Accusative
%abl% ! Ablative
%loc% ! Locative
%ins% ! Instrumental

!! some additional ~cases
%sim% ! Similative
!# DAй
%abe% ! Abessive=Privative ! Лишительный
!# SIZ (not used after posessives and cases)
%reas% ! not used rigth now, just in case for
!# LIKTAN

! Pronoun types
%pers% ! Personal
%recip% ! Reciprocal
!! Pronoun&Determiner types
%dem% ! Demonstrative
%ind% ! Indefinite
%itg% ! Interrogative
%qnt% ! Quantifier
%neg% ! Negative !# ешкім
! (NOTE: also used to denote negation in verbs, i.e for м{A})
%ref% ! Reflexive

! Numeral types
%ord% ! Ordinal
%coll% ! Collective
%dist% ! Distributive

! Verbal features

!! Mood
%imp% ! Imperative
%opt% ! Optativejussive
%evid% ! Evidential, a.k.a. "indirect" non-eyewitness hearsay

!! Derivation
%caus% ! Causative
%pass% ! Passive
%coop% ! Cooperative

!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! !!!!!!!!!!!!!!!!!!!
!!! M O R P H O T A C T I C S !!!
!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! !!!!!!!!!!!!!!!!!!!

!============!
LEXICON Root
!============!

ModalParticles ;
Copula ;
Conjunctions ;
Postpositions ;
Postadverbs ;
Pronouns ;
Determiners ;
Numerals ;
Nouns ;
ProperNouns ;
Adjectives ;
Adverbs ;
Verbs ;
Interjections ;
Ideophones ;
Abbreviations ;
Punctuation ;
Guesser ;
Digits ; ! UseCirc

Листинг-3. Қазақ біртiлді сөздiгінің коды

Кесте 3- Кейбір сөз таптарының сөздікте жазылу форматы
Сөз таптары
Жазылу түрі
Зат есім
бауырсақ:бауырсақ N1 ; !"UseMT"
Етістік
ұш:ұш V-IV ; ! "fly"
Есімдік
Алматы:Алмата NP-TOP ; ! "Almaty" ! DirLR
Сан есім
бір:бір NUM ; ! "one"
Сын есім
әдемі:әдемі A1 ; ! "beautiful"
Үстеу
тезірек:тезірек ADV ; ! "rather" ! UseMT eng-kaz
Шылау
үшін:үшін POST ; ! "for (the benefit of), in order" + NOM

3.4 DTD дегеніміз не және не үшін қажет?

DTD (англ. Document Type Definition -- құжаттың түрін анықтау)- бұл XML-құжатта қандай элементтер болуы керек екенін және осы элементтердің міндетті түрде болу керек, ал кайсы бірінің міндетті емес екенін анықтауға мүмкіндік беретін тіл. DTD XML-ды құжаттың грамматикасын және стандарттарға сай болуын тексеруге арналған. Ол алдын ала беріліп кеткен немесе өзіміз құрастырған ережелер бойынша тексереді. Бұл қолданушыға немесе өзгеріс енгізушіге жұмыс барысында құжатқа енгізіліп жатқан ақпараттың дұрыстығын алдын ала тексеріп алуға көмектеседі. Нақтырақ айтатын болсақ XML-құжаттың валидациясы жүреді.
XML-құжаттарды тексеру қажеттілігі келесін себептерге байланысты:
* XML-құжат сіздің жүйеңізге сәйкес келмеуі мүмкін;
* XML-құжат қәте мәліметтер болуы мүмкін;
* XML-құжат құрылымында қәте болуы мүмкін.
DTD (англ. Document Type Definition -- құжаттың түрін анықтау)- екі ұғым береді:
* Құжаттың схемасын сипаттауға қолданылатын термин.
* Тіл схемасы DTD (DTD schema language) - бұл синтетикалық ережелерді жазуға арналған SGML және XML компьютерлік тіл.
SGML және XML компьютерлік тілдер арасында белгілі айырмашылықтар кездеседі, DTD-ны қолдануда өзіндік ерекшеліктері бар ол тұтас құжатқа байланысты. Соңғы уақытта XML-технологиялары DTD-дан бас тартуының бірнеше себептері бар. Олар:
* XML синтезіне қарағанда жақсырақғы жолданыста жүр;
* Түйндердің типизациясының жоқтығы;
DTD-ның орнын стандарт консорциум W3C XML Schema келді.
XML DTD-ның кемшіліктері.
* XML синтез тілінен ерекше. Бұл көптеген мәселер тудырады, мысалы, кодтау кезінде немесе қәтелерді анықтау мүмкін болмау жағдайында;
* Мәліметтердің түрін анықтау мүмкіндігінің болмауы;
* DTD-да кеңістік атаулар (пространств имен) жоқ. Нақтырак айтатын болсақ, құжаттарға екі немесе ондан көп DTD сипаттама қоя алмаймыз.
DTD-да элементтерді, атрибуттарды және мәндерді жариялау. *, ?, + модификаторлары.
Элементтерді, атрибуттарды және мәндерді көрсету үшін арнаулы декларация және модификаторлар қолданылады.
XML элементінің жазылуы және XML элементтерінің бірізділігі:

1 !ELEMENT элемент атауы (не құрайды)
Мысалы,
1 !ELEMENT book (title, ... жалғасы
Ұқсас жұмыстар
Қазақ тілінен орыс тіліне машиналық аударудың лингвистикалық сөздіктерін Apertium платформасының негізінде жасау
Қазақ тілінен ағылшын тіліне машиналық аударудағы лексикалық таңдауды шешу жолдарының моделдері мен әдістерін жасау
Қазақ тілінен ағылышын тіліне машиналық аудару жүйесін жетілдіру
Лексикалық көп мәнділікті шешу әдістерін және шешім алгоритмін таңдау
Қазақ тілінен орыс тіліне машиналық аударма жасайтын программалық кешенін өңдеуі (генератор)
Аудармашы этикасі қолданушының көзқарасына тәуелді
Лексикография
Фразеологизмдерді аудару мәселелері
Ағышын тіліндегі неологизмдердің ерекшеліктері
Аударма түрлері. Мәтінді аудару барысында аударма түрлерін
Пәндер