Қазақ тілінен ағылшын тіліне машиналық аударудағы лексикалық таңдауды шешу жолдарының моделдері мен әдістерін жасау

КІРІСПЕ 6
1 ҚАЗАҚ ТІЛІНДЕГІ ЛЕКСИКАЛЫҚ ТАҢДАУДЫ ШЕШУДЕГІ КӨП МАҒЫНАЛЫ СӨЗДЕРДІҢ РОЛІ МЕН БЕРІЛГЕН ЕСЕПТІҢ ҚОЙЫЛЫМЫ 8
1.1 Аудармалық сәйкестілік және көп мағыналы сөздірдің аудармадағы ролі 8
1.2 Көп мағыналы сөздер және машиналық аударма 14
1.3 Лексикалық таңдау және есептің қамту аймағы 19
2 ЛЕКСИКАЛЫҚ КӨП МӘНДІЛІКТІ ШЕШУ ӘДІСТЕРІН ЖӘНЕ ШЕШІМ АЛГОРИТМІН ТАҢДАУ 21
2.1 Машиналық аудармадағы лексикалық көп мәнділікті шешу әдістерінің негізгі түрлері 21
2.2 Лексикалық көп мәнділікті шешуде қолданылатын Леск алгоритмі 23
2.3 Лексикалық көп мәнділікті шешуде қолданылатын Максимум энтропия әдісі 28
3 ЛЕКСИКАЛЫҚ ТАҢДАУДЫ ШЕШУ ҮШІН АПЕРТИУМ ПЛАТФОРМАСЫНДА МАКСИМУМ ЭНТРОПИЯ ӘДІСІН ҚОЛДАНУДЫҢ АҚПАРАТТЫҚ ЖӘНЕ БАҒДАРЛАМАЛЫҚ ҚАМТАМАСЫЗДАНДЫРУЫ. 33
3.1 Апертиум платформасындағы лексикалық таңдау модулі 33
3.2 Параллельді корпустан лексикалық таңдау ережелерін үйрену. 42
3.3 Апертиум платформасында Максимум энтропия әдісін қолдану алгоритмі 47
4 ТӘЖІРИБЕЛІК ЖҰМЫСТЫҢ ҚОРЫТЫНДЫЛАРЫ 52
ҚОРЫТЫНДЫ 57
А ҚОСЫМШАСЫ 60
Ә ҚОСЫМШАСЫ 62
Дипломдық жұмыстың тақырыбы – қазақ тілінен ағылшын тіліне машиналық аударудағы лексикалық таңдауды шешу жолдарының моделдері мен әдістерін жасау.
Лексикалық таңдау – негізгі тілде берілген сөздің не болмаса мәтіннің мақсат тілге аударғандағы бірнеше аудармалар арасындағы таңдау есебі. Бұл есеп сөздің көп мәнділігімен тығыз байланысты. Лексикалық таңдау есебінің лексикалық көпмәнділік есебінен айырмашылығы мұнда біртілді аудармадағыдай тек мағыналық аударманың дұрыстығын тексермей, сонымен қатар екі тілдің арасындағы сәйкес аудармасын табу болып табылады.[1]
Лексикалық көп мәнділікті шешу – бұл белгілі мәнмәтінде көп мағыналы сөздіңмағынасын табу процесі болып табылады. Адам үшін мәнмәтінде сөздердің дұрысмағынасын табу қиынға түспейді, бірақ машина үшін бұл оңай емес. Себебі, сөздердің мағынасын дұрыс түсіну және таңдау қабілетін жасау алгоритмдерін құру өтеқиын есеп.
Қазіргі таңда машиналық аударма ісі көптеген кәсәби салаларда және ғылыми зерттеулерде қолданыс табуда. Аударма сапасының жоғары және мағыналық сәйкестігі дұрыс болуы үшін заманауи техника мен технологиялардың көптеген түрлері мен әдістері қолданылуда. Осы мәселенің дұрыс шешімін табуда Апертиум ашық-кодты платформасы машиналық аударма саласында елеулі орын алады.
Апертиум платформасы – бұл машиналық аударманың трнасферлік жүйесі. Аудармалар сөздіктер мен трансферлік типті ережелер көмегімен іске асырылады. Толық синтаксистік талдаудың орнына, бөлек лексикалық бірліктер талданады. Апертиум машиналық аударма платформасы семантикаға негізделген. Семантикалық аудармадан бөлек қазіргі таңда статистикалық аударма да аудармашылық саласында елеулі орын алады.[3]
Статистикалық машиналық аударма – тілдік жұптардың үлкен ауқымдағы аудармаларын салыстыруға негізделген машиналық аударманың бір түрі. Тілдік жұптар – белгілі бір тіл мен екінші бір тіл арасында аудармалары сәйкес келетін сөйлемдерді қамтитын мәтіндер. Бұл қостілді қатар тұтынатын адамның осы екі сөйлемді жазу нұсқасы, сондай-ақ адамдар жасаған аударма да болуы мүмкін. Осылайша статистикалық машиналық аударма «өзін-өзі жетілдіру» қасиетіне ие.Тілдік жұптар қаншалықты көп болса, соншалықты дәл аударма қалыптасады да, статистикалық машиналық аударма нәтижесінің сапасы артады.[5]
1 Forcada, M.L., Ginestí-Rosell, M., Nordfalk, J., O'Regan, J., Ortiz-Rojas, S., Pérez-Ortiz, J.A.Sánchez-Martínez, F., Ramírez-Sánchez, G., Tyers, F.M. 2011. “Apertium: a free/open-source platform forrule-based machine translation”. Machine Translation 25(2)127-144.
2 Lexical selection. – URL: http://wiki.apertium.org/ wiki /Lexical_selection(13.11.2014)
3 Сундетова А. М., Апертиум платформасындағы Ағылшын-қазақ машиналық аудармалексикалық модулі. Международная научная конференция студентов и молодых ученых «Фарабиәлемі». – Алматы: «Қазақ университеті», 2014. – C. 145.
4 Jurafsky D., James H.M., Speech and Language Processing. An introduction to Natural Language Processing,Computational Linguistics, and Speech Recognition. Second Edition. 193-206.
5 Costa, A.,Miozzo, M., Caramazza A..Lexical Selection in Bilinguals: DoWords in the Bilingual’s Two LexiconsCompete for Selection?Journal of Memory and Language 41, 365–397 (1999).
6 Francis M. Tyers and Kevin Donnelly. apertium-cy: A collaboratively-developed free RBMT system for Welsh to English. Prague Bulletin of Mathematical Linguistics, (91):57_66, 2009.
7Mireia Ginestí-Rosell, Gema Ramírez-Sánchez, Sergio Ortiz-Rojas, Francis M. Tyers,and Mikel L. Forcada. Development of a free Basque to Spanish machine translationsystem. Procesamiento del Lenguaje Natural, 43:187_195, 2009.
8Eckhard Bick. Dan2eng: Wide-Coverage Danish-English Machine Translation. Proceedings of Machine Translation Summit XI, 10-14. Sept. 2007, Copenhagen, pages37_43, 2007.
9Eneko Agirre, Philip Glenny Edmonds. WordSense Disambiguation: Algorithms andApplications. Springer, 2006
10 Michael Lesk, Automatic sensedisambiguation using machine readabledictionaries: how to tell a pine cone from anice cream cone, ACM Special Interest Groupfor Design of Communication Proceedings ofthe 5th annual international conference onSystems documentation, p. 24 – 26, 1986.
11David Milne, Ian H. Witten. Learning to Linkwith Wikipedia. Proceedings of the ACMConference on Information and KnowledgeManagement, 2008
12Antonio Molina and Ferran Pla and EncarnaSegarra and Lidia Moreno. Word SenseDisambiguation using Statistical Models andWordNet. Proceedings of 3rd InternationalConference on Language Resources andEvaluation, LREC2002, Las Palmas de GranCanaria
13Қазақтiлi (қысқашаграмматикалықанықтағыш) / – Алматы:Мемлекеттіктілдідамытуинституты, 2010. – 92 бет.
14Mikel Santesteban Insausti. lexical representation and selection On bilingual speech production.2006.
15 Турдаков Денис Юрьевич. Методы и программные средства разрешениялексической многозначности терминов наоснове сетей документов.ДиссертацияМосква – 2010.
16 S. Banerjee and T. Pedersen. An adapted Lesk algorithm for word sense disambiguation using Word-Net. In Proceedings of the Third International Conference on Intelligent Text Processing and ComputationalLinguistics, Mexico City, February 2002.
17E. Agirre and G. Rigau. Word sense disambiguation using conceptual density. In Proceedings ofthe 16th International Conference on Computational Linguistics (COLING-96), pages 16–22, Copenhagen,Denmark, 1996.
18 M. Lesk. Automatic sense disambiguation using machine readable dictionaries: How to tell a pinecone from a ice cream cone. In Proceedings of SIGDOC ’86, 1986.
19X. Li, S. Szpakowicz, and S. Matwin. A WordNet-based algorithm for word sense disambiguation.In Proceedings of the 14th International Joint Conference on Artificial Intelligence, Montreal, August1995.
20R. Mihalcea and D. Moldovan. An iterative approach to word sense disambiguation. In Proceedingsof Flairs 2000, pages 219–223, Orlando, FL, May 2000.
21 S. Patwardhan, S. Banerjee, and T. Pedersen. Using measures of semantic relatedness for word sense disambiguation. In Proceedings of the Fourth International Conference on Intelligent Text Processing and Computational Linguistics, Mexico City, February 2003.
22 Caramazza, A. (1997). How many levels of processing arethere in lexical access? Cognitive Neuropsychology,14, 177–208.
23Zinovjeva, N. (2000). Learning sense disambiguation rules for machine translation.Master’s thesis, Uppsala University.
24Tyers, F. M. (2010). Rule-based breton to french machine translation. InProceedings of the 14th Annual Conference of the European Associationfor Machine Translation, pages 174–181.
25Sánchez-Martínez, F., Pérez-Ortiz, J. A., and Forcada, M. L. (2007). Integratingcorpus-based and rule-based approaches in an open-source machinetranslation system. In Proceedings of METIS-II Workshop: NewApproaches to Machine Translation, a workshop at CLIN 17 – ComputationalLinguistics in the Netherlands, pages 73–82.
        
        ӘЛ-ФAРAБИ AТЫНДAҒЫ ҚAЗAҚ ҰЛТТЫҚ УНИВЕРСИТЕТІ
МЕХAНИКA-МAТЕМAТИКA ФAКУЛЬТЕТІ
«AҚПAРAТТЫҚ ЖҮЙЕЛЕР» КAФЕДРAСЫ
«Қазақ тілінен ағылшын тіліне машиналық аударудағы лексикалық таңдауды шешу ... ... мен ... ... ... ...
ДИПЛОМДЫҚ ЖҰМЫС
Орындаған
_________________
(қолы)
Серікбаев Е.Н.
Ғылыми жетекші т.ғ.д., профессор
_________________
(қолы)
Тукеев У.А.
Нормабақылаушы
__________________
(қолы)
Жуманов Ж.М.
Қорғауға ... мең. қ.а. PhD ... ... 2015
Реферат
Дипломдық жұмыс 64 беттен, 10 суреттен, 3 кестеден, 5 ... 16 ... 25 ... ... ... және 2 қосымшадан тұрады.
Кілттік сөздер: НЕГІЗГІ ТІЛ, МАҚСАТ ТІЛ, МАШИНАЛЫҚ АУДАРМА, ЕРЕЖЕЛЕРГЕ НЕГІЗДЕЛГЕН ... ... ... ... ... КӨП ... ... КОРПУС, МАКСИМУМ ЭНТРОПИЯ ӘДІСІ, АПЕРТИУМ ПЛАТФОРМАСЫ.
Зерттеу нысаны: қазақ-ағылшын машиналық аударма жүйесі.
Жұмыстың ... ... ... ... ... ... аударудағы лексикалық таңдауды шешу жолдарының моделдері мен әдістерін жасау.
Зерттеу әдістері: ережелерге негізделген ... ... ... ... есебін Максимум энтропия әдісімен шешу.
Нәтижелері: параллельді қазақ-ағылшын белгіленбеген корпусы дайындалды, Максимум энтропия әдісін қолдану үшін көп ... ... ... ... көп мәнді сөздер үшін қазақ-ағылшын параллельді корпусынан алынған сөйлемдер C# бағдармалау тілінде өңдеуден өтіп, көп ... ... ... кестесі жасалынды.
Жұмыстың жалпы сипаттамасы: ережеге негізделген машиналық аударма жүйесіндегі лексикалық ... ... ... ... ... ...
Енгізу деңгейі: C# бағдарламалау тілінде жасалған көп мәнді ... үшін ... ... ... ... ... таңдау модулінде қолдану.
Қолдану аймағы: машиналық аударма жұмысымен айналысатын барлық салалар, адармашылық ... ... ... көп ... ... ... ... аудармаға тікелей әсер етеді.
Зерттеудің болашақтағы дамуы: қазақ-ағылшын параллельді корпусының өлшмін кеңейту, корпусты толығымен сөз таптарына ... көп ... ... тізімін көбейту, Апертиум платфомасындағы лексикалық таңдау модуліндегі ... ... ... ... ... из 64 страниц, 10 рисунков, 3 таблиц, 5 листингов, 16 ... 25 ... и из 2 ... ... ЯЗЫК ... ... ... МАШИННЫЙ ПЕРЕВОД, МАШИННЫЙ ПЕРЕВОД НА ОСНОВЕ ПРАВИЛ, ЛЕКСИЧЕСКИЙ ВЫБОР, МНОГОЗНАЧНОСТЬ СЛОВ, ПАРАЛЛЕЛЬНЫЙ КОРПУС, МЕТОД МАКСИМУМ ЭНТРОПИЙ, ПЛАТФОРМА АПЕРТИУМ.
Объект исследования: система ... ... ...
Цель работы: разработка моделей и методов решения лексического выбора в машинном переводе с казахского языка на английский язык.
Методы исследования: ... ... ... ... в ... ... на ... правил методом Максимум энтропий.
Результаты: разработан неотмеченный казахско-английский параллельный корпус, собран список многозначных слов для использования метода Мкасимум энтропий, ... из ... ... ... ... для ... слов обработаны на языке программирования C#, разработаны таблицы вероятностей многозначных слов.
Основные характеристики работы: предложено ... ... ... для решения задачи лексического выбора в машинном переводе на основе правил.
Степень внедрения: использование таблиц вероятностей для многозначных слов разработанных на ... ... С# для ... лексического выбора в платформе Апертиум.
Область применения: все среды занимающееся ... ... в ... ... ... ... ... перевод многозначного слова влияет на значение перевода.
Дальнейшее развитие исследований: расширить размеры казахско-английского параллельного корпуса, отметка корпуса по частям речи, ... ... ... ... ... ... в модуле лексического выбора на платформе Апертиум.
Abstract
Diploma work consists of 64 pages, 10 figures, 3 tables, 5 listings, 16 ... 25 ... and 2 ... words: SOURCE ... TARGET LANGUAGE, MACHINE TRANSLATION, RULE BASED MACHINE TRANSLATION, LEXICAL SELECTION, WORD SENSE DISAMBUGATION, PARALLEL CORPUS, MAXIMUM ENTHROPY MODEL, APERTIUM ... object: ... machine ... ... goal: development of models and methods for solving the lexical selection problem in machine translation from Kazakh into ... methods: solving the task of lexical ... in rule based machine ... by Maximum entropy method. ... ... ... ... parallel corpus, collected a list of ambiguous words to use Maximum entropy method, ... from ... parallel corpus ... for ... words are processed in the programming language C#, developed probability tables for ambiguous words.
Main characteristics of research: proposed to use a parallel corpus for the task of lexical ... in rule based machine ... degree: use of ... tables for ambiguous words developed in the programming language C# for the module of lexical ... in Apertium ... area: all areas of machine ... and ... ... of research: correct translation of an ambiguous word affects to the ... ... of ... extend the size of ... parallel corpus, align corpus by part of speech, to increase the list of ... words, ... the rules in the lexical ... module on Apertium platform.
Мазмұны
КІРІСПЕ 6
1 ҚАЗАҚ ТІЛІНДЕГІ ЛЕКСИКАЛЫҚ ТАҢДАУДЫ ШЕШУДЕГІ КӨП ... ... РОЛІ МЕН ... ... ... ... сәйкестілік және көп мағыналы сөздірдің аудармадағы ролі 8
1.2 Көп мағыналы сөздер және машиналық аударма 14
1.3 ... ... және ... қамту аймағы 19
2 ЛЕКСИКАЛЫҚ КӨП МӘНДІЛІКТІ ШЕШУ ӘДІСТЕРІН ЖӘНЕ ШЕШІМ АЛГОРИТМІН ТАҢДАУ 21
2.1 Машиналық аудармадағы лексикалық көп мәнділікті шешу әдістерінің негізгі түрлері 21
2.2 ... көп ... ... ... Леск ... Лексикалық көп мәнділікті шешуде қолданылатын Максимум энтропия әдісі 28
3 ЛЕКСИКАЛЫҚ ТАҢДАУДЫ ШЕШУ ҮШІН АПЕРТИУМ ПЛАТФОРМАСЫНДА МАКСИМУМ ... ... ... ... ЖӘНЕ БАҒДАРЛАМАЛЫҚ ҚАМТАМАСЫЗДАНДЫРУЫ. 33
3.1 Апертиум платформасындағы лексикалық таңдау модулі 33
3.2 Параллельді корпустан лексикалық таңдау ... ... ... ... Максимум энтропия әдісін қолдану алгоритмі 47
4 ТӘЖІРИБЕЛІК ЖҰМЫСТЫҢ ҚОРЫТЫНДЫЛАРЫ 52
ҚОРЫТЫНДЫ 57
А ҚОСЫМШАСЫ 60
Ә ҚОСЫМШАСЫ 62
КІРІСПЕ
Дипломдық жұмыстың тақырыбы – қазақ тілінен ағылшын тіліне машиналық ... ... ... шешу ... ... мен ... жасау.
Лексикалық таңдау – негізгі тілде берілген сөздің не болмаса мәтіннің мақсат тілге аударғандағы бірнеше аудармалар арасындағы таңдау есебі. Бұл есеп ... көп ... ... байланысты. Лексикалық таңдау есебінің лексикалық көпмәнділік есебінен айырмашылығы мұнда біртілді аудармадағыдай тек мағыналық аударманың дұрыстығын тексермей, сонымен қатар екі тілдің ... ... ... табу ... ... көп ... шешу – бұл белгілі мәнмәтінде көп мағыналы сөздің мағынасын табу ... ... ... Адам үшін ... ... ... мағынасын табу қиынға түспейді, бірақ машина үшін бұл оңай ... ... ... ... ... ... және ... қабілетін жасау алгоритмдерін құру өте қиын есеп.
Қазіргі таңда машиналық аударма ісі көптеген кәсәби салаларда және ... ... ... ... ... ... ... және мағыналық сәйкестігі дұрыс болуы үшін заманауи ... мен ... ... ... мен ... ... Осы ... дұрыс шешімін табуда Апертиум ашық-кодты платформасы машиналық ... ... ... орын алады.
Апертиум платформасы – бұл машиналық аударманың трнасферлік ... ... ... мен ... типті ережелер көмегімен іске асырылады. Толық синтаксистік талдаудың орнына, бөлек лексикалық бірліктер талданады. Апертиум машиналық аударма платформасы семантикаға негізделген. ... ... ... ... ... статистикалық аударма да аудармашылық саласында елеулі орын алады.[3]
Статистикалық машиналық аударма – тілдік ... ... ... ... ... ... машиналық аударманың бір түрі. Тілдік жұптар – белгілі бір тіл мен екінші бір тіл ... ... ... келетін сөйлемдерді қамтитын мәтіндер. Бұл қостілді қатар тұтынатын адамның осы екі сөйлемді жазу ... ... ... жасаған аударма  да болуы мүмкін. Осылайша статистикалық машиналық аударма «өзін-өзі жетілдіру» қасиетіне ие. Тілдік жұптар қаншалықты көп болса, соншалықты дәл ... ... да, ... машиналық аударма нәтижесінің сапасы артады.[5]
Лексикалық таңдау мәселесін Апертиум ашық кодты платформасында ... ... ... жазу ... шешуге болады. Апертиум – бұл бастапқы кодтармен берілген ашық машиналық аудармашы жүйесі. Апертиум машиналық аударма ... ... ... ... ... бірі – ... ... Лексикалық таңдау Апертиум платформасындағы басқа модульдар сияқты аударма жүйесін ақпаратпен қамтамасыз етеді. Осы ережелер формализі ережелердің ... ... ... ... ... аударманың екі тәсілін де қолдануды ұсындық. Негізгі аудармалық бағыт ретінде семантикаға негізделген аударманы қарастырамыз.
Аударманың дұрыс әрі шынайы ... үшін ... ... ... ... ... дұрыс шешу керек. Сөздердің көпмағыналығына қарай әрбір сөздің дұрыс аударылғанын қамтамасыз ету керек. Осы орайда біз ... ... ... ... ... мәселесін шешудің қазіргі таңда бірнеше әдстері қалыптасқан. Әдістердің ... көп ... ие ... «Жасырын Марков моделі», «Максимум энтропия моделі» болып табылады.
Максимум Энтропия (қысқаша MaxEnt) ... ... ... үшін ... Тізбекті классификациялау есебі немесе тізбекті белгілеу (sequence labeling) бұл – әлдебір тізбектің ... ... ... ... ... ... сөз үшін оның сөз табын анықтау секілді.
1 ҚАЗАҚ ТІЛІНДЕГІ ЛЕКСИКАЛЫҚ ТАҢДАУДЫ ... КӨП ... ... РОЛІ МЕН ... ... ... Аудармалық сәйкестілік және көп мағыналы сөздірдің аудармадағы ролі
Аударманың ... мен ... ... ... қол жеткізуге ұмтылу, тек аударма барысында біріктірілетін мәтіндер мен сол ... жеке ... ғана ... ... ... ... тіл мен ... тілін құрайтын бірліктердің де балама болып табылатындығына әкеліп соғады. Берілген бастапқы тілдің бірліктерін аудару үшін аударма тілінің белгілі бір бірліктерін ... ... ... ... Екі ... де қатысты тұрақтылық мағыналары бар, демек олардың аударма барысында бірінің ... бірі ... ... ... ... бар ... көрсетеді. Мұндай мағыналық ұқсастық олардың арасындағы аударма баламалық қатынастарды аударуға, яғни ... ... ... ... ретінде күнделікті қолдануға алғышарттар жасайды. Берілген бастапқы тілдің бірлігін ... үшін ... ... аударма бірлігін аудармадағы сәйкестілік деп атаймыз.
Аударманың жеке ... ... ... ... ... ... тілдегі аударма сәйкестіліктері жүйелерінің басқа, әр түрлі тілдерге қатысты аударма сәйкестіліктерін зерттейді. Басқа тілдің ... ... ... сәйкестіліктері ретінде пайдаланатын бір тіл бірліктері өз кезегінде, яғни аударма кері ... іске ... ... ... ... ... ... отырып, басқа тілдің сәйкестіліктері болып табыла бермейді. Басқаша айтқанда, аудармадағы ... ... ... ... тілдер бірліктерінің қатынастары әрбір жеке аударма теориясының шегінде екі тілдің әрбіріне ... ... өз ... ... ... ... бастапқы тіл бірліктерімен тең қатынаста қызмет атқарушы ретінде есептеледі. Сондықтан аударма тілі мен ... тіл ... ... ... ... ... ... болуына алғышарттар жасайды. Аудармада балама қатынастары оқшауланған тіл бірліктерінің арасында емес, тілдегі айтылымдар құрамында шығатын бастапқы тіл мен аударма тілі ... ... ... ... ... тең бағалы болуының қабілеті олардың тіл жүйесіндегі мағынасы ... ... ... ... ерекшеліктерімен анықталады. Сондықтан аудармадағы сәйкестіліктерді екі тіл жүйесінде орын алатын ... ... ... ... жоқ. Оны ... барысында біріктірілетін коммуникативті тең бағалы айтылымдардан анықтай аламыз. Бұл ... ... ... ... ... кезінде бір-бірімен теңестірілетін бастапқы тіл мен аударма тілі бірліктерінің аударылуымен анықталады. Тәжірибелік мақсат негізінде, аударманың жеке теориясы ... ... ... ... ... ... құрамның бірліктері мен бастапқы тілдің грамматикалық құрылымы аудармаларының мәселелерін анығыр-ақ қарастырады.
Ереже бойынша бастапқы тіл бірлігі бастапқы ... орны ... ... оған аударма тілі сәйкестілігі ізделінеді. Қағидаға сәйкес бастапқы тіл бірліктері үшін мұндай сәйкестіліктерді кез келген тіл жүйесінің деңгейінде: фонемадан сөйлемге ... ... ... ... ... әрбір фонемасына артикуляция мен дыбысталу жағынан жақын фонемелер орыс немес қазақ тілдерінде де табылады.
Қазақша немесе орысша ауадрмадағы ағылшын ... ... ... ... сөзінің белгілі бір морфемасы сәйкес келеді. ... ... ... ... қосымшалы, оның ішінде сөз өзгерткіш жұрнақтары/жалғаулары бар морфемдер де бір-біріне ... бола ... ... деңгейіндегі сәйкестілік.
My friend lives in Astana- Менің досым Астанада тұрады.
Alya was very happy ... - Әлия кеше өте ... ... ... ... ... ... сөйлемнің әрбір сөзіне қазақша аудармасында сәйкестелінетін сөз табуға болады. Мұндай ... ... аса ... ... сөйлемді аудару кезінде де қолданады.
The Industrial Revolution brought into being the industrial proletariat and with it the fight for civil and ... rights, ... and the right to ... ... ... ... ... және сонымен қатар азаматтық және саяси құқықтарды, трейд-юниондар мен дауыс ... алып ... ... түпнұсқаның барлық элементіне абсолютті (дара) сәйкестілік қарастырылмайды, өйткені ереже бойынша қазақ тілінде ағылшын артикльдерімен кейбір ... және ... ... ... ... жоқ. ... ... сәйкестілікті түпнұсқаның тек кейбір сөздерінен ғана табуға болады, ал қалған сәйкестіліктер басқаша деңгейлерде ... ... ... ... ... bore to death by ... жалықтыру.
To keep to a diet-диета сақтау.
To see a doctor-дәрігерге көріну.
To live from hand to ... әрең ... ... сөз ... ... және ... тұтастай балама тауып тұр, ал олардың құрамындаға сөздер бір-біріне сәйкестілік ретінде ... ... ... ... is a pretty kettle of fish- Міне, осындай жағдай!
I wish you had come- Келгеніңде ғой.
I really feel bad about it- Мен оған ... де ... ... ... мен ... ... орнына беріліп тұрған сөз бен сөз тіркестері кездеседі. Солай бола тұрса да, қазақ тіліндегі сөйлемдер үнемі ағылшын ... ... ... мен ... ... үшін ... және ... олардың толық мақсатта сәйкестіліктері болып табылады.
Аударма сәйкестіліктері жүйесін сипаттағанда айтылымдардың көптеген жағдайда қолданылатын, тұрақты мағынаға ие ... ... ... ... және ... бірліктерінің сәйкестіліктеріне басты назар аударылады. Ереже бойынша аударма тіл бірлігі де сәйкестілік ретінде сол деңгейде көрінеді. Алайда сөз айтылымдары әр ... ... ... өзара байланыстары негізінде құрылады. Түпнұсқаның берілген бірлігі аударылғанда, қай деңгейдегі амалмен жеткізілетіндегі аударма барысында алдын-ала анықталмайды. ... ... ... әр ... ... ... ... ұстануға болады.
Ағылшын тіліндегі but she will do it ... ... ... екпін аударма барысында бірліктердің көмегімен жеткізіледі. Бірақ ол оны міндетті түрде орындайды /фонетикалық-лексикалық ... Осы ... ... ... /Pass me some ... қант ... ... грамматикалық-лексикалық сәйкестілік /The delegation had been received by the prime-minister-Бұған дейін өкілдер премьер-министрдің қабылдауында ... ... ... бір ... шегіндегі, яғни аударма тіл жүйесінде орын алатын бірліктер, сондай-ақ түпнұсқада орын ауыстыра алатын және де осы деңгейдегі басқа да ... ... ... ... ... және ... ... құрамында көбіне ортақ мағына беретін сөздер бар (to go, to be, to come, to leave- ... бар ... ... ... ... кетіп қалу) және де көбіне тұрақты мағыналы сөздер бар (to stand, to slip away, to fly, to ... ... ... ұшу, ... Алайда, осы сөздердің қолданысын қарастырсақ, қазақ тіліне қарағанда ... ... ... мағынаға ие сөздер көбірек қолданылады. Ағылшын аудармасымен салыстырғанда, осыдан ... «to be» ... ... сөзі ғана ... ... ... ... және «to go» сөзіне “жүру, айдау, ұшу» сөздері сәйкес келе береді. Бұл сәйкестіліктерді аудармаларды салыстырғанда және сөздердің басқа бірліктерінің ... да ... ... ... жиі ... бастапқы тіл бірлігінің қатынасына тән және белгілі бір бастапқы тіл деңгейінің сәйкестілігіне сай ... ... ... ... ... ... және ... болып бөлінеді. Екінші белгісі бойынша лексикалық, фразеологиялық болады. Екінші белгісі бойынша ... ... және ... ... бөлінеді. Көрсетіліп кеткендей, қажетті жағдайда деңгей арасындағы сәйкестіліктер де сипатталады. Фонемдік және ... ... ... ... аса ... ... ... Сөйлем деңгейіндегі сәйкестілік не фразеологиялыққа қосылады немесе тізімі берілген сөз мөрі ретінде қарастырылады.
Жекелік (тұрақты) сәйкестілік- бұл ... ... тіл ... ... ... ... ... түпнұсқада оның пайда болуының барлық жағдайында қолданылады, өз мағынасында бұл салыстырмалы түрде контекстке бағынбайды. ... ... ... ... ... ... ... көбіне оның мағынасын қайта толық өңдейді. Жекелік сәйкестіліктер, ең алдымен, терминдерде, жалқы есімдерде, географиялық атауларда, ... ... ... ... ... мен сөз тіркестерінде бар:
Thames- Темза
contrabandist- контрабандист
Көптік сәйкестілік бұл- берілген бастапқы тіл бірлігінің аудармасындағы жиі қолданылатын тәсілдердің бірі. ... ... ... ... шартқа байланысты анықталады. Мұндай жағдайда әрбір нұсқадағы сәйкестіліктер бастапқы бірліктердің мағынасын өзіне ұқсас ... тек ... ғана бере ... ... мән, өмір
Gap- тесік, үзіліс, кемшілік
Knot- буын, бант, бір топ халық
Attitude- қатынас, позиция, саясат
Нұсқалық (вариантты) сәйкестілік бір мағыналы сөзге де, ... әр ... ... көп ... ... де ие бола ... кәсіподақ, трейд юнион
Labour party- лейбористік партия, жұмысшылар партиясы
Chamber- бөлме, апартамент, зал, конференц зал, ... ... ... ... ... тіліндегі синонимдер немесе паронимилардан құралады.
Enjoyment- рақат
Writing- жазу, ... ... ... ... ... тұрақты және нұсқалыққа бөлуді, ең бастысы лексикалық және фразеологиялық сәйкестілікте қолдануға болады. Түпнұсқа бірлігінің грамматикалық сәйкестілігі басқа сипатқа ие. ... ... ... ... ... ... ... ақпарат сәйкес грамматикалық безендірілетін лексикалық бірліктің мағыналарымен нақтыланады. Аудармадағы грамматикалық қалыпты таңдау көбінесе түпнұсқа бірліктерінің грамматикасымен емес, жеткізілетін ақпараттың ... ... ... ...
Түпнұсқада берілген бірлік көрінген кезде, аудармада тұрақты түрде немесе көпшілік жағдайда қолданылатын бастапқы тілдің грамматикалық бірлігіне, бірлік сәйкестіліктер табыла бермейді. ... ... тіл ... көп ... лексикалық нұсқа сәйкестілікпен айрықшаланады. Олардың арасынан бір түр мен әр түрге жататын сәйкестіліктерді ажырата білу керек. Бір ... ... ... ... тіл мен ... ... бірдей анықтауға болады, олардың ұқсас атаулары мен грамматикалық мағыналары да екі тілде бірдей бір-біріне сәйкес келеді. Бір түрге жататын сәйкестілікті ... ... ... бірлігінің грамматикалық мағынасы аудармада неғұрлым толығырақ жеткізіледі. Мұндай сәйкестілік, әсіресе грамматикалық категориясы ерекшеленген қағидаға сәйкес тілдерде кездеседі.
Берілген бастапқы тіл ... әр ... және ... қатар әр түрдегі сәйкестіліктер бірдей кездеседі де, бастапқы тіл мен ... ... ... ... ... ... балама қатынастарын құрайды.
Аударма жеке теориясы шеңберінде сәйкестілік ... ... ... ... ... ... ... қойылуы қарастырылмайды.
Лингвистикалық және жағдаяттық контекстегі сәйкестілік ұғымы.
Сәйкестілік ... ... және ... ... түсінігімен тығыз байланысты. Сондықтан олар аудармада қай сәйкестілікті таңдау ... ... ... қолданудан бас тарту және аударудың жаңа тәсілдерін іздеуді ... ... ... ... ... тіл ... деп білеміз. Бастапқы берілген сөздің айналасында қолданылған сөздер жиынтығы, грамматикалық түрі мен құрылымы жиылып, сөз контекст болады. ... тар ... және кең ... ... ... ... ішіндегі берілген бірліктің айналасында қолданылған сөз тіркесі контексті немесе ... яғни тіл ... тар ... деп ... Ал, ... ... бірліктің айналасында, сөйлемнен шығып сөйлемдер шегінде қолданылатын тіл бірліктерінің жиынтығы, яғни мәтін контекстін кең көлемді контекст деп атаймыз. Кең ... ... ... ... ... ... қиын, өйткені ол сөйлем топтарындағы контекстте, абзацта, бір тарауда немесе тіпті бүкіл шығармада толығымен болуы мүмкін. Тар көлемді контекстті, өз ... ... және ... деп бөлеміз. Синтаксистік контекст- берілген сөз, сөз тіркестері немесе сөйлем мүшелері қолданылған синтаксистік құрылым. ... ... ... ... ... ... ... бірліктердің жиынтығы, сөз және тұрақты сөз тіркестері.
Ситуативті, яғни жағдаяттық контекст айтылымдарға ... ... ... ... ... ... ... бірге кез келген шынайы болып жатқан деректерді беру аудармашыға тіл бірліктерінің мағынасын дұрыс ... ... ... ... ... ... ... бірліктерін аударғанда қолданған контекстті әрқашанда есепке алып отыруды ұйғарады. Сәйкестілік, бұл- аударма тілінің бірлігі, бастапқы тіл бірлігіне мағынасы ... ... ... ... бірлік тұпнұсқада қандай мағынамен шығатынын қарастыру керек. Тіл бірліктері көбінесе көп ... ... ... бірақ олар өз контекстінде мағынасының ықтималды мүмкіндігі бойынша беріледі. Ықтималды мағыналарымен бірге қолданылған тіл бірліктерін ... ... ... ... ... ... беретінін анықтауға болады. Әдетте бұл тар көлемді контекст шегінде ғана мүмкін болады. Келесі ағылшын сөйлемін қарастырайық:
The Striking unions have won ... despite bitter ... of the ... тысқары алынған бұл сөйлемдігі барлық толық мәнді сөздердің бірнеше мағынасы бар. “to strike” етістігі «ұру», «соғу», «табу», «ұрыну», «жеңу», ... жаю» ... ... ... ... зат ... ... «бірлестік», «кәсіподақ», «некелік одақ» дегенді білдіреді. Етістік «to win» «жеңу» , «ұту», «жету», «қол жеткізу» дегенді білдіреді. «Concession» зат ... ... ... ... сын есімі «ащы», «қинайтын», «қатал». “Opposition” зат есімі «контраст», «қарама қайшылық», «қарсыластық». “Employer” зат есімі ... ... ... ...
Жоғарыда айтылған контексте бұл мағыналарды бір бірімен ... бір ... ғана ... ... ... ... ... «ереуілге шығу» мағынасында, екіншісі «кәсіподақ», үшіншісі «жету», ... ... не ... ... ... соңғысы «қарсылық» мағынасында алынып отыр.
“Employer” «кәсіпкер» сөзі тап осы ... ... ... қай ... ... жатқанын анықтап тұр, ал қалған сөздердің мағынасын ашу үшін келесі сөз тіркестерін қолданса жетіп жатыр. “Striking unions”, “win concessions”, ... ... ... ... ашу аударма тілінде тұрақты сәйкестілікті табу мүмкіндігін немесе аудару кезінде таңдау жасау үшін қайтадан лингвистикалық және ситуативтік ... ... ... ... ... өзімізге таныс “attitude” зат есімінен жасалған мысалдар көрсетілген:
I don’t like your attitude to your ... is known for his ... ... ... бірінші жағдайда жұмысқа деген қатынасты, ал екінші жағдайда реакциялық көзқарастарды таңдауда тар көлемді контекст жеткілікті.
Алайда, кейде мүмкін ... ... ... ... кең ... ... де ... тура келеді. Ағылшын тіліндегі “chair” сөзіне қазақша орындық та, кресло да сәйкес келеді.
Then I got this book I was reading and sat down in my chair. ... бұл ... қай ... ... ... ... ... Бірақ әрі қарай сол абзацта осы жиһаздар туралы айтылады: The arms were in sad shape, because ... was sitting on them. Бұл ... ... ... ... ... түрде «кресло» нұсқасын аламыз.
Аударма нұсқасын таңдау кезінде көбінесе шынайы болып жатқан деректерді білу біліміне жүгінуге тура келеді. Егер мәтінді ... ... деп ... онда мәтінде сипатталып жатқан оқиғаның уақытына байланысты таңдау сәйкестілігіне ... ... Егер бұл ... қара ... ... ... жайлы болса, онда айтылған кейіпкер «аболиционист» деп ... яғни АҚШ- тағы ... заң» ... ... ... онда осы ... алып ... жақтаушы, ол жетпісінші жылдары, әсіресе Англияда өлім жазасын алып тастауды ... ... ... ... ... ... ... нұсқасын таңдау үшін аудармаға лайық саяси қозғалыстар жайлы белгілі білімі ... ... ... орыс тіліндегі аболиционист сөзі құлдыққа қарсы күреске ... бір ғана ... ... ... ... ... ... таңдау көмегі арқылы аударма жасау- өте кең тараған әдіс. Аудармашының шеберлігі көптеген жағдайда түпнұсқа ... ... ... ... және де контекстің шартына сәйкес келетін бірнеше нұсқаны таңдай ... ... ... тіл бірлігінде бір немесе бірнеше аударма сәйкестіліктері бар болса және ... ... ... ... ... онда кез ... осы сәйкестіліктердің көрінуі керек деген мағынаны білдірмейді. Көптеген жағдайда контекстегі тіл ... ... ... ... берілген контекстегі бастапқы тіл бірлігінің мағынасын дәл жеткізетін үнемі сәйкестіліктерді қолданудан бас ... ... ... ... ... ... ... бірлігін аударудағы тек берілген контекст үшін ғана жарамды тәсілді сирек қолданылатын (окказиональді) ... ... ... ... деп атаймыз.
Контекстің шарты аудармашыны тіпті бірлік сәйкестіліктерді аудармада қолданудан да бас тартқызуы мүмкін. Мысалы, географиялық атаулардың тұрақты сәйкестіліктері бар, ... ... ... ереже бойынша имитацияға (өзгеріске) ұшырайды. Коннектикут штатындағы американ қаласы New Haven атауы қазақ ... Нью ... деп ... Фиджеральдтің «Ұлы Гэтсби» романын аудару кезінде аудармашы Е.Калашникова тұрақты сәйкестіліктерді қолданудан бас тартты.
«I graduated from New Haven in 1915» ... ... «Мен ... университетін 1915 жылы бітірдім» деп аударады. Контексте түпнұсқадағы қала атауы сол ... ... оқу ... бар ... ... ... тұр. ... аты кеңінен әйгілі Иель университетінің Нью Хейвнде орналасқанын білетін аудармашының сауаттылығының ... ... ... тура ... Көп ... ... және машиналық аударма
Тілдегі кейбір сөздер бірнеше мағынада қолданылады. Екі не одан да көп ... ... ... мағыналы сөздер деп аталады. Көп мағыналы сөздер бір сөз ... ... және бір ... ... ... ... ... көзі, иненің көзі, терезенің көзі, бұлақтың көзі, білімнің көзі, істің көзі. Осы тіркестердегі «көз» сөзі – бір ... ... зат ... ... ... ... сырт ... жағынан омонимдерге ұқсайды. Олардың осы сырт ұқсастығы бірінен-бірін ажыратуда көп ретте қиындық та келтіріп жүр. Студенттер стилистика сабағындағы талдау жұмыстарында бұл ... ... ... қате де ... жатады. Мысалы, ай зат есімі — Қазақ тілінде әдетте көп ... сөз де, ... ... ... де ... Ол көп ... сөз ... астрономиялық атауды да (ай туды, ай батты), уақыт өлшемін де (екі ай, айдан асты), теңеу құралы қызметінде жұмсалып ... ... ... да ... ай десе ... ... ауыспалы мағынаны да (айға қолы жеткендей) білдіреді. Демек, ай есімі төрт түрлі мағынада қатар ... тұр. Төрт ... ай ... ... ... болғанымен, олардың арасында мағыналық байланыс бәрібір сақталған. Төрт жердегі ай да ... ... ... сөз. ... де осындай, сырт формасы (тұлғасы) бірдей сөз. Осы жағынан алғанда, ай сөзі ... ... ... де ... ... айы өтті, соның айы өтіп тұр; ай Айша, бері келші; ай ... ақ ... ... жоқ ... Міне ... ... және әлгі көп ... сөз ретінде келген “ай”-лар өз ара омоним. Немесе ат ... ... Ат — зат ... ат — етістік. Алайда, бұл екі “ат”-тың арасында да, сондай-ақ жоғарыдағы “ай”-лардың арасында да мағыналық байланыс жоқ. ... ... екі сөз. Көп ... сөз бен омоним стиль түрлеріне қатысы жөнінен де ... тән ... ... бар, ... ... ... ... Енді осы екеуін стильдік сипаты жағынан жеке-жеке алып талдайық.
Сөздің көп мағыналыры жалпы халықтық ... ... ... жасалады. Көп мағыналы сөз қай стильде болса да қолданылады. Бірақ оның ең көп жұмсалатын жері — көркем шығарма. Мысалы: «Бер ... бір ... соң бір ... қойып, телмірген көздерден денесін жасыра бастады» (М. Әуезов). «Қалаға барып ескі көздерді ... соң, ... ... ... «Бүгінгі күн түрленген қынаулымын, айналамда көз де көп сынаулымын». «Әжесі тірі болған күн Қасымның көңілінен сұлу сағымдай, жазғы-тұрғы мамық түсті ... ... ... ... боп жоғала бастады. Қасымның үміті, жарық күні де батты,. Сізді мен күткемін, ол ... сіз үшін ... ... да, ... ... ... ол күндер өтті.» Бұл үзіндідегі көз және күн ... ... де көп ... ... ... түрлі-түрлі мән алуы көбінесе көркем әдебиет стилінің табиғатымен тығыз ... ... ... ... ... тілдік құбылысты белгілі бір көркемдік мақсатта қолдануға тырысады. Ал ондайға әдетте көп ... ... ... ... жоғарыда келтірілген көз сөзі әуелі адам деген ұғымды, одан соң таныс мағынасын, ... ... ел ... мәнін білдіріп түр. Көз есімінің әр алуан мағынасын осылай түрліше ыңғайда пайдалану — жалпы сөз ... ... Көп ... күн сөзінің стильдік қолданылу аясы бұдан да әр тарап. Соны авторлар көркем әдебиет стилінде өте шебер пайдаланады. ... ... күн сөзі кез, ... (шақ) ... ... Бірақ стильдік жатықтығы жағынан әжесі тірі болған кез ... ... гөрі ... тірі ... күн ... ... Сондай-ақ қайғысыз, қамсыз шағы (кезі), ол кез (ондайға бел байлаған кез), ол уақыт дегенге қарағанда, үмітті жарық күні, ол ... ... деп ... ... ... ... ... ұтымдылығын оңай байқауға болады. Әсіресе күн есімінің көп мағыналылығы сөйлеу стилінде, өте-мөте көркем әдебиет стилінде жан-жақты көрінеді. Ол тіпті бір ғана Абай ... ... неше ... ... астар береді. Солардың (бәрі емес) кейбірі мына төмендегі тәрізді: Не күн туды ... Не ... құр ... күн ... Ит ... ... екен сүйткен күні… Сасып қалдым күн тығыз Тың тұяқ ... ... де Қор ... ... ... де ... ... Біреуінің күні жоқ біреуінсіз (Абай). Күн сөзі мұнда не зор (туды), ... не ... ... кез, ... ... деген тәрізді мағыналарда жұмсалған.
Сөзді осылай әр қырынан ... ... ... ... яғни көп ... сөзді бұлай пайдалану публицистикалық стильден де (жоғарыда айттық), сөйлеу ... де ... ... Өзге ... ғылыми, ресми, кеңсе қағазы стильдерінде көп мағыналы сөздің қолданылуы ... ... ... ... ... ақын, жазушылар өздерінін, шығармаларында көп мағыналы кейбір сөзді екі не үш мағынасында қатар алып та ... ... ... ... ... кеңсе, ғылыми стильдерде көп мағыналы сөзді пайдаланудың бұл түрі жалпы сирек кездеседі. Мысалы, жаңағы күн ... ... көп ... жан зат ... бір ... ... сәл көңіл аударып көрейік. Сонымен кәрі әженің ықтиярынан бір күн шет ... ... ... ... ... өз ... ойлаған да жоқ-ты (М. Әуезов). Әжесі өлген соқ, көңілінде бір күн тіршілігіне сүйсінгендей ашық күн болған жоқ. Мейрам күннің түс ... бері ... ... ... деп ... ... мен ... күн батардан-ақ бөлек-бөлек жайрақдаған топ болып, үзілместен келіп жатыр. Келер күні күн көтеріле бере… ... ... көп ... ... ... ... (Ғ. Мүсірепов). Бұл күніме бір күні Боламын ғой деймін зар… Менің де күнім күн емес… Екі күймек бір ... ... пе, Қаны қара бір ... жаны жара (Абай). Соңғы екі жол өлеңде жан сөзі үш рет келтірілген. Екі жерде адам ... (бір ... бір ... ... Одан соңғы, яғни ең кейінгі жолдағы жан көңіл, ақыл-ой, сана деген мәнді аңғартады (жаным жара, ... ... ... мұңдымын деген тәрізді мазмұнда айтылып тұр). Ал бірінші жолда автордың осы екі мағынаны қайсысында алып ... дәл ... айту ... ... оқушы оны адам ұғымында да, сондай-ақ тура жан ... да ... ... ... бұл ... ... ... осы екі мағынада тіпті бірдей алғанға да ұқсайды. Сөздің көп мағыналылығымен ... ... ... ... әдебиет тілінен жиі ұшырасады. Осы ерекшелік ғылым мен ... ... ... оқулықтардан үнемі байқала бермейді. Жоғарыдағы екі жол өлеңде үш рет қолданылған жан есімінің ... ... әр ... яғни ... ... жағынан осы үш жердегі жан сөзі өз ара бір емес. Сөздің көп мағыналығы мен ... ... ... ... ... міне осы тұрғыда аңғарылады. Бұл сөздің осы бір стильдік ұтымдылығы, яғни оны жоғарыда аталған екі мағынасында қатар қойып жұмсау тәсілі ... ... ... жалпы жиі кездесіп отырады. Жан есімі әлгі екі түрлі мағынасында, кейде бір өлең жолының ... ... ... ... ... енді ... ол ... ыңғайда, бір-бірінен сәл алшақтау да қолданылып келеді. Мысалы: Тән сүйгенін бермесе, Жан шыдамас жаны ... ... тірі ... неткен жансың?/.. Арамдықпен бар ма екен жаннан аспақ… Сүйер жансып, “сүйкімді бет берем” ... ... ... жан ... Сол ... сая ... іздейді жан. Жау жабылса, бұзылмас жан көрмедім (Абай). Жауымнан айырған жан алсын дейін, ... жаны ... іле ... (М. ... Бір ... сыйып тұр бар дүниенің мол жаны, Талай жан өткен екен шамшырақтай Айтыста ақылымен жан шыдатпай (О. һайям). Бір ... ... ... қолданудың нәтижесінде оның стильдік қызметі, мағыналық аясы кейде сәл өзгере түседі. Сөйтіп, ... ... ... ... көп ... барын-ша айқын көрінеді. Мұны ілгерідегі үзіндіден байқауға болады: Сүйкімді тірі жанға неткен жансың… Бұл жолдағы жан сөзінің бі-рінші ... ... ел ... ... Ол тірі есімімен мағыналық байланысқа түсіп, елдің бәріне (бар елге) дегенді біл-діріп тұр. Ал бұған жарыстыра қолданылған жан ... ... адам ... алынған. Демек, автордың айтайын дегені. елдің бәріне сүйкімді не еткен адамсың деу.Бірақ ақын бұл ойын осылай ... ... ... Қайта көп мағыналы бір сөздің өзін әр түрлі ... ... алып ... ... еткендіктен өлең жолындағы әрбір сөз стильдік жағынан өз ара ұтымды орайласқан, ... ой да ... Жан ... көп мағына-лылығымен байланысты сөз қолданыстағы осындай стильдік ұтымдылық прозалық шығармалардан да кездеседі. ... ... ... ... ... ... білген жан жоқ (М. Әуезов). Қостадым, жаным, жаныңмен ... ... ... Соңғы мысалда да жан есімі екі түрлі мәнде қолданылған, алдыңғысында айналайын, қарғам тәріздес мағынада алынған да, ... ... тура ... ... тұр. ... әр ... ... ыңғайда құбылтып қолданудың нәтижесінде жан сөзінің көп ... бұл ... ... тағы бір ... аша ... ... ... көп, мал сөздері де көп мағыналы болып кездеседі. Мұның да ... ... аясы әр ... Жеке бір сөздін, әр түрлі мағыналары әдеби тілдегі стильдердін, бәрін-де де және сөйлеу стилінде де (рас ... аз, ... одан ... ... ... ... ... ішінде көп мағыналы сөздің қолданылуындағы осы бір стильдік ерекшелік көбінесе жеке ақын, жазушылардың тілінде белгілі бір көркемдік мақсатқа ... ... ... түседі. Мысалы: Абұйыр, атақ сол жанда Кімді көп жұрт мақтаса. Ол мақтаудан не пайда Көп мақтауын таппаса, Көптің бәрі көп ... көп те ... Көп ит ... көк итті ... ... Көптің аузын күзетсең күн көрмейсің… Мал құмар көңлі — бек соқыр, Ақыл ... мал ... адал ... Арын ... мал үшін ант ... ... ... жолдардағы көп есімі де, мал сөзі де ғылыми стильде, кеңсе, ресми, іс қағазы стильдерінде дәл мұндай дәрежеде ... ... көп ... ... сан ... ... ... көркем әдебиетте, сондай-ақ публицистикалық стиль мен ара-тұра сөйлеу ... ... ... саласындағы зерт-теулерде пайдалануға болады. Өйткені ауыс мағына да, ауыс ма-ғынадан ... ... көп ... та ... ... жиірек қалыптасады. Көркем әдебиет стиліндегіге қарағанда көп мағыналы сөзді әсіресе қатар алып қолдану жағы ... ... ... ... “Моральдық басымдықты” қайткен күнде де қолдай отырып, күн сайын шамалы болса да табыстарға жетіп отыру керек (В. И. ... ... ... ... ... жұртшылық жұмысының болашағы бұлыңғыр, күні күңгірт еді (“Ғани Мұратбаев”, 1972). Ал СССР чемпионаты мен ... ... ... да көп ... шығуда (газеттен). Қөп мағыналы сөз кейде ғылыми стильде де қолданылады. Мысалы сағат сөзі бір сөйлемде өзінің екі түрлі мағынасында да ... ... Егер ... әр ... ... ... ... болса, ол бір тәулік ішінде неше рет соғады (Алгебра).
Машиналық аударма
Машиналық аударма (Машинный перевод; machine translation) — мәтіннің ... ... бір ... ... ... ... көмегімен орындалатын аудармасы.[2]
Машиналық аударма, немесе автомат аударма — электронды-есептеуіш машинаның (ЭЕМ) көмегімен бір тілдегі мәтінді екінші тілге аудару. Автомат ... ... тіл ... мен ... ғылымдар саласына жатады, тілді табиғи код (шартты белгі) ретінде қарастырып, статистикалық және ... ... ... ... ... ... ... семантикалық анализдің көмегімен мәтіннің мағына жағына көп көңіл бөлінеді. Көптеген тілдік мәліметтерді ... кең ... ... сөздіктер жасайды. Қазақстанда профессор Бектаевтың жетекшілігімен кұрылған шағын топ әр түрлі мәтіндерді қазақшадан ... ... ... теориялық және практикалық зерттеулер жүргізуде. Автомат аударма сол күйінде тұтынушының қажетіне жарамды болмаған жағдайда, аудармашы мамандардың жеңіл-желпі ... ... ... кезде ЭЕМ-нің көмегімен іске қосылған ағылшын, неміс, француз тілдерінен орысшаға аударатын жүйелер бар.
Машиналық аударма — мәтіннің немесе сөздің бір ... ... ... ... көмегімен орындалатын аудармасы. Машиналық аударманың аздап тарихына тоқталар болсақ. 1946-1947 жылдары ЭЕМ арқылы машиналық аударма жасау ... ... ... ... арнайы мәселе ретінде талқыланады. Ең алғаш бұл идея дешифровка ісінің америкалық маманы Уоррен Уивердің ... ... ... ... Ал 1949 ... 15 ... ... ғалым өз меморандумында көтерілген мәселелерді тіл және есептеу техникасы мен дешифровка салаларындағы екі жүзден ... ... ... ... У.Уивер машиналық аударманың принциптік мүмкіндігін мүлде бөлек ... ... ... және әр ... ... ғана тән ... ... болуымен байланыстырады.[4]
Сонымен машиналық аударманың өзінше бөлек ғылыми бағыт ретіндегі даму кезеңі Уивердің меморандумынан бастама алады. Бұл бағытты, шартты ... ... үш ... бөліп қарастыруға болады. Олар:
1-кезең: 1949 жылдан бастап 60-жылдардың ортасына дейін;
2-кезең: 60-жылдардың ортасынан 70-жылдардың аяғына дейін; ... ... ... кезеңге дейін.
Мұндай үш кезеңге бөлуге негіз болған ғылым мен техниканың дамуындағы қол жеткен нәтижелер екені ... ... ... ішінен лингвистикалық, математикалық, техникалық машиналық аударма жүйесін жабдықтау мәселелері айрықша орын алады.
Қазіргі кезеңдегі Қазақстандағы жағдайға келер болсақ, қазақ ... ... қоры ... тіл ... арнасы кеңеюіне байланысты оқулықтар мен сөздіктер де уақытқа сай ... ... ... көріп жатқан сөздіктерде соңғы жылдары пайда болып ... ... және орыс ... жаңа ... мен ... ... түсіндірмелері мен қолданыстары енгізілуде. Сол сияқты ондай сөздіктерде қазақ әдеби тілінің нормаларына сәйкес және күнделікті қарым-қатынаста, оқыту жүйесінде жиі ... ... де орын ... ... қиындық тудыратын қазақ немесе шет тілінің сөздері мен сөз ... ... ... ... сөздерінің стильдік ерекшеліктері қалыптасқан ескертпелер мен шартты белгілер арқылы көрсетіп беру жұмысы да ... ... ... ... ... ... меңгеруге ана тілінің тиімді ықпалын анықтау үшін екі тілдің грамматикалық ... ... ... ... ... ұқсастықтар мен ерекшеліктерді анықтау керек. Соның ішінде, ағылшын тілі етістіктерінің шақ ... мен ... ... ... баламаларына көңіл бөлінуі керек.
Аударма үшін сөйлем арнайы ережелер бойынша жазылады және арнайы ережелер бойынша аударылады, яғни тағы да бір ... ... ол осы ... ... ... ... жазу.
Бұл проблемалар машиналық аударма жасау кезіндегі ең бір маңыздылары болып табылады, және ... шешу ... ... де белгілі емес және оңай да емес.
1.3 Лексикалық таңдау және ... ... ... ... бұл ... тілдегі берілген сөзді мақсат тілге адекватты аударудағы таңдау есебі. Лексикалық таңдау (Lexical selection) есебі лексикалық көпмәнділік (word-sense disambiguation, WSD) ... ... (IDE и Veronis, 1998). ... ... ... ... көпмәнділік есебінен айырмашылығы мұнда біртілді аудармадағыдай тек мағыналық аударманың дұрыстығын тексермей, сонымен қатар екі ... ... ... адекватты аудармасын табу болып табылады. Осылайша, егерде барлық мағыналар бірдей ақырғы аударманың нәтижесі ... ... ұсақ ... ... ... ... болмайды. Бірақ бір мағына беретін әртүрлі аудармалардың арасында таңдау қажет ... ... мыс.: сөз ... ... Бір ... бір ... одан да көп ... болуы мүмкін (синонимдер секілді) 1 кестеде келтірілген.. Испан тілінен ... және ... ... ... ... ... ... әртүрлі түсініктемелерін қарастырудың қажеті жоқ. Бірақ Италиан тіліне аудару барысында (station немесе resort) және (season) сөздерінің арасында бұл ... ... ... ... және Баск ... арасында айырмашылық болады. Сөз таптарын белгілеуден айырмашылығы мұнда сөз таптарын анықтау арқылы ... ... ... ... ... бұл мәселені шешпейді және егер де ең көп сәйкес ... (сөз ... және ... сәйкес грамматикалық ақпарат) анықталған болса да, бірдей лемманың мүмкін болатын әртүрлі аудармалардың арасында көпмәнділікті шешу ... ... ... ... ... ... ... қиын. Ол қойылған еспке байланысты. Аудармадағы көпмәнділіктің лексикалық таңдау саны тілідік жұп ... ... ... ... ... байланысты өзгеріп отырады, және жүйедегі екітілді сөздіктің өлшемі секілді арнайы айнымалылар, әрбір сөз үшін сәйкес аударма саны. Сонымен қатар ... ... ... идея бере ... және ... таңдаудың ассимиляцияға және диссимилицияға қалай әсер ететінін мысал ... ... ... ... ... ... ... аудармаларының мысалы
Тіл
Түсініктеме
A
B
C
Ағылшын
station
Resort
Season
Каталон
Estació
Португал
Estação
Италиан
Stazione
stagione
Француз
{gare, station}
Station
Saison
Румын
{gară, stație}
Stațiune
sezon
Баск
Geltoki
Estazio
Urtaro
Жақын байланысты тілдер арасында, түсініктемелер жиынында ең көп ... ... ... ... тек бір ғана ... ие бола ... және бір мағынаның бірнеше аудармалары болу мүмкін. Аудармалар арнайы көп түсініктемелермен бейнеленуі мүмкін, мыс.: gare, gară Француз және ... ... ‘train ... ... және ... estazio сөзі ski resort’ сөзіне қолданады.
Кең ауқымды жалпы-нәтижелік Дат тілінен Ағылшын тіліне аудару ... ... ... (2007) ... ... Негізгі сөз қоры (НТ Дат тілінде) 107,565 және аудармасы 155,593 сөз Ағылшын тілінде болды. НТ 26,872 сөздің бірден көп ... ... ... көпмағыналы сөз үшін орташа мән 3,1 (Bick, p.c.). Ең көп тараған soette ‘put, set, sit, repair, …’ көпмағыналы ... 89 ... ... аудармасы болды.
2 ЛЕКСИКАЛЫҚ КӨП МӘНДІЛІКТІ ШЕШУ ӘДІСТЕРІН ЖӘНЕ ШЕШІМ АЛГОРИТМІН ТАҢДАУ
2.1 Машиналық ... ... көп ... шешу ... негізгі түрлері
Лексикалық көпмәнділікті шешу (word sense disambiguation, WSD) – табиғи ... ... ... ... ... ... – берілген мәнмәтінге (контекст) байланысты көпмәнді сөздің мағынасын немесе сөз тіркесін ... ... ... іздеу жүйелері нәтижелерінің сәйкестілігін оңтайландыру барысында, анафоралық ... шешу ... ... лингвистикалық когеренттілігін зерттеу барысында, ойқорытуға талдау жасау ... орын ... ... көпмәнділікті шешудің ғылыми зерттеулері қолданбалы және компьютерлік лингвистика саласында көп уақыттан бері кезедеседі. Уақыт өте келе ... ... ... ... ... түрлері мен сөз спектрі салыстырмалы тиімділік көрсеткіштеріне жетпейінше көптеген әдістер мен тәсілдер ұсынылды. Қазіргі ... ... ... ... ... шешім табылған жоқ, себебі есептің дұрыс шешімін табу ... ... ... ... ерекшеліктеріне байланысты көптеген мәселелер туындайды.
Білімге, ережелерге, лексикографиялық дереккөздерге негізделген, мәтін корпусынан үйретуші (training) ... ... ... әдістерден бастап, мағынаға неггіздеглен сөздерді класстарға бөлетін үйретушісіз үйрену тәсіліне дейінгі көптеген әдістер зерттелді. Аталаған әдістердің ... ... ... ... ... көмегімен үйрену әдісі жоғарғы тиімділікті берді. Алайда, әдістерді салыстыру және оларға баға беру қиын процесс ... ... ... ... үшін ... білім жүйелерінің (ағылшын тілі үшін) тиімділігі 90 % асады , ... 96 % ... ... ... ... үшін ... 59 %-69 % шамасында.
Көп мәнділік дегеніміз – берілген сөздің ... ... бар ... Көп мәнділіктің бірнеше түрлері бар: лексикалық, синтаксистік және сөз табындағы көпмәнділік. «WSD» термині лексикалық көп мәнділікті шешуге неізделген.
Көп мәнділікті ... үшін ... ... назар салайық:
Көз – тірі нәрсенің көзі. Көз – жаны жоқ нәрселерге қоланылады.
Мәнмәтін ... ... ... ... ... Білім көзін табу – өте қиын. Бұлақ көрсең көзін ... көп ... шешу ... ... көп ... ... үшін ... жүйесінің және мәтін корпустарының болуын талап етеді.
Қысқа тарихы
Машиналық аударма саласының даму барысында бұл мәселе жеке есеп ретінде 1940 ж ... ... ... ең көне ... ... Уоррен Уивер (ағыл. Warren Weaver) өзінің атақты «The „Translation“ memorandum» (1949 ж.) ... ... ... арқылы көрсетті. Сол уақыттың зерттеушілері мәселенің киындығын және күрделілігін жақсы ... ... ... ... ... 1960 ж. ... автоматтандырылған машиналық аударманың жалпылама есебінің шешімі табылатынына өз күмәнін білдірді. [9]
Жасанды интеллект (ЖИ) аясында құрылып жатқан WSD мәселесі 70 ж. ... ... ... бір бөлігіне айналды. Алайда, жұмыстың көп бөлігі қолдан жасалған ережелерден ... сол ... ... қиын ... қолдағы бар білімге толықтай бағыныңқы болды.
80 ж. Oxford Advanced ... ... of Current English ... ... ... қоры бар дереккөзі қол жетімді болды. Дереккөздерден білімді автоматты алу қолмен жазылатын ережелерді қолданыстан шығарды. Алайда, әдістер «білімге ... ... ... ... ... ж. «Статистикалық төңкеріс» компьютерлік лингвистика әдістері мен тәсілдерін толықтай ... ... ... шешу есебіне әр-түрлі үйретуші (training) көмегімен үйрену әдісін қолдануға мүмкіндік туды.
2000 ж. үйретуші (training) көмегімен ... ... ... ... ... жетіп, сол деңгейден шыға алмай жатқандығын аңғартты. Зерттеушілірдің назары келесідей әдістерге ауды: сөздік жүйелері (coarse-grained senses) әдісі, пәндік ... ... (domain ... ... ... жартылай үйрену (semi-supervised systems) әдісі, үйретушісіз үйрену  (unsupervised corpus-based systems) ... ... ... ... өңдеу және графтар түрінде нәтижені шығару (the return of ... systems via ... methods) ... ... ... ... үйретуші (training) көмегімен үйрену әдісі ең тиімді әдістердің бірі болып табылады.
Әдістердің негізгі түрлері
Табиғи тілді өңдеу ... екі ... ... қолданылады: тереңдетілген және беткейлік.
Бірінші топқа жататын тәсілдер әлем туралы білімге (world knowldge немесе ... ... base) ... ... Бұл ... де әр кезде жұмыс жасай бермейді.
Көп мәнділікті шешдің төрт негізгі әдісі бар:
Білімге негізделген әдіс ... – және ... ... бұл әдіс ... ... ... ... қорының болуын талап етеді. Мәтін корпусын талап етпейді.
Үйретуші (training) көмегімен үйрену әдісі (supervised methods): классификаторды үйрету үшін белгіленген мәтін корпустарын қолданады.
Үйретушімен ... ... ... (ағл. Semi-supervised learning) (semi-supervised немесе minimally-supervised methods): екінші деңгейлі ... ... ... яғни сөзді түсіндіру үшін қолданылатын терминдардың анықтамасы мен теңестірілген екі тілді корпус.
Үйретушісіз үйрену әдісі (Unsupervised ... ... ... ... тек raw ... ... ... «Word sense discrimination» терминімен танымал.
2.2 Лексикалық көп мәнділікті шешуде қолданылатын Леск алгоритмі
Леск алгоритмі –1986 ж. Майкл Лесктің ұсынған лексикалық көпмәнділікті шешудің ... ... ... алгоритмі. Майкл Леск машина оқи алатын сөздіктерді қодану арқылы ағылшын тіліндегі сөздерді және оның мәнін салыстыру ... ... ... Әдіс ... ... ... ескере отырып, сөз мағынасын анықтама сөздігі тізімінен іздеуге негізделді. Сөз мағынасын таңдаудағы ... ... ... ... ... ... ... жақын сөздер мағынасына сәйкес болуы керек.[18]
Леск әдісі – сөздіктерді қолдануға негізделген өте тиімді әдіс. Мәтінде кездесетін жақын сөздер бір-бірімен ... ... және бұл ... ... және сөз ... ... қолдануға болады деген гипотезаға негізделген. Екі (немесе одан да көп) сөз жақын болуы мүмкін, егер екеуінің де ... ... ... ... ... ... Мысалы, «pine cone» сөз тіркестерінің анықтамасында «evergreen» және «tree» сөздері кезедеседі. Бірінші әдіске ұқсас, WordNet-тен әрбір мағына жұбы үшін ... ... ... арқылы сөздер арасындағы ауқымды байланысты қолдануға болады.[10]
WordNet-ке негізделген семантикалық жақындық әдісін (ағыл. semantic similarity) жоғарыда ... ... ... ... әдіс ... қодануға болады. Графты және активацияларды тарату әдісін (ағыл. spreading activation) қолданатын әдістер ... ... ... ... ... ... үйрену әдісіне сәйкес келетін, кейде ол әдістен асып түсетін нәтижелер көрсетті. Егер лексикалық қор бай ... ... ... ... ... әдістердің өзі жақсы нәтиже бере алатынын көрсетті. [11]
Кейде әдістерді басқару әдісін («selectional preferences» немесе «selectional restrictions») де ... өте ... ... ... ... ... «bass» сөзі «cook» ... «eat» сөздерімен жиі кезедеседі. «I am cooking bass» секілді сөйлемде көпмәнділікті шеше аламыз. Алайда, бұған ұқсас әлем жайлы білімді ... өте қиын әрі ... ... Леск ... ... сөз ... ... шешеді. Көпмәнділігі шешілуі тиіс сөздің мағынасы сөздіктегі анықтамасы немесе түсініктемесі (gloss) сөз ... ... ... ... Сөз ортақ сөздердің көп санымен басқа сөздердің түсініктемелерімен бөлісетін мағынаны меншіктейді. Алоритм әрбір сөз үшін ... ... ... ... мағынаны қолданбайды.[12]
Oxford Advanced Learner’s Dictionary сөздігін қолдану арқылы pine cone сөздері үшін алгоритмнің қолданылуы. pine сөз екі ... ... kind of ... tree with ... leaves (ине жапырақты жасыл ағаштың бір түрі).
2-мағына: waste away through sorrow or illness ... мен ... ... ... сөз үш ... ... solid body which narrows to a point (нүктеге дейін қысқаратын қатты дене).
2-мағына: something of this shape whether solid or hollow ... ... бос ... ... fruit of certain ... tree ... ... ағаштың жемісі).
pine сөзінің екі мағынасы да cone сөзінің үш мағынасымен салыстырылады, evergreen tree сөзі екі ... ... бар ... көрсетеді. pine cone сөздері бірге қолданылатын болса, бұл екі мағына сәйкестігі жоғары ... ... ... ... ... сәйкес flies көп мағыналы сөзінің time flies like an arrow және fruit flies like a banana тіркестерінде дұрыс қолданылғандығын ... ... time flies like an arrow ... time сөзінің барлық түсініктемелерін fly және arrow сөздерінің барлық түсініктемелерімен ... Time ... ... ең жоғарғы сөз болатын мағынасы меншіктейді. fly сөзінің түсініктемелерін time және arrow сөздерінің мағыналарымен салыстырады, ... ... ... ... мәнмәтінде әртүрлі маынаға ие болатын сөздер болады. Сөз ... ... (Word sense ... WSD) ... ... ... ... автоматтандырылған анықтау процессі. Сөздің көпмәнділігін шешуде қолданылған тәсілдедің бірі 1986 ж. ұсынылған Майк Леск алгоритмі болды. Бұл алгоритм екі ... ... ... ... егер екі сөз ... ... ... қолданылса, олар бір тақырыпта қолданылып отырғанын көрсетеді. Екіншісі, егер екі ... ... бір ... ... ... ... болса, онда олардың сөздіктегі анықтамаларында ортақ сөздердің бар екендігін көрсетеді. Мысалы, егер ”pine cone” (қарағай бүршігі) сөздері бірге кездесетін болса, онда ... trees” ... ... сөз тіркесіне байланысты болады. Шынымен де әрбір сөздің бір мағынасының бірі ... және ... ... олардың анықтамасында кездеседі. Осылайша біз бір-біріне жақын ... ... ... сөйлемде олардың анықтамаларын салыстырулар және анықтамаларында отрақ сөздердің ең көп саны ... ... ... ... ... шеше ... ... кемшілігі сөздіктегі анықтамалар өте қысқа және алгоритмнің дұрыс жұмыс жасауы үшін қажетті сөздерден тұрмайды.
Табиғи тілдердің барлығы ... ... ... ... ... ... тұрады. Мысалы, Ағылшын тілінде bark сөзі (үру ... ағаш ... ... ... дыбысын немесе ағаш жабындысын меңзеуі мүмкін. Осындай бірнеше мағынадан тұрытын сөздер көпмәнді болады, және бірнеше мағынаның ... ... қай ... ... ... процессі сөздің көпмәнділігін шешу (Word Sense Disambiguation, WSD) деп аталады.
Адамдар үшін берілген bark сөзінің ... ... орай оңай ... ... Алайда машина үшін бұл қиынға соғады. Берілген мәнмәтіннен сөздің көпмәнділігін оғай шеше ... ... ... ... ... емес. Себебі табиғи тілдердің өзінде нақты ереже қалыптаспаған.[14]
Сөздің көпмәнділігін автоматтандыру машиналық аударма саласында үлкен роль атқарады. ... bark ... ... ... ... ... сөздің қай мағынада қолданылып отырғандығын анықтауымыз қажет. Ол ... үруі ... ladrar сөзі ... немесе ағаш жабандысына қатысты corteza сөзі болуы мүмкін. Сөздің ... әрі ... ... табу ... ... ... retrieval) де жақсы нәтиже береді. Мысалы, иттің үруіне қатысты dog bark сөзінен тұратын сұраныс жасау барысында, бізге ағаштар туралы емес ... ... ... ... құжаттардың қайтарғанын қалаймыз.
Бұл мәселені шешуге бірнеше тәсілдер ұсынылған ... Сол ... бірі ... ... ... (supervised learning). Көпмәнді сөз үшін ауқымды сөйлемдер үлгісінен тұратын үйретілетін мәліметтер қорын ... data) ... ... ... Әрбір көпмәнді сөз үшін қай мағынаны қолдануды қолмен белгілеу (tagged) арқылы іске асады. Ережелер жиыны ... ... ... ... ... ... Мысалы, бір сөйлемде dog және bark сөзі кезедесетін болса, және tree сөзі кездеспесе, онда bark сөзі ... ... ... ... ... қолдану сөздің көпмәнділігін шешуге септігін тигізеді.[15]
Алайда, бұл әдістің бірнеше кемшіліктері бар. Тек ... ... ғана ... шешпейді. Сонымен қатар адамның қалай белгі жасағанына байланысты. Белгіленбеген сөздер үшін ... ... ... ... әдіс ... басқарылатын әдісте кездесетін мәліметтер қорын қолданудағы барлық мәселелерден алшақ болады. Қолмен белгіленген мәліметтер қоры орнына басқа дерек ... ... ... Леск алгоритмі көпмәнділікті шешу үшін сөздіктегі ақпараттарды қолданады. Бұл алгоритм сөйлемдегі кезедесетін сөздер бірдей мәтінді білідіреді деген түйсікке ... ... ... бар ... ... бірдей сөздерді қолдану арқылы сөздікте анықталған. Мысалы, егер pine және cone ... ... ... ... ... ... бірдей мәтінге сілтеме жасап жатыр деп санауға болады, және бұл екі мағына бірдей сөздердің ... ... ... ... ... ... Шындығында, екі сөздіңдің де мағыналарының бірі екуіне ортақ coniferous tree (қылқанды жапырақты ... ... ... және бұл сөз ... шешуге арналған деп ұйғаруға болады. Осылайша бірдей сөйлемдегі анықтамасындағы жақын сөздердің ең ... ... ... ... іздеу арқылы сөздің көпмәнділігін шешуге болады.[16]
Алгоритм анықтамалар арасындағы ортақ сөздерді іздеумен байланысты. ... ... ... ... аз ... ... анықтамаларды құруға ден қойған. Бір-бірімен жақын байланыста болған сөздерге қарамастан, жоғарыда келтірілген pine cone мысалындай, сөздіктегі біредей сөздерді қолдану ... ... ... ... ... сөздердің анықтамасында ортақ сөздің болуы мүмкін емес. Мысалы, sandwich және breakfast сөздерінің арасында аз байланыс болғанымен, олардың анықтамасында ортақ сөз жоқ, ... two (or more) slices of bread with a filling between them және the first meal of the day (usually in the ... Бұл ... ... ... байланысы жоқ деп санайды.[17]
Алгоритмнің сипаттамасы
Сөз көпмәнділігін шешуде қазіргі дейін таңға танымал болған, сөздіктерге ... ... бірі – Леск ... ... ... ... немесе анықтамасы МТ сөз төңірегіндегі ең жақын сөздермен бөлісетін мағынаны таңдайтын алгоритм. Келесі сурет алгоритмнің ... ... ... және бұл алгоритм жеңілдетілген Леск алгоритмі (Simplified Lesk algorithm) деп ... ... Леск ... ... Lesk ... ... ... сөздерді немесе тоқтау тізіміндегі басқа сөздерді ескермей, екі жиын арасындағы ортақ сөздер санын қайтарады. Негізгі Леск ... ... ... жолмен анықтайды. Копусқа негізделген Леск алгоритмі (Corpus Lesk algorithm) әрбір қиылысатын w сөзін log P(w) арқылы өлшейді және ... ... ... ... ... ... ... жұмыс жасауы ретінде bank көпмәнді сөзін келесі мәнмәтінде қарастырайық:
The bank can guarantee deposits will ... cover future tuition costs because it invests in ... mortgage ... ... екі ... ... Bank ... WordNet-тегі сөздің екі мағынасы:
Bank1 мағынасының мәнмәтінмен қиылыстырғанда екі тоқтау сөзі бар: deposits және ... Bank2 ... олар ... bank1 сөзі таңдалынады.[20]
Жеңілдетілген Леск алгоритмі үшін көптеген ... бар. ... Леск ... (Lesk, 1986) ... ... МТ сөз ... ... мәнмәтіндегі сөздермен салыстырудың орнына, МТ сөз қолтаңбасын (signature) әрбір мәнмәтін сөзәнің қолтаңбасымен салыстырылады.
Негізгі мәселе негізгі немес жеңілдетілген ... ... МТ сөз үшін ... ... ... ... ... мүмкіндік бермейді (Леск өз жүйесінің өнімділігі сөздік құрамымен тығыз байланысты екендігін көрсеткен болатын). ... ... сөз ... ... ... жоқ, ... ... сөздерді қосу арқылы сөздер тізімін көбейту әдісі ... бірі ... ... ... SemCor ... ... толықтай белгіленген мәліметтер қоры болса, белгіленген корпустағы сөйлемдердегі барлық сөздерді сол мағына үшін сөз ... ... қосу ең ... ... ... Леск ... ... нұсқасы Лекс нұсқаларының ішіндегі ең үздік шешім болып табылады (Kilgarriff and ... 2000; ... et al., 2004) және бұл ... SENSEVAL ... үшін ... ... Тек ... сөздерді санаудың орнына, Леск корпус алгоритмі қиылысатын сөздердің өлшемін пайдаланады. Inverse document frequency ... IDF ... ... іздеудің (information-retrieval) стандарты. IDF әр-түрлі құжаттарда (түсініктемелер мен үлгілердің) сөздің қалай кездесетініне баға ... және ... ... ... бір жолы ... табылады. Осылайша Леск корпус алгоритмі тоқтау тізімінің орнына IDF-ты ... ... i сөзі үшін IDF ... ... Ndoc ... (түсініктемелер мен үлгілердің) толық саны, ndi i сөзінен тұратын құжаттар саны.
Алгоритмнің жұмыс жасау принципі
Қарастырылып ... сөз үшін ... ... алу – 10 ... ... көп ... тиіс.[22]
Қарастырылып отырған сөз үшін сөздіктен барлық анықтамаларын іздеу.
Әрбір табылған анықтама үшін мәнмәтіннен сөзді анықтау. Егер мәнмәтінде ... ... да бір сөзі ... ... онда бұл анықтамаға балл беріледі (берілген мәнмәтін үшін анықтаманың дұрыс екендігінің пайызы жоғарылайды).
Мүмкін болатын мағына ретінде қиылысуы ... ... ... таңдалады.
Алгоритмнің артықшылығы:
Алгоритмнің синтаксистан тәуелсіз болуы. Синтаксисттік талдауға негізделген әдіске қосымша ретінде қолдануға ... ... ... мағынасынан тәуелсіз болуы. Мәнмәтінге сүйене отырып, алгоритм сөзді оның ауыспалы мағынасына сәйкестендіреді.
2.3 Лексикалық көп мәнділікті шешуде ... ... ... әдісі
Максимум Энтропия (қысқаша MaxEnt) әдісі тізбекті классификациялау үшін қолданылады.[23]
Тізбекті классификациялау есебі немесе тізбекті белгілеу (sequence ... бұл – ... ... ... ... ... есебі болып табылады, сөз үшін оның сөз табын анықтау секілді. Тізбекті классификациялаудың ең көп тараған MaxEnt әдісі – Марков ... ... ... ... MEMM). ... ... ... міндеті тек бір ғана зерттеуді (observation) анықтау, зерттеу сипаттап кеткен пайдалы қасиеттерді (features) шығару. ... ... ... ... ... ... ... классификациялау. Ықтималдықты классификатордың жұмысы сәл күрделірек: классты тағайындау мен белгілеуге қосымша осы класста бола тұрып зерттеудің ықтималдығын береді, шындығында зерттеу ... ... ... барлық класс үшін үлестірім ықтималдықтарын береді.
Тізбекті емес классификациялау есебі ауыз-екі сөйлеу мен тілді өңдеу барысында орын алады. Мысалы, ... ... ... email-дің спам ретінде классификациялануын шешу керек болады. Сентиментальды анализде сөйлемнің не ... оң ... сол ... ... ... ... ... Көп есептерде сөйлемнің шекарасын білу керек болады немесе сөйлемнің шекарасы ретінде (.) символының периодтылығын ... тура ... ... ... ... немесе log-сызықты (log-linear) классификатор тобына жатады. MaxEnt әдісі кіріс ... ... ... жиынын шығару арқылы жұмыс жасайды, яғни сызықты ... ... ... ... ... ... ... сосын қосылады). Алынған қосындыны экспонента ретінде қолданады. Мысалы, ... x ... ... ... ... тиіс сөз ... классификациялануы тиіс құжат) бар деп есептейік және осы ... ... ... ... ... болды. Тэгті белгілеу үшін қолданылатын қасиет –ing жалғауына аяқталатын сөз (this word ends in -ing) болу ... ... ... сөз “the” (the previous word was ‘the’) болсын. Әрбір fi қасиет үшін wi салмағы бар болады.
бідің ... ... ... мен ... ... сөз үшін оның ... ... сөз табы) анықтау болып табылады. MaxEnt әдісі бұл қадамды мүмкіндігі жоғары тэгті таңдау арқылы іске ... ... х ... с ... ...
(2)
Мұнда Z – нормалаушы фактор, 1 ... ... алу үшін ... ... MaxEnt ... f ... мен w ... классқа тәуілді болады.
Логистикалық регрессия екі класстың бірінің зерттеуін классификациялау үшін қолданылады. Тілді өңдеуде кезедесетін классификация проблемаларының түрлері класстар ... өте көп ... (сөз ... ... секілді). Логистикалық регрессия көптеген дискретті мәндермен анықталуы мүмкін. Бұл жағдайда мультиноминалды логистикалық регрессия қолданылады. Ауыз-екі тіл мен ... ... ... мультиноминалды логистикалық регрессия MaxEnt деп аталады.
у мақсат мәнін (target value) кездейсоқ деп санайық және с1, с2, ..., сс ... ... С-да ... ... қабылдай алады. MaxEnt әдісінде біз нақты с классын у ықтималдығы деп баға береміз:
(3)
Енді бұл теңдеуге бірнеше нақтылама бере ... ... Z ... ... ... N ... ... санын көрсетеміз, с калссына тәуелді салмақ мәндерін жасаймыз. ... ... ... ... ... факорының тек ақиқат ықтималдықты алу үшін қолданылып отырғанына назар салыңыз:
(5)
MaxEnt ақырғы теңдеуін алу үшін және бір ... ... ... fi ... ... мән деп қарастырдық. Бинарлы-мәнді қасиеттерді қолдану ауыз-екі тіл мен ... ... көп ... Тек 1 ... 0 ... ... ... функцияның индикаторы деп аталады. Жалпы біз қолданып отырған қасиеттердің барлығы бірнеше зерттеудің қасиеттерінің және тағайындалған класстың ... ... ... MaxEnt fi ... ... ... белгілеуін қолданамыз. Берілген х зерттуінің с классы үшін i қасиеті.
Берілген х зерттуінің с классы үшін у ықтималдығының MaxEnt ақырғы ... ... ... ... ... ... ... бірнеше мысалдарға назар аударайық: мысалы, сөз таптарын тэгтау үшін қасиеттердің қолданылуы. race сөзіне сөз ... ... ... деп ... is/BEZ ... to/TO race/?? ... осы жалғыз сөзге ғана классификация жасаймыз, алайда тізбектік классификация емес. race сөзіне VB ... (NN ... ... ... болатынын анықтауымыз керек. Қарастырып отырған сөз race сөзі екендігінң жалғыз пайдалы ... f1 ... ... ... ... ... болатындай екілік қасиеттерді қоса аламыз:
(7)
Егер алдыңғы сөз ТО тэгі болса келесі қасиетке ие болады:
(8)
Екіден көп сөз табының тэгін тағайындау қасиеті ... ... ... ... болуы мүмкін:
(9)
(10)
Әрбір қасиет зерттеудегі екі қасиетке (property) де ... ... жеке ... ... ... ... race және VB арасындағы сілтеме, немесе TO және NN арасындағы сілтеме ... ... ... ... ... ... w1(с,х) салмағы VB тэгі үшін race сөзі белгісінің қаншалықты әсер ететінін көрсетеді. W2(с,х) ... VB сөзі үшін ... ТО тэгі ... қаншалықты әсер ететінін көрсетеді және т.с.с.
3-сурет. Қосымша сөздердің әр-түрлі сөз таптары болуының ықтималдық кестесі.
VB және NN класстары үшін қасиет ... ... ... ... деп санайық. Ағымдағы кіріс бақылауды (ағымдағы сөз race) х деп белгілейік. ... формуласын қолданып P(NN|x) және P(VB|x) ықтималдықтарын санай ... ... ... үшін ... ... MaxEnt класстардық үлестірім ықтималдықтарын береді. Егер қиындау классификация жасағымыз келсе және ең үздік классты ... ... ... жоғары классты таңдай аламыз:
(15)
MaxEnt-гі классификация логистикалық регрессиядағы (Boolean) классификациясының жалпылауы болып табылады. Boolean логистикалық ... ... ... ... класстағы емес зерттеулерді бөлетін бір сызықты өрнектің тұрғызылуын қарастырады. MaxEnt-ғы классификация ... ... С ... үшін бір ... ... ... қарастырады.
Жалпы жағдайда MaxEnt күрделі классификацияда қоданбаймыз. MaxEnt көп жағдайда тізбекті классификацияның бір бөлігі ретінде ... ең ... ... ... емес ең үздік жалпы тізбекті классификациялау үшін қолданамыз. Бұл есепте ең үздік тізбекті табуда әрбір жеке бөлік үшін ... ... ... ... пайдалы. Шындығында, тізбекті емес қосымшаларда барлық класс бойынша үлестірім ықтималдығы күрделі ... ... ... қасиет зерттеудің жалғыз екілік қасиеттерін білдіреді. Алайда сөз ... ... ... ... ... ... пайдалы болады. Кейбір машиналық үйрену әдістерінде, Support Vector Machines (SVMs) секілді, қарапайым қасиеттер арасында байланыс ... ... ... ... ... Бірақ, MaxEnt-те күрделі қасиеттің кез-келген түрі қолмен қолмен анықталады. Мысалы, бас әріппен басталатын сөз (Day секілді) жалпы зат есімге ... ... есім (NNP) ... ... (мыс.: United Nations Day). Бірақ, сөз бас әріппен басталып және сөйлемнің басында келсе Day after day ... онда ... есім ... ... ... ... қарапайым қасиет болса да, MaxEnt олардың комбинациясын модельдемейді. Қасиеттердің Бульдік ... ... ... ... ... ... тиіс:
(16)
MaxEnt әдісін дұрыс қолдану үшін сәйкес келетін қасиеттер мен қасиеттердің комбинациясын құрастыру болып табылады.
3 ЛЕКСИКАЛЫҚ ТАҢДАУДЫ ШЕШУ ҮШІН ... ... ... ... ... ... ... ЖӘНЕ БАҒДАРЛАМАЛЫҚ ҚАМТАМАСЫЗДАНДЫРУЫ.
3.1 Апертиум платформасындағы лексикалық таңдау ... ... ... платформасы – RBMT жүйелері үшін беткейлік-ауыстырғышты құруды қамтамасыз ететін платформа. Қазіргі таңда бұл ... ... ... ... әр-түрлі тілдік жүптар үшін көп қолданысқа ие. Әсіресе (жақын тіл жұптары арасында) егер ... ... ... ... ... жағдайда. Және де бұл платформаны ұқсас емес тілдік жұптар арасында да пайдалануға болады. [25]
Платформа – тез, қарапайым дербес ... бір ... ... мың сөз көлемінде аудара алатындай; – құрастыруда жеңіл; – ... ... құру үшін ... көлемді параллельді корпустардың болуын қажет етпейтін жүйе ... ... ... ... ... ... үшін Unix ... қолданады: мәтін алдымен бөліктерге бөлініп, морфологиялық анализ жасалынады, кейін морфологиялық көпмәнділік шешіледі. Кейін бір мәнді ... ... ... ... және ... ... ... соңында морфологиялық генерация жасалынады. Бұл аудару тәсілі ауыстырғыштарға ... ... ... ... (TBMT) өте ... ... жұптары үшін қажетті мәліметтер қорын үйретуде сөз тіркестеріне негізделген статистикалық машиналық ... ... ... ... арасынды басымдылық танытып отыр. Бұл тәсілде лексикалық таңдау сөз тіркестері кестесіндегі жағдайларды ... ... іске ... және ... тілі ... санау арқылы (Koehn, 2010). Алайда, жалпы лексикалық таңдауды жетілдіру сөйлем бойынша іздеу талпыныстары да қарастырылды (Venkatapathy and Bangalore, 2007; Carpuat and Wu, 2007). ... ... ... ... (RBMT) ... таңдау тәсілдерін қолдану үшін, біз Apertium (Forcada et al., 2011) ... ... Бұл ... кодты платформа 30-дан аса тіл жұптарын қамтиды (2012 жыл ... ... және ... да жоба ... (2007) ... тілдегі жағдайлар статистикасын пайдаланып, сөздер жиынына негізделген ... ... ... ... ... болатындығын сипаттайды. Бұл әдіс тесттен өткізілді, бірақ бұл әдісте сәйкес келетін аударма екі тілді сөздіктерде қате шғарғаны үшін ... ... ... ... ... ... болатын барлық шешімдер комбинациясын туындатады. Бұл әдіс METIS-II әдісінен ... (Melero et al., 2007). Бұл ... іске ... ... ... бұл ... екі ... сөздік пен мақсат тілінің біртілді корпусын ғана қажет етеді. Бірақ бұл әдістің кемшіліктері бар, екі жағдайда да жай ... ...... ... ... тиіс және ... тіліндегі соңғы аударманың икемдеуін басқару қиынға соғады.
Басқа мүмкін болатын шешім – Apertium ... ... ... ... (Brandt et al., 2011; ... et al., 2010) ... ... грамма ережелеріне сәйкес келетін аудармаларды қолдану (Karlsson et al., 1995). Бұл ... ... ... ... ... жақсы таныс әрі мықты құрал, шектелмеген контексттік іздеулерге мүмкіндік береді. Алайда, бұл әдісті өндірістік жүйелер үшін қолдану өте баяу. Бір ... ... ... жүздеген сөздер мен бір секунд ішінде бірнеше мыңдаған сөздерді ... ... ... ...... ... ... етпейтін әдіс. Dagan және Itai (1994) қарастырды. Олар бірінші болып негізгі тілдегі сөйлемнің грамматикалық талдауын жүргізді және синтаксисттік қатынасты шығарды, ... есім ... Олар бұл ... бір тілді сөздіктер көмегімен аударды және мақсат тіліндегі сөз ... ... ... ... ... ... ... таңдады. Бұл әдіс параллельді корпусты пайдалануды ұйғармаса да, ... ... ... ... шығаруға байланысты. Бұл барлық ережеге негізделген машиналық аударма ... қол ... ... ... жақын емес тілдер арасында қолданылатын уақытта, лексикалық таңдау есебі күрделі мәселеге ... ... НТ ... МТ әр-түрлі аудармалары болуы мүмкін.
Апертиум платформасында лексикалық көпмәнділікті шешу ... екі ... ... Кейде сөздер арасындағы мағынада айтарлықтай айырмашылықтар болмайды, және бұл ... ... ... ... ... Бұл сөздердің арасында синонимдік немесе квазисинонимдік қатынас бар деп айта аламыз. Бұл жағдайда лингвист леммалардың бірін аударма ретінде таңдайды ... ... ... және ... ... шектеулер қояды (LR немесе RL атрибуттарымен), көпмәнділік кездесетін жақта емес, тек кері ... ... ... кей ... бірнеше мағынаның арасында айқын айырмашылық болады. Егер дұрыс аудармасы табылмаса, аударманың сапасына кері әсерін тигізеді. Лингвист slr немесе srl ... ... ... ... ... ... ... тиіс. Кейін бұл сипаттауларды статистикалық әдісті қолданатын лексикалық ... ... ... ... ... аударманы таңдайды.
Кей жағдайларда бұл мәселені қай әдіспен шешу керектігін таңдау оңайға түспейді. Мысалы, егер МТ екі не одан да көп ... ... ... айырмашылық бар болса, және егер лексикалық таңдау модулі бұл есепті шеше алмайды деген шешімге келсек, бірінші тәсілді ... ... ... аударманы таңдау (жалпыға ортақ, жағдайға сәйкес келетін максималды сан) және ... ... ... ... қосу. Басқа жағдайларда, лексикалық таңдау модулі шеше алатындай код жазамыз.
Апертиум платформасын лексикалық таңдау моділінсін қолданған уақытта, әр-түрлі мүмкін болатын ... ... ... ... ... тек ... шешімі бағытында шектеу қойылған аударманы ғана таңдау болатын. Бірнеше аудармалаы бар екі ... ... ... ... slr ... srl атрибуттарымен кодталады. Ешқандай лексикалық таңдау модулі жоқ жүйелерде, лексикалық таңдау модулі үшін жасалған кіріс ақпараттары LR ... RL ... ... ... қою ... Осылайша мүмкін болатын аудармалардың бірі НТ бекітілген аударма леммасына ауысады.[2]
Бағытта шектеу қойылған екі тілді ... ... ... ca-es тіл ... encara – a ... (still) және sobtat – s ´ ... (”sudden”) мысалын келтіре аламыз. Бірінші мысал келесідей кодталады:


a´un
encara

... encara – a ... (still) және sobtat – s ´ ... ... ... ... Тоғыз модульден тұратын Апертиум машиналық аударма платформасының 2 нұсқасы.
4-суретте Апертиум платформасының лексикалық таңдауға ... ... ... сөз ... ... ... tagger, POS) модульдан кейін және құрылымдық ауыстырулар (structural transfer) модулінен ... ... ... ... Бұл жаңа модуль тек НТ ақпараттарымен ғана жұмыс жасайды.
Екі тілді сөздікті алдын-ала өңдеу
Екі тілді сөздіктергі әрбір кіріс ақпараты үшін ... көп ... ... ... ... ... өңдеу қажетті процесс болып табылады, себебі Апертиум сөздіктегі әрбәр сөз үшін тек бір аударманы ғана ... ... ... ... ... кезінде автоматты түрде орындалады. Қолданушыға ешқандай әрекеттің ... ... ... ... ... ... алдын-ала өңдеу
Лексикалық таңдау модулі жоқ жүйелерде екі тілді сөздіктегі сөздің бірнеше мағынасы кездесетін уақытта, сөздікті алдын-ала өңдеу ... ... іске ... Бұл кестелік стиль (style sheet) сөздіктегі әрбір ... ... үшін ... ... бар сөздікке қосылады. Бұл әрекетті іске асыру үшін кіріс ақпарат аудармасы ... ... ... деп таңдайды және басқа кіріс ақпараттарына бағыт шектеуішін қосады ... ... LR ... RL). ... стиль Makefile-дан шақырылады.[1]
Келесі мысал кестелік стильдің қолдануын көрсетеді:


flat
pis




floor
pis




floor
terra


2-листинг. Екі-тілді ... көп ... ... жазылу форматы.
Лексикалық таңдау модулі көмегімен сөздіктерді алдын-ала ... ... ... ... ... ... жұмыс жасаса, екі тілді сөздік келесідей алдын-ала өңдеуден өтуі тиіс:
- НТ сөзі (мыс.:look сөзі) үшін біртілді сөздік мүмкін болатын барлық ... (look mirar D and look semblar) ... ... ... бұл ... ... ... модулі қолданады;
- жаңа екі тілді сөздік лексикалық таңдау жасалынған сөзді (мыс.: look semblar сөз ... ... ... ... бұл екі ... сөздік лексикалық ауыстыру модулінде қолданылады.
Алдын-ала өңдеу келесідей қосымшалардың ... ... ... іске ... ... үш ... ...
- лексикалық таңдауда қолданылған біртілді сөдік үшін аударма бағыты; lr – солдан оңға және rl – ... ... ... үшін;
- біртілді сөздік алдын-ала өңделуі тиіс;
- біртілді сөздіктің ... ... ... тиіс.
- apertium-gen-lextorbil, үш параметрді қабылдайды:
- лексикалық ауыстыруда қолданылған екі тілді сөдік үшін аударма ... lr – ... оңға және rl – ... ... аудармалары үшін;
- екі тілді сөздік алдын-ала өңделуі тиіс;
- екі тілді сөздіктің шығыс файлы жазылуы тиіс.
Лексикалық таңдау модулінің орындалуы
Лексикалық ... ... сөз ... бөлу ... (part-of speech tagger) ... және ... ... (structural transfe) бұрын орныдалады. НТ мәліметті ғана қолданады. Оған қарамастан, модулі қолдану барысында НТ мәліметтері де қолданылады.
Лексикалық таңдау модулін ... ... ... ... үшін НТ және МТ ... ... Олар ... байланысыпаған молуы керек. Екі корпуста алдын-ала өңдеуден өтуі тиіс. Сөз таптарындағы көпмәнділіктен тұратын корпусты ... ... ... ... іске ... ... модулін үйрету келесідей есептерден тұрады:
- Лексикалық таңдау орындалу барысында ескерілмейтін сөздер (stopwords) тізімін алу. Бұл ... ... не ... ... ... іске асады.
- apertium-gen-wlist-lextor көмегімен МТ бірден көп аудармасы бар сөздер (НТ) тізімін алу.
- Алдыңғы қадамнан алынған барлық ... ... ... МТ аудару.
- apertium-lextor - -trainwrd қосымшасын іске қосу және МТ алдын-ала өңделген корпусты пайдалану. Алдыңғы қадамнан алынған сөздер үшін ... ... ... (word co-occurrence model) үйрету.
- apertium-lextor --trainlch қосымшасын іске қосу және НТ ... ... ... ... НТ бірден көп аудармасы болатын сөздер үшін бірге кездесу ... ... model) ... ... apertium-lextor --lextor қосымшасымен іске асты. Аударма жүйеснің басқа модульдарымен байланыс ... үшін ... ... бар:
Кіріс ақпараты: құрылымдық ауыстыру модулі үшін қолданылған мәтін форматымен бірдей. Мәтінге талдау жасалынып, көпмәнді сөздер анықталады. Өзгермейтін көпмәнді ... ... ... ... ... ... ақпараты: Бірдей форматтағы мәтін, бірақ лексикалық ауыстыру орныдалуы үшін аудармалар белгіленген.
Келесі мысал лексикалық таңдау модулінде ... ... ... ... ... ... ... Ағылшын тіліндегі get етістігінің бірнеше аудармасының бар ... ... НТ ... (Ағылшын): To get to the city centre.
- Лексикалық таңдау үшін кіріс ақпараты: ˆTo$ ˆget $ ... ˆcity$ ˆcentre $
- Get ... en-ca ... ... ... белгілеулері: rebre, agafar, arribar, aconseguir D
- Лексикалық таңдау үшін шығыс ақпараты: ˆTo$ ˆget__arribar $ˆto$ ˆthe$ ˆcity$ ... ... ... үшін ... талаптар:
- Ол өте тез әрі нәтижелі болуы керек, яғни қарапайым дербес ... ... мың ... ... ... ... ... мыңдаған ережелерден тұруы қажет.
- Қосымша ресурстарды талап етпеуі ... мыс.; ... ... бірақ егерде корпус бар болатын болса қолдануға мүмкіндігі болуы керек.
- Модульдің қызметі бақыланып отырылуы керек. Кез келген ... үшін оның ... ... ...
- Бұл ... ... да пайдаланушылар үшін түсінікті болуы керек. Пайдаланушылардың ... тез ... және ... оқуға және жазуға ыңғайлы болуы қажет.
Алдын лексикалық ауыстыру құрылымдық ауыстырумен бір уақытта жүргізілетін болса, қазір лексикалық ауыстыру жеке ... ... ... ... ... бұрын орындалады.
5-сурет. Apertium платформасының құрылымы. Лексикалық ауыстыру модулі ... ... ... ... ... ... орндалатын еді, лексикалық ауыстыру молдулі құрылымдық ауыстыру модулінен ... ... ... ... ... модулі кіріктірілді.
Әдістеме
Формализм ережесі: Формализм ережесі контексттік ережелерге негізделген, келесідей айрықша қасиеттерден тұрады:
- Негізгі тілдегі лексикалық-форма үлгісінен;
- Келесідей оперциялардың бірінен:
Лексикалық-форма үлгісіне ... ... ... ... аудармада таңдау жасап, сәйкес келмейтін аудармалардың барлығын жояды.
Мақсат тілдегі аударманы ... ... ... ... ауыстыруларды жояды; қалған барлық аударма бойынша ... ... ... ... ... ... уақытта қолданады.
Айрықша қасиеттері регулярлы өрнектермен бейнеленеді, кіріс сөздің кез келген бөлігіне сәйкес келеді (мыс.: лемма, тэгтар немесе екеуінің ... Apertium ... ... да ... секілді, бұл модуль ережелері XML форматында жазылған, себебі ... да ... ... ... ... осы формализмде жазылған бірнеше ережелер көрсетілген. Әрбір ереже ереже элементі жақшасына алынған, түсініктемелер үшін қосымша с ... ... ... тэгі ... ... ... тізбегін сипаттайтын бір немесе бірнеше таңдау элементтерінен тұрады. Әрбір таңдау элементі леммадан ... тэг ... не ... (бұл ... ол кез ... ... сәйкес келеді) де тұруы мүмкін.
Таңдау элементі (match) және лексикалық таңдаудан: select немесе remove ... ... ал ... ... ол ... ... Берілген контекст бойынша нақты келіспеушіліктерді шешу үшін ... ... де ... ... мыс.: ... ... estación сөзі ағылшынның station, season (станция, мезгіл) сөздеріне сәйкес ... ... ... station ... алады. Егер де season сөзі сын есіммен бірге келсе біз оған ережелер (4-сурет) жаза аламыз.
Бұл формализмнің әлсіз жері ережелер ... ... ... анықталған контексттерді ғана алады. Сөйлемнің кез-келген жерінде кездесетін берілген сөзді таңдау ... ... ... ... емес ... ... не оладың сөз таптары, сөздер тобы). Алайда, ережелер шағын ақырғы күйлі ауыстырғыш үшін компиляция жасалынуы мүмкін, бұл қадағалауға ... ... ... үшін қай ... ... ... болады.
Ереже компиляциясы
XML форматында бейнеленген R ережелер жиынтығы тікелей өңделмейді. Олар ақырғы-күйлі ауыстырғышта компиляцияланады (4-сурет). Бұл ... ... ... негізгі тіл (НТ) үлгісі белгісімен және ... ... ... тіл (МТ) ... белгіленеді. НТ және МТ үлгілері регуляр өрнектерге компиляцияланады (ақырғы-күйлі), және кестеде ... ... деп ... Q – ... ... ... аударма белгісінің алфавиті, мұнда ∑ кіріс символдарының жиыны және Г шығыс ... ... δ= Q×V→Q көшу ... функциясы, q0 бастапқы күй (еш нәрсе таңдалмады), және qF ақырғы күй – аяқталған үлгінің таңдалғандығын көрсетеді. R-дағы ережелер q0-ден qF-ке ... ... ... сөйлемінде ережелерді қолдану үшін, біз Sánchez-Martínez-дің et al. (2009) сипаттап берген әдісін қолданамыз. НТ ... ... ... сөздер санын қамтитын мүмкін болатын ең ұзын ережелерді пайдалануға ... ... ... көп ... ... ... де ... дәлірек әрі контекстке сәйкес келеді. Ең үздік қамтыманы есептеу үшін динамикалық бағдарламалау ... (Alg. 1) ... ... тиіс ... ... жаңа сөз үшін автоматтан жаңа іздеуді бастайды, және ... ... «А» ... ... және ... ... сөз үшін «М» ... қолданады. Ең үздік қамтыманы, сөз және оның санымен (есептеуімен) бірге ... ... ... ... ... таңдауды сипаттау үшін XML формализмінде қолмен жазылған ереже мысалы.
Бұл формализм қолмен жазылған не үйретілген ережелер үшін де ... ... ... тек трассировка үшін ереже санын есептеген уақытта ғана маңызды.
A
E
B
C
D
estaci´on:select(‘station

)
estaci´on:select(‘season

)
seca:skip()
lluviosa:skip()
de:skip()

:
skip()
an˜o:skip()
6-сурет. Лексикалық таңдау ережесін бейнелейтін ақырғы-күйлі ауыстырғыш; әрбір доға НТ ... ... ... мен МТ ... ... ... ... арасындағы ауысуды бейнелейді.
Алгоритм 1 төрт сыртқы процедураларды пайдаланады: WORDCOUNT(s) s жолындағы сөздер санын қайтарады; RULELENGTH(c) с күйімен тексерілген ... ... ... ... NEWCOVERAGE(сov; с) c күйімен тексерілген жаңа қамтыманы сov қамтымасына қосу арқылы ... ... b) екі ... қабылдайды және мүмкін болатын ең төмен ереже санын пайдаланып, екі қамтыманың біреуін ... ... ... егер ... ... бірдей ереже санын пайдаланатын болса, алдыңғысы қайта жазылады. Бұл мәселені шешуге сәйкес келетін тәсіл емес, біз басқа тәсілдерді де ... ... ... ... ... үшін, біз ережелерді қазіргі таңдағы бізге белгілі білім ... ... жөн ... мыс.: ... ... ... ... баға беру үшін модульді аталған белгілі мәселе бойынша сынақтан өткізу.
Тәжірибелік баптау WMT11 ... et al., 2011) ... ... ... ... ... ... үйретумен жүзеге асады, және келесідей айырмашылықтармен: Moses-тің perl-based tokeniser қосымшасының орнына, tokenisation Apertium-нің морфологиялық анализаторын қолдану (Cortés-Vaíllo and ... 2011) ... ... ... ... lowercase-тен өткізілмеген еді, белгілі сөздердің орнына Apertium біртілді ... ... ... ... үшін біз EuroParl корпусының 6.0 нұсқасын пайдаланамыз (Koehn, 2005), ... 1,4 млн ... ... Біз Apertium ... ... ... тілдік жұптарын бір сөздің бірнеше аудармасы бар болатындай тілдік жұптардың бірі ... ...
3.2 ... ... лексикалық таңдау ережелерін үйрену.
Корпус дегеніміз – текстерді электрондық түрде жинақтау. Мұнда ... сөз ... ... ... ... мағыналарын арнайы іздеуге арналған программамен табуға болады. Корпустың бірнеше түрлері болады, мысалы, ... бір ... ... ... ... бір кітаптың корпусы, т.б. Белгілі бір тілдің ұлттық корпусы дегеніміз – аталған тілдің белгілі бір уақыт аралығында өмір ... және ... ... ... және әлеуметтік нұсқалардың барлық  әр алуандығын көрсетеді. ... орыс ... ... ... ... ... 2003 ... бастап таралып келеді, ал бүгінде өзінің құрамына әр алуан тақырыптағы барлығы 140 млн сөздерді құрайтын орыс тіліндегі ... ... ... бұл 200 ... дейін өспек. Қазақ тілінің ұлттық корпусы, өкінішке орай, интернет желілерінде әлі кең тарала қойған жоқ.Ұлттық корпустың екі аса маңызды ... бар:   ең ... ол ... және үйлесімді болуы тиіс, яғни, аталған тілдегі барлық ... және ... ... ... типтерін қамтуы тиіс (көркемдік жанрдағы барлық әдебиеттер, публицистикалық, білімдік, ғылымдық, іскерлік, ауызекі, диалектілік, т.б.) және осы ... ... сол ... ... ... қолданысына мөлшерлеп енгізіледі. Екіншіден, корпус өзінің құрамына кіретін текстердің ерекшеліктері туралы айрықша мәліметтерді қамтиды ... ... ... Ұлттық корпус ең әуелі тілдің лексикасы мен грамматикасын ғылыми зерттеуге арналған.
Корпустың басқа міндеті – тіл білімінің ... ... ... ... грамматика, акцентология және тіл тарихы) мүмкін болған барлық ... ... алу. ... мамандар текстерді қарап, арасынан керек мысалдарды қалам арқылы ғана қағазға түсіретін еді, бұл өте көп ... ... ... және ... ... ... қорытып шығаруға мүмкіндік бере алмайтын. Қазірде, талданып жатқан ақпараттың көлемі мен оны іздеу ... ... жоқ, бұл ... мен ... билігінде ең әр түрлі деген типтегі текстердің орасан зор жиынтығы бар деген сөз.Ұлттық тіл корпустарының ең негізгі тұтынушылары ... ... әр ... ... ... болып табылады. Алайда тұтынушылар қатары бұлармен ғана шектеліп қоймайды! Белгілі бір автор немесе белгілі бір замандағы қолданылған тіл туралы сенімді ... ... ... ... және гуманитарлық саланың басқа да көп мамандарын қызықтыра алады. Сонымен қатар, ... тіл ... ана ... ... шетел тілін үйретуде де таптырмайтын көмекші құрал болып табылады. Корпустың көмегімен өзіне таныс емес сөздің ... ... ... ... ... ... ... еңбектеріне сүйене отырып тексеру шетел азаматының да, мектеп оқушысының да, мұғалімнің де, журналистің де, ... да өз ... ... тілі ... ... ... тілінің лексикасы мен грамматикасын ғылыми зерттеуді қамтамасыз етуге, сондай-ақ қазақ тілінде жарық көрген ақпарат түрлерін жинау мен оларды өңдеу, ... мен ... ... ... ... бағдарламасын енгізуге арналған. Қазақ тілінің корпусын жасау Қазақстан ... ... тілі ... ... тілінің қазіргі сипатын талдаудың уникалды жүйесін қалыптастырудың негізі бола алады. Корпустың мақсат-міндеттері:  Сөздіктер, грамматикалық анықтағыш, оқулықтар мен оқу ... ... үшін ... ақпарат көзі бола алады; Тіл білімі саласындағы ғылыми болжамдарды мейлінше мол мұралар негізінде тексеруге ... ... ... ... ... тілінің қолданысына қатысты кейбір мәселелерді анықтауда анықтағыш құрал қызметін атқара алады.
Параллельді корпустан лексикалық таңдау ережелерін үйрену процессі келесідей қадамдардан тұрады: НТ мен ... ... сөз ... үшін сөздердің көпмәнділігін шешеміз және морфолоиялық талдау жүргіземіз. GIZA++ қосымшасымен сөздер белгіленді (word aligned) (Och and Ney, 2003). ... ... үшін МА НТ ... ... ... ... Үш түрлі сөйлем жиынын алдық: тэгталған НТ сөйлемдері, тэгталған МТ сөйлемдері және екі тілді ... НТ ... МТ ... ... аудармасы.
Осы үш түрлі сөйлемдер жиынын алып, екі тілді сөздіктен табылған НТ лексикалық көпмәнділігі аз ... МТ ... ... ... ... ... копустан алынады. Бұл қадам жүйенің қалған бөліктері аударылу үшін қажет. Сәйкес келетін ... екі ... ... болуы тиіс. Сөйлем жұптарын алғаннан кейін, жүйені үйрету үшін бізде 332,525 сөйлем бар, бұл оның 25%-ын құрайды.
Әрбір алынған ... ... біз сын ... зат есім және етістік категорияларына тиісті НТ көпмәнді сөздер төңірегіндегі n-gram-дар аламыз (3 және 5 ... МТ ... ... сөйлемдермен бірге контексттің қанша рет кездесетінін санаймыз. Егер берілген ықтимал аударма контексттегі сөздермен теңестіріліп, басқа мүмкін ... ... жиі ... ... онда ... ... ... бірдей теңестірілген аударма контекстісін таңдайтын ережені генерация жасаймыз.
Жүйелер
Лексикалық таңдау модуліне, параллельді ... ... ... ... баға беру ... біз оны 4 негізгі жүймен салыстырамыз:
- Freq: Келісім бойынша жиілік; МА ... МТ ... ең жиі ... таңдайтын ережелермен сынақтан өткізілді. Бұл МТ моделіндегі unigram-ға сәйкес келеді.
- alig: НТ ... ... ең жиі МТ сөзі ... Бұл ... МА ... екі ... сөздікте де болуы тиіс.
- ling: Келісім бойынша лингвистика; мұнда ең жиі болатын аудармалар жүйені жазған ... ... ... tlm: ... ... ... болатын аудармалар 5-gram тіл моделі арқылы таңдалған Испан тілі EuroParl корпусынан IRSTLM (Federico et al., 2008) ... ... ... шығарып тастау.
Лексикалық таңдау модуліндегі әртүрлі үш ережелер жиынын сынақтан өткіздік:
- all: ... ... ... ... ... ... filt1: Үйретілетін корпуста тек бір ғана рет көрінетін ... ... ... filt2: ... ... және ... ... тэгтарынан тұратын ережелер және сондай-ақ сөз ... ... аз ... да ... ... ... егер сөз 10 ... үш аудармадан және 15 жиілігімен бір аудармадан ... ... осы ... ... барысында 15 < (45 / 2) секілді ережесі алынып тасталады, тіпті егер ең жиі болса да. ... s: SL sentence to ... ← {q0} i ← ... (i ... do M[i] ← ∅ for all q ∈ A do for all c ∈ Q∃t : ... : t) = c) do
A ← A ... c = qF then
M[i] ←BESTCOVERAGE(M[i],NEWCOVERAGE(M[i−RULELENGTH(c)],c)) end if
end for
A ← A −{q} end for
i ← i + 1
A ← A ∪{q0} /* To start a new search from the next word */
1 - ... ... ... Кіріс сөйлемінің ең үздік қиылысуын есептейтін алгоритм. ... ... to compute the best coverage of an input ... бақылау және толық тоқтаудан тұратын ережелерді алып тастау ... өте шулы ... Сөз ... ... аз аудармалар ережесін алып тастау мотивациясы – ... ... ... жақсартатын ережелерді сақтап қалу. Ережелер ары қарай зерттеуді талап ... ... баға беру үшін News ... ... 2,489 ... ... тұратын кем дегенде НТ бір көпмағыналы сөзден тұратын МТ сөзімен теңестірілген МА жүйесінде генерация ... ... ... ... ... НТ мен МТ сөздері арасындағы теңестірулер (alignments) EuroParl корпусының жеке көшірмесіне қосумен және GIZA++ - та ... ... ... ... ... тиіс 434 ... (9463 token) (17% ... алынды. Әрбір сөз үшін орташа аударма саны 1.08 (бұл сан өте ... ... ... ... ... үшін ... ... талап етеді) болды. Біз екі баға беру есебін орындадық, лексикалық таңдау модульді үшін қатеге баға беру және ... ... ... ... үшін біз ... ... ... (Vickrey et al., 2005). Лексикалық ауыстыруда сілтеме аудармаларды қолданбай көпмәнділікті шешу арқылы. 434 ... ... біз тек 604 ... сөз ... Бұл oracle деп ... МА ... ең ... нәтиже болып табылады егер сілтеме аудармадан тек таңдау арқылы аударма алынса. 2-кестедегі Error (қате) бағаны сынақ жүргізіліп ... ... ... ... қатесіне баға береді, берілген жүйенің oracle таңдаған аудармаға сәйкес келмейтін аударманы неше рет ... ... ... ... BLEU ... al., 2002) ... ... баға беру және Levenshtein distance (Levenshtein, 1965) – жүйесіне негізделген Сөз қатесіне баға беру (Word error rate (WER) ... ... ... If it doesn’t reduce social benefits
ref: Si no reduce los subsidios sociales
alig: Si no reduce beneficios sociales ... Si no reduce ... sociales ... ... News ... ... 56 ... аудармасы.
Екінші жағдай лексикалық таңдау модулі есебіне бағау беру үшін оңды шешім болмайды, модульдің орындалуы ЕНМА (RBMT) жүйесіндегі екі тілді ... кең ... (а), және ... аударма санына (b) байланысты.
Сонымен қатар, егер тек бір ғана сілтемелік аударма болса (News Commentary корпусындағыдай), сілтемелік аудармада табылмаған аудармаларды жүйе оңай ... ... ... ... ... ... Мысалы, 1-кестеде prestaciones ‘benefits, provision, assistance’ сөздері beneficios ‘profit, advantage, ... ... ... ... ... ... ... бұл аударма сілтемелік аудармада көрсетілмейді, аударманың жақсартылуы саналмайды. Алайда, ... ... ... ... ... қолмен аңдатпа жасалмаған корпуссыз, немесе бірнеше сілтеме аудармаларын қолдану мәселені шешу үшін аз болады.
4-кесте жеті жүйені сынақтан өткізу ... BLEU, WER және ERROR ... ... ... 95% ... ... ... интервалы Koehn, 2004; Zhang and Vogel, 2004 әдісінде көрсетілген bootstrap resampling (Efron and Tibshirani, 1994) қосымшасының көмегімен есептелінді. Bootstrap ... 1000 ... ... жүргізілді.
Жеке жүйелер арасындағы берілген аз бағалар айырмашылықтарын біз статистикалық маңыздылығын көру үшін bootstrap resampling көмегімен екі жоғарғы ... ... (alig and filt2) ... ... ... аса ... ... filt2 жүйесі BLEU және ERROR сараптамалары үшін ... 95% ... ... ... есекртулер
RBMT жүйесіне лексикалық таңдау модуліді қосуды көрсеттік, және оның қолданатын ережелерін параллельді корпустан қалай алуға ... ... ... ... ... жүйе аударманың сапасын барша аударма жүйелерінен артық статистикалық маңызды жақсартулар жүргізуді ұсынады.
Болашақта келесідей мәелелерді ... ... ... ... ... ережелерді үйрену. (Sánchez-Martínez et al., 2008) принципіне сүйеніп, МТ бір тілді корпус HMM сөз таптары тэггерін жақсарту үшін ... ... ... орай бірнеше тәжірибелер келтірілген болатын, алайда RBMT жүйесінен МТ ... ... ... ... ... ... ... күрделі екенін көрсетеді.
Параллельді корпустан ережелерді үйрену тек көрсету болғанымен, filtering/pruning әдістері үшін мәселені ... ... ... ... ... секілді аударма сапасын жақсартпайтын ережелерді жою мәселелеріне назар салуларыңызды өтінеміз.
Жүйе өлшенбелі ережелер мүмкіншіліктерін қолдана алатындай құрылды, ... ... үшін ... ... ... ... ... біз ары қарай зерттеуді көздедік.
2-кесте. News commentary сынақ корпусындағы жеті жүйе бойынша баға нәтижесі.
System
Total rules
Called
Error
BLEU
WER
Freq
-
-
[42.8, 50.3]
[0.1687, 0.1794]
[0.712, 0.725]
Ling
667
473
[25.4, 30.7]
[0.1772, 0.1879]
[0.710, ... ... ... ... ... 0.1817]
[0.714, 0.727]
All
77,077
503
[21.3, 28.2]
[0.1779, 0.1885]
[0.710, 0.723]
filt1
9,978
503
[20.3, 26.9]
[0.1782, 0.1889]
[0.710, 0.723]
filt2
2,661
532
[17.9, 24.7]
[0.1789, 0.1896]
[0.709, 0.723]
3.3 ... ... ... ... әдісін қолдану алгоритмі
Лексикалық таңдау – аудармасы бір сөз табында болатын көп мәнді сөздің мән ... ... ... аудармасын табу. Лексикaлық тaңдaу – Aпертиум плaтформaсындaғы ... ... Бұл ... сөз ... ... кейін жұмыс жасайтын модульдердің бірі. Мыс.: ара – bee, saw; ай – moon, month; бет – face, page. ... ... Екі ... сөздіктен (корпустан) көп мәнді сөздер тізімін алу:
- Көп мәнді сөздер жалпы лексикалық қордың шамамен 30%-ын құрайды. Олар зат ... ... сын есім және ... да сөз ... ... ...
- Табылған көп мәнді сөздің (негізгі тілдегі, source ... ... ... ... target ... тауып, және сол сөзбен бірге кездесетін сөздер (bag of words немесе features) тізімін жасаймыз. Бұл «қосымша» сөздер көп мәнді сөздің ... мән ... ... байланысты қай аудармада болатынын табу үшін қажет.
2-қадам: Әрбір көп мәнді сөз үшін ықтималдықтар кестесін құру:
- Сөйлемді ... ... көп ... ... ... алып ... ... қосымша сөздерді санаймыз.
- Әрбір қосымша сөздердің берілген сөйлемде неше рет кездесетінін ... ... ... мән ... MaxEnt ... қолданып ықтималдықтарын салыстыру.
- Ықтималдығы басымырақ аударма берілген көп мәнді ... ... ... ... Көп ... ... мән ... байланысты қай аудармада болатыны анықталады.
Көп сәнді сөздер тізімін жасау
Корпустан көп мәнді сөздер кездесетін сөйлемдерді алу
Сөйлемдерді ... ... бір көп ... сөз үшін ... кестесін құру
7-сурет. Максимум энтропия әдісін қолданудың графикалық сұлбасы.
Мысалы:
1-қадам: Көп мәнді сөз: күн. ... s1=day, s2=the sun. ... ... корпусы

Негізгі тілдегі ақпарат
Мақсат тілдегі ақпарат
1.
Күн сәулесі терезеден түсіп тұр.
Sun’s rays fall down from a window
2.
Осы аптада күнде сабаққа ... week I went to classes every ... ... алынған сөйлемдер:
а) Күн сәулесі терезеден түсіп тұр.
б) Осы ... ... ... ... f1 f2 ... f6 s1 ... ... түсіп тұр. Бір аптада жеті күн бар.
күн
сәулесі
түсіп
тұр
бір
аптада
жеті
бар
...
s1=day
0
0
0
1
1
1
1
...
s2=sun
1
1
1
0
0
0
0
...
...
...
...
...
...
...
...
...
...
а) P(күн s1) = (1*0 + 0*0 + 1*0 + 1*0) = ... s2) = (1* + 0*0 + 1* + 1*) =
б) P(күн s1) = (0*0 + 1* + 0*0 + 0*0) = ... s2) = (0*0+ 1*0 + 0*0 + 0*0) = ... ... ... ... ... пайдаланылады:
Аударылатын сөз; Ізделінетін сөз - алынатын аударма нұсқасы; ... – бұл ... мен ... орынның жиыны; Операциялар – бұл аударылатын сөзді таңдаудан немесе жоюдан тұрады.
Лексикалық таңдау ережелері қолмен жазылады. Ережелерді жазу ... ... ... ... Оның аты ... ... apertium-eng-kaz.kaz-eng.lrx (қазақ – ағылшын үшін), apertium-eng-kaz.eng- kaz.lrx(ағылшын - ... ... ... ... жaзaр ... ... қaзақ тілінен ағылшын тіліне аударғанда бірнеше аудармасы бар қазақ тіліндегі сөзді таңдап алуымыз керек. Көп ... ... ... ... бар ... ... ... Көп мәнді сөз cөздіктердің барлығында болуы тиіс.
Екі тілді сөздіктегі (apertium-eng-kaz.eng-kaz.dix – екі тіл үшін ортақ сөздік, екі ... да ... ... ... ... ... бір ... сөздіктегі (apertium-kaz.kaz.lexc) форматы:
алқа:алқа N1 ; ! ""
Ағылшын тіліндегі бір тілді сөздіктегі (apertium-eng.eng.dix) форматы:
necklace
Мысалы, “жер” деген сөздің алты аудармасы ..................... осы берілген сөздерді сөздікке енгізгенде ең жиі кездесетіні бірінші енгізіледі. Осы берілген сөздер әртүлі тіркеспен келгенде, әртүрлі болып аударылады. Егер ... ... ... ... ... “Kazakh land”, “жер планетасы” тіркесінің аудармасы “earth planet”, ал “алыс жер” тіркесінің аудармасы “distant place” болады. Осы сөзге байланысты ереже ... ... ... ... ... ... ережесі.
Қазақ тілінен ағылшын тіліне аударғанда кейбір сөздердің бірнеше аудармасы болатынын білдік. Енді тағы бір мысалды қарастырайық. Қазақ тілінде тек ... ... ... ... тек бір ғана ... ... Ал, қазақ тілінен ағылшын тіліне аударғанда үш аудармасы болады. Жалпы ... осы ... ... ... ... “he” ... Ал, егер ... “Ол әдемі қыз” деген сөйлемде, “she” есімдігі болуы керек. Осы ... ... ... ... ... ... онда жүйе келесідей аударманы береді:
He is beautiful girl(бұл ... ... ... “She is ... girl” ... керек. Осындай аударма болуы үшін келесідей лексикалық таңдау ережесін жазамыз:







Осы ережені жазғаннан кейін бұл сөйлем аудармасы дұрыс болады.
Ал, ағылшын ... ... ... ... ... екі аудармасы болады: «әдемі» және «көркем». Осы екі аударма ағылшын-қазақ екітілді сөздігінде - ... ... ... ... ... осы екі ... лексикалық ережемен біреуі таңдалады. Мысалы, мәтінде келесідей құрылым кездессе, «beautiful girl plays in garden», онда ... ... ... ... жазылады: егер «beautiful» сын еісімінен кейін «girl» зат есімі келса, онда «beautiful» сөзі «әдемі» деп аударылады. Басқа жағдайда, егер «beautiful place» ... сын есім ... деп ... Үндеместік бойынша таңдалатын аударма үшін ережені жазуға болады.
4 ТӘЖІРИБЕЛІК ЖҰМЫСТЫҢ ҚОРЫТЫНДЫЛАРЫ
Лексикалық таңдау есебін Апертиум – ережеге негізделген ... ... ... шешу ... ... ... ... атқарылды:
- 4355 сөйлемнен тұратын қазақ-ағылшын параллельді копусы дайындалды (7-8 суреттер). Бұл корпусты тек көп мәнді сөздер тізімін алуға ғана ... ... ... ... ... сөздік қоры ретінде де қолдануға болады. Біртілді корпусты пайдалану мақсатында корпустар ... ... ... ... ... да ... өз ... табады деген сенімдеміз.
8 – сурет. Қазақ тіліндегі корпустан үзінді.
9 – сурет. Қазақ тілі ... ... ... тураланған ағылшын тілі корпусынан үзінді.
- Лексикалық таңдауды шешу мақсатында сынақтан өткізу үшін зат ... ... сөз ... көп ... ... ... ...
3-кесте. Зат есім мен етістік ретінде кезедесетін көп мәнді сөздер тізімі.
Көп мәнді сөздер
аба
n. cloak
n. corral
алқа
n. necklace
n. collegium
ай
n. moon
n. ... ... ... ... back
prep. Behind
ат
n. name
n. horse
ауыз
n. mouth
n. muzzle
бақ
n. garden
n. success
бұрыш
n. corner
n. pepper
жаға
n.  collar
n. coast
жас
n. age
n. tear
аралау
v. saw
v. ... ... ... ... ... ... boil
ашу
v. open
v. fermentation
еру
v. melt
v. follow
сүзу
v. fіlter
v. butt
- С# бағдарламалау ортасында Максимум энтропия әдісін лексикалық таңдауды шешу үшін көп ... ... ... ... ... ... ықтималдықтар кестесін беретін қосымша жасалды.
string w;
List senses = new List();
List features = new ... ... = new ... ... ... tmp_features;
List all_words = new List();
char q = ' ';
while (q != ... ... ... ... = Console.ReadLine();
Console.Write("Введите количество значений многозначного слово: ");
senses_count = Convert.ToInt32(Console.ReadLine());
for (int i = 0; i < ... ... ... row = ... col = 0;
for (int i = 0; i < senses_count; i++)
{
row = i;
Console.Write("Введите " + (i + 1) + " ... ... ... ... features для ... ... слова " + senses[i] + ": ");
all_features = Console.ReadLine();
//убираем само многозначное слово из features
all_features = all_features.Replace(w, "");
// ... ... ... после удаления одинарными
all_features = all_features.Replace(" ", " ");
all_features = all_features.Trim();
//разбиваем в массив по ... = ... ... (int j = 0; j < ... ... ... (int k = 0; k < row; k++)
{
the_Table[k].Add(0);
}
the_Table[row].Add(1);
for (int k = row + 1; k < ... ... = ... } ... q для ... ... или нажмите любую другую клавишу, чтобы продолжить ввод");
q = (char)Console.Read();
}
// вывод массивов
Console.WriteLine("\n\nмассив S");
for (int i = 0; i < ... ... + " ... ... (int i = 0; i < ... ... + " ");
}
Console.WriteLine("\n\nмассив t_T");
for (int i = 0; i < ... ... (int j = 0; j < ... ... + " ... ... листінгі.
Бағдарлама нәтижесі:
10-сурет. Көп мағыналы сөздермен кездесетін сөйлемді өңдеу.
Тәжірибе жұмыстары толық аяқталған жоқ. Әлі де ... ... ... ... ... ... ... санын, көп мағыналы сөздер санын, лексикалық модульдағы ережелер санын көбейту қажет. Бұл ... ары ... ... ... ... ... есептің шешімі табылады деген сенімдеміз.
ҚОРЫТЫНДЫ
Қазіргі таңда қазақ тілінен ағылшын тіліне сөйлем бойынша аударатын бағдарламалар, сайттар және басқа да ... әлі де ... ... ... ... ... ... кейбір сөздер дұрыс аударылмайды. Көп мәнді сөздер аудармасы тіпті ... ... орай көп ... ... ... аударылуына көп мән беру керек. Лексикалық таңдау дұрыс жұмыс жасау қажет.
Лексикалық таңдауды дұрыс іске асыру үшін ... ... ... ... ... ... статистикалық аударма элементтерін пайдалану келтірілді, яғни олар параллельді корпус, көп мәнді сөз үшін ықтималдықтар кестесі. Лексикалық таңдауды ережелер ... ... ... ... ... талап етеді. Статистикалық аударма жүйесін семантикалық аударма ... ... ... ... есептің шешімін табуға өз септігін тигізеді.
Әрбір тілдің өз ерекшеліктеріне байланысты ... ... ... әр-түрлі ауқымда болады. Олар тілдердің өз-ара жақын болуына байланысты. Тілдер арасында ұқсастықтар көп болған сайын ... ... ... ... ... аз болады. Қазақ-ағылшын тіл жұптары бір-бірінен алшақ болғандықтан лексикалық ... ... ... ... ... көп мәнді сөздің дұрыс аударылуы аударма сапасына және аударма мағынасына тікелей әсер етеді. Көп ... ... ... ... болуы үшін параллельді корпус қажет. Көп мәнді сөздің ... ... қай ... ... осы көп ... сөздің қандай сөздермен бірге кездесетініне байланысты. Оларды біз осы ... ала ... Көп ... сөз аудармасының бірнеше сөйлемдерде кезедесуі аударма сапасының жақсаруына әсер ... ... ... ... машиналық аударма жүйесінде статистикалық аударма жүйесінің элементтерін пайдалану келтірілді. Лексикалық таңдау үшін ереже санын әлі де көбейту ... ... көп ... ... аудармасы корпусты сөз таптарына белгілеу арқылы дұрыс аударылады деп сенемін. Бұл жұмыста тек негізгі ... ... ... Корпус өлшемін көбейту арқылы лексикалық таңдау есебі өз шешімін табады деген сенімдемін.
ПАЙДАЛАНЫЛҒАН ӘДЕБИЕТТЕР ТІЗІМІ
1 Forcada, M.L., Ginestí-Rosell, M., Nordfalk, J., O'Regan, J., ... S., ... J.A. ... F., ... G., Tyers, F.M. 2011. ... a ... platform for rule-based machine translation”. Machine Translation ... Lexical ... – URL: ... wiki ... ... А. М., ... платформасындағы Ағылшын-қазақ машиналық аударма лексикалық модулі. Международная научная конференция студентов и молодых ученых «Фараби әлемі». – Алматы: «Қазақ университеті», 2014. – C. ... Jurafsky D., James H.M., Speech and Language ... An ... to Natural Language ... Linguistics, and Speech Recognition. Second Edition. 193-206.
5 Costa, A., Miozzo, M., Caramazza A.. Lexical ... in ... Do Words in the ... Two Lexicons Compete for ... Journal of Memory and Language 41, ... (1999).
6 Francis M. Tyers and Kevin Donnelly. apertium-cy: A collaboratively-developed free RBMT system for Welsh to English. Prague Bulletin of ... ... ... ... Mireia ... Gema ... Sergio Ortiz-Rojas, Francis M. Tyers, and Mikel L. Forcada. ... of a free Basque to Spanish machine ... system. ... del Lenguaje Natural, ... ... Eckhard Bick. Dan2eng: ... Danish-English Machine Translation. Proceedings of Machine Translation Summit XI, 10-14. Sept. 2007, Copenhagen, pages 37_43, 2007.
9 Eneko Agirre, Philip Glenny Edmonds. Word Sense ... ... and ... ... ... Michael Lesk, Automatic sense disambiguation using machine readable dictionaries: how to tell a pine cone from an ice cream cone, ACM Special Interest Group for Design of ... ... of the 5th annual ... ... on Systems ... p. 24 – 26, ... David Milne, Ian H. Witten. Learning to Link with Wikipedia. Proceedings of the ACM Conference on ... and ... ... ... Antonio Molina and Ferran Pla and Encarna Segarra and Lidia Moreno. Word Sense ... using ... Models and WordNet. Proceedings of 3rd International Conference on Language Resources and Evaluation, LREC2002, Las Palmas de Gran ... ... тiлi ... грамматикалық анықтағыш) / – Алматы: Мемлекеттік тілді дамыту институты, 2010. – 92 бет.
14 Mikel Santesteban Insausti. lexical representation and ... On ... speech ... ... ... ... Юрьевич. Методы и программные средства разрешения лексической ... ... на ... сетей документов. Диссертация Москва – 2010.
16 S. Banerjee and T. Pedersen. An adapted Lesk algorithm for word sense ... using ... In ... of the Third ... ... on Intelligent Text Processing and Computational Linguistics, Mexico City, February 2002.
17 E. Agirre and G. Rigau. Word sense ... using ... density. In ... of the 16th ... ... on Computational Linguistics (COLING-96), pages 16–22, Copenhagen, Denmark, 1996.
18 M. Lesk. ... sense ... using machine readable ... How to tell a pine cone from a ice cream cone. In ... of SIGDOC ’86, ... X. Li, S. Szpakowicz, and S. Matwin. A WordNet-based algorithm for word sense ... In ... of the 14th ... Joint ... on Artificial Intelligence, Montreal, August 1995.
20 R. Mihalcea and D. Moldovan. An ... approach to word sense ... In ... of Flairs 2000, pages ... Orlando, FL, May 2000.
21 S. Patwardhan, S. Banerjee, and T. Pedersen. Using measures of semantic ... for word sense ... In ... of the Fourth International Conference on Intelligent Text Processing and Computational Linguistics, Mexico City, February 2003.
22 Caramazza, A. (1997). How many levels of ... are there in lexical access? ... ... 14, ... ... N. (2000). Learning sense disambiguation rules for machine translation. Master’s thesis, Uppsala University.
24 Tyers, F. M. (2010). Rule-based breton to french machine ... In ... of the 14th Annual ... of the European Association for Machine Translation, pages 174–181.
25 Sánchez-Martínez, F., Pérez-Ortiz, J. A., and Forcada, M. L. (2007). ... ... and ... approaches in an open-source machine translation system. In Proceedings of METIS-II Workshop: New Approaches to Machine Translation, a workshop at CLIN 17 – ... ... in the ... pages ... ... есім ... кездесетін көп мағыналы сөздер

Көп мағыналы сөздер
Ағылшын тіліндегі аудармасы
Түсініктеме
1.
Аба
n. cloak
n. corral
(Ауғ.; Ир.) жеңсіз шапан
Қоршау, қаша. Аттарды ашық төбелі аба қалдырдық.
2.
Алқа
n. necklace
n. ... ... ... үшiн ... ... Мойнында алтын АЛҚАсы баp
Кеңесу үшiн pесми түpде белгiленген адамдаp тобы
3.
Ай
n. moon
n. month
Ай ... ... ай ... ... ... ... ... арамен ағашты араладым.
Алыс ара қашықтық кедергі болмады.
5.
Арты
n. back
prep. Behind
Үйдің арты.
Артта қалу
6.
Ат
(ат қою, ат ... ... ... аты ... алаңда шауып жүр.
7.
Ауыз
n. mouth
n. muzzle
Адам мен жан-жануаpлаpдың ... ... ... ... ... ... ... аузын бекiттi.
8.
Бақ
n. garden
n. success
Әp түpлi ағаш өсipiлген жеp. Қалың ... iшi таза ... құт, ... ... береке
9.
Бұрыш
n. corner
n. pepper
Үй қабыpғалаpының немесе заттың екi жағының үшкілдене түйiскен жеpi. Үйдiң оң жақ ... ... ... қаpа ... ащы ... пен осы өсiмдiктiң ұнтағы. Қаpа БҰРЫШ, қызыл БҰРЫШ.
10.
Жаға
n.  collar
n. coast
мойынға ... ... ... ... ... ... кездесетін көп мағыналы сөздер

Көп мағыналы сөздер
Ағылшын тіліндегі аудармасы
Түсініктеме
1.
Аралау
v. saw
v. stroll
Ағашты аралау
Серуендеу. Қонақтарды аралап келді.
2.
Арбалау
v. transport
v. hyponitize
Арбалап алып ... ... ... ... ... ... hanging ... boil
Дарға асу.
Ет асып жеу.
5.
Ашу
v. open
v. fermentation
ЕСІК АШУ
ҚАМЫРЫ АШУ
6.
еру
v. melt
v. follow
балқу 
ілесу 
7.
Сүзу
v. fіlter
v. ... ... ... ... ... платформасындағы лексикалық модульдегі қазіргі таңдағы бар ережелер:























... ... ... ... ... ...

Пән: Тілтану, Филология
Жұмыс түрі: Дипломдық жұмыс
Көлемі: 62 бет
Бұл жұмыстың бағасы: 1 300 теңге









Ұқсас жұмыстар
Тақырыб Бет саны
Ағылшын тілінен орыс тіліне мақал-мәтелдерді аударудағы лексикалық мәселелер25 бет
Экономикалық мәтіндерді аудару ерекшеліктері26 бет
Ескі қазақ жазба ескерткіштеріндегі сөзжасам164 бет
Қазақ ономапоэтикасы: сатиралық-юморлық кейіпкер аттары46 бет
Жоғары сынып оқушысының танымдық қызығулары мен кәсіби анықталуының психологиялық ерекшеліктері7 бет
Модельдер көптігі, модельдер құрылымы6 бет
1. қ.р. және тағам өнімдерінің ғылыми мекемелері 2. тағам өнімдерін модельдеудің математикалық әдістерін қолдану5 бет
2-3 сынып оқушыларын ағылшын тілінде сөйлеуге үйрету17 бет
: автомобиль жолдарының жабындарын қалпына келтіру және жөндеу машиналары мен жабдықтары3 бет
Aғылшын және қaзaқ тілдеріндегі келер шaқ63 бет


+ тегін презентациялар
Пәндер
Көмек / Помощь
Арайлым
Біз міндетті түрде жауап береміз!
Мы обязательно ответим!
Жіберу / Отправить


Зарабатывайте вместе с нами

Рахмет!
Хабарлама жіберілді. / Сообщение отправлено.

Сіз үшін аптасына 5 күн жұмыс істейміз.
Жұмыс уақыты 09:00 - 18:00

Мы работаем для Вас 5 дней в неделю.
Время работы 09:00 - 18:00

Email: info@stud.kz

Phone: 777 614 50 20
Жабу / Закрыть

Көмек / Помощь