Лексикалық көп мәнділікті шешу әдістерін және шешім алгоритмін таңдау



КІРІСПЕ ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ..3
1 АВТОКӨЛІК ӨНЕРКӘСІБІ ТЕРМИНДЕРІН АУДАРУ ... ... ... ... ... ... ...4
1.1 Аудармалық сәйкестілік және көп мағыналы сөздірдің аудармадағы ролі.4
1.2 Көп мағыналы сөздер және оларды аудару ... ... ... ... ... ... ... ... ... ... ... ... ... 7
1.3 Лексикалық таңдау және есептің қамту аймағы ... ... ... ... ... ... ... ... ... ... ...10
2 ЛЕКСИКАЛЫҚ КӨП МӘНДІЛІКТІ ШЕШУ ӘДІСТЕРІН ЖӘНЕ ШЕШІМ АЛГОРИТМІН ТАҢДАУ ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .12
2.1 Автокөлік өнеркәсібінде аудармадағы лексикалық көп мәнділікті шешу әдістерінің негізгі түрлері ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .12
2.2 Лексикалық көп мәнділікті шешуде қолданылатын Леск алгоритмі ... ... .13
2.3 Көлік және қатынас жолдарындағы терминдерге түсінік беру ... ... ... ... ..17
ҚОРЫТЫНДЫ ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 31
ПАЙДАЛАНЫЛҒАН ӘДЕБИЕТТЕР ТІЗІМІ ... ... ... ... ... ... ... ... ... ... ... ...32
Көліктің қоғам өміріндегі экономикалық мән-мағынасы экономиканың барлық саласының жұмыс бағытын және байланысының дамуын қамтамасыз етуден тұрады. Көлік мемлекеттің бүтіндігіне, ресурстарды арттыру, төтенше жағдайларды жедел түрде шешуге ықпал етеді, Бұл оның саяси мағынасын білдіреді. Көліктің мәдени мән-мағынасы қоғамның білімін және мәдениетін жоғарылататын эстетикалық құндылықтарды тарату мүмкіншілігінен тұрады, бұл тұрғындардың білімі мен мәдениетін көтеретіні анық. Мұнымен қоса, көліктің өзі мәдениеттің элементіне айналды:
- көліктің жеке немесе барлық түрлері бойынша мұражайлар салынуда;
- көлік өнеркәсібінің жетістіктеріне көрме өткізілуде;
- көліктегі жетістіктер мен идеялардың таратылуы бойынша қоғам құрылуда.
Көліктің әлеуметтік мән-мағынасы еңбектің жеңілдетілуі мен оның өнімділігін арттырудан, уақытты үнемдеуден тұрады. Көлік сонымен қатар адамдардың бос уақыт өткізуін ұйымдастыруға, яғни олардың өнімдік және шығармашылық мүмкіншіліктерін қалпына келтіру үшін арналған уақытына қатысады. Халыққа қызмет көрсететін көлік жұмысының жетіспеушілігінен көліктің қажуы жұмыс өнімділігін 12% -ға түсіруі мүмкін. Қарастырылып отырған дипломдық жұмыста аударманың екі тәсілін де қолдануды ұсындық. Негізгі аудармалық бағыт ретінде семантикаға негізделген аударманы қарастырамыз.
Аударманың дұрыс әрі шынайы болуы үшін семантика бөліміндегі лексикалық таңдау мәселесін дұрыс шешу керек. Сөздердің көпмағыналығына қарай әрбір сөздің дұрыс аударылғанын қамтамасыз ету керек. Осы орайда біз лексикалық таңдау мәселесіне көшеміз.
Лексикалық таңдау мәселесін шешудің қазіргі таңда бірнеше әдстері қалыптасқан. Әдістердің ішіндегі көп қолданысқа ие болғандыры «Жасырын Марков моделі», «Максимум энтропия моделі» болып табылады.
Максимум Энтропия (қысқаша MaxEnt) әдісі тізбекті классификациялау үшін қолданылады. Тізбекті классификациялау есебі немесе тізбекті белгілеу (sequence labeling) бұл – әлдебір тізбектің әрбір элементтерін белгілеу есебі болып табылады, сөз үшін оның сөз табын анықтау секілді.
 Көлік – нарықтық экономикадағы стратегиялық маңызды кешен. Көлік – мемлекеттің күшін мағыналы дәрежеде анықтайды, себебі қоғамның қажеттілігін жүктерді және жолаушыларды тасымалдағанда қамтамасыз ететін стратегиялық маңызды кешен. Еліміздің социалистік кезеңімен сипатталатын қоғамдық меншік акционерлеу және жекешелендірудің арқасында барлық көлік түрлері басқа меншік түрлеріне ауысты. Ертеректе көлік түрлерін басқару (бағыттау) мәселелері бөлек көлік министрліктеріне орналастырылған болса, қазіргі уақытта олар ҚР көлік және коммуникация Министрлігінде шоғырланған. Нарықтық шарттарда бірыңғай көлік жүйесіне тәсілдемесі сәл өзгерген.
1 Forcada, M.L., Ginestí-Rosell, M., Nordfalk, J., O'Regan, J., Ortiz-Rojas, S., Pérez-Ortiz, J.A. Sánchez-Martínez, F., Ramírez-Sánchez, G., Tyers, F.M. 2011. “Apertium: a free/open-source platform for rule-based machine translation”. Machine Translation 25(2)127-144.
2 Lexical selection. – URL: http://wiki.apertium.org/ wiki /Lexical_selection(13.11.2014)
3 Сундетова А. М., Апертиум платформасындағы Ағылшын-қазақ машиналық аударма лексикалық модулі. Международная научная конференция студентов и молодых ученых «Фараби әлемі». – Алматы: «Қазақ университеті», 2014. – C. 145.
4 Jurafsky D., James H.M., Speech and Language Processing. An introduction to Natural Language Processing,Computational Linguistics, and Speech Recognition. Second Edition. 193-206.
5 Costa, A., Miozzo, M., Caramazza A.. Lexical Selection in Bilinguals: Do Words in the Bilingual’s Two Lexicons Compete for Selection? Journal of Memory and Language 41, 365–397 (1999).
6 Francis M. Tyers and Kevin Donnelly. apertium-cy: A collaboratively-developed free RBMT system for Welsh to English. Prague Bulletin of Mathematical Linguistics, (91):57_66, 2009.
7 Mireia Ginestí-Rosell, Gema Ramírez-Sánchez, Sergio Ortiz-Rojas, Francis M. Tyers, and Mikel L. Forcada. Development of a free Basque to Spanish machine translation system. Procesamiento del Lenguaje Natural, 43:187_195, 2009.
8 Eckhard Bick. Dan2eng: Wide-Coverage Danish-English Machine Translation. Proceedings of Machine Translation Summit XI, 10-14. Sept. 2007, Copenhagen, pages 37_43, 2007.
9 Eneko Agirre, Philip Glenny Edmonds. Word Sense Disambiguation: Algorithms and Applications. Springer, 2006
10 Michael Lesk, Automatic sense disambiguation using machine readable dictionaries: how to tell a pine cone from an ice cream cone, ACM Special Interest Group for Design of Communication Proceedings of the 5th annual international conference on Systems documentation, p. 24 – 26, 1986.
11 David Milne, Ian H. Witten. Learning to Link with Wikipedia. Proceedings of the ACM Conference on Information and Knowledge Management, 2008

Пән: Транспорт
Жұмыс түрі:  Дипломдық жұмыс
Тегін:  Антиплагиат
Көлемі: 31 бет
Таңдаулыға:   
МАЗМҰНЫ

КІРІСПЕ ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...3
1 АВТОКӨЛІК ӨНЕРКӘСІБІ ТЕРМИНДЕРІН АУДАРУ ... ... ... ... ... ... ...4
1.1 Аудармалық сәйкестілік және көп мағыналы сөздірдің аудармадағы ролі.4
1.2 Көп мағыналы сөздер және оларды аудару ... ... ... ... ... ... ... . ... ... ... ... ... ...7
1.3 Лексикалық таңдау және есептің қамту аймағы ... ... ... ... ... ... ... . ... ... ... ..10
2 ЛЕКСИКАЛЫҚ КӨП МӘНДІЛІКТІ ШЕШУ ӘДІСТЕРІН ЖӘНЕ ШЕШІМ АЛГОРИТМІН ТАҢДАУ ... ... ... ... ... ... ... . ... ... ... ... ... ... ... ... ... .12
2.1 Автокөлік өнеркәсібінде аудармадағы лексикалық көп мәнділікті шешу әдістерінің негізгі түрлері ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ..12
2.2 Лексикалық көп мәнділікті шешуде қолданылатын Леск алгоритмі ... ... .13
2.3 Көлік және қатынас жолдарындағы терминдерге түсінік беру ... ... ... ... ..17
ҚОРЫТЫНДЫ ... ... ... ... ... ... .. ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 31
ПАЙДАЛАНЫЛҒАН ӘДЕБИЕТТЕР ТІЗІМІ ... ... ... ... ... ... ... . ... ... ... ... ..32

КІРІСПЕ

Көліктің қоғам өміріндегі экономикалық мән-мағынасы экономиканың барлық саласының жұмыс бағытын және байланысының дамуын қамтамасыз етуден тұрады. Көлік мемлекеттің бүтіндігіне, ресурстарды арттыру, төтенше жағдайларды жедел түрде шешуге ықпал етеді, Бұл оның саяси мағынасын білдіреді. Көліктің мәдени мән-мағынасы қоғамның білімін және мәдениетін жоғарылататын эстетикалық құндылықтарды тарату мүмкіншілігінен тұрады, бұл тұрғындардың білімі мен мәдениетін көтеретіні анық. Мұнымен қоса, көліктің өзі мәдениеттің элементіне айналды:
- көліктің жеке немесе барлық түрлері бойынша мұражайлар салынуда;
- көлік өнеркәсібінің жетістіктеріне көрме өткізілуде;
- көліктегі жетістіктер мен идеялардың таратылуы бойынша қоғам құрылуда.
Көліктің әлеуметтік мән-мағынасы еңбектің жеңілдетілуі мен оның өнімділігін арттырудан, уақытты үнемдеуден тұрады. Көлік сонымен қатар адамдардың бос уақыт өткізуін ұйымдастыруға, яғни олардың өнімдік және шығармашылық мүмкіншіліктерін қалпына келтіру үшін арналған уақытына қатысады. Халыққа қызмет көрсететін көлік жұмысының жетіспеушілігінен көліктің қажуы жұмыс өнімділігін 12% -ға түсіруі мүмкін. Қарастырылып отырған дипломдық жұмыста аударманың екі тәсілін де қолдануды ұсындық. Негізгі аудармалық бағыт ретінде семантикаға негізделген аударманы қарастырамыз.
Аударманың дұрыс әрі шынайы болуы үшін семантика бөліміндегі лексикалық таңдау мәселесін дұрыс шешу керек. Сөздердің көпмағыналығына қарай әрбір сөздің дұрыс аударылғанын қамтамасыз ету керек. Осы орайда біз лексикалық таңдау мәселесіне көшеміз.
Лексикалық таңдау мәселесін шешудің қазіргі таңда бірнеше әдстері қалыптасқан. Әдістердің ішіндегі көп қолданысқа ие болғандыры Жасырын Марков моделі, Максимум энтропия моделі болып табылады.
Максимум Энтропия (қысқаша MaxEnt) әдісі тізбекті классификациялау үшін қолданылады. Тізбекті классификациялау есебі немесе тізбекті белгілеу (sequence labeling) бұл - әлдебір тізбектің әрбір элементтерін белгілеу есебі болып табылады, сөз үшін оның сөз табын анықтау секілді.

1 АВТОКӨЛІК ӨНЕРКӘСІБІ ТЕРМИНДЕРІН АУДАРУ
1.1 Аудармалық сәйкестілік және көп мағыналы сөздірдің аудармадағы ролі

Көлік - нарықтық экономикадағы стратегиялық маңызды кешен. Көлік - мемлекеттің күшін мағыналы дәрежеде анықтайды, себебі қоғамның қажеттілігін жүктерді және жолаушыларды тасымалдағанда қамтамасыз ететін стратегиялық маңызды кешен. Еліміздің социалистік кезеңімен сипатталатын қоғамдық меншік акционерлеу және жекешелендірудің арқасында барлық көлік түрлері басқа меншік түрлеріне ауысты. Ертеректе көлік түрлерін басқару (бағыттау) мәселелері бөлек көлік министрліктеріне орналастырылған болса, қазіргі уақытта олар ҚР көлік және коммуникация Министрлігінде шоғырланған. Нарықтық шарттарда бірыңғай көлік жүйесіне тәсілдемесі сәл өзгерген.
Аударманың мазмұны мен құрылымы жағынан түпнұсқаға қол жеткізуге ұмтылу, тек аударма барысында біріктірілетін мәтіндер мен сол мәтіндердегі жеке тіркестер ғана емес, сонымен қатар бастапқы тіл мен аударма тілін құрайтын бірліктердің де балама болып табылатындығына әкеліп соғады. Берілген бастапқы тілдің бірліктерін аудару үшін аударма тілінің белгілі бір бірліктерін қолдану кездейсоқ жағдай емес. Екі бірліктің де қатысты тұрақтылық мағыналары бар, демек олардың аударма барысында бірінің орнын бірі толықтыруы мағыналарының көптеген ұқсастықтары бар екендігін көрсетеді. Мұндай мағыналық ұқсастық олардың арасындағы аударма баламалық қатынастарды аударуға, яғни олардың бірін екіншісінің аудармасы ретінде күнделікті қолдануға алғышарттар жасайды. Берілген бастапқы тілдің бірлігін аудару үшін үнемі пайдаланылатын аударма бірлігін аудармадағы сәйкестілік деп атаймыз.
Аударманың жеке теориясы берілген тілдің бірліктеріне немесе берілген тілдегі аударма сәйкестіліктері жүйелерінің басқа, әр түрлі тілдерге қатысты аударма сәйкестіліктерін зерттейді. Басқа тілдің кейбір бірліктерін аударма сәйкестіліктері ретінде пайдаланатын бір тіл бірліктері өз кезегінде, яғни аударма кері қарай іске асырылған жағдайда аударма тілінің қызметін атқара отырып, басқа тілдің сәйкестіліктері болып табыла бермейді. Басқаша айтқанда, аудармадағы сәйкестілік толығымен қайтарымды емес, тілдер бірліктерінің қатынастары әрбір жеке аударма теориясының шегінде екі тілдің әрбіріне аудару барысында өз алдына бөлек зерттеледі.
Аудармадағы сәйкестіліктер бастапқы тіл бірліктерімен тең қатынаста қызмет атқарушы ретінде есептеледі. Сондықтан аударма тілі мен бастапқы тіл бірліктері мағыналарының жақындығы аударма сәйкестіліктерінің пайда болуына алғышарттар жасайды. Аудармада балама қатынастары оқшауланған тіл бірліктерінің арасында емес, тілдегі айтылымдар құрамында шығатын бастапқы тіл мен аударма тілі бірліктерінің арасында орнатылады. Олардың коммуникативті тең бағалы болуының қабілеті олардың тіл жүйесіндегі мағынасы жөнінен емес, тілдегі қолданыс ерекшеліктерімен анықталады. Сондықтан аудармадағы сәйкестіліктерді екі тіл жүйесінде орын алатын бірліктерді салыстыра айқындаудың қажеті жоқ. Оны аударма барысында біріктірілетін коммуникативті тең бағалы айтылымдардан анықтай аламыз. Бұл түпнұсқаны аудару барысында, салыстырмалы талдау кезінде бір-бірімен теңестірілетін бастапқы тіл мен аударма тілі бірліктерінің аударылуымен анықталады. Тәжірибелік мақсат негізінде, аударманың жеке теориясы сәйкестілік таңдауы ерекше қиындық тударатын сөздік құрамның бірліктері мен бастапқы тілдің грамматикалық құрылымы аудармаларының мәселелерін анығыр-ақ қарастырады.
Ереже бойынша бастапқы тіл бірлігі бастапқы талдау орны ретінде алынып, оған аударма тілі сәйкестілігі ізделінеді. Қағидаға сәйкес бастапқы тіл бірліктері үшін мұндай сәйкестіліктерді кез келген тіл жүйесінің деңгейінде: фонемадан сөйлемге дейін табуға болады.
Ағылшын сөзінің әрбір фонемасына артикуляция мен дыбысталу жағынан жақын фонемелер орыс немес қазақ тілдерінде де табылады.
Қазақша немесе орысша ауадрмадағы ағылшын сөзінің әрбір морфемасына қазақ сөзінің белгілі бір морфемасы сәйкес келеді. Түбір морфемдер, сонымен қатар қосымшалы, оның ішінде сөз өзгерткіш жұрнақтарыжалғаулары бар морфемдер де бір-біріне сәйкес бола алады.
Сөз деңгейіндегі сәйкестілік.
My friend lives in Astana- Менің досым Астанада тұрады.
Alya was very happy yesterday - Әлия кеше өте бақытты болды.
Бұл жерде әрбір ағылшын тіліндегі сөйлемнің әрбір сөзіне қазақша аудармасында сәйкестелінетін сөз табуға болады. Мұндай сөзбе-сөз аударуды аса күрделі құрылымды сөйлемді аудару кезінде де қолданады.
The Industrial Revolution brought into being the industrial proletariat and with it the fight for civil and political rights, trade-unions and the right to vote.
Өнеркәсіп төңкерісі өмірге өнеркәсіп пролетариатын және сонымен қатар азаматтық және саяси құқықтарды, трейд-юниондар мен дауыс құқығын алып келді.
Сөзбе-сөз аудармада түпнұсқаның барлық элементіне абсолютті (дара) сәйкестілік қарастырылмайды, өйткені ереже бойынша қазақ тілінде ағылшын артикльдерімен кейбір қызметтік және қосымша сөздерге тікелей балама жоқ. Көбінесе сөзбе-сөз сәйкестілікті түпнұсқаның тек кейбір сөздерінен ғана табуға болады, ал қалған сәйкестіліктер басқаша деңгейлерде орнатылады.
Сөз тіркес деңгейіндегі сәйкестіліктер:
To bore to death by something-өлердей жалықтыру.
To keep to a diet-диета сақтау.
To see a doctor-дәрігерге көріну.
To live from hand to mouth-күнін әрең көру.
Бұл жағдайларда сөз тіркестері түпнұсқа және аудармада тұтастай балама тауып тұр, ал олардың құрамындаға сөздер бір-біріне сәйкестілік ретінде қабылдана алмайды.
Сөйлемдер деңгейіндегі сәйкестіліктер:
There is a pretty kettle of fish- Міне, осындай жағдай!
I wish you had come- Келгеніңде ғой.
I really feel bad about it- Мен оған шынымен де өкінемін.
Балама сөйлемдердің түпнұсқасы мен аудармасында бір-бірінің орнына беріліп тұрған сөз бен сөз тіркестері кездеседі. Солай бола тұрса да, қазақ тіліндегі сөйлемдер үнемі ағылшын тіліндегі сөйлемдердің сәйкестіліктері мен мағынасын жеткізу үшін қолданылады және сөзсіз, олардың толық мақсатта сәйкестіліктері болып табылады.
Аударма сәйкестіліктері жүйесін сипаттағанда айтылымдардың көптеген жағдайда қолданылатын, тұрақты мағынаға ие бастапқы тілдің лексикалық, фразеологиялық және грамматикалық бірліктерінің сәйкестіліктеріне басты назар аударылады. Ереже бойынша аударма тіл бірлігі де сәйкестілік ретінде сол деңгейде көрінеді. Алайда сөз айтылымдары әр түрлі деңгейдегі бірліктердің өзара байланыстары негізінде құрылады. Түпнұсқаның берілген бірлігі аударылғанда, қай деңгейдегі амалмен жеткізілетіндегі аударма барысында алдын-ала анықталмайды. Сондықтан аударма сәйкестіліктерінде әр түрлі деңгейдегі нақты жағдайларды ұстануға болады.
Ағылшын тіліндегі but she will do it сөйлемінің көмекші етістігіндегі екпін аударма барысында бірліктердің көмегімен жеткізіледі. Бірақ ол оны міндетті түрде орындайды фонетикалық-лексикалық сәйкестілік. Осы жолмен лексико-грамматикалық сәйкестілік Pass me some sugar-Маған қант беріп жіберіңізжәне грамматикалық-лексикалық сәйкестілік The delegation had been received by the prime-minister-Бұған дейін өкілдер премьер-министрдің қабылдауында болдықұрылады.

1.2 Көп мағыналы сөздер және оларды аудару

Тілдегі кейбір сөздер бірнеше мағынада қолданылады. Екі не одан да көп мағынада қолданылатын сөздер көп мағыналы сөздер деп аталады. Көп мағыналы сөздер бір сөз табынан болады және бір негізден таралады. Мысалы, адамның немесе жан-жануардың көзі, иненің көзі, терезенің көзі, бұлақтың көзі, білімнің көзі, істің көзі. Осы тіркестердегі көз сөзі - бір негізден таралған зат есім.
Көп мағыналы сөздер өздерінің сырт формасы жағынан омонимдерге ұқсайды. Олардың осы сырт ұқсастығы бірінен-бірін ажыратуда көп ретте қиындық та келтіріп жүр. Студенттер стилистика сабағындағы талдау жұмыстарында бұл екеуіне байланысты кейде қате де жіберіп жатады. Мысалы, ай зат есімі -- Қазақ тілінде әдетте көп мағыналы сөз де, сондай-ақ омоним ретінде де қаралады. Ол көп мағыналы сөз ретінде астрономиялық атауды да (ай туды, ай батты), уақыт өлшемін де (екі ай, айдан асты), теңеу құралы қызметінде жұмсалып әдемілік, көрік үғымын да (айдай, ай десе аузы..., Айсұлу), ауыспалы мағынаны да (айға қолы жеткендей) білдіреді. Демек, ай есімі төрт түрлі мағынада қатар қолданылып тұр. Төрт жердегі ай сөзінің ұғымы басқа-басқа болғанымен, олардың арасында мағыналық байланыс бәрібір сақталған. Төрт жердегі ай да айналып келгенде бір-ақ сөз. Омоним де осындай, сырт формасы (тұлғасы) бірдей сөз. Осы жағынан алғанда, ай сөзі тілімізде омоним түрінде де айтылады: кәріліктің айы өтті, соның айы өтіп тұр; ай Айша, бері келші; ай далада ақ отау, аузы-мұрны жоқ отау. Міне осылардағы "ай"-лар және әлгі көп мағыналы сөз ретінде келген "ай"-лар өз ара омоним. Немесе ат сөзін алайық. Ат -- зат есім, ат -- етістік. Алайда, бұл екі "ат"-тың арасында да, сондай-ақ жоғарыдағы "ай"-лардың арасында да мағыналық байланыс жоқ. Екеуі жеке-жеке екі сөз. Көп мағыналы сөз бен омоним стиль түрлеріне қатысы жөнінен де өзді-өзіне тән ерек-шеліктері, айырмашылығы бар, бір-бірінен алшақ тұрған құбылыстар. Енді осы екеуін стильдік сипаты жағынан жеке-жеке алып талдайық.
Сөздің көп мағыналыры жалпы халықтық ауыспалы мағынаның негізінде жасалады. Көп мағыналы сөз қай стильде болса да қолданылады. Бірақ оның ең көп жұмсалатын жері -- көркем шығарма. Мысалы: Бер жағына бір кірпіштен соң бір кірпішті қойып, телмірген көздерден денесін жасыра бастады (М. Әуезов). Қалаға барып ескі көздерді көрген соң, қыресіңнен шығып кетті. Бүгінгі күн түрленген қынаулымын, айналамда көз де көп сынаулымын. Әжесі тірі болған күн Қасымның көңілінен сұлу сағымдай, жазғы-тұрғы мамық түсті бұлттай болып, қайта оралмастай боп жоғала бастады. Қасымның үміті, жарық күні де батты,. Сізді мен күткемін, ол кезде сіз үшін кіммен болса да, кетісуге шыдағамын. Бірақ ол күндер өтті. Бұл үзіндідегі көз және күн сөзінің екеуі де көп мағыналы. Екеуінің осылай түрлі-түрлі мән алуы көбінесе көркем әдебиет стилінің табиғатымен тығыз байланысты. Өйткені, жазушы мұнда әрбір тілдік құбылысты белгілі бір көркемдік мақсатта қолдануға тырысады. Ал ондайға әдетте көп мағыналы сөздер бейімірек. Мысалы, жоғарыда келтірілген көз сөзі әуелі адам деген ұғымды, одан соң таныс мағынасын, соңғы сөйлемде ел (жұрт) мәнін білдіріп түр. Көз есімінің әр алуан мағынасын осылай түрліше ыңғайда пайдалану -- жалпы сөз қайталаудан қашқандық. Көп мағыналы күн сөзінің стильдік қолданылу аясы бұдан да әр тарап. Соны авторлар көркем әдебиет стилінде өте шебер пайдаланады. Ілгерідегі мысалда күн сөзі кез, уақыт (шақ) мәнінде алынған. Бірақ стильдік жатықтығы жағынан әжесі тірі болған кез (уақыт) деуден гөрі әжесі тірі болған күн деген ұтымдырақ. Сондай-ақ қайғысыз, қамсыз шағы (кезі), ол кез (ондайға бел байлаған кез), ол уақыт дегенге қарағанда, үмітті жарық күні, ол күндер (өтті) деп алғанның көркемірек екенін, стильдік жағынан ұтымдылығын оңай байқауға болады. Әсіресе күн есімінің көп мағыналылығы сөйлеу стилінде, өте-мөте көркем әдебиет стилінде жан-жақты көрінеді. Ол тіпті бір ғана Абай өлеңдерінің өзінде неше алуан стильдік астар береді. Солардың (бәрі емес) кейбірі мына төмендегі тәрізді: Не күн туды басыңа... Не қорлық, құр қылжаңмен күн өткізбек... Ит қорлық немене екен сүйткен күні... Сасып қалдым күн тығыз Тың тұяқ күнім сүйтсе де Қор болды жаным Сенсіз де менің күнім... Біреуінің күні жоқ біреуінсіз (Абай). Күн сөзі мұнда не зор (туды), қиын-қыспақ не жағдай, уақыт, кез, өмір, келешек деген тәрізді мағыналарда жұмсалған.

1.3 Лексикалық таңдау және есептің қамту аймағы

Лексикалық таңдау бұл негізгі тілдегі берілген сөзді мақсат тілге адекватты аударудағы таңдау есебі. Лексикалық таңдау (Lexical selection) есебі лексикалық көпмәнділік (word-sense disambiguation, WSD) есебімен байланысты (IDE и Veronis, 1998). Лексикалық таңдау есебінің лексикалық көпмәнділік есебінен айырмашылығы мұнда біртілді аудармадағыдай тек мағыналық аударманың дұрыстығын тексермей, сонымен қатар екі тілдің арасындағы сәйкесінше адекватты аудармасын табу болып табылады. Осылайша, егерде барлық мағыналар бірдей ақырғы аударманың нәтижесі болмаса, көптеген ұсақ мағыналардың арасында таңдау қажет болмайды. Бірақ бір мағына беретін әртүрлі аудармалардың арасында таңдау қажет болуы мүмкін, мыс.: сөз тіркестері арасында. Бір сөздің бір немесе одан да көп аудармасы болуы мүмкін (синонимдер секілді) 1 кестеде келтірілген.. Испан тілінен Каталон және Португал тілдеріне аудару барысында estación сөзінің әртүрлі түсініктемелерін қарастырудың қажеті жоқ. Бірақ Италиан тіліне аудару барысында (station немесе resort) және (season) сөздерінің арасында бұл қажет болады. Француз, Румын және Баск тілдерінің арасында айырмашылық болады. Сөз таптарын белгілеуден айырмашылығы мұнда сөз таптарын анықтау арқылы әртүрлі аудармалардың арасында таңдау жасау бұл мәселені шешпейді және егер де ең көп сәйкес лемма (сөз таптары және басқа сәйкес грамматикалық ақпарат) анықталған болса да, бірдей лемманың мүмкін болатын әртүрлі аудармалардың арасында көпмәнділікті шешу қажеттігі туындайды. [6]
Лексикалық таңдау проблемасының ауқымын анықтау қиын. Ол қойылған еспке байланысты. Аудармадағы көпмәнділіктің лексикалық таңдау саны тілідік жұп немесе домен секілді жалпы айнымалыларға байланысты өзгеріп отырады, және жүйедегі екітілді сөздіктің өлшемі секілді арнайы айнымалылар, әрбір сөз үшін сәйкес аударма саны. Сонымен қатар проблеманың ауқымына жалпы идея бере кетуге, және лексикалық таңдаудың ассимиляцияға және диссимилицияға қалай әсер ететінін мысал ретінде келтіруге болады.

1-кесте. estación Испан сөзінің бірнеше аудармаларының мысалы

Тіл
Түсініктеме

A
B
C
Ағылшын
station
Resort
Season
Каталон
Estació
Португал
Estação
Италиан
Stazione
stagione
Француз
{gare, station}
Station
Saison
Румын
{gară, stație}
Stațiune
sezon
Баск
Geltoki
Estazio
Urtaro

Жақын байланысты тілдер арасында, түсініктемелер жиынында ең көп қиылысулар кездеседі. Бірнеше мағына тек бір ғана аудармаға ие бола алады, және бір мағынаның бірнеше аудармалары болу мүмкін. Аудармалар арнайы көп түсініктемелермен бейнеленуі мүмкін, мыс.: gare, gară Француз және Румын сөздері `train station' сөздеріне және Басктік estazio сөзі ski resort' сөзіне қолданады.
Кең ауқымды жалпы-нәтижелік Дат тілінен Ағылшын тіліне аудару жүйесінің егесі Бикпен (2007) сипатталған болатын. Негізгі сөз қоры (НТ Дат тілінде) 107,565 және аудармасы 155,593 сөз Ағылшын тілінде болды. НТ 26,872 сөздің бірден көп аудармасы болды, әрбір көпмағыналы сөз үшін орташа мән 3,1 (Bick, p.c.). Ең көп тараған soette `put, set, sit, repair, ...' көпмағыналы сөздерінің 89 мүмкін болатын аудармасы болды.

2 ЛЕКСИКАЛЫҚ КӨП МӘНДІЛІКТІ ШЕШУ ӘДІСТЕРІН ЖӘНЕ ШЕШІМ АЛГОРИТМІН ТАҢДАУ
2.1 Автокөлік өнеркәсібінде аудармадағы лексикалық көп мәнділікті шешу әдістерінің негізгі түрлері

Лексикалық көпмәнділікті шешу (word sense disambiguation, WSD) - табиғи тілдерді өңдеудегі шешілмеген есеп. Басты мақсаты - берілген мәнмәтінге (контекст) байланысты көпмәнді сөздің мағынасын немесе сөз тіркесін таңдау. Дискурсивті анализдегі іздеу жүйелері нәтижелерінің сәйкестілігін оңтайландыру барысында, анафоралық меңзеуді шешу барысында, мәтіннің лингвистикалық когеренттілігін зерттеу барысында, ойқорытуға талдау жасау барысында орын алады. [7]
Лексикалық көпмәнділікті шешудің ғылыми зерттеулері қолданбалы және компьютерлік лингвистика саласында көп уақыттан бері кезедеседі. Уақыт өте келе лексикалық көпмәнділікті шешуде көпмәнділіктің белгілі түрлері мен сөз спектрі салыстырмалы тиімділік көрсеткіштеріне жетпейінше көптеген әдістер мен тәсілдер ұсынылды. Қазіргі таңға дейін мәселені шешуде толық шешім табылған жоқ, себебі есептің дұрыс шешімін табу барысында адами сөздің тілдік ерекшеліктеріне байланысты көптеген мәселелер туындайды.
Білімге, ережелерге, лексикографиялық дереккөздерге негізделген, мәтін корпусынан үйретуші (training) көмегімен үйренуге негізделген әдістерден бастап, мағынаға неггіздеглен сөздерді класстарға бөлетін үйретушісіз үйрену тәсіліне дейінгі көптеген әдістер зерттелді. Аталаған әдістердің ішіндегі қазіргі таңда үйретуші (training) көмегімен үйрену әдісі жоғарғы тиімділікті берді. Алайда, әдістерді салыстыру және оларға баға беру қиын процесс болып табылады. Жалпылама жүйелер үшін сөздік білім жүйелерінің (ағылшын тілі үшін) тиімділігі 90 % асады , кейде 96 % жетеді. Дифференциальды сөздік жүйелері үшін тиімділік 59 %-69 % шамасында.
Көп мәнділік дегеніміз - берілген сөздің бірнеше мағынасының бар болуы. Көп мәнділіктің бірнеше түрлері бар: лексикалық, синтаксистік және сөз табындағы көпмәнділік. WSD термині лексикалық көп мәнділікті шешуге неізделген.
Көп мәнділікті байқау үшін келесі мысалдарға назар салайық:
Көз - тірі нәрсенің көзі. Көз - жаны жоқ нәрселерге қоланылады.
Мәнмәтін (контекст): Көзіне көзілдірік тағып алған. Білім көзін табу - өте қиын. Бұлақ көрсең көзін аш.
Лексикалық көп мәнділікті шешу процессі сөздің көп мағыналарын анықтау үшін сөздіктер жүйесінің және мәтін корпустарының болуын талап етеді.

Әдістердің негізгі түрлері

Табиғи тілді өңдеу барысында екі түрлі тәсіл қолданылады: тереңдетілген және беткейлік.
Бірінші топқа жататын тәсілдер әлем туралы білімге (world knowldge немесе commonsense knowledge base) жорамал жасайды. Бұл тәсіл де әр кезде жұмыс жасай бермейді.
Көп мәнділікті шешдің төрт негізгі әдісі бар:
Білімге негізделген әдіс (dictionary - және knowledge-based methods): бұл әдіс сөздіктердің, тезаурустардың, лексикографикалық мәліметтер қорының болуын талап етеді. Мәтін корпусын талап етпейді.
Үйретуші (training) көмегімен үйрену әдісі (supervised methods): классификаторды үйрету үшін белгіленген мәтін корпустарын қолданады.
Үйретушімен жартылай үйрену әдісі (ағл. Semi-supervised learning) (semi-supervised немесе minimally-supervised methods): екінші деңгейлі білімді (мағлұматты) қолданады, яғни сөзді түсіндіру үшін қолданылатын терминдардың анықтамасы мен теңестірілген екі тілді корпус.
Үйретушісіз үйрену әдісі (Unsupervised methods): сыртқы дереккөздерін қолданбайды, тек raw unannotated corpora-ны қолданады. Word sense discrimination терминімен танымал.

2.2 Лексикалық көп мәнділікті шешуде қолданылатын Леск алгоритмі

Леск алгоритмі - 1986 ж. Майкл Лесктің ұсынған лексикалық көпмәнділікті шешудің білімге негізделген классикалық алгоритмі. Майкл Леск машина оқи алатын сөздіктерді қодану арқылы ағылшын тіліндегі сөздерді және оның мәнін салыстыру есебін шешуге тырысты. Әдіс қолданылған сөзді мәнмәтінді ескере отырып, сөз мағынасын анықтама сөздігі тізімінен іздеуге негізделді. Сөз мағынасын таңдаудағы негізгі талап келесі ереже болды: мағына мәнмәтіндегі жақын сөздер мағынасына сәйкес болуы керек.[18]
Леск әдісі - сөздіктерді қолдануға негізделген өте тиімді әдіс. Мәтінде кездесетін жақын сөздер бір-бірімен тығыз байланысты және бұл байланысты сөзді және сөз мағынасын анықтауда қолдануға болады деген гипотезаға негізделген. Екі (немесе одан да көп) сөз жақын болуы мүмкін, егер екеуінің де сөздіктегі анықтамасында сөздерінің қиылысуы жоғары болса. Мысалы, pine cone сөз тіркестерінің анықтамасында evergreen және tree сөздері кезедеседі. Бірінші әдіске ұқсас, WordNet-тен әрбір мағына жұбы үшін семантикалық жақындықты есептеу арқылы сөздер арасындағы ауқымды байланысты қолдануға болады.[10]
WordNet-ке негізделген семантикалық жақындық әдісін (ағыл. semantic similarity) жоғарыда келтірілген әдістерге сәйкес келетін әдіс ретінде қодануға болады. Графты және активацияларды тарату әдісін (ағыл. spreading activation) қолданатын әдістер жақсы нәтиже көрсетті: үйретуші (training) көмегімен үйрену әдісіне сәйкес келетін, кейде ол әдістен асып түсетін нәтижелер көрсетті. Егер лексикалық қор бай болатын болса графтардың байланысына негізделген әдістердің өзі жақсы нәтиже бере алатынын көрсетті. [11]
Кейде әдістерді басқару әдісін (selectional preferences немесе selectional restrictions) де қолдану өте тиімді болады. Мысалы, балық мағынасындағы bass сөзі cook немесе eat сөздерімен жиі кезедеседі. I am cooking bass секілді сөйлемде көпмәнділікті шеше аламыз. Алайда, бұған ұқсас әлем жайлы білімді қолдану өте қиын әрі мүмкін емес.
Негізгі Леск алгоритмі қысқа сөз тіркестеріндегі көпмәнділікті шешеді. Көпмәнділігі шешілуі тиіс сөздің мағынасы сөздіктегі анықтамасы немесе түсініктемесі (gloss) сөз тіркесіндегі басқа сөздермен салыстырылады. Сөз ... жалғасы

Сіз бұл жұмысты біздің қосымшамыз арқылы толығымен тегін көре аласыз.
Ұқсас жұмыстар
Қазақ тілінен ағылшын тіліне машиналық аударудағы лексикалық таңдауды шешу жолдарының моделдері мен әдістерін жасау
Аудитордың мәнділік деңгейін қарастыруы
Дағдыларды дамытуға арналған подкасттарды студенттерге оқыту, сөйлеу және тыңдату
Қазақша ымдау тілінің лексикалық ерекшеліктері
Компьютерлік технологияларды қолданудың артықшылықтары
Топтап оқыту технологиясы
Ағылшын тілі сабағында оқу - танымдық құзыреттілікті қалыптастыру тәсілдері мен түрлерін ашу
Информатика пәнінен дәрістер кешені
Лексикография
Сөз мәдениетінің түпқазығы тілдік тұлға
Пәндер