Машиналық аударма



Жұмыс түрі:  Курстық жұмыс
Тегін:  Антиплагиат
Көлемі: 24 бет
Таңдаулыға:   
Менеджмент, бизнес және білім колледжі ЖШС

Машиналық аударма
Курстық жұмыс

студентки 32 группы.
Орлова В.А
К защите
___________________________
Научный руководитель
Арефьева О.Н.

Нұр-Сұлтан 2022.
МАЗМҰНЫ

КІРІСПЕ ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...3
I БӨЛІМ. МАШИНАЛЫҚ АУДАРМА ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 5
1.1 Практикалық тапсырма ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ..6
II БӨЛІМ. МАШИНАЛЫҚ АУДАРМА ТАРИХЫ ... ... ... ... ... ... ... . ... ... ..8
III БӨЛІМ. МАШИНАЛЫҚ АУДАРМА ЖҮЙЕЛЕРІНІҢ ЖҰМЫС ІСТЕУ ПРИНЦИПТЕРІ ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .13
IV БӨЛІМ. МАШИНАЛЫҚ АУДАРМА ЖҮЙЕЛЕРІНІҢ ЖІКТЕЛУІ..20
4.1 Машиналық аударма бағдарламалары ... ... ... ... ... ... ... ... ... ... ... ... ... 20
ҚОРЫТЫНДЫ ... ... ... ... ... ... .. ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 25
ПАЙДАЛАНЫЛҒАН ӘДЕБИЕТТЕР ТІЗІМІ ... ... ... ... ... ... ... . ... ... ... ... ..27

КІРІСПЕ

Аударманың ұзақ тарихы бар. Оның тамыры ата-ана тілі жеке тілдерге ыдырай бастап, бірнеше тілді білетін және әртүрлі тілдік қауымдастықтар өкілдерінің қарым-қатынасында делдал бола алатын адамдар қажет бола бастаған сонау дәуірлерден бастау алады. Белгілі аударматанушы ғалым А.Д. Швейцер аударманы мақсатты талдауға ұшыраған бастапқы мәтін негізінде қосалқы мәтін (метамәтін) болатын тіларалық және мәдениетаралық қатынастың бір бағытты және екі фазалық процесі деп анықтайды; ол басқа тілдік және мәдени ортадағы бастапқы мәтінді алмастыра отырып жасалады; бұл - екі тіл, екі мәдениет пен екі коммуникативтік жағдаяттар арасындағы айырмашылықтармен ішінара өзгертілген бастапқы мәтіннің коммуникативті әсерін жеткізуге сипатталатын үдеріс.
Аударматану алғаш рет 1930 жылдары тіл білімінің бір саласы ретінде дербес пән ретінде қалыптасты. Қазіргі уақытта бұл ғылыми зерттеу саласының қалыптасқан дәстүрлері бар. Теориялық және лингвистикалық тұрғыдан алғанда, аударматану әлеуметтік лингвистикаға, психолингвистикаға, салыстырмалы лингвистикаға, мәтін грамматикасына бағытталған, және тіл мен ойлау, тіл мен дүниетаным, тіл мен мәдениет сияқты тіл ғылымының маңызды бөлімдерін қарастырады.
ХХІ ғасыр адамзаттың ақпараттық кеңістігінде жаңа міндеттер қойып отыр. Бұқаралық ақпарат құралдарының арқасында аударманың адамзат өміріндегі рөлі ұдайы артып келеді. Бүгінгі таңда аударма қатынастары адам қызметінің барлық дерлік салаларын қамтиды. Ақпарат ағындарының қозғалысы не шекараны, не уақытты, не кеңістікті де білмейді.
Аударма ұғымымен қамтылатын қызмет аясы өте кең. Әртүрлі білім салаларындағы өлеңдер, көркем әдебиеттер, ғылыми және ғылыми-көпшілік кітаптар, дипломатиялық құжаттар, іскерлік мақалалар, саяси қайраткерлердің мақалалары мен ділмарлардың сөздері, газет материалдары, әртүрлі тілде сөйлейтін және көмекке жүгінуге мәжбүр болған адамдардың әңгімелері бір тілден екінші тілге аударылады. аудармашы, фильмдер дубляждалады. Ақпараттық-коммуникациялық арналар ағыны ұлғайған сайын, бұл ақпаратты бір тілден екінші тілге аудару қажеттілігінің артуы әбден қисынды. Сонымен қатар, ақпарат алу үшін, мысалы, шетелдік веб-сайтта маманның көмегіне жүгіну әрдайым дұрыс емес. Сондықтан аударма үдерісін автоматтандыруға деген ұмтылыс әбден заңды, ал машиналық аударма мәселелері өте өзекті және болашақта бұл өзектілігін жоғалтпайды.
Аударма жүзеге асырылуы мүмкін:
1. бір тілден екінші тілге - төл емес, туыстас, жақын туыс;
2. әдеби тілден оның диалектісіне және керісінше, немесе бір тілдің диалектісінен екінші әдеби тілге;
3. көне дәуір тілінен қазіргі күйінде берілген тілге (мысалы, ескі ағылшын тілінен қазіргі ағылшын тіліне және т.б.).
Айта кететін жайт, - тек 1-нші тармақ машиналық аудармаға тән, себебі экономикадан белгілі болғандай, сұраныс ұсынысты тудырады: аудармашылық бағдарламаға сұраныс, айталық, ағылшын немесе неміс тілінен орыс тіліне, кез келген ата тілден аудармаға сұраныстан әлдеқайда асып түседі.
Жұмыстың мақсаты қазіргі заманғы машиналық аударма мәселелерін қарастыру болып табылады. Ол үшін алдымен лингвистер мен әзірлеушілер машиналық аударманың қысқаша тарихында шешуге қол жеткізген проблемаларды, содан кейін қазіргі уақытта олардың алдында тұрған мәселелерді талдау қажет.

I БӨЛІМ: МАШИНАЛЫҚ АУДАРМА

Машиналық аударма - бір табиғи тілдегі мәтінді басқа тілдегі эквивалентті мәтінге түрлендіру үшін компьютерде орындалатын әрекет, сондай-ақ осындай әрекеттің нәтижесі. Заманауи машиналық, немесе автоматты аударма адамның көмегімен жүзеге асырылады: аударылатын мәтінді қандай да бір жолмен алдын ала өңдейтін алдын ала өңдеуші, аударма процесіне қатысатын аралық редактор немесе машинамен аударылған мәтіндегі қателер мен кемшіліктерді түзететін пост-редактор.
Машиналық аударманы орындау үшін компьютерге аударма алгоритмін жүзеге асыратын арнайы бағдарлама енгізіледі. Ол мәтін бойынша L1 - L2 тілдерінің берілген жұбындағы аударма сәйкестіктерін табу үшін мәтінде бір мәнді және қатаң анықталған әрекеттер тізбегін жүзеге асырады. Машиналық аударма жүйесі эквивалентті, нұсқалық және трансформациялық аударма сәйкестіктерін тасымалдауды қамтамасыз ету үшін қажетті грамматикалық ақпаратпен (морфологиялық, синтаксистік және семантикалық) жабдықталған екі тілді сөздіктерді, сондай-ақ автоматты түрде қабылданған кез келген формальды грамматикаларды жүзеге асыратын алгоритмдік мәтінді өңдейтін грамматикалық талдау құралдарын қамтиды. Сондай-ақ үш немесе одан да көп тілде аударуға арналған дербес машиналық аударма жүйелері бар, бірақ олар қазіргі уақытта істәжірибелі
Сондай-ақ машиналық аударманың сапасына назар аударған жөн. Ол түпнұсқа мәтіннің тақырыбы мен стиліне байланысты. Еркін әдеби мәтіндердің машиналық аудармасы әрқашан дерлік қанағаттанарлықсыз сапада болып шығады. Осыған қарамастан, техникалық құжаттар үшін белгілі бір тақырып бойынша арнайы машиналық сөздіктер болған жағдайда және жүйені мәтіннің белгілі бір түрінің ерекшеліктеріне қарай аздап түзету кезінде әбден жарамды сапада аударма алуға болады. Бұл жағдайда машиналық аударманың нәтижесі аз ғана редакциялық түзетімді қажет етеді. Бастапқы құжаттың стилі неғұрлым формалды болса, соғұрлым сапалы аударма алуға мүмкіндік бар. Техникалық (әртүрлі сипаттамалар мен нұсқаулықтар) және ресми ісқағаздар стилінде жазылған мәтіндерді аударуда машиналық аударманы пайдалану ең үздік нәтижелерге әкеледі.
язык перевод машинный
1.1 ПРАКТИКАЛЫҚ ТАПСЫРМА

Бұл сөздерді растау үшін көркем мәтіннің шағын үзіндісінің аудармаларына мысал келтіру керек. Содан кейін электронды аудармашы мен адам аудармашы жасаған аудармаларды салыстыру керек.
The shore was fledged with palm trees. These stood or leaned or reclined against the light and their green feathers were a hundred feet up in the air. The ground beneath them was a bank covered with coarse grass, torn everywhere by the upheavals of fallen trees, scattered with decaying coconuts and palm saplings. Behind this was the darkness of the forestбproper and the open space of the scar. Ralph stood, one hand against a greyбtrunk, and screwed up his eyes against the shimmering water. Out there, perhaps a mile away, the white surf flinked on a coral reef, and beyond that the open sea was dark blue. Within the irregular arc of coral the lagoon wasбstill as a mountain lake-blue of all shades and shadowy green and purple. The beach between the palm terrace and the water was a thin stick, endless apparently, for to Ralph's left the perspectives of palm and beach and water drew to a point at infinity; and always, almost visible, was the heat. (William Golding "Lord of the Flies").
Төменде осы әдеби мәтіннің Е.А. Сурицпен жасалған аудармасы келтірілген.
Жағажай пальмалармен көмкерілген. Олар тұрып, еңкеюде, сәулелерге салбырап, жасыл қауырсындары жүз фут биіктікте ілулі тұрды. Олардың астында тамыры жұлынған, ісінген қатты шөп өсіп, шіріген кокос жаңғақтары жатыр, мұнда да, анда да жаңа туған өскіндер жол тартты. Артта орманның қараңғылығы мен соқпақтың жарқыраған ойығы болды. Қолын сұр діңгекте ұмытқан Ральф қатып қалды, жарқыраған суға сығырая қарады. Сол жерде, бәлкім, бір миль жерде маржан кедертасында ақ қайнаған соқпа толқыны додаланып жатыр, ал одан әрі ашық теңіз терең көк түске айналды. Маржандардың кедір-бұдыр доғасында лагуна тау көліндей тыныш жатты, әр түрлі түсті - көгілдір, көлеңкелі жасыл және қызғылтым. Пальма террасасы мен теңіз арасындағы құм жолағы ешкім білмейтін жіңішке садақ сияқты жыта жөнелді және Ральфтың сол жағында шексіздікте бір жерде ғана пальмалар, су және жағалау бір нүктеге тұтасты; және көзге көрінетіндей дерлің шыжыған аптап айналып жүзіп жүр.
Ал төменде PROMT аудармашы арқылы дәл сол үзіндіні аудару нәтижесі берілген.
Жағажай пальмалармен жабылған. Олар тұрды немесе еңкейді немесе жарыққа сүйенді, ал олардың жасыл қауырсындары ауада жүз фут болды. Олардың астындағы жер дөрекі шөппен жабылған, әр жерде құлаған ағаштардың сілкінісінен жыртылған, шіріген кокос жаңғағы мен пальма ағаштарының көшеттері шашыраңқы болды. Мұның артында дұрыс ағаштың қараңғылығы мен тыртық ашық кеңістік болды. Ральф тұрып, бір қолымен сұр сандыққа қарсы тұрды да, жылтылдаған суға көзін қаратты. Сол жерде, бәлкім, бір миль жерде маржан рифінде ақ серф жарқырап тұрды, ал көгілдір судың үстіне қою көгілдір түсті. Маржанның біркелкі доғасында лагуна әлі де тау сияқты болды, әр реңктегі көк көл, қою жасыл және күлгін. Пальма террасасы мен су арасындағы жағажай жұқа таяқша еді, шамасы шексіз, Ральфтың сол жағында пальма ағашының көрінісі, ал жағажай мен су шексіздік нүктесіне дейін тартылды; және әрқашан, көрінетін, жылу болды.
Аудармалардың біршама ерекшеленетінін байқауға болады. Алғашқы аудармада дұрыс грамматикалық және синтаксистік құрылымдар сақталған. Екінші мәтіндегі сөздердің көпшілігі бір-бірімен байланыспайды. Әрине, мәтіннің негізгі ойы мен идеясы анық, - ол қоршаған табиғаттың суреті. Дегенмен, көптеген ережелер сақталмаған. Осыдан қорытынды шығаруға болады. Машиналық аударма жүйесі жетілдірілмеген. Адам факторының маңызы зор. Екінші мәтін егжей-тегжейлі зерттеу мен түзетуді қажет етеді.
II БӨЛІМ. МАШИНАЛЫҚ АУДАРМА ТАРИХЫ

Алдымен машиналық аударма тарихындағы кейбір маңызды күндерді белгілеу қажет:
1947 ж. - машиналық аударманың ғылыми бағыт ретінде туған күні. Рокфеллер қорының жаратылыстану ғылымдары бөлімінің директоры Уоррен Уивер Норберт Винерге хат жазды, онда ол мәтіндерді бір тілден екінші тілге аудару міндетін дешифрлеу техникасын қолданудың басқа саласы ретінде қарастырды. Бұл хат артынан талай талқылауларға ұласты.
1947 ж. - А. Бут пен Д. Бриттен сөзбе-сөз машиналық аудармаға арналған егжей-тегжейлі кодты әзірледі.
1948 ж. - Р. Риченс сөз формаларын түбірге және жалғауға бөлу ережелерін ұсынды.
1952 ж. - Массачусетс технологиялық институтында машиналық аударма бойынша бірінші конференция өтеді.
1954 ж. - бірінші машиналық аударма жүйесі енгізілді, - IBM Mark II - орысша-ағылшынша, 250 бірлік сөздігіне және 6 грамматикалық ережеге ие болды. Одан кейінгі онжылдық машиналық аударманың қарқынды дамуына ұласты.
1967 ж. - АҚШ-та арнайы құрылған Ұлттық ғылым академиясының комиссиясы АҚШ-тағы аудармалардың нақты жағдайына және әртүрлі аударма әдістерінің құнының көрсеткіштеріне сүйене отырып, машиналық аударма тиімсіз деген қорытындыға келді. Есеп, жалпы алғанда, МА дамуын айтарлықтай баяулатты.
70-жылдар - МА саласындағы жұмыстардың жаңа өрлеуі. Есептеу техникасының дамуымен лингвистикалық алгоритмдерді машиналық жүзеге асырудың жаңа мүмкіндіктері пайда болды.
80-ші жылдар - дербес компьютерлердің жұмыс уақыты әлдеқайда арзандады, машиналық аударма ақыры экономикалық тұрғыдан тиімді бола бастады.
90-шы жылдар - Интернеттің пайда болуымен және қарқынды дамуымен байланысты машиналық аудармаға қызығушылықтың тағы да артуы байқалады. Онлайн аударма мүмкіндіктері тілдік кедергіні жеңуге және шетелдік сайттарды шарлауға мүмкіндік береді.
Енді осы фактілерді толығырақ қарастырайық:
Машиналық аударма мүмкіндігі туралы идеяны алғаш рет ағылшын математигі Чарльз Бэббидж (1791-1871) білдірді. Ол 1836-1848 жылдары сандық аналитикалық машинаның жобасын - 100 жылдан кейін пайда болған электрондық цифрлық компьютерлердің механикалық прототипін әзірлеген. Чарльз Бэббидждің идеясы - 1000 50-разрядты ондық сандар көлемі бар жадыны сөздіктерді сақтау үшін пайдалануға болады. Бэббидж бұл идеяны Британ үкіметінен өзі құрастыра алмаған аналитикалық қозғалтқыштың физикалық іске асуы үшін қажетті қаражатты сұраудың негіздемесі ретінде келтірді.
Аударма үшін электронды-есептеуіш машиналарды пайдалану идеясы 1946 жылы алғашқы компьютерлер пайда болғаннан кейін бірден айтылды. Зерттеу саласы ретінде МА-ның туған күні әдетте 1947 жыл болып саналады: барлығы Рокфеллер қорының жаратылыстану ғылымдары департаментінің директоры Уоррен Уивердің сол жылдың наурыз айында Норберт Винерге жазған хатынан басталды. Бұл хат талай талқылауларға ұласты, мақсаттар меморандумы пайда болды, ақыры, ғылыми зерттеулерге қаражат бөлінді. Машиналық аударманың алғашқы көпшілікке көрсетілімі (Джорджтаундық тәжірибе делінетін) 1954 жылы өтті. Бұл жүйенің қарабайырлығына қарамастан (150 сөзден тұратын сөздік, 6 ережеден тұратын грамматика, бірнеше қарапайым сөз тіркестерінің аудармасы) бұл эксперимент кең жаңғырық алды: зерттеулер Англия, Болгария, ГДР, Италия, Қытай, Франция, Германия, Жапония және басқа елдерде басталды; сонымен қатар сол 1954 жылы КСРО-да.
Машиналық аударма жүйелерінің бірінші буыны сөзбе-сөз, сөйлемнен сөйлемге сияқты бірізді аударма алгоритмдеріне негізделді. Мұндай жүйелердің мүмкіндіктері компьютердің жады көлеміне тікелей тәуелді сөздіктердің қолжетімді өлшемдерімен анықталды. Мәтіннің аудармасы жеке сөйлемдермен жүргізілді, олардың арасындағы мағыналық байланыстар ешқалай ескерілмеді. Мұндай жүйелер тікелей аударма жүйелері деген атқа ие. Уақыт өте келе олардың орнын кейінгі буын жүйелері алмастырды, оларда тілден тілге аудару синтаксистік құрылымдар деңгейінде жүзеге асырылды. Аударма алгоритмдері аударылған сөйлемді талдай отырып, оның синтаксистік құрылымын кіріс сөйлем тілінің грамматикалық ережелеріне сәйкес құрастыратын (орта мектепте балаларға тіл үйрететін сияқты), содан кейін оны синтаксиске айналдыратын операциялар жиынтығын пайдаланды. Мұндай жүйелер Т-жүйелер деп аталады (ағылшынның transfer - түрлендіру деген сөзінен).
Кіріс сөйлемнің кейбір тілден тәуелсіз мағыналық көрінісін оның семантикалық талдауы арқылы алуға негізделген машиналық аударма жүйелерін құру тәсілі ең жетілген тәсіл болып саналады. Содан кейін алынған семантикалық бейнелеуге сәйкес шығыс сөйлем синтезделеді. Мұндай жүйелер И-жүйелер деп аталады (И - интерлингва сөзінен). Машиналық аударма жүйелерінің келесі буындары И-жүйелер класына жатады деп есептеледі.
Дегенмен, мәтіндермен жұмыс істеу алгоритмдерін қалай рәсімдеу және құру керек, машинаға қандай сөздіктерді енгізу керек, машиналық аудармада қандай тілдік заңдылықтарды қолдану керек, жалпы бұл заңдылықтар қандай деген мәселелерде тым көп қиындықтар мен көмескіліктер болды.
Дәстүрлі тіл білімінде аударма мәтінінің мағынасын пайдаланатын машиналық аударма жүйелерін құруға қажетті нақты материал да, идеялар мен түсініктер де жоқ екені белгілі болды.
Дәстүрлі тіл білімі тек семантика тұрғысынан ғана емес, синтаксис тұрғысынан да әуелгі түсінікті бере алмады. Ол кезде ешбір тілге арналған синтаксистік құрылымдардың тізімдері болмаған, олардың үйлесімділігі мен өзара алмасуының шарттары зерттелмеген, кішірек синтаксистік құрылымдардан үлкен бірліктерін жасау ережелері жасалмаған еді. Шын мәнінде, 1950 жылдардағы дәстүрлі тіл білімі машиналық аударма жүйелерін құруға байланысты қойылған бірде-бір сұраққа жауап бере алмады.
Ал 1960 жылдардың ортасына қарай АҚШ-та практикалық қолдану үшін орысша-ағылшынша аударманың екі жүйесі ұсынылды:
:: MARK (АҚШ Әскери-әуе күштерінің шетелдік технологиялар департаментінде);
:: GAT (Джорджтаун университеті жасаған, Оук-Ридж қаласындағы Ұлттық атом энергиясы зертханасында және Италиядағы Испра қаласында, Еуратом орталығында қолданылады).
Алайда мұндай жүйелерді бағалау үшін құрылған ALPAC комиссиясы машинамен аударылған мәтіндердің сапасының төмендігіне байланысты бұл іс АҚШ-та тиімсіз деген қорытындыға келді. Комиссия теориялық зерттеулерді жалғастыруды және тереңдетуді ұсынғанымен, жалпы алғанда, оның қорытындылары торығушылықтың күшеюіне, қаржыландырудың азаюына, көбінесе бұл тақырыптағы жұмыстың толық тоқтатылуына әкелді.
Соған қарамастан, бірқатар елдерде зерттеулер жалғасты, оған есептеуіш технологияның тұрақты жетістіктері көмектесті. Шағын және дербес компьютерлердің пайда болуы ерекше маңызды фактор болды, олармен бірге табиғи тіл деректерімен жұмыс істеуге бағытталған сөздік, іздеу және т.б жүйелер барған сайын күрделене түсті. Халықаралық қатынастардың өсуіне байланысты жалпы аудармаға деген қажеттілік те өсті. Осының барлығы 1970 жылдардың ортасынан бастап пайда болған осы саладағы жаңа өрлеуге әкелді. 1980 жылдары аударма жүйелерін кеңінен практикалық қолдану уақыты келді және осы тақырып бойынша коммерциялық әзірлемелер нарығы пайда болды.
Әйтсе де, жарты ғасыр бұрын адамзат баласының машиналық аударма міндетін қолға алған армандары негізінен арман болып қала береді: кең ауқымдағы мәтіндерді сапалы аудару әлі де қолдан келмейді. Дегенмен, аудармашы жұмысын машиналық аударма жүйелерін пайдаланған кезінде жеделдетуі сөзсіз: 1980 жылдардың аяғындағы бағалаулар бойынша, бес есеге дейін.
1990 жылы машиналық аударманың маманы Ларри Чайлдс машиналық аударма жүйелерінің келесі классификациясын ұсынды:
:: FAMT (Fully-automated machine translation) - толықтай автоматтандырылған машиналық аударма;
oo HAMT (Human-assisted machine translation) - адамның қатысуымен машиналық аударма;
:: MAHT (Machine-assisted human translation) - адам компьютер көмегімен жүзеге асыратын аударма.
Қазіргі уақытта көптеген коммерциялық машиналық аударма жобалары бар. Машиналық аударма саласындағы алғашқылардың бірі Systran компаниясы болды.

III БӨЛІМ. МАШИНАЛЫҚ АУДАРМА ЖҮЙЕЛЕРІНІҢ ЖҰМЫС ІСТЕУ ПРИНЦИПТЕРІ

Ақпарат мәтіннен төлсипаттар жиынтығы негізінде алынады: морфологиялық, синтаксистік, лексикалық, семантикалық және т.б. Мәтінде төлсипаттар анық көрсетілмеген, алдымен оларды шығарып алу керек. Ол үшін ақпаратты алу алгоритмі қолданатын, мәтінді талдаудың әртүрлі түрлері орындалады. Талдау, әдетте, көп деңгейлі сипатқа ие және лингвистикалық процессор модулімен орындалады. Мәтінді талдаудың келесі компоненттері бөлінеді:
- графематикалық талдау (сөздер мен сөйлемдерді таңдап алу);
- морфологиялық талдау;
- синтаксистік талдау;
- семантикалық талдау;
- пәндік аймақтың үлгісін құру (сценарий немесе жағдай).
Әрбір деңгейде мәтін фрагменттеріне жаңа атрибуттар, яғни төлсипаттар тағайындалады. Осы атрибуттар жиынының негізінде ақпаратты шығару алгоритмі мақсатқа сәйкес мәтін үзінділерін іздейді. Әрине, мәтіннің барлық деңгейлерін толық пайдалану әрдайым қажет емес. Мұның бәрі тақырыптық аймаққа, алу керек ақпаратқа, ақпарат көздеріне, сондай-ақ бұл ақпаратты алудың дәлдігі мен толықтығына байланысты. Мысалы, анафораны шешу және кореференттік - өте күрделі мәселер, тіпті олардың шамалас шешімін осы нақты пәндік аймақ туралы білімді пайдалана отырып, кейбір пәндік салаларда ғана алуға болады. Әмбебап алгоритмді айтпағанның өзінде. Сондықтан бұл қадамдар мәтінді талдау қадамдарынан жиі алынып тасталады.
Енді әрқайсысын қарастырсақ:

1. Графематикалық талдау

Графематикалық талдау - әрі қарай морфологиялық және синтаксистік өңдеуге қажетті ақпаратты алуға себептесетін табиғи мәтінді бастапқы талдауға арналған бағдарлама. Графематикалық талдаудың міндетіне мыналар кіреді:
- енгізілген мәтінді сөздерге, айырғыштарға және т.б. бөлу;
- сиректетіп терілген (в разрядку) сөздерді жинақтау;
- сөзтүрлендіруші мүмкіндіктері жоқ тұрақты сөз тіркестерін таңдау;
- аты мен әкесінің аты инициалдармен жазылғанда тегін, атын және әкесінің атын бөлектеу;
- электрондық мекенжайлары мен файл атауларын таңдау;
- енгізілген мәтіннен сөйлемдерді бөлектеу;
- абзацтарды, тақырыптарды, ескертпелерді бөлектеу.

2. Морфологиялық талдау

Морфологиялық талдау алгоритмдері сөздікті және сөздіксіз болып екі топқа бөлінеді. Сөздіксіз алгоритмдер әлдеқайда ықшам және тиімді, бірақ төмен жылдамдыққа ие, сондықтан оларды пайдалану тек қарапайым морфологиялық атрибуттарды анықтау үшін және жоғары дәлдікке талап болмаса ғана орынды. Егер синтаксистік талдауды қолдану ұйғарылған болса, онда жоғары дәлдік міндетті талап болып табылады және сөздікті әдіс қолданылады.
Сөздікті әдіс негіздер мен флексиялар сөздігінің болуын талап етеді. Сөздік бойынша әрбір графема үшін жарамды атрибуттар жиыны іздеп табылады. Егер сөз сөздікте болмаса, парадигманы болжау орындалады (сөздісіз әдістерге ұқсас). Бір графема атрибуттардың бірнеше жиынына сәйкес келуі мүмкін. Мұндай жағдайлар - морфологиялық омонимия - орыс тілінде жиі кездеседі. Бұл мәселені үздік нәтижемен шешуге арналған алгоритмдер бар.
Осыдан бірнеше жыл бұрын компьютерлік морфология деген тіркесті мамандардың тар шеңбері ғана түсінсе, қазір морфология интеллектуалды іздеу жүйесінің ажырамас ... жалғасы

Сіз бұл жұмысты біздің қосымшамыз арқылы толығымен тегін көре аласыз.
Ұқсас жұмыстар
Машиналық аударманың түрі мен стратегиясы
Қазақ тілінен ағылышын тіліне машиналық аудару жүйесін жетілдіру
«қазақ тілінен ағылшын тіліне машиналық аударудың лингвистикалық сөздіктерін apertium платформасының негізінде жасау»
Қазақ тілінен ағылшын тіліне машиналық аударудағы лексикалық таңдауды шешу жолдарының моделдері мен әдістерін жасау
Қазақ тілінен орыс тіліне машиналық аударудың лингвистикалық сөздіктерін Apertium платформасының негізінде жасау
Лексикография
Қазақ тілінен орыс тіліне машиналық аударма жасайтын программалық кешенін өңдеуі (генератор)
Кәсіптік өндірістік практикасын өту туралы есеп
Көркем мәтінді аударудың стилистикалық ерекшеліктерін зерттеу
Аударма - көп мағыналы сөз
Пәндер