Компьютерлік лингвистикаға кіріспе: теория, әдістер және қазақ тіліндегі қолданбалар

Пән: Автоматтандыру, Техника
Жұмыс түрі: Дипломдық жұмыс
Тегін: Антиплагиат
Көлемі: 196 бет
Таңдаулыға:

АЛҒЫ СӨЗ

Табиғи тілдегі ақпараттардың басым көпшілігі сөйлеу тілі түрінде немесе жазба мәтін түрінде кездесетін болғандықтан, табиғи тілдік ақпаратты компьютер арқылы өңдеудің маңызды-лығы артуда. Осы айтылғандарға сәйкес мәселелердің қолданба-лы және теориялық лингвистикаға, қолданбалы филологиялық зерттеу аясына да қатысы бар. Оның қолданбалы филология саласына қатыстылығы - мәтінге түсініктеме беретін ғылымдар қатарына жататындығынан. Сонымен бірге қазіргі кездегі бұқаралық қатынас құралдары мен іс прозасының барынша даму сатысында оның маңыздылығы бұрынғыдан да арта түсуде.

Ақпараттың әрбір түрі өз мазмұны арқылы сипатталады да, бірақ олардың бәрі бірдей машиналық (компьютерлік) көрініске қатысты жалпы заңдылыққа бағынады. Сондықтан информатика ғылымының негізгі міндеті ақпараттың барлық түрін қазіргі техникалық құралдар (компьютерлер) арқылы дайындау, өзгерістер енгізу, ұзақ мерзімге сақтау, тұтынушы қауымға тарату мен оны қолданудың заңдылықтарын зерттеу.

Ғылым ретіндегі информатика саласының кең мағынадағы түсінігі бойынша, ол әлемнің (ғаламның) ақпараттық моделін зерттеу мен құрастыру мәселесімен айналысатын ғылым саласына айналып отыр. Информатика мәселелерінің негіздері тілдік және мәтіндік бірліктердің атқаратын рөлімен жанасып жатады. Бұл бірліктер ең кіші құрастырылымдардан бастап, олардың ең ірілерін қоса есептегенде барлық тілдік деңгейлерді қамтиды деуге болады. Тілдің әр деңгейіне және оның толық пішініне немесе ішкі жүйелеріне түсініктеме бере алатын әмбебап сипаттағы лингвистикалық теория әлі де жоқ және ондай теорияның болу-болмауының өзі де күмән туғызады. Сондықтан модельдеу мен зерттеудің нысаны ретінде тіл қызметінің әр аспектілері жеке қарастырылуы керек.

Енді компьютерлік лингвистика саласына тоқталатын болсақ, оны да тіл ғылымының осындай жеке бөліктерін зерттейтін ғылым саласы деуге болады. Компьютерлік лин-гвистика - информатиканың лингвистикалық негіздерін және тілдік байланыстардың барлық аспектілерін, ойлау мен ақиқаттықты модельдеу әрекеттерін компьютерлік програм-малар арқылы тікелей зерттеп танумен айналысатын ғылым саласы. Сол сияқты, компьютерлік тіл білімі тілдік бірлік-тердің сөзден кіші, сөзге тең, сөзден үлкен түрлерін, яғни сөз тіркестерін, сөйлемдерді (айтылымдарды), толық мәтін мәселе-лерін және тілдік әрекеттерді модельдеу проблемаларын зерттейді. Мысалы, соңғы айтылғанға қатысты, мәтін ішіндегі мән-мағынаны анықтау мен бір тілден екінші тілге аудару мәселелерін атауға болар еді. Лингвистикалық автоматтардың мүмкіндіктерінің күннен-күнге артуына байланысты компью-терлік лингвистиканың шешетін мәселелерінің де аясы кеңейіп, тереңдей түсуде. Оның шеңберінде жаңа әдістер мен теориялар тәжірибе жүзінде зерттеліп, сыннан өтуде.

Біз ұсынып отырған оқу құралында “қолданбалы лингвистика”, “инженерлік лингвистика”, “информатиканың лингвистикалық негіздері», «компьютерлік лингвистика» және т. б. терминдер қолданылады. Олардың әрбіреуіне жеке тоқталмай-ақ, бәрінің де «қолданбалы лингвистика» пәнінің аясына сиысып кететінін, оның кең мағыналы екендігін айтуға болады. Қолданбалы лингвистика термині компьютерлік лингвистика мен математикалық лингвистиканы ғана біріктіріп қоймайды, сонымен бірге лингводидактика мен одан да басқа ғылымдар салаларын қамтиды. Жоғарыда аталған терминдер ішіндегі «информатиканың лингвистикалық негіздері» атты терминнің ең тар мағынаға ие екенін ескеру қажет. Оны, шын мағынасында, информатиканың компьютерлік және ақпараттық ғылымдар салаларымен тығыз қатыстылығынан туындайтын лингвистикалық мәселелердің жиынтығы деп те қарастыруға болады. “Компьютерлік лингвистика” терминін аталған екі ұғымның аралығындағы мағынаға ие деуге болады. Ол «инфор-матиканың лингвистикалық негіздеріне» тән мағынадан кең түрде қолданылады. Дәлірек айтқанда, мысалы, ол лингводидак-тикаға көбірек қатысы бар оқыту-үйрету жүйесінің лингвисти-калық мәселелерімен де айналысады. Бірақ “компьютерлік лингвистика” терминінің “қолданбалы лингвистика” терминіне қарағанда мағынасы тар.

Қазіргі кездегі компьютерлік лингвистика саласының кейбір қолданыс табу аясын осы оқу құралында қарастыруды мақсат еттік.

Компьютерлік лингвистика ғылымының құрамы мен құрылымы жайлы пікірлер әлі де болса тұрақтала қойған жоқ. Бірақ мұндай жағдай әр ғылым саласының да бастапқы кезеңіне тән екені белгілі. Сондықтан компьютерлік лингвистика туралы сөз болғанда оны қолданбалы лингвистиканың компьютерге, компьютерлік программалар жазуға, жасанды интеллектіге қатысты мәселелері деп түсінген жөн.

Информатиканың лингвистикалық негіздерін әртүрлі түсі-нікте құрастыруға болады. Мәселен, Ю. Н. Марчук “Основы компьютерной лингвистики”1 атты оқу құралын жазуда өз алдына компьютерлік лингвистикаға байланысты “информати-каны” тілдік деректермен қамтамасыз етудің нәтижелерін жинақтау мен даму болашағын белгілеу мақсаттарын қойған.

Ал қолданбалы тіл білімі бойынша, ең алғаш 1996 жылы С. -Петербургте жарық көрген “Прикладное языкознание” атты оқулықтың2 құрылымы мен мақсат-міндеттері жоғарыда аталған еңбектен басқаша. Онда тіл білімінің қолданбалы саласының негізгі мәселелері (әдістемеліктен жалпығылымдыққа дейін) дербес қарастырылған. Басқаша айтқанда, оқулыққа енген материалдар олардың атқаратын қызметіне қарай топтастыр-ылып, жеке-жеке тақырыптар бойынша көрініс тапқан. Мысалы, “Орфография”, “Автоматизированные обучающие системы”, “Психолингвистика”, “Учебная лексикография”, “Машинный перевод” және т. б.

Аталған оқулықтың оқыту процесіндегі теориялық және әдістемелік артықшылықтарын ескере отырып, біз ұсынып отырған “Компьютерлік лингвистикаға кіріспе” атты оқу құралында да сол құрылымдық және мазмұндық принциптер ұсталынды. Сонымен бірге, ол оқулықтың компьютерлік лингвистикаға қатысты тақырыптары автордың ұғынуынша қазақшаға аударылып, әл-Фараби атындағы Қазақ ұлттық университеті филология факультетінде “Қолданбалы лингвис-тика” мамандығы бойынша оқитын студенттерге (2001 жылдан бері) және Абай атындағы Қазақтың ұлттық педагогикалық университеті қазақ филологиясы факультетінің магистрант-тарына дәріс беруде пайдаланылғанын атауға болады. Оқылған теориялық материалдар қажетті жүйеге келтіріліп, ұсынылып отырған оқу құралына енді. Оның құрылымына келетін болсақ, ол алғы сөзден, кіріспеден, компьютерлік лингвистика саласы-ның маңызды мәселелеріне қатысты 11 күрделі тақырыптан және қорытындыдан тұрады. Әрбір тақырыпқа қатысты пайда-ланылған әдебиеттер тізімі әрбір тақырыпқа қатысты мақаланың соңында берілді.

Әрине, бұл тақырыптардың бәрі бірдей толық дәрежеде баяндалды деуден аулақпыз. Еңбектің негізгі мақсаты - жоғары оқу орындары студенттеріне компьютерлік лингвистика ғылы-мына кіріспе ретінде мәлімет беретін қазақ тіліндегі оқу құралын ұсыну. Ескертпе түрінде айта кететін жайт, оқу құралы мәтінінде кейбір орыс тіліндегі және орыс тілі арқылы енген салалық терминдер автордың өз ұйғаруымен қазақ тіліне аударылып берілді.

К І Р І С П Е

«Компьютерлік лингвистика» термині (computational linguistics), негізінен, тіл қызметін модельдеуге қатысты пайдаланылатын компьютерлік бағдарламалар мен тілдік деректерді өңдеу, сол үшін қажетті компьютерлік технологияны жинақтау және компьютердің араласуына қатысты басқа да тіл зерттеу жұмыстарымен байланысты қолданылады. Кең мағынада алғанда, тіл білімі аясына қатысты теориялық және практикалық мәселелердің шешімін табуға байланысты компью-тердің араласу жағдайларының бәрін бірдей компьютерлік лингвистика саласына жатқызуға болады.

Адам баласының ақпараттық ортада өмір сүретіні белгілі. Ал бұл ортада қабылдаушының жауапты ақпарат бойынша дұрыс шешімге келуіне жағдай жасайтын ақпараттық техноло-гияның түрлері көп. Олар: автоматтандырылған ақпараттық жүйе, бұқаралық коммуникация құралдарына жататын теле-радио байланыс жүйелері, компьютерлік (машиналық) аударма жүйесі, диалогтік жүйе және сұрақ-жауап, т. б. жүйелер. Мұндай жүйелердің саны мен сапасы күннен-күнге артуда. Ақпараттық қоғамдағы тілдік практика мен қазіргі кезеңдегі тілді зерттеу теориясының қолданылу аясы да өсіп келеді.

Тілді зерттеудегі компьютерлік лингвистика саласы қолданбалы тіл білімі атқаратын қызметтердің бір тармағы ғана деуге болады, себебі «қолданбалы тіл білімі» ұғымы көптармақты бола келе, күнделікті өмірде дәстүрлі және жаңаша мағынада кездесіп жүр. Мәселен, бұл ұғым дәстүрлі түсінік бойынша, тіл қызметі мәселелерінің практикалық әдістерін жасауды, яғни жазу мәселесін дамытуды, ауызекі сөйлеудің транскрипциялық жүйесін құруды, шетел сөздерінің транскрип-ция жүйесін жасауды, стенография тәсілдерін дамытуды, арнайы лингвистикалық сөздіктер шығаруды, тарихи ескерткіш-тердегі таңба-жазуларды айқындауды, ғылыми-техникалық терминологияны қалыптастыруды т. б. іс-шараларды қамтиды.

Қолданбалы тіл білімінің жоғарыда сөз болған дәстүрлі саласы қазақ тілінде ойдағыдай дамып, түркі тілдері ішінде көш бастап келеді деуге болады. Ал оның компьютерге байланысты жаңа саласы - «компьютерлік қазақ тіл білімі» әлде де кешеуілдеп дамуда.

Қолданбалы тіл білімінің «статистикалық лингвистика» (квантитативті лингвистика) тарауы бойынша ғылыми ізденістер проф. Қалдыбай Бектаевтың атымен және оның ғылыми мектебімен тығыз байланысты. Қазақ тілінің әртүрлі стильдерінің мәтіндері бойынша, алғашында электронды-есептеу машинасының (ЭЕМ), кейіннен компьютерлердің көмегімен алынған жиілік сөздіктер (әліпбилі жиілік, жиілік, кері әліпбилі) тілдің құрылымдық жағының статистикасы жайында көптеген мәліметтер алуға мүмкіндік туғызды. Осылайша, қазақ тіліндегі бай статистикалық мәліметтер негізінде бірнеше кандидаттық және докторлық диссертация-лардың қорғалғаны көпшілікке мәлім. Бүгінгі таңда А. Байтұр-сынұлы атындағы Тіл білімі институтының «компьютерлік лингвистика» бағыты бойынша қол жеткен ғылыми нәтижелері айтарлықтай деуге болады. Осылардың тек негізгілері деп мынадай ғылыми жұмыстарды атауға болады:

- көркем әдебиет, көсемсөз, ғылыми-көпшілік әдебиет пен оқулықтар мәтіндерінің, алғашында ЭЕМ-ның, кейіннен компьютердің жадына көптеп енгізіліп, олар бойынша арнайы компьютерлік бағдарламалар құрастырылуының негізінде әртүрлі жиілік сөздіктердің алынуы;

- М. Әуезовтің 20 томдық шығармалар жинағының компьютер жадына енгізілуі және соның негізінде жазушы тілінің жиілік сөздіктерінің жарық көруі;

- осы тәрізді жиілік сөздіктердің негізінде қазақ сөздерінің әр стильде және әр көлемді мәтіндерде қайталануының қосынды жиілігінің, сол мәтіндерді қамту статистикасының анықталуы;

- сөзтұлғалардың құрылымдық статистикасы мен мәтіндегі пайыздық салмақтарының әр сөз таптарына қатысты айқын-далуы;

- қазақ тіліндегі негізгі сөз таптарының мәтін бойында кездесулерінің математикалық статистика мен ықтималдық теория заңдылықтарына бағыну-бағынбау жағдайларының зерттелуі;

- қазақ тілінің «ТІЛ - ҚАЗЫНА» атты автоматтандырылған компьютерлік картотекалық қорының іске қосылуы;

- қазақ тіліндегі мәтін мазмұнын оның тұрпатына қарай ашудың (формалдаудың) негізгі принциптерінің айқындалуы;

- Тіл білімі институтында жоспарлы тақырыптар бойынша түзіліп жатқан түсіндірме, екі тілдік, бір тілдік сөздіктер мәтіндерінің компьютер жадында «сөздіктер қорын» құрап, тұрақты сақталуы.

Осы аталған іс-шаралардың қатарын, компьютердің араласуымен орындалған жұмыстардың және компьютерлік тіл білімі саласына қатысты басқа да жұмыстарды атап өтуге болады.

Компьютерлік лингвистика бағыты түркі тілдері үшін тіл зерттеудің жаңа саласы деп есептелгенімен, үнді-еуропа тілдерінде дәстүрлі болып, күнделікті зерттеу мәселелеріне айналған компьютерлік лингвистиканың кейбір жайттарына тіл зерттеудегі жаңаша көзқарасқа қызығушы қауымға бағыштап, арнайы сөз етуді жөн көрдік.

Өткен ғасырдың 50-жылдарынан бастап «қолданбалы лингвистика» термині жаңа мағыналарға ие бола бастады. Ол күнделікті өмірімізге компьютерлік технологияның және авто-маттанған басқару жүйесінің араласуы арқылы мәтінді авто-матты түрде өңдеуге қатысты көптеген қолданбалы бағыттағы тілдік бірліктерді талдау (анализ) мен жинақтау (синтез) негізінде тілдің танылуы мен талдану заңдылықтарын белгілеу қажеттігінен туындайды. Орыс тілінде жарық көрген әдебиет-терде «қолданбалы лингвистика», «есептік лингвистика», «инженерлік лингвистика», «автоматты лингвистика», «матема-тикалық лингвистика», «статистикалық лингвистика» термин-дері бірінің орнына бірі қолданыла бастады. Әрине, бұл аталған терминдерді ортақтастыру дұрыс шешім деуге болмайды, себебі олардың қолданбалы тіл саласындағы мақсаты мен міндетінде және әдіс-тәсілдерінде өзіндік ерекшеліктері бар. Тілдің қолдан-балы шеңберінің кеңею сипатын оның әртүрлі ғылымдар салаларымен түйісу мүмкіншілігінен деп түсіну керек ( Городец-кий, 23 ) . Тіл қызметінің пәнаралық сабақтастық қасиеті тілдік теорияға тек қана оң әсерін тигізумен қатар, қазіргі тіл білімінің тұжырымдамалық бағытын (концептуальдық аппаратын) жаңар-туға да мүмкіндік туғызды.

Қолданбалы лингвистика саласының кең мағыналылығын - тілдің құрылымы мен қызметіне қатысты ғылыми мағлұмат-тарды тілге қатыссыз пәндер саласында, адам баласының практикалық мұқтаждығынан және мұндай қызметтің теория-лық негіздемесі ретінде қолданылуынан туындайтынын көруге болады.

Қолданбалы лингвистиканы функционалдық көзқарас тұрғысынан қарастырсақ, оны тіл қызметінің ең қолайлы әдіс-тәсілдерін ұсынатын ғылыми пән деп те түсінуге болады. Тілдің коммуникативті функциясының қолайлы жақтарын ұсынатын пәндер - аударма теориясы, машиналық (компьютерлік) аударма, ана тілі мен шет тілдерін оқытудағы ақпараттық-іздестіру жүйесінің теориясы мен практикасы, ақпараттық жасанды тіл жүйесін жасаудағы таңбалау теориясы.

Тілдің коммуникативті функциясының бір көрінісі ретіндегі әлеуметтік қызметі әлеуметтік тіл білімінде, тілдік жоспарлау мен тілдік саясатта, орфография мен орфоэпияда, әсерлік теория мен саяси лингвистикада көрініс табатыны белгілі. Сол сияқты тілдің когнитивті қызметінің ең қолайлы жақтары компьютерлік тіл білімінде, психолингвистика мен афазиологияда және квантитативтік лингвистика салаларында көрініс тауып жүр ( Баранов, 8 ) .

Компьютерлік лингвистика информатиканың тілдік негіз-демесін қарастыруымен қатар «тіл» мен «ойлау» арасындағы байланысты және одан туындайтын тікелей болмысты компьютер арқылы модельдеуге қатысты мәселелермен шұғыл-данады. Компьютерлік лингвистиканы тілдік бірліктерге қатысты проблемалар да қызықтырады. Ондай бірліктер сөзден кіші, үлкен және оған тең де болуы мүмкін. Бұл жердегі сөзден үлкен деп отырғандарымыз - сөз тіркестері, сөйлемдер (айтылымдар) және толық мәтіндер. Аталып отырған салада тілді зерттеу кезінде қолданылатын амал-тәсілдерді модельдеу жолдары да қарастырылады. Мәселен, мәтін мазмұнын ашу жолдарын немесе аудармашының бір тілдегі мәтінді екінші тілге аудару жолдарын модельдеу мәселелері бұған мысал бола алады.

Сөйлеу мен ойлау процестерінің арасындағы байланыс-тардың аса күрделі философиялық мәселе екені мәлім. Біз олардың түрлерін көптеген айтылымдардағы, сөйлемдер мен мәтіндердегі тілдік мәліметтерді тұрпатына қарай (формалды) сипаттауда ұтымды пайдалануға болады демекпіз.

Адам баласының «ойлау» қабілетін модельдеу жағдаятында ғалымдардың назары көбіне лингвистика мен логика арасын-дағы байланысқа ауысып, тұжырымдау процесі ойлаудың анықтаушы және шешуші сипаты болып саналады. Қазіргі тіл білімінде тіл мәселесіне байланысты кейбір жайттарды логика саласының мамандары қарастырып, ал кейбір логикалық тұрпаттар (формалар) сырын ашу жағы тілшілерге жүктелуде. Бұл түсінікті де. Себебі, грамматикалық (семантикалық) және логикалық тұрпаттар әр көзқараспен қаралатын бір ғана нысанның түрлері болып келеді. Табиғи тіл адам баласын дағдылы ақиқат шындығынан уақытша ажыратып, тілдік тұлғалардың семантикалық мағынасымен анықталатын «ойлау» формаларымен әрекет жасайтын жаңа деңгейге ауысуына жағдай жасайды.

Бұл айтылғандардың барлығы да компьютерлік лингвистика үшін аса маңызды мәселелер. Себебі, адам баласының ойлау қабілетін тұрпатына қарай (формалды түрде), әртүрлі дәлдікпен қайталаудың мүмкіншілігі туады. Ал бұл жағдай математикалық модельдеу мен машиналық логиканың көмегімен іске асатын «ойлау» қабілеті бар «жасанды интеллект» жасап шығаруға мүмкіндік туғызады. Бұл жердегі «жасанды интеллект» атты жүйені - іс жүзінде «ойлау» қабілеті бар және «шығармашылыққа» қатысты мәселелердің шешімін таба алатын компьютерлік бағдарлама (программа) деп түсінген жөн.

«Жасанды интеллекті» іске қосу үшін ең алдымен адам баласының белгілі бір жағдайда шешім қабылдаудағы немесе жауапты мәселеге шешім іздеу кезіндегі ойлау процесінің сырын зерттеп тану қажет. Әсіресе, адамның ойлау процесіндегі көптеген сатылардың ішінен ең маңыздыларын бөліп алуды мақсат еткен жөн. Бұл жолда күрделі ойлау қызметінің құрылымы жағына мән бере отырып, шығармашылықтың құпиясын қарапайым сатылы бөліктерге бөлшектеп, компью-терлік бағдарламаның алгоритмін құрудың, болашақ «ойлау» қабілеті бар «жасанды интеллект» жасап шығарудың алғашқы кірпішін қалау жолдары зерттеледі.

Ми қызметін дәлме-дәл анықтау мүмкін бола бермейді, себебі адамға тән ақыл-ой - өте күрделі әлеуметтік-биологиялық функция, сондықтан да оның құпиясын ашу көптеген зерттеу-лерді қажет етеді.

«Жасанды интеллектіге» қойылатын негізгі талап ми қызметінің моделін «ойлау құралы» деп ұйғарудан туындайды. Тіл қызметіне қатысты модельдеудің негізгілері болып есептелетін - аударма мәселесі. Бұл тілдік құрылымның морфо-логиясынан синтаксисіне дейінгі барлық деңгейін қамтиды. Сондықтан да компьютерлік аударма тіл қызметінің аса күрделі функцияларының бірі болғандықтан, оны модельдеу де оңайға түспейді. Қазіргі кезде көптеген еуропа тілдерінен орыс тіліне (және керісінше) компьютерлік аударма жасау мәселесі біршама шешілді. Ал осы сияқты аудармаларды түркі тілдері бойынша, оның ішінде қазақ тіліне қатысты жүзеге асыру - егеменді еліміздің кезек күттірмейтін мәселелерінің бірі деуге болады. Қазақ тілінің компьютерлік саласы жаңа ғана дамып келеді және оның ойдағыдай дәрежеге жетуіне барлық мүмкіндік бар. Себебі, компьютерлік лингвистика саласы жеке ғылыми бағыт ретінде өткен ғасырдың 60-жылдарында ғана қалыптасты. Бұл сала бойынша жарық көрген ғылыми жұмыстар жеткілікті. Мәселен, АҚШ-та әр тоқсан сайын «Компьютерлік лингвис-тика» атты ғылыми журнал жарық көреді. Осымен байланысты компьютерлік лингвистика мәселесі бойынша айналысатын аймақтық құрылымдағы әлемдік «Қауымдастықтың» және әрбір екі жыл сайын осы сала бойынша өткізілетін «КОЛИНГ» атты халықаралық конференцияның жұмыстары да айтарлықтай жемісті деуге болады ( Баранов, 14) .

«Компьютерлік лингвистиканың» айналысатын мәселелер-інің ең маңыздыларының бірі - табиғи тілдің мәтін морфология-сын автоматты түрде талдау. Егер, дәстүрлі түсінік бойынша, «сөз морфологиясы» деген ұғым сөздің тұлғалық құрылымын, яғни сөз түбірін және оған жалғанатын қосымшалардың (жұрнақ, жалғау) түрін анықтайтын болса, компьютерлік тіл біліміндегі «морфология» терминінен басқаша ұғым туындайды. Дәлірек айтсақ, ол сөздің мәтін бойындағы сыртқы тұрпатына қарай, тілдік құрылымның әрқилы деңгейлері бойынша тілдік мәліметтер алудың мүмкіндігін білдіреді. Алғашында «морфо-логиялық талдау» ұғымы айтылған мағынада машиналық аударма саласында пайда болды ( Василевский ) .

«Морфологиялық талдаудың» жаңаша түсінігі бойынша алынатын ақпарат біздің дәстүрлі ұғымымыздағы морфологияға қатысы жоқ көптеген амалдардан тұруы мүмкін. Осының салдарынан компьютерлік тіл біліміндегі «морфологиялық талдау» ұғымы - амалдар ұғымы (операционное понятие), яғни сөздің сыртқы пішіні бойынша тілдік ақпараттарды танып-білу үшін жүргізілетін іс-әрекет деп ұққан жөн сияқты. Басқаша айтсақ, егерде дәстүрлі тіл білімі ұғымы бойынша «морфо-логиялық талдау» кезінде «нені талдаймыз?» деп сұрақ қоятын болсақ, компьютерлік тіл білімінде «қалай талдаймыз?» деген сұрақ қойылуы керек, яғни ол сөз тұлғасы бойынша қажетті тілдік ақпараттарды қай жолмен алуға болатындығымен айналысады.

Машиналық (компьютерлік) аударманың алғашқы тәжірибелерінде мұндай амалдардың саны көптеп кездесетін, ал бүгінгі таңда орыс және еуропа тілдері бойынша бұл мәселе біршама шешілді деуге болады ( Лингвистические . . . ) . Ал қазақ тілі мен басқа да түркі тілдері бойынша мұндай ізденістер айтарлықтай қолға алынбай жүр.

Аталған түсініктегі «морфологиялық талдау» бірнеше бағытта қарастырылуда. Олардың біріншісі - сөзтұлғаны оның негізі мен оған жалғануы мүмкін болатын қосымшаларға ажырататын классикалық талдау негізінде модельдеу.

Екінші бағыт сөзтұлғалардың соңғы әріптерінің тіркесімдік заңдылықтарының жиілік сөздіктердегі статистикалық мәлімет-теріне сүйенеді.

Үшінші бағыт - соңғы кездердегі ізденістердің нәтижесі. Бұл бағыт бойынша теңдеулердің ашық жүйелерінің пішіні ретінде, морфологияның әмбебап математикалық моделі жасалады. Модельдің есептегіш мүмкіндігі негізінде сөзтұлға-ларды нормалау және қажетті грамматикалық ақпарат алумен қатар, сөзтұлғаларды жинақтау (синтездеу) да іске асады ( Марчук, 44 ) .

Сөзтұлғалардың әріптік құрамының өзгеруін анықтайтын сөздерді өзара топтауды (топтарға бөлуді) негіз етіп алып, автоматтандырылған морфологиялық талдаудың алгоритмі құрастырылады. Мұндай топтау «морфологиялық топтау» деп аталып жүр ( Белоногов, Новоселов ) . Сөзтұлғалардың жазылуын-дағы әріптік өзгеріске ұшырау флективті және агглютинативті тілдерде біркелкі емес.

... жалғасы

Сіз бұл жұмысты біздің қосымшамыз арқылы толығымен тегін көре аласыз.