Лексикография



Алғы сөз ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 3

Кіріспе ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 7

«Адам.компьютер.адам» жүйесіндегі табиғи тіл қызметінің ерекшеліктері ... ... ... ... ... ... ... ... ... ... ... ...
20

Жасанды интеллект жүйесін құрастыруға қатысты мәселелер жайында ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...
28

Оқу лексикографиясының ғылыми пән ретіндегі ерекшелігі ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ..
39

Ғылыми.техникалық лексикография және арнаулы сөздіктер түрлері ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...
52

Лексикография саласындағы автоматтандыру тәсілі ... 64

Реферат құрастырудың әдіс.тәсілдері ... ... ... ... ... ... ... 84

Ақпарат іздестіру жүйесі ... ... ... ... ... ... ... ... ... ... ... ... . 97

Автоматтанған оқу жүйесінің негізгі ұстанымдары ... . 129

Автоматты (машиналық) аударма ... ... ... ... ... ... ... ... ... 140

Баспа ісін автоматтандырудың лингвистикалық негіздері ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ..
177

Қазақ тілінің компьютерлік қорын (базасын)
құрастыру жайлы ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .
189

Қорытынды ... ... ... ... ... ... ... ... ... ... ... ... ... ... 199
«Компьютерлік лингвистика» термині (computational linguistics), негізінен, тіл қызметін модельдеуге қатысты пайдаланылатын компьютерлік бағдарламалар мен тілдік деректерді өңдеу, сол үшін қажетті компьютерлік технологияны жинақтау және компьютердің араласуына қатысты басқа да тіл зерттеу жұмыстарымен байланысты қолданылады. Кең мағынада алғанда, тіл білімі аясына қатысты теориялық және практикалық мәселелердің шешімін табуға байланысты компью-тердің араласу жағдайларының бәрін бірдей компьютерлік лингвистика саласына жатқызуға болады.
Адам баласының ақпараттық ортада өмір сүретіні белгілі. Ал бұл ортада қабылдаушының жауапты ақпарат бойынша дұрыс шешімге келуіне жағдай жасайтын ақпараттық техноло-гияның түрлері көп. Олар: автоматтандырылған ақпараттық жүйе, бұқаралық коммуникация құралдарына жататын теле-радио байланыс жүйелері, компьютерлік (машиналық) аударма жүйесі, диалогтік жүйе және сұрақ-жауап, т.б. жүйелер. Мұндай жүйелердің саны мен сапасы күннен-күнге артуда. Ақпараттық қоғамдағы тілдік практика мен қазіргі кезеңдегі тілді зерттеу теориясының қолданылу аясы да өсіп келеді.
Тілді зерттеудегі компьютерлік лингвистика саласы қолданбалы тіл білімі атқаратын қызметтердің бір тармағы ғана деуге болады, себебі «қолданбалы тіл білімі» ұғымы көптармақты бола келе, күнделікті өмірде дәстүрлі және жаңаша
1. Гузев В.Г., Пиотровский Р.Г., Щербак А.М. О создании машинного фонда тюркских языков // Советская тюркология. 1988. №2. C. 98-101.
2. Ершов А.П. К методологии построения диалоговых систем: феномен деловой прозы. Препр. №156, ВЦ СО АН СССР. Новосибирск, 1979.
3. Машинный фонд русского языка: идеи и суждения. М.: Наука, 1986. 240 с.

АЛҒЫ СӨЗ

Табиғи тілдегі ақпараттардың басым көпшілігі сөйлеу тілі түрінде немесе
жазба мәтін түрінде кездесетін болғандықтан, табиғи тілдік ақпаратты
компьютер арқылы өңдеудің маңызды-лығы артуда. Осы айтылғандарға сәйкес
мәселелердің қолданба-лы және теориялық лингвистикаға, қолданбалы
филологиялық зерттеу аясына да қатысы бар. Оның қолданбалы филология
саласына қатыстылығы – мәтінге түсініктеме беретін ғылымдар қатарына
жататындығынан. Сонымен бірге қазіргі кездегі бұқаралық қатынас құралдары
мен іс прозасының барынша даму сатысында оның маңыздылығы бұрынғыдан да
арта түсуде.
Ақпараттың әрбір түрі өз мазмұны арқылы сипатталады да, бірақ олардың
бәрі бірдей машиналық (компьютерлік) көрініске қатысты жалпы заңдылыққа
бағынады. Сондықтан информатика ғылымының негізгі міндеті ақпараттың барлық
түрін қазіргі техникалық құралдар (компьютерлер) арқылы дайындау,
өзгерістер енгізу, ұзақ мерзімге сақтау, тұтынушы қауымға тарату мен оны
қолданудың заңдылықтарын зерттеу.
Ғылым ретіндегі информатика саласының кең мағынадағы түсінігі бойынша,
ол әлемнің (ғаламның) ақпараттық моделін зерттеу мен құрастыру мәселесімен
айналысатын ғылым саласына айналып отыр. Информатика мәселелерінің
негіздері тілдік және мәтіндік бірліктердің атқаратын рөлімен жанасып
жатады. Бұл бірліктер ең кіші құрастырылымдардан бастап, олардың ең
ірілерін қоса есептегенде барлық тілдік деңгейлерді қамтиды деуге болады.
Тілдің әр деңгейіне және оның толық пішініне немесе ішкі жүйелеріне
түсініктеме бере алатын әмбебап сипаттағы лингвистикалық теория әлі де жоқ
және ондай теорияның болу-болмауының өзі де күмән туғызады. Сондықтан
модельдеу мен зерттеудің нысаны ретінде тіл қызметінің әр аспектілері жеке
қарастырылуы керек.
Енді компьютерлік лингвистика саласына тоқталатын болсақ, оны да тіл
ғылымының осындай жеке бөліктерін зерттейтін ғылым саласы деуге болады.
Компьютерлік лин-гвистика – информатиканың лингвистикалық негіздерін және
тілдік байланыстардың барлық аспектілерін, ойлау мен ақиқаттықты модельдеу
әрекеттерін компьютерлік програм-малар арқылы тікелей зерттеп танумен
айналысатын ғылым саласы. Сол сияқты, компьютерлік тіл білімі тілдік бірлік-
тердің сөзден кіші, сөзге тең, сөзден үлкен түрлерін, яғни сөз тіркестерін,
сөйлемдерді (айтылымдарды), толық мәтін мәселе-лерін және тілдік
әрекеттерді модельдеу проблемаларын зерттейді. Мысалы, соңғы айтылғанға
қатысты, мәтін ішіндегі мән-мағынаны анықтау мен бір тілден екінші тілге
аудару мәселелерін атауға болар еді. Лингвистикалық автоматтардың
мүмкіндіктерінің күннен-күнге артуына байланысты компью-терлік
лингвистиканың шешетін мәселелерінің де аясы кеңейіп, тереңдей түсуде. Оның
шеңберінде жаңа әдістер мен теориялар тәжірибе жүзінде зерттеліп, сыннан
өтуде.
Біз ұсынып отырған оқу құралында “қолданбалы лингвистика”, “инженерлік
лингвистика”, “информатиканың лингвистикалық негіздері, компьютерлік
лингвистика және т.б. терминдер қолданылады. Олардың әрбіреуіне жеке
тоқталмай-ақ, бәрінің де қолданбалы лингвистика пәнінің аясына сиысып
кететінін, оның кең мағыналы екендігін айтуға болады. Қолданбалы
лингвистика термині компьютерлік лингвистика мен математикалық
лингвистиканы ғана біріктіріп қоймайды, сонымен бірге лингводидактика мен
одан да басқа ғылымдар салаларын қамтиды. Жоғарыда аталған терминдер
ішіндегі информатиканың лингвистикалық негіздері атты терминнің ең тар
мағынаға ие екенін ескеру қажет. Оны, шын мағынасында, информатиканың
компьютерлік және ақпараттық ғылымдар салаларымен тығыз қатыстылығынан
туындайтын лингвистикалық мәселелердің жиынтығы деп те қарастыруға болады.
“Компьютерлік лингвистика” терминін аталған екі ұғымның аралығындағы
мағынаға ие деуге болады. Ол инфор-матиканың лингвистикалық негіздеріне
тән мағынадан кең түрде қолданылады. Дәлірек айтқанда, мысалы, ол
лингводидак-тикаға көбірек қатысы бар оқыту-үйрету жүйесінің лингвисти-
калық мәселелерімен де айналысады. Бірақ “компьютерлік лингвистика”
терминінің “қолданбалы лингвистика” терминіне қарағанда мағынасы тар.
Қазіргі кездегі компьютерлік лингвистика саласының кейбір қолданыс табу
аясын осы оқу құралында қарастыруды мақсат еттік.
Компьютерлік лингвистика ғылымының құрамы мен құрылымы жайлы пікірлер
әлі де болса тұрақтала қойған жоқ. Бірақ мұндай жағдай әр ғылым саласының
да бастапқы кезеңіне тән екені белгілі. Сондықтан компьютерлік лингвистика
туралы сөз болғанда оны қолданбалы лингвистиканың компьютерге, компьютерлік
программалар жазуға, жасанды интеллектіге қатысты мәселелері деп түсінген
жөн.
Информатиканың лингвистикалық негіздерін әртүрлі түсі-нікте құрастыруға
болады. Мәселен, Ю.Н.Марчук “Основы компьютерной лингвистики”1 атты оқу
құралын жазуда өз алдына компьютерлік лингвистикаға байланысты “информати-
каны” тілдік деректермен қамтамасыз етудің нәтижелерін жинақтау мен даму
болашағын белгілеу мақсаттарын қойған.
Ал қолданбалы тіл білімі бойынша, ең алғаш 1996 жылы С.-Петербургте
жарық көрген “Прикладное языкознание” атты оқулықтың2 құрылымы мен мақсат-
міндеттері жоғарыда аталған еңбектен басқаша. Онда тіл білімінің қолданбалы
саласының негізгі мәселелері (әдістемеліктен жалпығылымдыққа дейін) дербес
қарастырылған. Басқаша айтқанда, оқулыққа енген материалдар олардың
атқаратын қызметіне қарай топтастыр-ылып, жеке-жеке тақырыптар бойынша
көрініс тапқан. Мысалы, “Орфография”, “Автоматизированные обучающие
системы”, “Психолингвистика”, “Учебная лексикография”, “Машинный перевод”
және т.б.
Аталған оқулықтың оқыту процесіндегі теориялық және әдістемелік
артықшылықтарын ескере отырып, біз ұсынып отырған “Компьютерлік
лингвистикаға кіріспе” атты оқу құралында да сол құрылымдық және мазмұндық
принциптер ұсталынды. Сонымен бірге, ол оқулықтың компьютерлік
лингвистикаға қатысты тақырыптары автордың ұғынуынша қазақшаға аударылып,
әл-Фараби атындағы Қазақ ұлттық университеті филология факультетінде
“Қолданбалы лингвис-тика” мамандығы бойынша оқитын студенттерге (2001
жылдан бері) және Абай атындағы Қазақтың ұлттық педагогикалық университеті
қазақ филологиясы факультетінің магистрант-тарына дәріс беруде
пайдаланылғанын атауға болады. Оқылған теориялық материалдар қажетті жүйеге
келтіріліп, ұсынылып отырған оқу құралына енді. Оның құрылымына келетін
болсақ, ол алғы сөзден, кіріспеден, компьютерлік лингвистика саласы-ның
маңызды мәселелеріне қатысты 11 күрделі тақырыптан және қорытындыдан
тұрады. Әрбір тақырыпқа қатысты пайда-ланылған әдебиеттер тізімі әрбір
тақырыпқа қатысты мақаланың соңында берілді.
Әрине, бұл тақырыптардың бәрі бірдей толық дәрежеде баяндалды деуден
аулақпыз. Еңбектің негізгі мақсаты – жоғары оқу орындары студенттеріне
компьютерлік лингвистика ғылы-мына кіріспе ретінде мәлімет беретін қазақ
тіліндегі оқу құралын ұсыну. Ескертпе түрінде айта кететін жайт, оқу құралы
мәтінінде кейбір орыс тіліндегі және орыс тілі арқылы енген салалық
терминдер автордың өз ұйғаруымен қазақ тіліне аударылып берілді.

К І Р І С П Е

Компьютерлік лингвистика термині (computational linguistics),
негізінен, тіл қызметін модельдеуге қатысты пайдаланылатын компьютерлік
бағдарламалар мен тілдік деректерді өңдеу, сол үшін қажетті компьютерлік
технологияны жинақтау және компьютердің араласуына қатысты басқа да тіл
зерттеу жұмыстарымен байланысты қолданылады. Кең мағынада алғанда, тіл
білімі аясына қатысты теориялық және практикалық мәселелердің шешімін
табуға байланысты компью-тердің араласу жағдайларының бәрін бірдей
компьютерлік лингвистика саласына жатқызуға болады.
Адам баласының ақпараттық ортада өмір сүретіні белгілі. Ал бұл ортада
қабылдаушының жауапты ақпарат бойынша дұрыс шешімге келуіне жағдай жасайтын
ақпараттық техноло-гияның түрлері көп. Олар: автоматтандырылған ақпараттық
жүйе, бұқаралық коммуникация құралдарына жататын теле-радио байланыс
жүйелері, компьютерлік (машиналық) аударма жүйесі, диалогтік жүйе және
сұрақ-жауап, т.б. жүйелер. Мұндай жүйелердің саны мен сапасы күннен-күнге
артуда. Ақпараттық қоғамдағы тілдік практика мен қазіргі кезеңдегі тілді
зерттеу теориясының қолданылу аясы да өсіп келеді.
Тілді зерттеудегі компьютерлік лингвистика саласы қолданбалы тіл білімі
атқаратын қызметтердің бір тармағы ғана деуге болады, себебі қолданбалы
тіл білімі ұғымы көптармақты бола келе, күнделікті өмірде дәстүрлі және
жаңаша мағынада кездесіп жүр. Мәселен, бұл ұғым дәстүрлі түсінік бойынша,
тіл қызметі мәселелерінің практикалық әдістерін жасауды, яғни жазу
мәселесін дамытуды, ауызекі сөйлеудің транскрипциялық жүйесін құруды, шетел
сөздерінің транскрип-ция жүйесін жасауды, стенография тәсілдерін дамытуды,
арнайы лингвистикалық сөздіктер шығаруды, тарихи ескерткіш-тердегі таңба-
жазуларды айқындауды, ғылыми-техникалық терминологияны қалыптастыруды т.б.
іс-шараларды қамтиды.
Қолданбалы тіл білімінің жоғарыда сөз болған дәстүрлі саласы қазақ
тілінде ойдағыдай дамып, түркі тілдері ішінде көш бастап келеді деуге
болады. Ал оның компьютерге байланысты жаңа саласы – компьютерлік қазақ
тіл білімі әлде де кешеуілдеп дамуда.
Қолданбалы тіл білімінің статистикалық лингвистика (квантитативті
лингвистика) тарауы бойынша ғылыми ізденістер проф. Қалдыбай Бектаевтың
атымен және оның ғылыми мектебімен тығыз байланысты. Қазақ тілінің әртүрлі
стильдерінің мәтіндері бойынша, алғашында электронды-есептеу машинасының
(ЭЕМ), кейіннен компьютерлердің көмегімен алынған жиілік сөздіктер
(әліпбилі жиілік, жиілік, кері әліпбилі) тілдің құрылымдық жағының
статистикасы жайында көптеген мәліметтер алуға мүмкіндік туғызды. Осылайша,
қазақ тіліндегі бай статистикалық мәліметтер негізінде бірнеше кандидаттық
және докторлық диссертация-лардың қорғалғаны көпшілікке мәлім. Бүгінгі
таңда А.Байтұр-сынұлы атындағы Тіл білімі институтының компьютерлік
лингвистика бағыты бойынша қол жеткен ғылыми нәтижелері айтарлықтай деуге
болады. Осылардың тек негізгілері деп мынадай ғылыми жұмыстарды атауға
болады:
– көркем әдебиет, көсемсөз, ғылыми-көпшілік әдебиет пен оқулықтар
мәтіндерінің, алғашында ЭЕМ-ның, кейіннен компьютердің жадына көптеп
енгізіліп, олар бойынша арнайы компьютерлік бағдарламалар құрастырылуының
негізінде әртүрлі жиілік сөздіктердің алынуы;
– М.Әуезовтің 20 томдық шығармалар жинағының компьютер жадына енгізілуі
және соның негізінде жазушы тілінің жиілік сөздіктерінің жарық көруі;
– осы тәрізді жиілік сөздіктердің негізінде қазақ сөздерінің әр стильде
және әр көлемді мәтіндерде қайталануының қосынды жиілігінің, сол мәтіндерді
қамту статистикасының анықталуы;
– сөзтұлғалардың құрылымдық статистикасы мен мәтіндегі пайыздық
салмақтарының әр сөз таптарына қатысты айқын-далуы;
– қазақ тіліндегі негізгі сөз таптарының мәтін бойында кездесулерінің
математикалық статистика мен ықтималдық теория заңдылықтарына бағыну-
бағынбау жағдайларының зерттелуі;
– қазақ тілінің ТІЛ – ҚАЗЫНА атты автоматтандырылған компьютерлік
картотекалық қорының іске қосылуы;
– қазақ тіліндегі мәтін мазмұнын оның тұрпатына қарай ашудың
(формалдаудың) негізгі принциптерінің айқындалуы;
– Тіл білімі институтында жоспарлы тақырыптар бойынша түзіліп жатқан
түсіндірме, екі тілдік, бір тілдік сөздіктер мәтіндерінің компьютер жадында
сөздіктер қорын құрап, тұрақты сақталуы.
Осы аталған іс-шаралардың қатарын, компьютердің араласуымен орындалған
жұмыстардың және компьютерлік тіл білімі саласына қатысты басқа да
жұмыстарды атап өтуге болады.
Компьютерлік лингвистика бағыты түркі тілдері үшін тіл зерттеудің жаңа
саласы деп есептелгенімен, үнді-еуропа тілдерінде дәстүрлі болып,
күнделікті зерттеу мәселелеріне айналған компьютерлік лингвистиканың кейбір
жайттарына тіл зерттеудегі жаңаша көзқарасқа қызығушы қауымға бағыштап,
арнайы сөз етуді жөн көрдік.
Өткен ғасырдың 50-жылдарынан бастап қолданбалы лингвистика термині
жаңа мағыналарға ие бола бастады. Ол күнделікті өмірімізге компьютерлік
технологияның және авто-маттанған басқару жүйесінің араласуы арқылы мәтінді
авто-матты түрде өңдеуге қатысты көптеген қолданбалы бағыттағы тілдік
бірліктерді талдау (анализ) мен жинақтау (синтез) негізінде тілдің танылуы
мен талдану заңдылықтарын белгілеу қажеттігінен туындайды. Орыс тілінде
жарық көрген әдебиет-терде қолданбалы лингвистика, есептік лингвистика,
инженерлік лингвистика, автоматты лингвистика, матема-тикалық
лингвистика, статистикалық лингвистика термин-дері бірінің орнына бірі
қолданыла бастады. Әрине, бұл аталған терминдерді ортақтастыру дұрыс шешім
деуге болмайды, себебі олардың қолданбалы тіл саласындағы мақсаты мен
міндетінде және әдіс-тәсілдерінде өзіндік ерекшеліктері бар. Тілдің қолдан-
балы шеңберінің кеңею сипатын оның әртүрлі ғылымдар салаларымен түйісу
мүмкіншілігінен деп түсіну керек (Городец-кий, 23). Тіл қызметінің
пәнаралық сабақтастық қасиеті тілдік теорияға тек қана оң әсерін тигізумен
қатар, қазіргі тіл білімінің тұжырымдамалық бағытын (концептуальдық
аппаратын) жаңар-туға да мүмкіндік туғызды.
Қолданбалы лингвистика саласының кең мағыналылығын – тілдің құрылымы мен
қызметіне қатысты ғылыми мағлұмат-тарды тілге қатыссыз пәндер саласында,
адам баласының практикалық мұқтаждығынан және мұндай қызметтің теория-лық
негіздемесі ретінде қолданылуынан туындайтынын көруге болады.
Қолданбалы лингвистиканы функционалдық көзқарас тұрғысынан қарастырсақ,
оны тіл қызметінің ең қолайлы әдіс-тәсілдерін ұсынатын ғылыми пән деп те
түсінуге болады. Тілдің коммуникативті функциясының қолайлы жақтарын
ұсынатын пәндер – аударма теориясы, машиналық (компьютерлік) аударма, ана
тілі мен шет тілдерін оқытудағы ақпараттық-іздестіру жүйесінің теориясы мен
практикасы, ақпараттық жасанды тіл жүйесін жасаудағы таңбалау теориясы.
Тілдің коммуникативті функциясының бір көрінісі ретіндегі әлеуметтік
қызметі әлеуметтік тіл білімінде, тілдік жоспарлау мен тілдік саясатта,
орфография мен орфоэпияда, әсерлік теория мен саяси лингвистикада көрініс
табатыны белгілі. Сол сияқты тілдің когнитивті қызметінің ең қолайлы
жақтары компьютерлік тіл білімінде, психолингвистика мен афазиологияда және
квантитативтік лингвистика салаларында көрініс тауып жүр (Баранов, 8).
Компьютерлік лингвистика информатиканың тілдік негіз-демесін
қарастыруымен қатар тіл мен ойлау арасындағы байланысты және одан
туындайтын тікелей болмысты компьютер арқылы модельдеуге қатысты
мәселелермен шұғыл-данады. Компьютерлік лингвистиканы тілдік бірліктерге
қатысты проблемалар да қызықтырады. Ондай бірліктер сөзден кіші, үлкен және
оған тең де болуы мүмкін. Бұл жердегі сөзден үлкен деп отырғандарымыз – сөз
тіркестері, сөйлемдер (айтылымдар) және толық мәтіндер. Аталып отырған
салада тілді зерттеу кезінде қолданылатын амал-тәсілдерді модельдеу жолдары
да қарастырылады. Мәселен, мәтін мазмұнын ашу жолдарын немесе аудармашының
бір тілдегі мәтінді екінші тілге аудару жолдарын модельдеу мәселелері бұған
мысал бола алады.
Сөйлеу мен ойлау процестерінің арасындағы байланыс-тардың аса күрделі
философиялық мәселе екені мәлім. Біз олардың түрлерін көптеген
айтылымдардағы, сөйлемдер мен мәтіндердегі тілдік мәліметтерді тұрпатына
қарай (формалды) сипаттауда ұтымды пайдалануға болады демекпіз.
Адам баласының ойлау қабілетін модельдеу жағдаятында ғалымдардың
назары көбіне лингвистика мен логика арасын-дағы байланысқа ауысып,
тұжырымдау процесі ойлаудың анықтаушы және шешуші сипаты болып саналады.
Қазіргі тіл білімінде тіл мәселесіне байланысты кейбір жайттарды логика
саласының мамандары қарастырып, ал кейбір логикалық тұрпаттар (формалар)
сырын ашу жағы тілшілерге жүктелуде. Бұл түсінікті де. Себебі,
грамматикалық (семантикалық) және логикалық тұрпаттар әр көзқараспен
қаралатын бір ғана нысанның түрлері болып келеді. Табиғи тіл адам баласын
дағдылы ақиқат шындығынан уақытша ажыратып, тілдік тұлғалардың семантикалық
мағынасымен анықталатын ойлау формаларымен әрекет жасайтын жаңа деңгейге
ауысуына жағдай жасайды.
Бұл айтылғандардың барлығы да компьютерлік лингвистика үшін аса маңызды
мәселелер. Себебі, адам баласының ойлау қабілетін тұрпатына қарай (формалды
түрде), әртүрлі дәлдікпен қайталаудың мүмкіншілігі туады. Ал бұл жағдай
математикалық модельдеу мен машиналық логиканың көмегімен іске асатын
ойлау қабілеті бар жасанды интеллект жасап шығаруға мүмкіндік туғызады.
Бұл жердегі жасанды интеллект атты жүйені – іс жүзінде ойлау қабілеті
бар және шығармашылыққа қатысты мәселелердің шешімін таба алатын
компьютерлік бағдарлама (программа) деп түсінген жөн.
Жасанды интеллекті іске қосу үшін ең алдымен адам баласының белгілі
бір жағдайда шешім қабылдаудағы немесе жауапты мәселеге шешім іздеу
кезіндегі ойлау процесінің сырын зерттеп тану қажет. Әсіресе, адамның ойлау
процесіндегі көптеген сатылардың ішінен ең маңыздыларын бөліп алуды мақсат
еткен жөн. Бұл жолда күрделі ойлау қызметінің құрылымы жағына мән бере
отырып, шығармашылықтың құпиясын қарапайым сатылы бөліктерге бөлшектеп,
компью-терлік бағдарламаның алгоритмін құрудың, болашақ ойлау қабілеті
бар жасанды интеллект жасап шығарудың алғашқы кірпішін қалау жолдары
зерттеледі.
Ми қызметін дәлме-дәл анықтау мүмкін бола бермейді, себебі адамға тән
ақыл-ой – өте күрделі әлеуметтік-биологиялық функция, сондықтан да оның
құпиясын ашу көптеген зерттеу-лерді қажет етеді.
Жасанды интеллектіге қойылатын негізгі талап ми қызметінің моделін
ойлау құралы деп ұйғарудан туындайды. Тіл қызметіне қатысты модельдеудің
негізгілері болып есептелетін – аударма мәселесі. Бұл тілдік құрылымның
морфо-логиясынан синтаксисіне дейінгі барлық деңгейін қамтиды. Сондықтан да
компьютерлік аударма тіл қызметінің аса күрделі функцияларының бірі
болғандықтан, оны модельдеу де оңайға түспейді. Қазіргі кезде көптеген
еуропа тілдерінен орыс тіліне (және керісінше) компьютерлік аударма жасау
мәселесі біршама шешілді. Ал осы сияқты аудармаларды түркі тілдері бойынша,
оның ішінде қазақ тіліне қатысты жүзеге асыру – егеменді еліміздің кезек
күттірмейтін мәселелерінің бірі деуге болады. Қазақ тілінің компьютерлік
саласы жаңа ғана дамып келеді және оның ойдағыдай дәрежеге жетуіне барлық
мүмкіндік бар. Себебі, компьютерлік лингвистика саласы жеке ғылыми бағыт
ретінде өткен ғасырдың 60-жылдарында ғана қалыптасты. Бұл сала бойынша
жарық көрген ғылыми жұмыстар жеткілікті. Мәселен, АҚШ-та әр тоқсан сайын
Компьютерлік лингвис-тика атты ғылыми журнал жарық көреді. Осымен
байланысты компьютерлік лингвистика мәселесі бойынша айналысатын аймақтық
құрылымдағы әлемдік Қауымдастықтың және әрбір екі жыл сайын осы сала
бойынша өткізілетін КОЛИНГ атты халықаралық конференцияның жұмыстары да
айтарлықтай жемісті деуге болады (Баранов,14).
Компьютерлік лингвистиканың айналысатын мәселелер-інің ең
маңыздыларының бірі – табиғи тілдің мәтін морфология-сын автоматты түрде
талдау. Егер, дәстүрлі түсінік бойынша, сөз морфологиясы деген ұғым
сөздің тұлғалық құрылымын, яғни сөз түбірін және оған жалғанатын
қосымшалардың (жұрнақ, жалғау) түрін анықтайтын болса, компьютерлік тіл
біліміндегі морфология терминінен басқаша ұғым туындайды. Дәлірек айтсақ,
ол сөздің мәтін бойындағы сыртқы тұрпатына қарай, тілдік құрылымның әрқилы
деңгейлері бойынша тілдік мәліметтер алудың мүмкіндігін білдіреді.
Алғашында морфо-логиялық талдау ұғымы айтылған мағынада машиналық аударма
саласында пайда болды (Василевский).
Морфологиялық талдаудың жаңаша түсінігі бойынша алынатын ақпарат
біздің дәстүрлі ұғымымыздағы морфологияға қатысы жоқ көптеген амалдардан
тұруы мүмкін. Осының салдарынан компьютерлік тіл біліміндегі морфологиялық
талдау ұғымы – амалдар ұғымы (операционное понятие), яғни сөздің сыртқы
пішіні бойынша тілдік ақпараттарды танып-білу үшін жүргізілетін іс-әрекет
деп ұққан жөн сияқты. Басқаша айтсақ, егерде дәстүрлі тіл білімі ұғымы
бойынша морфо-логиялық талдау кезінде нені талдаймыз? деп сұрақ қоятын
болсақ, компьютерлік тіл білімінде қалай талдаймыз? деген сұрақ қойылуы
керек, яғни ол сөз тұлғасы бойынша қажетті тілдік ақпараттарды қай жолмен
алуға болатындығымен айналысады.
Машиналық (компьютерлік) аударманың алғашқы тәжірибелерінде мұндай
амалдардың саны көптеп кездесетін, ал бүгінгі таңда орыс және еуропа
тілдері бойынша бұл мәселе біршама шешілді деуге болады
(Лингвистические...). Ал қазақ тілі мен басқа да түркі тілдері бойынша
мұндай ізденістер айтарлықтай қолға алынбай жүр.
Аталған түсініктегі морфологиялық талдау бірнеше бағытта
қарастырылуда. Олардың біріншісі – сөзтұлғаны оның негізі мен оған жалғануы
мүмкін болатын қосымшаларға ажырататын классикалық талдау негізінде
модельдеу.
Екінші бағыт сөзтұлғалардың соңғы әріптерінің тіркесімдік
заңдылықтарының жиілік сөздіктердегі статистикалық мәлімет-теріне сүйенеді.

Үшінші бағыт – соңғы кездердегі ізденістердің нәтижесі. Бұл бағыт
бойынша теңдеулердің ашық жүйелерінің пішіні ретінде, морфологияның әмбебап
математикалық моделі жасалады. Модельдің есептегіш мүмкіндігі негізінде
сөзтұлға-ларды нормалау және қажетті грамматикалық ақпарат алумен қатар,
сөзтұлғаларды жинақтау (синтездеу) да іске асады (Марчук, 44).
Сөзтұлғалардың әріптік құрамының өзгеруін анықтайтын сөздерді өзара
топтауды (топтарға бөлуді) негіз етіп алып, автоматтандырылған
морфологиялық талдаудың алгоритмі құрастырылады. Мұндай топтау
морфологиялық топтау деп аталып жүр (Белоногов, Новоселов).
Сөзтұлғалардың жазылуын-дағы әріптік өзгеріске ұшырау флективті және
агглютинативті тілдерде біркелкі емес.
Мәселен, орыс тіліндегі: сижу – сидишь сөзтұлғалары-ның жазылуындағы
сөз негізіндегі әріптер өзгеріске ұшыраса, сол сөздердің қазақша баламасы –
отырмын – отырсың сөздерінің жазылуында қосымшадағы әріптер ғана
өзгерген.
АМПАР атты машиналық аударма жүйесінде сөздердің синтаксистік қызметі
мен септік және т.б. жалғаулардың негізінде сөздердің морфологиялық
кластары екі түрге бөлініп қарастырылды:
1) негіздерінде өзгеріс болатын сөздер тобы,
2) сөздердің флективті тобы.
Соңғы топ белгілі сөздерге ғана тән қасиеттегі белгілер жүйесі арқылы
немесе осындай қасиеттерді бойына сақтаған дерек сөздер арқылы сипатталады.
Енді морфологиялық талдаудың түрлеріне қысқаша тоқталайық. Олар
төмендегідей:
– негіз сөздердің сөздігі арқылы морфологиялық талдау жүргізу;
– сөзтұлғалар сөздігі көмегімен морфологиялық талдауды жүзеге асыру;
– логикалық көбейту әдісін қолданып морфологиялық талдау жасау;
– морфологиялық талдауды сөздіктердің көмегінсіз (сөздіксіз) арнайы
кестелер арқылы жүзеге асыру.
Еуропа тілдерін зерттеуде көп тараған морфологиялық талдау түрі – негіз
сөздердің сөздігі мен кейбір көмекші кестелер жүйесін пайдалану. Аталған
сөздіктерде ішкі флексия-сыз, жай және күрделі сөздердің негіздері мен
олардың негіз тұлғалары (формалары) толық беріліп отырады. Сөздіктегі әрбір
негіз сөзге морфологиялық кластардың екі түрін ажырататын шартты белгі
(код) қойылады. Ал омонимдік негіздерге шартты белгілердің (кодтардың)
тіркесімдік түрлері беріледі.
Морфологиялық талдаудың екінші түрі, яғни сөзтұлғалар сөздігі арқылы
жүргізілетін талдау да зерттеушілер тәжірибесінде көп қолданыс тапқан, кең
тараған талдау түрі болып саналады. Олай дейтініміз, морфологиялық
талдаудың компьютерлік алгоритмінде морфемаларға бөлшектеу мен оларды
сөздік бойынан іздестіру әрекеттері негіз сөздер сөздігіне қарағанда жеңіл
жүзеге асады. Бірақ талдаудың бұл түрінің өзіне тән осал жерлері де жоқ
емес. Мысалы, егер іздестіретін сөз сөзтұлға сөздігінде кездеспеген
жағдайда, біз оның грамматикалық ақпараты жайлы да ештеңе біле алмаймыз.
Сондықтан сөзтұлға сөздігі көмегімен талдау жүргізу жүйесінде аффикстер мен
түбір сөздер тізімдері берілуі қажет. Осымен бірге бірнеше сөзтұлғаларды
бір лексикалық бірлікке сәйкестендіруге қажетті, оларға тән қасиеттерге ие,
белгілер (атрибуттары) толық берілгені талап етіледі. Бұл айтылған-дардан
туындайтын қорытынды – морфологиялық талдаудың негіз сөз сөздіктері арқылы
жүргізілгені ұтымды.
Морфологиялық талдауда “логикалық көбейту” әдісі айырықша орын алады.
Бұл әдісте сөздік функциясы деген ұғымға ерекше көңіл бөлу керек. Әрбір
сөздік функциясына сөзтұлға функциясы мен оған тән ақпарат сәйкес
қойылады. Осының негізінде әр сөзтұлғаның өзіне ғана тән ақпараттық
деректер арқылы функцияның мәнін арнайы кестемен беруге мүмкіндік туады.
Бірақ аталған функцияның мәнін басқаша, төменде көрсетілгендей тиімді
амалдар арқылы беруге де мүмкіндік бар:
1) сөзтұлға – әріптер тізбегі ретінде морфемдік сегмент-терге
бөліктенеді;
2) сөзтұлға – морфемдік сегменттер тізбегі ретінде, басқа морфемдік
элементтердің реттелмеген жиынымен ауыстыр-ылады;
3) сөзтұлғаға, морфемдік жиын ретінде, белгілі-бір ақпарат сәйкес
қойылады;
4) бұл ақпарат сөзтұлғаға қатысты деп саналатын қоры-тынды ақпарат
түрінде қайта өзгертіліп беріледі (Марчук, 46).
Әрбір морфемаға құрылымында сондай морфемасы бар сөзтұлғалардың жиынтық
ақпаратын да сәйкес қоюға болады. Логикалық түсінік бойынша, мұндай
ақпараттар жиынтығы дизъюнкциямен, яғни сөзтұлғаның құрылымдық белгілерінің
бір-біріне қарсы қойылуымен сәйкес келеді. Сөзтұлға жайлы ақпарат осы
сөзтұлғаның табиғатына тән қиылысудан немесе логикалық конъюнкция деп
аталатын морфемалық ақпараттар-дан тұратынын дәлелдеп шығуға болады.
Морфологиялық талдаудың логикалық көбейту әдісі, көбінде, флективті
тілдерде қолданылады және негіз сөздер сөздігінің болуын қажет етеді.
Қарастырып отырған автоматтандырылған морфологиялық талдаудың соңғы түрі
– сөздіксіз талдау немесе тәуелсіз талдау. Ол аффикстер кестелері
көмегімен және арнайы түзілген грамматикалық мағынасыз сөздердің тізімі
негізінде іске асады. Морфологиялық талдаудың бұл түрі зерттеу
тәжірибесінде өте сирек қолданылады.
Енді, автоматтандырылған морфологиялық талдаудың қазіргі күйі қандай? –
деген сұрақтың жауабына қысқаша тоқталайық.
Қазіргі кезде кез келген мәтіннен компьютер арқылы сапалы ақпарат алу
жүйесіне қойылатын талап заман сұраны-сына қарай өсті. Сондықтан компьютер
көмегімен морфология-лық талдау жасау сызбасын (алгоритмін) жүзеге асыру
мәселе-сіне негізі деп саналатын мынадай талаптар қойылады:
– кез келген тақырыптағы мәтіннің 98-99 пайызды қамтитын көптақырыпты
(политематический) аса күшті сөздік морфологиялық талдау жүйесінің
негізін құрауы тиіс;
– автоматты түрдегі талдау алгоритмі кез келген сөзтүрленістерін
ескеретіндей мүмкіндікке ие болуы қажет. Осындай жағдай ескерілсе ғана
сөзтұлғаны жан-жақты тану мүмкіндігі артады және сан жағынан алғанда ондай
мүмкіндіктің нәтижесі сөздікте қамтылған лексикалық бірліктен бірнеше есе
артық болуы мүмкін;
– автоматтандырылған морфологиялық талдау жүйесінде жаңа сөздер,
сөздікте қамтылған басқа сөздермен бірдей дәрежеде қарастырылуы қажет және
оларды дұрыс танудың ықтималдығы 90-95 пайыздан)кем болмауы қажет;
– мәтінді компьютер арқылы өңдеу жылдамдығы тұтынушыны
қанағаттандырарлықтай болуы қажет және оған енгізілетін мәтін көлеміне шек
қойылмауы керек;
– компьютер арқылы жүргізілетін морфологиялық талдау жүйесінде,
қажеттікке қарай, өзгерістер жүргізу (сөздікті толықтыру, өңдеу және т.б.)
мүмкіндігі алдын ала ескерілуі қажет, яғни бұл аталған жүйені оқытуға
болатындай мол мүмкіндік тууы керек (Марчук, 48-49).
Бүгінгі таңда, орыс тіліне және басқа да еуропа тілдеріне қатысты
морфологиялық талдау жүйелеріндегі кейбір сөздіктер мен мәтіндердің
көлемдері жайлы мынандай мәліметтерді айтуға болар еді:
– негіз сөздерден тұратын көптақырыптық сөздіктің көлемі 100 мың
лексикалық бірліктен кем емес;
– сөздік, көлемі 30 млн. сөзқолданыстан асатын көптақыры-птық мәтін
негізінде жасалғандықтан, оның кез келген тақырып-тағы ғылыми-техникалық
мәтінді қамту деңгейі өте жоғары;
– көлемі 3 млн. сөзқолданыстан тұратын мәтіннің негізінде түзілген
сөзтұлғалар сөздігі 46 мың лексикалық бірлікті құрайды.
Сөз болып отырған екі сөздікте де сөздердің құрылымы мен синтаксистік
сипаты жөнінде толық түрдегі грамматикалық ақпарат берілген (Зеленков).
Автоматтандырылған морфологиялық талдау сөздіктердің айрықша түрлерін
өмірге келтірді. Оларда тілдік бірліктердің тұлғасына, туындау ережелеріне,
сөзтудырғыш, сөзтүрлендіргіш топтарына қарай реттеу жақтары қарастырылды.
Осындай типтегі сөздікке тілдік бірліктің соңғы жағынан бастап әліпби
тәртібіне келтірілген “кері әліпбилі сөздік” деп аталатын сөздікті
жатқызуға болады. Морфологиялық талдаудың талабы-на сай түзілген бұл
сөздікте сөзтудырғыштық, сөзтүрлендір-гіштік типтегі сөздер және соңғы
қосымшалары бірдей болып келетін күрделі сөздер өзара жіктелген ретте
көрініс табады. Кері әліпбилі сөздік бойынша сөздердің морфологиялық
құрылымына қатысты көптеген мәселелерді анықтауға болады. Мәселен,
қосымшалары бірдей болып келетін сөздердің топталып берілуі олардың
грамматикалық сипатын және қосымша мен қандай сөзтүрлендіргіш типке
жататындығы арасындағы қатынастарға қатысты деректерді анықтауға мүмкіндік
туады.
Грамматикалық форманттардың синонимдік, омонимдік қатарларын жеңіл
ажыратуға және олардың тіркесімдік, сандық мөлшерінің сипаттарын анықтауға
мүмкіндіктер туады. Кері әліпбилі сөздік бойынша, аналитикалық тілдерге
қарағанда флективті және агглютинативті тілдер жүйелерінен морфоло-гиялық
форманттарға байланысты ақпараттарды көптеп алуға болады.
Осы уақытқа дейінгі қазақстандық Статистика тобының қазақ тілін ЭЕМ-
ның және компьютердің көмегімен лингво-статистикалық зерттеу барысындағы
қол жеткізген көптеген ғылыми нәтижелерін, яғни әр мақсатпен түзілген
жиілік сөздік-тер мен олар арқылы алынған құнды деректер мен тұжырым-дарды
әрі қарайғы іс-тәжірибемізде дұрыс пайдалана білуіміз керек. Ең алдымен,
сол ғылыми жетістігімізді үнді-еуропа тілдеріндегі компьютерлік
лингвистика саласы бойынша орындалып жатқан ғылыми-зерттеу жұмыстарының
деңгейіне дейін көтеру қажет.
Компьютердің араласуымен ғана жүзеге асатын морфоло-гиялық талдаулар мен
басқа да зерттеу түрлерін мемлекеттік дәрежедегі қазақ тілі аясына қолдана
отырып, ана тіліміздің компьютерлік лингвистика саласын дамытуды және соның
нәтижесінде қол жеткізген жетістігімізді күнделікті өмір қажет-тігіне
пайдалану ісі қазіргі заман талабы болып отыр.

Әдебиет

Баранов А.Н. Введение в прикладную лингвистику. Эдиториал УРСС. М.,
2001.
Белоногов Г.Г., Новоселов А.П. Автоматизация процессов накопления,
поиска и обобщения информации. М.: Наука, 1979.
Василевский А.Л., Марчук Ю.Н. Вычислительная лингвистика. Учебное
пособие для студентов отделения прикладной лингвистики. М.: МГПИИЯ им.
М.Тореза, 1970.
Городецкий Б.Ю. Актуальные проблемы прикладной лингвистики Новое в
зарубежной лингвистике. Вып. ХІІ., 1983.
Зеленков Ю.Г. Морфологический анализ в системах автоматической обработки
научно-технической информации. Канд. дис. М.: ВИНИТИ, 1988, 145 с.
Лингвистические вопросы алгоритмической обработки сообщения. М.: Наука,
1983.
Марчук Ю.Н. Основы компьютерной лингвистики. Учебное пособие. М., 2000.

Адам–компьютер–адам жүйесіндегі
табиғи тіл қызметінің ерекшеліктері

Қоғамның даму сатысы күрделене түскен сайын, ондағы ақпарат құралы
қызметін атқаратын – тілдің дәрежесі де айтарлықтай көтерілді. Қоғамның
даму сипаты ақпарат ағымының үздіксіздігі мен сапалылығына өз әсерін
тигізбей қоймады. Әсіресе, қысқа және ұзақ мерзімді ақпарат түрлері
айтарлықтай өзгеріске ұшырады.
Осының әсерінен, біріншіден, тілдік құрылымның негізгі қаңқасы ретіндегі
грамматиканың, түбір сөз бен өнімді сөзжасам моделі жүйесінің тұрақтылығы,
екіншіден, өндірістік қажеттілік пен қоғам өмірінің қажеттігіне сай сол
қаңқаны толықтыратын лексикалық бірліктер мен олардың тіркесімдерінің сан
жағынан ұлғайуымен бірге, олардағы тұрақсыздық қасиеттерді де байқауға
болады (Андреев).
Адам өміріне электрондық техниканың араласуы бұлшық ет күшіне қатысты
көптеген жұмыстарды жеңілдетумен қатар, ми қызметінің де іс-әрекеттеріне
араласа бастағаны бәрімізге мәлім. Осыған байланысты адам миының қызметіне
бәсеке тудыратын неше түрлі ақылды автоматтар мен ойлау қабілеті бар
электронды машиналар жайлы жайттар соңғы кезде көптеген басылымдарда жарық
көруде. Кейбір авторлар, тіпті осыдан 200 жыл бұрын тоқу станогының
тоқымашыны ығыстырғаны сияқты, электронды машиналар да адамзатты ми
қызметінің өрісінен ысырып тастап, оған тек тұтынушының ғана рөлін қалдыруы
мүмкін деп те күмән туғыза бастады. Әрине, мұндай қисынсыз болжам адам
баласының ми қызметінің мәнін дұрыс түсінбей, оны түгелімен бөлшектелетін
(алгоритмделі-нетін) процеске жатқызып, компьютер арқылы оны қайта
туындатуға болады-мыс деп ұйғарудан туындайды. Шынды-ғында, адамның ойлау
қабілеті негізінен дедуктивті-логикалық емес, индуктивті-ықтималдық
болуынан, толығымен бөлшекте-луге жатпайтын процесс деп ұйғару керек.
Бұл пайымдаулардан адамның ойлау қабілетін түгелімен формалдауға
болмайтындығын және оны компьютерлік алго-ритмдеу амалымен қайта
туындатудың, яғни ойлау әрекетін қайтадан өзгеріссіз қалпына келтіру мүмкін
еместігін ескеру қажет.
Соңғы кезде ақпараттардың көлемінің өсуі жайлы жаңа көзқарас байқалады.
Мәселен, ол – қысқа мерзімді ақпараттың көлемі арифметикалық прогрессия
құрап өседі де, ал ұзақ мерзімді ақпарат – геометриялық прогрессия бойынша
ұлғаяды деген көзқарастар. Сонымен қатар, ақпараттық процестерді
компьютерлендіру (автоматтандыру) ғылым саласынан гөрі, өндіріс саласында
көбірек және тезірек іске асады деп есептеу тенденциялары орын алып жүр.
Сол сияқты, табиғи тілге байланысты төмендегідей екі түрлі теориялық
проблемаларды сөз етуге болады.
Олардың біріншісі – тілдің компьютер жадындағы қызметіне қатысты
туындайтын сұрақ.
Табиғи тіл (ауызша не жазбаша) адам баласынан логика-лық роботқа немесе
компьютерге түгелдей ауысуы кезінде қандай сапалық өзгеріске ұшырауы
мүмкін, әлде ондай тіл өзгеріссіз алғашқы қалпында қала ма?
Екіншісі – табиғи тілді зерттеу барысында формалдау процесі шекті ме?
Басқаша айтқанда, тілді мазмұнға қатыссыз бөлек сипаттау мүмкін бе? Егер
олай қарастыруға болмаса, ондағы тілдік бірліктердің берілуі мен
мағыналарының арақаты-насын анықтау мүмкін бе? – деген сұрақтар туындайды.
Бірінші сұрақтың жауабын тіл ұғымын әртүрлі тұрғыда қарастыруға
байланысты түсіндіруге болады. Мысалы, тілді тек семиотика тұрғысынан
анықтасақ, онда тіл – символдарға қатысты кодтар жүйесі деп саналады. Бұл
түсінік бойынша адам да, логикалық робот та кибернетикалық жүйе деп
ұйғарылады. Осының негізінде тілдің адамнан роботқа немесе керісінше –
роботтан адамға ауысу процесінде өзгеріс болмайды деп ұйғару керек.
Енді тілді мазмұнды лингвистикалық тұрғыдан қарастыратын болсақ, онда
болмыста кездесетін тілдің екі түрі, яғни олардың жеке (дара) және ұлттық
тіл түрлері болады деп ұғынған жөн. Тілдің кейбір қолданбалы мәселелерін
шешуде семантикалық көзқарас ыңғайлы болғанымен, ол жеткіліксіз. Себебі
табиғи тілдің екі жақтылық табиғаты оны таңбалар жүйесінің теориялық
аясында толық баяндауға мүмкіншілік туғызбайды. Екі жақтылық табиғат,
біріншіден, жекелік және ұлттық жүйе түрінде байқалса, екіншіден,
коммуникативтік құрал ретінде көрініс табады.
Егер логикалық роботты (компьютерді) аса бір зор жазба кітапшасымен
салыстыратын болсақ, оның ұқсастығымен қатар, айырмашылығын да аңғаруға
болады. Ұқсастығы – екеуінде де табиғи тілдің жазба көрінісі болуында.
Компьютер мен адам арасындағы коммуникативтік жүйе арқылы мәтіндік
ақпараттың адамнан компьютерге ауысу процесінде табиғи тіл, оның көрінісі
ретіндегі жазбамен алмасады да, ал керісінше, ақпарат компьютерден адам
наза-рына ауысқанда, жазба мәтінінің компьютердегі көрінісі, қайта-дан
таңбалардың психикалық кескін үйлесімінің бұрынғы қалпына келтіріледі, яғни
ішкі тіл (внутренняя речь) қалпына ауысады.
Сонымен, кез келген мәтінмен компьютер арқылы жұмыс істеу – тілге
психикалық әсер ету емес, ол мәтіннің формалды шартты белгілерінің оның өз
таңбаларымен әрекет етуі деп түсіну қажет. Бұл әрекеттер, әрине, адамның
ойлау қабілетіндегі процестерге ұқсай бермейді.
Табиғи тілдің құрылымын формалдаудың шегін анықтау қажеттігі тілдің
берілу пішіні (план выражения) мен мазмұндық көрінісі (план содержания)
арасындағы қатынастарын арнайы зерттеуді қажет етеді. Тілдік фактілердің
формалдану байланыс-тарын зерттей келе, біз жазба тілдің берілу көрінісін
баяндауда олардың ондай заңдылыққа бағынатынын байқаймыз. Ал тілдік
элементтердің берілу көрінісі мен мазмұндық берілуінің арасындағы
байланысты зерттеу барысында біз тікелей байқал-майтын нысандарға келіп
тірелеміз. Бұл жағдайда тілдік белгі мен белгіні білдіруші өзара
психикалық пішін үйлесімінде ғана байланысты болмай, олар мазмұнды
тұрғыдағы үнемі өзгерісте болатын экстралингвистикалық ұғымдармен ықтимал-
дық байланыстарға да ұшырайды. Тілдің мазмұндық болмысы-ның толық
формалдануына кедергі жасайтын, негізінен алғанда, тілдегі семантикалық
құбылыстар.
Осы айтылғандардан мынадай қорытынды жасауға болады.
Адам баласына тән сөйлеу не жазу тілі еш уақытта логикалық робот –
компьютерге толық берілуі мүмкін емес. Компьютерді тілдің берілу көрінісін
анализдеу мен синтездеу және мүмкіндігінше оларды формалдау жағдаяттарында
пайдалануға болады. Ал мазмұнға тиісті зерттеулер белгілі бір семантикалық
шектен аспайтын көлемдегі формалдануға тиісті жайттарда ғана іске асуы
мүмкін (Андреев).
Компьютер көмегімен шешілетін жоғарыда сөз болған тілдік көріністерді
формалдауға көнетін есептерді квазилингвис-тика саласына жатқызады. Мұндай
есептер сан жағынан аз болғанымен, олардың қолданбалық шеңбері айтарлықтай
мол болады. Квазилингвистикалық есептер адам өмірінің көптеген жақтарын
қамтиды. Мысалы, олардың ойдағыдай шешілуі экономикаға байланысты
жұмыстарды басқаруда, әскери қорғаныс істерінде және басқа да көптеген
ғылыми зерттеу жұмыстарында маңызы зор деп саналады. Бүгінгі таңдағы
осындай есептердің ең негізгісі – ақпараттық қор жинау. Бірақ бұл мәселені
шешудің өзіндік қиындық жақтары бар. Ол, әсіресе, адам баласы мен
компьютердің арақатынастарын (қызметін) дұрыс ажыратуға байланысты болып
келеді. Мысалы, жиі қайталанатын және оңай формалданатын тілдік бірліктерге
қатысты амалдарды: сұрыптау, топтастыру, санау, реттеу және т.б. жататын
есептерді компьютерге жүктеген жөн болады. Ал стандарттауға жатпайтындар –
семантикаға қатысты тілдік құбылыстар. Мысалы, мәтіннің мазмұнын ашуға
қатысты – сөздердің көпмағыналығын айыру, омоним сөздердің мағынасын
ажырату және сол сияқты кейбір формалдау процесіне көне бермейтін тілдік
құбылыстар бар (Андреев).
Енді мәтіннің туындауы (порождение текста) жағдаятын және оны әртүрлі
деңгейде қабылдаудың мүмкіншілігі жайлы қысқаша мәлімет берейік.
Мәтін өзара қарым-қатынаста болатын тілдік жүйелердің норма, узус
деп аталатын ережелері мен шектеулеріне және тілдің өзіне байланыссыз пайда
болатын сырт жағдайларына байланысты туындайды. Мұндағы сырт жағдай деп
отырға-нымыз, мәтінде баяндалатын оқиға мен шектеулерге (узусқа) қатысты
контекстік жағдаяттар (Пиотровский).
Қабылдаушы адамның өзіне бағытталған хабардың мән-мағынасын анықтауы,
оның тілдік жүйені меңгеру дәрежесіне және тілдің ережелері мен шектеулерін
(норма мен узус) айыра білуіне, әрі сол хабарламадағы сөз болатын
жағдайлармен қаншалықты таныстығына да көп байланысты.
Қабылдаушы адам мәтіннің мән-мағынасын жан-жақты ажырата білуі, оның
тілдік жүйені және оның норма, узус деп аталатын қасиеттерін толық
игеруімен қатар, осы айтылым-да пайда болған жағдаяттың прагматикалық
құндылығын ескеруіне де қатысты.
Енді хабарламаны лингвистикалық тұрғыдан қабылдау деңгейлерін сөз етер
болсақ, онда мынадай сатыларды ажырата білуіміз керек:
1) грамматикалық деңгей (бұл деңгейде тек сөйлемнің грамматикалық
схемасы ғана қабылданады);
2) сөздік деңгей (мұнда сөзтұлғалардың лексикалық мағынасы ғана
қабылданады).
3) сөздік деңгейдегі жоғарғы саты – ол қабылдаудың фразеологиялық
деңгейі. Бұл қабылдауда сөз тіркестерінің мағынасы ашылады, ал тіркес
арасындағы грамматикалық байланыстар ескерілмейді.
4) келесі саты – жоғарыда аталған үш түрлі қабылдауды жалпылайтын саты –
мәтін бойындағы лексика-граммати-калық деңгейді айқындау. Бұл сатыда да
мәтін толық түрде лингвистикалық қабылдаудан өтпейді. Себебі қабылдаушы
адам аталған деңгейлерде тек қана сөздер мен сөз тіркестерінің мағынасын
ашып, мәтіннің грамматикалық құрылымын анықта-ғанымен, оның тереңде жатқан
семантика-синтаксистік (әрі стильдік) байланыстарын аңғармай қалуы мүмкін.
Мұндай байланыстарды анықтау үшін қабылдаушы адам мәтіндегі семантика-
синтаксистік деңгейге көтерілуі қажет. Бұл деңгей, әрине, қабылдаушының
тілді толық меңгеруін талап етеді.
Қысқаша айтқанда, болашақ автомат-роботтың тілдік білім дәрежесі
әлеуметтік деңгейде болуы тиіс. Бірақ мұндай дәрежедегі электронды
автоматты құрастыру ісі, әзірше, көптеген күтпеген арақайшылықтарға
ұшырауда. Осындай қиыншылықтардың негізгісі – адам баласының сөйлеу
тіліндегі дискреттік (бөліктенулік) және үздіксіздік тәрізді қасиеттері
болып табылады (Пиотровский).
Мәтінге қатысты инженерлік-лингвистикалық жұмыстар, яғни мәтінді толық
қабылдау және оны туындату (порож-дение) тек адам–компьютер–адам
(А1–К–А2) коммуника-тивтік жүйесінде ғана іске асады. Бұл жердегі адам,
яғни А1 – хабаршы, А2 – хабарды қабылдаушы рөлінде, ал компьютер, яғни
К – хабаршының хабарламасын қабылдаушы адамға жедел және қолайлы түрде
жеткізетін аралық компонент.
Адам–компьютер–адам – хабардың берілу жүйесінің схемасы төмендегідей:

А1 К А2

Суреттегі А1–К–А2 хабардың берілу жүйесін екіге: (А1–К) және (К–А2)
бөліп қарастыруға да болады. Бірінші процесте (А1–К) мәтіндік хабарлама
адамнан компьютерге беріледі, ал екіншісі – (К–А2), керісінше, компьютерден
адам назарына қарай аударылады. Осы екі түрлі процестің әрбіреуін төменде-
гідей төрт блокқа бөліп қарастыруға болады (Пиотровский).
Бірінші процесс А1–К :
1.1) хабаршының (А1) назарында (ойлау процесінде) хабарлама мәтінінің
туындауы;
1.2) туындалған мәтін белгілерінің (кодтары) импульстер тізбегі
ретінде компьютерге берілуі;
1.3) қабылданған импульстер жиынтығының компьютерлік семиозис негізінде
мәтінді айқындау және оның мағынасын (мазмұнын) формалдау;
1.4) компьютер жадындағы айқындалған мәтінді мақсатқа сай өңдеу
(өзгерту), мысалы, басқа тілге аудару, мәтіннен аннотация, реферат алу,
индекстеу және нәтижесін табиғи тіл түрінде қабылдаушыға ұсыну.
Екінші процесс К–А2 төмендегідей төрт топтамадан тұрады:
2.1) компьютер жадындағы мақсатқа сай өңделген ақпаратты тұтынушыға
ұсыну (бұл топтама жоғарыдағы көрсетілген 1.4-ке ұқсас);
2.2) компьютерлік нәтижені қабылдаушы адамның (А2) қабылдауы;
2.3) компьютерлік хабарламаның семиозисі;
2.4) қабылдаушы адамның (А2) хабарламадан алған әсері.
Хабардың берілу жүйесі қызметінің ең маңыздылары деп, компьютерлік
семиозисті (1.3), мәтінді айқындауды және қабылдаушының компьютер ұсынған
нәтижеге байланысты түсінігін айтады. Осы аталған жағдайларда да
семиозистің жетістігі табиғи тілдің компьютерлік тілге, яғни жасанды
математикалық тілге ауысу нәтижесінің дәрежесіне тығыз байланысты.
Инженерлік тіл білімінің келесі бір маңызды проблемасы – лингвистикалық
алгоритмдер мен олардың программаларын құру мәселесі. Мұны басқа сөзбен –
“компьютерді оқыту” деп те айтуға болады. Табиғи тіл мен жасанды тілдің
қатынастық жақтарын дұрыс түсінбейінше, бұл мәселені шешу оңайға түспейді.
Табиғи тіл де, жасанды математикалық (компьютерлік) тіл де семиотикалық
жүйеге жататындықтан, олардың негізгі қасиеттеріне тоқталайық.
Тіл жүйесін тілдік бірліктер және олардың арасындағы қатынастар деп
түсінетініміз мәлім. Ал табиғи тілдің бірліктері дегеніміз: дыбыс пен
фонема, әріп, морфа мен морфема, сөз бен сөзтұлға және олардың құрылымдық
түрлері, сөз тіркесі, сөйлем және олардың қаңқалық схемасы. Енді жасанды
компьютерлік тілдің бірліктері – әріп, цифрлар мен символдар және олардың
шартты белгілері (кодтары), компьютерлік түбір сөз, сөздер және сөйлемдер.
Бұл жердегі компьютерлік сөз не түбір сөз деп отырғанымыз, белгілі бір
түрде шектелген әріп тіркестері, ал компьютерлік сөз тіркес және сөйлемдер
дегендеріміз, алдын ала келісім бойынша шектелген компьютерлік сөздер
тізбегі болып табылады.
Табиғи тілдің мынадай үш түрлі функцияларын атауға болады (Баранов):
а) семантикалық және сигматикалық ақпаратты таратуға мүмкіндік туғызатын
лингвистикалық символды қалыптастыра-тын тілдің номинативті функциясы;
б) тілдік белгілерді өзара байланыста ұстайтын және мәтіндік ақпараттың
синтактикалық қасиетін сипаттайтын тілдің предикативті функциясы;
в) хабардың берілу кезінде тілдің номинативті және предикативті
функцияларын хабарлаушы (А1) не қабылдаушы (А2) жеке адамның (жеке ұйымның)
қалауымен ұштастыра алатын прагматикалық функция.
Жасанды математика тілінде және оның барлық тармақ-тарында, яғни
компьютерлік тілдің берілуінің өзінде-ақ предика-тивті функция біте
қайнасып жатады.
Жасанды компьютерлік тілдің номинативті функциясы белгінің (знактың)
мағынасымен (десигнатымен) шектеледі. Ал бұл жасанды математикалық тілде
прагматикалық функция атымен жоқ деуге болады (Пиотровский).
Сонымен, хабардың берілу жүйесі (А1–К–А2) жұмысының нәтижелілігі,
біріншіден, мазмұнды хабардың көлемдік мөлше-ріне және екіншіден, көпшілік
қабылдаушының дайындық дәре-жесіне де көп байланысты демекпіз.
Қысқаша айтқанда, инженерлік тіл білімінің жалпы тіл теориясына қатысты
атқаратын кейбір қызметтері осындай.

Әдебиет

Андреев Н.Д. Язык в обществе, использующием кибернетические
машиныВопросы социальной лингвистики. Л.: Наука, 1969. С. 25-40.
Баранов А.Н. Введение в прикладную лингвистику. Эдиториал УРСС. М.:
2001. 360 с.
Пиотровский Р.Г. Текст, машина, человек. Л.: Наука, 1975. 327 с.

Жасанды интеллект жүйесін құрастыруға
қатысты мәселелер жайында

Қазіргі түсініктегі электронды-есептеу машина (ЭЕМ) деген сөз тіркесі ең
алғаш 1946 жылдан бастап (ЭНИАК, АҚШ) қолдана бастады және бұл есептеу
техникасының қарқындап даму кезінің бастамасы еді. Міне, осы үрдіс қазіргі
кезде де өз жалғасын табуда.
Бірінші есептеуіш машиналар көлемді арифметикалық есеп-қисаптарды
орындауға арналып, ол машиналар програм-малар арқылы әрекет ететін ғажайып
үлкен калькуляторлар тәріздес болатын. Мысалы, осындай ЭНИАК машинасы
баллис-тикалық кестелерді есептеу үшін жобаланған болатын. Бірақ өткен
ғасырдың 50-жылдарының басында-ақ ЭЕМ-ды пайдала-ну мұндай шағын аямен ғана
шектелмеу керектігі анық бола бастады, яғни есептеуіш машиналардың ақпарат
түрінің саннан да басқаша түрлері бойынша әрекет ету (өңдеу) мүмкіндігі
бары анықталды. Дәлірек айтсақ, практикалық тұрғыдан қарастыр-ғанда, кез
келген ақпарат (мәтін, сурет, дыбыстық сигнал және т.б.) ЭЕМ көмегімен
өңделетін сандар арқылы кодталуына (шартты сандық белгімен ауыстырылуына)
мүмкіндігі бары анықталды. Бірақ бұл жайт практикалық әрекеттер үшін
айтарлықтай маңызды емес еді. Оның себебі қазіргі кездегі есептеу техникасы
мен оны пайдалану әдістерінің даму сипатына қарай ЭЕМ үшін қажетті деген
программаны жазып, мысалы, қайсыбір мәтінді өңдеуге қатысты қойылған міндет-
терді шешуге болады. Ал бұл мәтіннің қалайша кодталғаны (шартты белгіленуі)
туралы мәліметті білуді тіпті де қажет етпейді.
Есептеу техникасының мүмкіндігін (яғни ЭЕМ арқылы сандық емес ақпаратты
өңдеу мүмкіндігін) тез арада ұғынуға математикалық логиканың қарқынды түрде
даму барысы себепші болды. Мысалы, ең алғашқы есептеу машиналарының пайда
болуынан бұрынырақ кезде алгоритмдер теориясының (математикалық логиканың
тарауы) Тьюринг машинасы, рекур-сивтік функциялар, Марковтың нормалды
алгоритмдері және т.б. нәтижелерге қол жеткен болатын. Сонымен, ХХ ғ. 50-
жылдарынан бастап қазіргі кезге дейін электронды есептеу машиналары сандық
емес ақпараттың да әртүрлі мәселелерін өңдеуде кең қолданыс тауып жүр.
Өткен ғасырдың 50-жылдарының өзінде-ақ ғалымдарды мынадай сұрақтар
мазалайтын: машинаны адамша ойлатуға бола ма немесе, басқаша айтқанда,
жасанды интеллекті құрастыру мүмкін бе?
... жалғасы

Сіз бұл жұмысты біздің қосымшамыз арқылы толығымен тегін көре аласыз.
Ұқсас жұмыстар
Қазақ тілінің лексикографиясының типтері
Қазақ лексикографиясының қалыптасуы мен зерттелуі
Сөздік құрастырудың техникасы
Сөз тарихы
Тарихи лексикография
Қазақ лексикографиясы: біртілді оқу сөздігін түзудің ғылым негіздері
ДИУАНИ ЛҰҒАТ АТ-ТҮРІК - ҚАЗАҚТЫҢ ТҰҢҒЫШ СӨЗДІГІ
Қазақ лексикографиясы: біртілді оқу сөздігін түзудің ғылыми негіздері
Өзге тілден енген сөздер. Қазіргі қазақ тілі лексикасының стильдік мәні
Лексикография туралы жалпы түсінік
Пәндер