Сөйлеу тілінің мәтіндері


ҚАЗАҚСТАН РЕСПУБЛИКАСЫ ҒЫЛЫМ ЖӘНЕ ЖОҒАРЫ БІЛІМ МИНИСТРЛІГІ ҒЫЛЫМ КОМИТЕТІ АХМЕТ БАЙТҰРСЫНҰЛЫ АТЫНДАҒЫ ТІЛ БІЛІМІ ИНСТИТУТЫ
ИНСТИТУТ ЯЗЫКОЗНАНИЯ ИМЕНИ АХМЕТА БАЙТУРСЫНУЛЫ
КОМИТЕТА НАУКИ МИНИСТЕРСТВА НАУКИ И ВЫСШЕГО ОБРАЗОВАНИЯ РЕСПУБЛИКИ КАЗАХСТАН
AKHMET BAITURSYNULY INSTITUTE OF LINGUISTICS OF THE COMMITTEE OF SCIENCE OF THE MINISTRY OF SCIENCE AND HIGHER EDUCATION OF THE REPUBLIC OF KAZAKHSTAN
АСҚАР ЖҰБАНОВ ОҚУЛАРЫ
(тұрақты ғылыми тілтанымдық алаң)
ҚАЗАҚСТАНДАҒЫ ҰЛТТЫҚ ЖАРНАМА ТІЛІН ҚАЛЫПТАСТЫРУ ЖӘНЕ ЦИФРЛАНДЫРУ
және
ҒЫЛЫМИ-ЗЕРТТЕУ ЖӘНЕ ОҚЫТУ ИНТЕРНЕТ-РЕСУРСЫ РЕТІНДЕГІ ҰЛТТЫҚ КОРПУСТАР ӘЗІРЛЕУ ТӘЖІРИБЕСІ
Асқар Жұбанов оқулары аясында ұйымдастырылған
Қазақстандағы ұлттық жарнама тілін қалыптастыру және цифрландыру және Ғылыми-зерттеу және оқыту интернет-ресурсы ретіндегі
Ұлттық корпустар әзірлеу тәжірибесі
атты халықаралық ғылыми-теориялық конференцияның
МАТЕРИАЛДАР ЖИНАҒЫ
СБОРНИК МАТЕРИАЛОВ
международной научно-теоретической конференции
Цифровизация и формирование языка национальной рекламы в Казахстане и Опыт создания Национальных корпусов как научно-исследовательский
и обучающий интернет-ресурс в рамках регулярной научно-языковой площадки Аскар Жубановские чтения
Алматы, 2023
ӘОЖ 811.512.122
КБЖ 81.2 Каз.
А 88
Бас редактор
А.Фазылжан - А.Байтұрсынұлы атындағы Тіл білімі институтының директоры
Пікір жазғандар:
Н.Уәли - филология ғылымдарының докторы, профессор
Э.Сүлейменова - филология ғылымдарының докторы, профессор
Редакция алқасы:
ф.ғ.д., профессор Н.Уәли, ф.ғ.д., профессор Р. Шойбеков, ф.ғ.д., профессор З.Базарбаева, ф.ғ.д., профессор Ж.Манкеева, ф.ғ.д., профессор А.Алдаш, ф.ғ.д., профессор М.Малбақов, ф.ғ.д., профессор Б.Момынова, ф.ғ.д., доцент Қ.Рысберген, ф.ғ.д., профессор Қ.Күдеринова, ф.ғ.к., доцент С.Құлманов, ф.ғ.к. Г.Исаева
Жауапты шығарушылар:
А.Жаңабекова, А.Қожахметова, Г. Тлегенова, А.Махамбетова
А 88 Асқар Жұбанов оқулары тұрақты ғылыми тілтанымдық алаң аясында ұйымдас тырылған халықаралық ғылымитеориялық конференция материалдары. - Алматы: ЖК Асыл, 2023. - 288 бет.
ІSBN 978-601-7288-18-1
Бұл жинаққа Мемлекеттік тілдің ақпараттықинновациялық базасы ретіндегі Қазақ тілінің ұлттық кор пусын әзірлеу: ғылымизерттеу және оқыту интернетресурсы (BR11765619) және Мәденирепрезентативті және жарнама мәтіндерінің ішкорпусын әзірлеу (BR18574132) ғылыми жобалары бойынша Асқар Жұбанов оқулары тұрақты ғылыми тілтанымдық алаң аясында ұйымдастырылған Қазақстандағы ұлттық жарнама тілін қалыптастыру және цифрландыру және Ғылымизерттеу және оқыту интернетресурсы ретіндегі Ұлттық корпустар әзірлеу тәжірибесі атты халықаралық ғылымитеориялық конференция материалдары енді.
Конференция материалдары жоғарғы оқу орындарының оқытушылары мен ғылыми зерттеу институтта ры қызметкерлеріне, PhD докторанттар мен магистранттарға арналады.
ӘОЖ 811.512.122
КБЖ 81.2 Каз.
ІSBN 9786017288181 (C) А.Байтұрсынұлы атындағы
Тіл білімі институты, 2023
АЛҒЫ СӨЗ
Бұл ғылыми жинаққа Қазақстан Республикасы Ғылым және жоғары білім министрлігі Ғылым комитетінің Ахмет Байтұрсынұлы атындағы Тіл білімі институтының Асқар Жұбанов оқулары тұрақты ғылыми тілтанымдық алаң аясында өткізген Ғылымизерттеу және оқыту интернетресурсы ретіндегі Ұлттық корпустар әзірлеу тәжірибесі және Қазақстандағы ұлт тық жарнама тілін қалыптастыру және цифрландыру атты халықаралық ғылымитеориялық конференциялар материалдары еніп отыр.
Асқар Жұбанов - қазақ тіл білімінің ғылыми негізін қалаған белгілі ғалым, қоғам қайратке рі, профессор Құдайберген Жұбановтың ұрпағы, қазақ тіл білімінің қолданбалы саласының қарыштап дамуына ерекше үлес қосқан, саналы ғұмырын қазақ лингвостатистикасы, корпус тық лингвистикасы сияқты заманауи бағыттарды қалыптастыруға арнаған әлемдік деңгейдегі ғалым, Қазақ тілінің ұлттық корпусының негізін қалаушы.
А.Байтұрсынұлы атындағы Тіл білімі институты Асқар Жұбанов бастамашы болған қазақ тіл білімінің қолданбалы бағытын әрі қарай дамытуды мұрат етеді. Өйткені мемлекеттік тілдің қолданыс аясын барынша кеңейту тіліміздің осы қолданбалы бағытымен де тығыз байланысты. Осы ретте 2022 жылы қараша айында Асқар Жұбановтың 85 жылдық мерейтойына орай Асқар Жұбанов оқулары тұрақты тілтанымдық алаңы ашылып, іске қосылған болатын. Биыл Асқар Жұбанов оқулары тұрақты тілтанымдық алаңы өз жұмысын екінші жыл жалғастырып отыр. Институт 20222023 жж. Мемлекеттік тілдің ақпараттықинновациялық базасы ретіндегі Қазақ тілінің ұлттық корпусын әзірлеу: ғылымизерттеу және оқыту интернетресурсы (BR11765619) бағдарламалықнысаналы қаржыландыру зерттеу жобасы (20222023 жж.) бойынша Қазақ тілінің ұлттық корпусының жаңа 3 ішкорпусын (Параллель, Ауызша, Тарихи корпус) және 3 лингвистикалық белгіленімін (лексикасемантикалық, мәденисемантикалық, просодикалық) әзірледі. Аталмыш конференцияда осы ішкорпустарды әзірлеу барысындағы нәтижелер баяндалып, Ұлттық корпустар жасау тәжірибесі таныстырылды. Конференцияда Орыс тілінің ұлттық корпусын (профессор Е.Рахилина), башқұрт тілінің мәшинелік қорын
жасаушы ғалымдар (З.Сиразитдинов және т.б.) зерттеулері ұсынылды.
Сонымен қатар Институтта Мәденирепрезентативті және жарнама мәтіндері ішкорпус тарын әзірлеу (20232024 жж.) атты бағдарламалықнысаналы қаржыландыру зерттеу жобасы бойынша қазақ тіліндегі жарнама ішкорпусы әзірленіп жатыр. Осы ретте конференцияда қазақ жарнамасының бүгінгі тілдік келбеті, құрылымы мен құрылысы, түрлері мен типтері мәселесі көтеріліп, осы ішкорпусты әзірлеуші мамандардың жарнама мәтіндерін жинақтау мен жүйелеу барысында шығарылған қорытынды тұжырымдары ортаға салынды. Ісшараға қоғам қайраткерлері, ғылыми қауым өкілдері және мемлекеттік тілді оқыту орталықтарының мамандары мен БАҚ қызметкерлері қатысты.
Асқар Жұбанов оқулары тілтанымдық алаңы - қазақ тіл білімінің қолданбалы бағытын дағы өткен тарихтан сабақ алушы, бүгінгі қол жеткізген нәтижелер мен өнімдерді насихаттау шы, қолданбалы лингвистиканың келешек бағытын айқындаушы ақпараттық қоғамның өзекті мәселелерін тілтанымдық аспектіде зерттеудің нәтижелерін апробациядан өткізуші мықты орта қатыптастыратын құрал болуына осы конференция да өз үлесін қосты. Асқар Жұбанов оқулары жыл өткен сайын ақпараттық қоғам сұранысына қажет тілтанымдық ізденістер мен өнімдерді сынамадан өткізетін жоба ретінде көкжиігін кеңейтіп, жетіле беретініне сенімдіміз.
Ғалым мен Ғылым тоғысында өткізілген аталмыш конференцияның жас ғалымдарды тәрбиелеуге, мемлекеттік тілдің ақпараттық кеңістігін нығайтуға, Цифрлық қазақ тілінің әлеуетін арттыруға және қазақтілді жарнама мәселесін жолға қоюға септігі мол болды деп бағалаймыз.
Анар ФАЗЫЛЖАН
Ахмет Байтұрсынұлы атындағы Тіл білімі институтының директоры
І. ПРОФЕССОР АСҚАР ЖҰБАНОВТЫҢ ТІЛТАНЫМДЫҚ МҰРАСЫ
Н.А. САДУАҚАС
филология ғылымдарының кандидаты, доцент, Қ.Жұбанов атындағы Ақтөбе өңірлік университеті,
Ақтөбе, Қазақстан
ҒАЛЫМ АСҚАР ЖҰБАНОВ ЖӘНЕ ҚОЛДАНБАЛЫ ТІЛ БІЛІМІ
Аңдатпа. Мақалада қазақ тіл білімінің қолданбалы саласында танымал ғалым Жұбанов Асқар Құдайбергенұлының өмір жолы, ғылыми және педагогикалық еңбектері туралы баян далған. Ғалымның қазақ тілінің статистикасы, жиілік сөздіктер, компьютерлік және корпустық лингвистиканың ғылыми мәселелері жөнінде жүргізген зерттеу жұмыстарына талдау жасалған. Тірек сөздер: Қолданбалы тіл білімі, машиналық аударма, статистика, формалды модель дер, мәтін лингвистикасы, компютерлік лингвистика, корпустық лингвистика, жиілік сөздіктер.
Аннотация. В статье рассказывается о жизненном пути, научных и педагогических тру дах известного ученого в прикладной области казахского языкознания Жубанова Аскара Кудайбергеновича. Проведен анализ исследовательской работы ученого по статистике казах ского языка, частотным словарям, научным проблемам компьютерной и корпусной лингвис тики.
Ключевые слова: прикладное языкознание, машинный перевод, статистика, формальные модели, лингвистика текста, компютерная лингвистика, корпусная лингвистика, частотные словари.
Abstract. The article tells about the life path, scientific and pedagogical works of the famous scientist in the applied field of Kazakh linguistics Zhubanov Askar Kudaibergenovich. The analysis of the scientist's research work on statistics of the Kazakh language, frequency dictionaries, scientific problems of computer and corpus linguistics is carried out.
Key words: applied linguistics, machine translation, statistics, formal models, text linguistics, computer linguistics, corpus linguistics, frequency dictionaries.
Қазақ тіл білімінің қолданбалы саласын дамытуға, дәлірек айтқанда, қазақ цифрлық тіл білімін, қазақ инженерлік лингвистикасын, корпустық лингвистиканы қалыптастыруда, айтар лықтай қомақты үлес қосқан ғалым, есімі бүкіл түркі жұртына аты әйгілі маман, филология ғылымдарының докторы, профессор А.Қ.Жұбанов еңбектерінің маңызы зор. Есімі елге таны мал профессор Құдайберген Жұбановтың бел баласы, сүт кенжесі болған Асқар Жұбановтың математик маман болып, еңбек жолын жаңа бастаған кезеңіне ойша зер салар болсақ, сол тұста ғылым салаларындағы ізденістердің алға басуы әртүрлі ғылым салаларының да тоғысып, за ман талабына қарай жаңа бағыттағы зерттеулерді талап ете бастағанын байқатқан еді. Бұл жылдары ел басына төнген талай қиындықтардың бұлты сейіліп, өнермәдениет, ғылым мен техниканың дамуы жаңаша сипат алып, елдің де еркін тыныстай бастаған кезі еді. Осы кезде тілге де математика жағынан келіп, тілдік бірліктердің сандық өлшемін есептеп, оны алго ритмдік негізде жүйелеуге, мәтінді электронды есептеуіш машина арқылы қарастырып, аудар ма жасау ісін де компьютерлік техника көмегімен жүзеге асыруға бағытталған жаңа ғылыми сала ретінде қолданбалы тіл білімі ғылымының аясында математикалық лингвистика бой көтере бастаған болатын [1,108]. Осы тұста жас математик Асқардың бірбірінен алыс жатқан екінші бір сала - лингвистикаға келуін бір жағы күтпеген жағдай десек, екіншіден тағдырдың жазуы деуге болады. Себебі әкесі профессор Құдайберген Жұбанов өзінің қысқа өмірінде тілдің сансалалы бағытына қалам тербеген болса, ғылым дамуына байланысты дүниеге келген қазіргі тіл білімінің жаңа салаларының алғашқы ұшқындары да ғалым Құдайберген
Жұбановтың еңбектерінен бастау алып жатқанын бүгінгі жас ғалымдар өз зерттеулерінде көрсетіп келеді. Осындай жаңаша зерттеу әдістерінің бірі тілдік бірліктерді санмен байла ныстыра зерттеудің алғашқы үлгісі Құдайберген Жұбанов еңбектерінен табылған болатын [1, 109]. Қолданбалы тіл білімінің Статистикалық лингвистика деп аталып жүрген жаңа саланың бастауында профессор Құдайберген Қуанұлы Жұбановтың тұрғаны жайында белгілі тілшістатист ғалымдар - Қ.Б.Бектаев, С.Мырзабеков т.б. қазақ тілінің статистикасы туралы зерттеулері мен мақалаларында арнайы атап көрсеткен болатын.
Асқар ағамыз өзінің әке жолын ұстап, осы бір жалынның ұшқынын үрлеп, одан әрі лаулата жандыруына, математикалық тіл білімі жолына түсуіне өзінің ағасы, ғалым Есет Жұбановтың да ағалық ақылының қозғау салғанын айтып отыратын еді. Алғашқы уақытта тілді тек тілдік тұрғыдан зерттеу керек деген көзқарастағылар тілді математикалық есептеулермен байланыс тыра қарастырудың қажеттілігін дұрыс сезіне алмай жатқан кезінде, яғни, бүгінгі таңда керекті ақпараттарды алу, не өз ақпаратымызды екінші бір жерге жіберу сияқты толып жатқан барлық ісәрекетімізді автоматты түрде үйде отырыпақ жүзеге асыратынымызды ойласақ, Асқар Жұбановтың бүгінде цифрлық технология деген жаңа атаумен бүкіл адамзаттың қажеттілігіне айналып отырған осы салаға қарай бұрылуын ғылыми көрегендік, батыл қадам, ғылымдағы сирек құбылыс деп те бағалауға болады. Себебі жаңа салаға сол саланың мамандары да ба тыл бара бермейтінін ескерсек, тіл саласына математик маманның келуі, сонымен бірге өз жұмысында бір елге жүк болатындай пайдалы іс жасау екінің бірі қолынан келе бермейтін шаруа деп есептейміз. Сонымен бірге әкесі Құдайберген Жұбановтың өзінің өлшеусіз ғылыми мәнді еңбектерімен қазақ тіл білімін биікке көтергенін, одан кейін туған ағасы ғалым Есет Жұбановтың да қазақ фольклорының тілін зерттеуді алғашқы болып қолға алып, өзінің өзгеге ұқсамайтын терең білімімен ғылымға өшпестей үлес қосып кеткенін ескерсек, қазақ тіл білімінде алғашқы болып жаңа бір саланың іргесін қалап, оның ғылыми нәтижелерін ел игілігі не ұсынып, соңына ерген ізбасар ғалым шәкірттеріне жол көрсете білуі Асқар Жұбановтың ғылымдағы өзіндік дара жолын көрсетеді.
Жұбанов Асқар Құдайбергенұлы 1937 жылғы күз айының 13 қарашасында Алматы қала сында дүниеге келді [2, 382]. Әкесі халқымыздың тарихындағы тіл ғылымының тұңғыш про фессоры, қазақ тіл білімінің теориялық негізін қалаушылардың бірі, алғашқы кәсіби лингвист, ағартушы, түркітанушы ғалым Құдайберген Қуанұлы Жұбанов болатын. Әкесі Құдайберген солақай саясаттың құрығына іліккен кезде Асқар үш айлығындаақ жер аударылып, туған қаласы Алматыдан әкешешесінің туған жері Ақтөбедегі Мұғалжар өлкесінен бірақ шығады. Құдайберген Жұбановтың жөргектегі нәрестесі Асқардың жарық дүниеге келгеніне небәрі үш ақ күн болғанда жапон шпионы деген жалған жаламен қамауға алынған сәтінен інілерінің тағдырына алаңдап, ағалық көмек көрсетіп, ақылкеңес беріп келген Ахмет Жұбанов 1949 жылы бала Асқарды Алматыға алдырып, №18 қазақ орта мектепинтернатының төртінші сыныбына оқуға береді. Бір жыл өте үлкен ағасы Ақырап Алматыдағы 1950 жылы көркемсурет учили щесін бітіріп, жолдама бойынша Петропавл қаласына жұмысқа тұрып, анасы мен бауырларын көшіріп алған кезде, отбасының сүт кенжесі Асқар да осы басқа жерде оқуын жалғастырады. Шыр етіп жарық дүниенің есігін ашқаннан тағдырдың тепкісін көрген кенже бала Асқар өзінің екі аға, үш апасы, халық жауының әйелі атанған Раушан ансымен қалып, сол кезеңдегі қызыл саясаттың кесірінен әке есімі ақталғанша талай жерде қиындықты көріп өседі.
Бала кезінен техника, математика бағытындағы салаларға ерекше қызығушылық таны тып өскен Асқар Құдайбергенұлы орта мектепті бітірген соң 1955 жылы Алматы қаласындағы Таукен (политехникалық ) институтына ең жоғары балл жинап, оқуға түсіп тұрған сәтінде, сол қатал заманның Халық жауының баласы! деген айыптауы тағы да алдын орап, білім қуған талапты жастың арманының тауы шағылған еді. Қай заманда да үлкен жүректі, адал азамат тар болды десек, алаштың атақты перзенттерінің бірі, сол кезде ҚазПИдің ректоры, Кеңестер Одағының Батыры Мәлік Ғабдуллиннің: Сенің әкең - ұлы кісі деп, сол сәтте жас жігіттің жарым көңіліне жарық нұр сепкендей болып, бауырына басып, 1955 жылы Абай атындағы ҚазПИдің физикаматематика факультетіне оқуға түсуіне қол ұшын бергенін Асқар Жұбанов әр кез айтып отыратын [3, 6].
Әке жолын қуып, әке рухына табына жүріп, тіл саласына келген математика маманы Жұбанов Асқар Құдайбергенұлы 19671970 жылдары Қазақ ССР Ғылым академиясы Тіл білімі институтының күндізгі бөлімінің аспиранты болып, Минск қаласындағы Шет тілдер институ ты жанында ғылыми тәжірибеден өтіп, МәскеуЛенинградтың осы саладағы ғалымдарымен байланыс жасап тұрады. Тіл білімі институтындағы тілді зерттеуде математика мүмкіндігін пайдалануды іске асыратын жаңа бағыттағы Статистикалингвистикалық зерттеу және авто маттандыру тобының кіші, кейіннен аға ғылыми қызметкері бола жүріп, тілдің сөз байлығын жаңа қырынан зерделеу жолында лингвистикалық сөздіктерді сандық және сапалық белгі леріне қарай математикалық статистика тәсілімен зерттеуді қолға алған алғашқы белгілі математикғалым Қалдыбай Бектаевпен бірлесе еңбек етеді. Асқар Құдайбергенұлы 1973 жылы физикаматематика ғылымдарының кандидаты, филология ғылымдарының докто ры Қ.Б.Бектаевтың және академик І.Кеңесбаевтың ғылыми кеңесшілігімен ЭЕМ көмегімен қазақ мәтінін статистикалық зерттеу атты тақырыпта кандидаттық диссертациясын қорғап, қазақ тілін математикалық әдіспен, яғни статистика мен ықтималдылықтар теориясы әдісте рімен зерттеу жұмыстарын жүргізді [2, 382]. Қазақша мәтіндерді электронды есептеу машина сының көмегімен зерттеп, тұңғыш рет сөзформа, негіз сөз, әріп, әріп тіркесі, т.б. тілдік бірлік тердің автоматтанған жиілік сөздіктерін құрастырудың алгоритмі мен бағдарламасын жасап шығарады. Осындай зерттеулер нәтижесінде заманымыздың заңғар жазушысы Мұхтар Әуезов
Абай жолы эпопеясында 465691 сөзқолданысты пайдаланғанын, онда сөз саны - 16983, ал сөзформасы - 61424 екенін ғылыми түрде анықтайды [4.68]. Ал 2002 жылы А. Байтұрсынұлы атындағы Тіл білімі институтының Қолданбалы лингвистика бөлімінің меңгерушісі қызметін атқара жүріп, сол мекеменің ғылыми кеңесінде Қазақ мәтіні мазмұнын формалдаудың негіз гі ұстанымдары атты тақырыпта докторлық диссертация қорғап, филология ғылымдарының докторы ғылыми атағын алады. Ол қазақ тіл білімінің корпустық лингвистика деп аталған жаңа бағыттағы саласының бірденбір білікті маманы ретінде өзіне ізбасар ғалымшәкірттер дайын даумен шұғылданып, 1991 жылдан бастап А. Байтұрсынұлы атындағы Тіл білімі институтының
Қолданбалы лингвистика бөлімінің меңгерушісі, кейіннен жаңаша аталымдағы Компью терлік лингвистика ғылыми тобының бас ғылыми қызметкері міндеттерін атқарды.
Адам бойында ата сүйегімен біткен, ана сүтімен сіңген тектік сипатымен қатар, әркімнің өзіне ғана тән табиғатына біткен қарымқабілеті болады десек, әкесі Құдайберген Жұбановтан келген тума талантылығы, дарынды ғалым ағасы Есет Жұбановтан алған үлгіөнегесі бар Асқар Жұбанов та ерекше қабілетті, білімді азамат еді. Асқар Жұбанов М.О. Әуезовтің толық шығармалар жинағы мәтінін ЭЕМге енгізуге дайындау және сөзнұсқағышсөздіктерді құрас тыру, М. Әуезовтің 20 томдық шығармалары бойынша автоматтанған картотекалық қор жа сау, М. Әуезовтің шығармалары бойынша сөзформалар мен сөздердің жиілік сөздіктерін ЭЕМ арқылы құрастыру атты ғылыми тақырыптарға жетекшілік етеді. Профессор ғылыми атағын алған ғалым Асқар Жұбанов корпустық лингвистиканың еліміздегі алғашқы ірі мама ны ретінде әлФараби атындағы Қазақ ұлттық университетінің филолог магистранттары мен студенттеріне математикалық және компьютерлік лингвистика пәндері бойынша дәріс беріп, осы салаға арналған жоғары оқу орындарына арналған оқулықтарын дайындап шығарады [5]. Корпустық лингвистика маманы ғалым Асқар Жұбановтың жетекшілігімен осы саланың 5 кандидаттық және бірнеше магистрлік диссертациясы қорғалды.
Көпшілікке жете таныс емес формалды логика дегенді тіл ғылымына қарай бұру, қазақ тілін зерттеуде математикалық әдістерді қолдануда, сол арқылы машиналық аударма жа саумен айналысатын ғылыми саланың дүниеге келіп, оның статистика, формалды модель дер, мәтін лингвистикасы, қолданбалы лингвистика, компютерлік лингвистика, корпустық лингвистика деген атаулармен дамуында осы бағыттың алғашқы мамандардың бірі ретінде Асқар Жұбановтың көп еңбегі сіңген еді [6]. Қазіргі таңда қазақ тіл білімінде аталған саланың сандық технологиялармен үндесе жаңа қырынан дами бастағанын ескерсек, Асқар Жұбанов еңбектерінің заман көшімен бірге ілесіп, жаңа леппен дамып бара жатқанын көріп, ғалым ның осы жаңа саланың алғашқы бастаушылардың бірі ғана емес, оны әрі қарай алып ба рушы да болғанын мақтан етеміз. Жұбанов Асқар Құдайбергенұлы өзінің ғалымдық еңбегі
үшін Қазақстан Республикасының ғылымын дамытуға сіңірген еңбегі үшін (2013) медалі, Қ.Жұбанов атындағы Ақтөбе өңірлік мемлекеттік университеті Ғылыми кеңесінің шешімімен
Жұбанов медалімен (27.11.2017 ж. №3 хаттама), Қазақстан Республикасының Құрмет гра мотасы (5.12.2017 ж.), Қазақстан Республикасының ғылымын дамытуға сіңірген еңбегі үшін (2017) медалі, Еңбек ардагері медалімен (2018) марапатталды. Корпустық лингвистиканың білгір маманы ретінде Асқар Жұбанов Квантитативная структура казахского текста (1987),
Куманшақазақша жиілік сөздік (құрастыруш. бірі. 1978), М.О.Әуезовтің 20 томдық шы ғармалар текстерінің жиілік сөздіктері (құрастыруш. бірі. 1995), Основные формализации содержания казахского текста (2002), Қолданбалы лингвистика: қазақ тілінің статистикасы (2004), Қолданбалы лингвистика: формалды модельдер (2006), Қолданбалы тіл білімінің мәселелері (2008), Корпустық лингвистика (2017), т.б. еңбектер жазып қалдырды [2, 385]. Ғалым Асқар Жұбанов математика маманы ретінде тілге де математика жағынан келіп, тіл дік бірліктердің сандық өлшемін есептеп, оны алгоритмдік негізде жүйелеуге, мәтінді элек тронды есептеуіш машина арқылы қарастырып, аударма жасау ісін де компьютерлік техника көмегімен жүзеге асыруға бағытталған жаңа ғылыми сала ретінде қолданбалы тіл білімі ғылымының аясында математикалық лингвистика, статистикалық лингвистика деп түрлі ше аталған салаға көп үлес қосты. Статистикалық лингвистика - тілдің грамматикалық ка тегорияларын, тілдегі барлық деректерді сандық тұрғыда тексеріп, тіл элементтерін өлшеудің сандық мәселелерімен айналысатын қолданбалы тіл білімінің бір жаңа саласы. Тілдегі жиілік сөздіктердің түрлерін, кері әліпбижиілік сөздік, сөзнұсқағыш әліпбижиілік сөздік, мәтін мен оның жиілік сөздігі бірліктерімен арақатынасы, сөздерді компьютер арқылы алудың біріккен және іріленген алгоритмін жасау, цифр заңы және оны қазақ мәтіні бойынша түзілген жиілік сөздіктерге қолдану, мәтін және оның жиілік сөздігі ішіндегі сөздің ақпараттық сипаттамасын беру, лингвистикалық болжамды тексеру критерийін анықтау, т.б. мәселелерді қарастырады. Ғалымның осы статистика мәселесі жөнінде жазған оқулығы бүгінде жастардың игілігіне ай налды. Қазақ цифрлық тіл білімін қалыптастыруда ғалым А.Қ.Жұбанов еңбектерінің маңызы зор.
Қазіргі ғылымитехникалық үдерістер заманында ақпарат көлемінің бұрынсоңды болма ған дәрежеде артуына байланысты қажетті мәліметтерді тез тауып алу бағытындағы ізденіс тер Асқар Құдайбергенұлының компьютерлік лингвистика саласындағы зерттеулерінде өз шешімін тауып, ақпаратты іздестіру, оны табу әрекеттері, аталған қызметтерді жүзеге асыра тын құралдары мен әдістері, яғни ішкі жүйелерді жабдықтау түрлері, ақпарат іздестіру тілі нің грамматикасы, қазақ тілінің компьютерлік қорын құрастыру, т.б. теориялық мәселелер қарастырылды. Бүгінгі таңда осы аталған саланың ғылым қуған жас мамандары ғалым ға лымдар Асқар Құдайбергенұлының зерттеулері арқылы корпустық лингвистиканың ғылыми негіздерімен танысып, корпустық технологиялардың мәнін түсініп, корпустармен жұмыс істеу дағдысын меңгеріп жатыр. Ғалым Асқар Жұбановтың жетекшілігімен қазақ тілінің жиілік сөздіктері де шығарылып, корпустық лингвистиканың жас мамандары да ғылыми жетістік терімен тілімізді жаңа бағытта зерттеуге үлес қосып келеді [7]. Асқар Құдайбергенұлы өзінің зерттеу нәтижелерін ғалым шәкірті А. Жаңабековамен бірлесіп жазған Корпустық лингвис тика атты монографиясында баяндады. Корпустық лингвистика компьютерлік технология ларды қолдана отырып, тілдік мәліметтердің лингвистикалық корпусын құрастыру мен оны қолданудың жалпы принциптерін зерттеумен айналысады. Ол мынадай үш түрлі тәсілді қол данады: 1. Корпус ішінен тілге қатысты мәліметтерді автоматты түрде таңдап алу; ақпаратты өңдеу; өңделген мәліметтерді тексеру және оларға түсініктеме беру, - деп түсіндірген еді [8, 17]. Ғалымдардың көрсетуіне қарағанда, осы тәсілдер алдағы уақытта да жанжақты зерт теулермен жалғаса бермек.
Қазақтың тектілік деген түсінігін дәлелдеп, халқымыздың мақтанышына айналған
Жұбановтар әулеті деген қымбат атты жоғары ұстап келе жатқан ғалым ағамыз Асқар Жұбанов әкешешесінің туған жері Ақтөбе, Мұғалжар өлкесінің жұртшылығына сыйлы, әкесінің есі мін иеленген Құдайберген Жұбанов атындағы Ақтөбе өңірлік мемлекеттік университетінің профессороқытушыларына жақсы таныс, тығыз қарым - қатынас орната білген ардақты аза
мат еді. Университеттің ғылымипедагогикалық өміріне өзінің ғылыми ақылкеңестерімен қол ұшын беріп, жастардың ғылыми шығармашылығына қолдау көрсетіп жүретін. Асекең университет жастарымен келген сайын кездесіп, оларға ғылыми тұрғыда ағалық, аталық ақылын айтып, қазіргідей жастарға барлық жағдайлар жасалып жатқан кезеңде қиындықтан қашпай еңбектенуге, оқубілімге зейін салып, ғылыммен шұғылдануға шақырушы еді. Сондай кездесулердің бірінде: Өмірдің жақсы да, жаман да жақтарын басымнан кешірдім, бірақ оның қиын тұстарының бәрі де әкемнің нақақтан халық жауы аталуымен салыстырғанда түк те емес, - деп, өткен күндерді еске ала отырып, бақытты заманның бақытты жастарына батасын беріп, университетіміздің жақсы істеріне куә болып, жеткен биіктеріне балаша мәз болып отыратын... Ақтөбе жеріне әр келген сайын университеттің қазіргі білім беру ісіндегі заман талаптарына сай жұмыс жүргізіп, көш басындағы алдыңғы оқу орындары қатарынан көрініп келе жатқанына қуанып, өзінің ғалымдық, азаматтық келбетімен білімді жастарға ру хани күш сыйлайтын. Университетте Жұбановтану саласындағы жас зерттеушілерге де да бағытбағдар беріп отыратын.
Қорыта айтқанда, қазақ тіл білімі ғылымының жарық жұлдызы атанған Құдайберген Жұбановтың даңқына сай ұл болып, Әкеден ұл тумас па, әке жолын қумас па? деп дана қазақтың әр қариясы арман еткендей ғылымдағы толағай табыстарымен танылған Жұбанов Асқар Құдайбергенұлының артында ғылыми мол мұрасы, жоғары оқу орындарына арналған оқу құралдары, үлгіөнеге берген өзінің ізін қуған талантты шәкірттері қалды. Ахмет Байтұрсынұлы атындағы Тіл білімі институтының бас ғылыми қызметкері ретінде зерттеу жүргізен корпустық лингвистика саласындағы ғылыми еңбектері кейінгі ұрпаққа рухани мол мұра деп білеміз.
Әдебиеттер тізімі:
1. Құдайберген Жұбанов және қазақ совет тіл білімі. - Алматы: Ғылым, 1990. - 368 б.
2. Құдайберген Жұбанов. (Ұлы дала тұлғалары). (жалпы редакциясын басқарған ф.ғ.д., профессор М.Малбақов). - Алматы: Шафран ЖШС, 2013. - 528 б.
3. Оразбаева Ф.Ш. Жұбанов тағылымының ұлағаты Жұбанов тағылымы-IX дәстүрлі халықаралық ғылыми конференция материалдары жинағы. - Ақтөбе: Қ.Жұбанов атындағы Ақтөбе ӨМУ, 2017. - 59 б.
4. Жұбанов А.Қ. Қолданбалы лингвистика: Қазақ тілінің статистикасы. Оқу құралы. - Алматы: Қазақ уни верситеті, 2007. - 210 б.
5. Жұбанов А.Қ. Компьютерлік лингвистикаға кіріспе: Оқу құралы. - Алматы: КИЕ лингвоелтану иннова циялық орталығы, 2013. - 204 б.
6. Жұбанов, А. Қ. Қолданбалы лингвистика: формалды модельдер : Оқу құралы. - Алматы : Қазақ универси теті, 2006. - 280 б.
7. Жұбанов А., Жаңабекова А., Б.Д. Карбозова, А.Қ. Қожахметова Қазақ тілінің жиілік сөздігі. - Алматы,
Қазақ тілі баспасы, 2016. - 792 б.
8. Жұбанов А., Жаңабекова А. Корпустық лингвистика. - Алматы: Қазақ тілі баспасы, 2017. - 336 б.
А.ЖАҢАБЕКОВА
А.Байтұрсынұлы атындағы Тіл білімі институты Қолданбалы лингвистика бөлімінің меңгерушісі, ф.ғ.д.,
Алматы, Қазақстан
ПРОФЕССОР АСҚАР ЖҰБАНОВ - ҚАЗАҚ ТІЛІНІҢ ҰЛТТЫҚ КОРПУСЫНЫҢ НЕГІЗІН ҚАЛАУШЫ
А.Байтұрсынұлы атындағы Тіл білімі институтының Қолданбалы лингвистика бөлімінде көп жылдар бойы меңгерушілік қызмет атқарған профессор Асқар Құдайбергенұлы Жұбанов Қолданбалы лингвистика саласының Статолингвистика, Формалды модельдеу, Компьютерлік лингвистика сияқты салалары бойынша зерттеулер жүргізе жүріп, Қазақ тілінің ұлттық корпу сын жасау қажеттігін де ертеденақ көре білді.
Мұны ғалым А.Жұбановтың: Әлемдік корпустық лингвистиканың даму сипаты - ұлттық толық мәтіндерді арнайы зерттеу нысаны етіп алуды қажет етуде. Қазақ мәтіндерінің стильдік, құрылымдық, мағыналық, функционалдық және т.б. сипаттарын анықтау өзекті мәселелердің бірі болып отыр. Сондықтан автоматтанған қазақ тіліндегі мәтіндер корпу сының компьютерлік базасын құру да ғылыми және практикалық жағынан аса құнды мәселе, - деуінен көреміз [1].
Ғалым Қолданбалы лингвистика бөлімінің меңгерушісі бола жүріп, ең алғаш Мәдени құндылықтар ретіндегі Қазақ тіліндегі мәтіндер корпусы және сөздіктердің Тіл - қазына атты ұлттық компьютерлік қоры (20092011) атты ғылыми жоба аясында корпустық лингвис тика саласы мен Ұлттық корпустар құрастырудың метатілі туралы алғашқы мақалаларын жа зып бастады.
Қазақ әдеби тілінің аннотацияланған ұлттық корпусы (20122014), Қазақ тілінің ұлттық корпусындағы метамәтіндік белгіленімдердің ұстанымдары атты тақырыптарға жетекшілік жасап, қазақтың белгілі жазушылары А.Құнанбаев, М.Әуезов, Ә.Кекілбаев, М.Мағауин, М.Мақатаев шығармаларынан алынған таңдама мәтіндер (көркем стиль) бойынша мәтіндік бірліктерге (150 000 сөзқолданыс) қолдап (ручная разметка) морфологиялық белгіленім дер қою жұмысын басқарды. Бұл ретте Грамматика бөлімінің қызметкерлерін (С.Құлманов, О.Жұбаева, А.Жаңабекова) мәтінге морфологиялық белгіленімдер қою жұмысына тартып, осы істің оң нәтиже алуына барын салды.
Қазіргі Қазақ тілінің ұлттық корпусында жұмыс істеп тұрған автоматты морфологиялық анализатор бағдарламасына Асқар Жұбановтың грамматикалық түрленім кестесі негіз болды. Зат есім мен етістіктің түрленім қосымшаларының парадигмасы берілген бұл кесте кейінірек грамматикалық тұрғыдан аннотацияланып, кез келген мәтіндегі сөздерді автоматты түрде түбір мен қосымшаға ажырататын және қосымшаларға белгіленім қоятын программа жасалды. Бұл программа қазіргі кезде әлі де жетілдіре түсуде.
Асқар Жұбанов институтта қызмет істеген жылдары программистбағдарламашылар үшін арнайы штат болмай, маман жағынан жұмыстың тиімді жүргізілуіне көп кедергі болды. Ғалым бұл ретте жоғары жаққа бірнеше рет хат жазып, институтта программист штатын ашуды сұрады. Цифрлық қоғам үшін Қазақ тілінің ұлттық корпусы сияқты күрделі құралды жасау қажет тігін көрегендікпен байқаған ғалым программист мәселесі мен корпус құрастыруға жұмыла
кірісу керектігін шырылдап жүріп айтқан болатын.
А.Жұбанов Қолданбалы лингвистика бөлімінің зерттеу бағытын осы мәселеге бұрды. Қазақ тілінің ұлттық корпусын жасау ісін орталықтандыру керек деген үндеу тастап, бұл тура лы Ана тілі газетіне көлемді мақала жариялады және бұл туралы Ғылым комитетіне арнайы хат жолдаған болатын [2].
Асқар Жұбанов орыс тілінде жазылған корпустық лингвистика еңбектеріне сүйене оты рып, корпустағы негізгі аннотациялаушы бірлік разметка терминін қазақ тіліне белгіленім деп аударды. Бұл термин Қазақ тілінің ұлттық корпусын жасау тәжірибесіне еніп, кеңінен қол
даныс тауып отыр. Сондайақ метатекстовая разметка терминін ғалым метамәтіндік бел гіленім деп қолдану қажет деп санайды.
Белгіленім қойылуы мен ішкорпус мәтіндерінің түріне, қызметіне, қолжетімділігіне қарай Асқар Жұбанов қазақ тіл білімінде алғаш болып арнайы корпустар түрлерін, яғни классифи кациясын ажыратып көрсетті. Ғалымның өкшебасар шәкірттерінің бірі А.Фазылжан мұндай арнайы мақсатта жасалатын шағын корпустарды ішкорпус терминімен атауды ұсынды.
Асқар Жұбанов корпус классификациясына қатысты мынадай тұжырым жасайды: Кор пустардың бірнеше түрін кездестіруге болады, мысалы, бір ғана автордың корпусы, бір ғана кітаптың корпусы, бір ғана стильдің корпусы және т.б. Корпустың көптүрлігіне қарамай, олар ды негізгі екі топқа бөліп қарастыруға болады:
1) барлық тілге қатысты (тілдердің белгілі кезеңдеріне қатысты), тілдердің ішкі түрлеріне қатысты (жанр, стиль, тіл иелерінің жасына немесе әлеуметтік тобына қарай (жазушы тілі не месе ғалымның еңбектері және т.б.) корпустарды жіктеу;
2) корпустарды тілдік белгіленім (разметка) типіне қарай бөлу. Белгіленім типтерінің көп тігіне қарамай, корпустардың жүзеге асқан нақты түрлері морфологиялық немесе синтаксистік белгіленім жүргізілген типтеріне қатысты (синтаксистікті ағылшынша әдебиеттерде treebanks деп атайды, оның қазақша аудармасы синтаксистік құрылымды банк). Солай бола тұра, син таксистік белгіленім жасалған жерде морфологиялық белгіленімі де міндетті түрде қамтылады. Корпустың алға қойған мақсатқа және классификациялау белгілеріне қарай әртүрлі тип
терін бөліп көрсетуге болады (1кесте).
Тілдік деректердің типіне қарай корпустар жазба тіл, сөйлеу тілі және аралас тілдік кор пустар деп бөлінеді. Жазба корпустарда сөйлеу тілі мәтіндері алынбаған (Браундық корпус, LOB), ауызша корпустарда сөйлеу тілінен жазылып алынған мәтіндер беріледі, ал аралас кор пустар, әдетте, белгілі кезеңдегі тілдің қолданысын бейнелейтін ұлттық корпустарда көрініс табады (НКРЯ, BNC және т.б.).
Параллельдік критериясы бойынша корпустар біртілдік, екітілдік және көптілдік деп бөлінеді. Біртілдік корпустарда диалектілер, варианттар қарамақарсы қойылады. Мысалы, ағылшын тілінде көптеген тілдік мәселелер жаңа технологиялар өмірге келгенше ғылыми тұрғыдан қызығушылық тудырмаған. Жаңа технологияны қолданудың арқасында көптеген са лыстыруды қажет ететін шығармалар тілі контрастивтік талдау әдістерімен зерттелді.
Екітілді және көптілді корпустарда екі немесе бірнеше тілде жазылғандарына қарамай (мысалы, белгілі ғылыми проблемаға арналған, әртүрлі елдерде және бірнеше тілде өткен конференция материалдары корпусы), бір тақырыпқа қатысты мәтіндер біріктіріліп беріледі. Мұндай корпустар терминдермен жұмыс істеу кезінде ұтымды және оны аудармашылар жиі қолданады. Екітілді немесе көптілді корпустардың тағы бір түрі - қайсыбір бастапқы тілде жазылған мәтінтүпнұсқалардың жинағы және осы бастапқы мәтіндердің бір немесе бірнеше тілдерге аудармамәтіндер жинағы корпусы. Мұндай корпус салыстырмалысалғастырмалы және аударма теориясы бойынша зерттеулер жүргізуге септігін тигізеді. Адамдарды аударма жасау ісіне үйретуде және машиналық аудармаға құнды материал береді.
Әдебилік критериясы бойынша мынадай: әдеби тіл, диалект тілі, сөйлеу тілі, терминоло гиялық, аралас корпус түрлеріне бөлінеді. Сөйлеу тілі корпусына мысал ретінде СанктПетер бургте құрастырылған Один Речевой День (ОРД) атты корпусты келтіруге болады.
Мақсатына қарай корпустарды құрастыру көпмақсатты және мамандандырылған кор пустарға бөлінеді. Көпмақсатты корпустар әдетте әртүрлі жанр мәтіндерін жинақтайды (бұған ұлттық корпустар да жатады), ал мамандандырылған корпустар бір ғана жанрмен немесе жанрлар тобымен ғана шектелуі мүмкін.
Мәтіндер корпустары жанрлар бойынша әдеби, фольклорлық, драматургиялық, публицис тикалық және т.б. жанрлаға жіктеледі. Публицистикалық корпустарға мысал ретінде ХХ ға сырдың соңындағы орыс газеттерінің компьютерлік корпусын және саяси метафоралар корпу сын келтіруге болады.
Корпусты пайдаланушылар үшін корпустың қолжетімділік сипаты маңызды критерий бо лып саналады. Еркін қолжетімді корпустар кез келген уақытта корпустың толық көлемдегі
барлық мәтіндерінен online режимінде қалаған ақпаратты алуға мүмкіндік тудырады. Кей бір жағдайларда еркін қол жеткізу сипаты корпус деректерінің тек жеке бөліктеріне ғана мүмкін болады. Коммерциялық корпустармен жұмыс істегенде оны online режимінде не месе компактдискідегі көшірмесін пайдалану үшін арнайы рұқсат алуға тура келеді. Көлем жағынан кішігірім корпустар ғана ашық жүйеде тұрады. Жабық корпустар, яғни кез келген пайдаланушыға қолжетімсіз корпустар арнайы мақсаттармен құрастырылады.
Қызметіне қарай зерттеуге арналған және иллюстрациялық мақсатта құрастырылған кор пустарды ажыратып айтуға болады. Зерттеу жұмысына арналған корпустар тіл қызметінің әртүрлі аспектілерін зерттеу мақсатында құрастырылады. Корпустардың бұл типі тілдегі әлі де шешімін таппаған өзекті мәселелерді шешуге бағытталады. Мұндай мәтіндер корпуста ры бірнеше ондаған миллионнан жүздеген миллионға дейінгі сөзқолданыстарды қамтиды. Иллюстрациялық корпустар ғылыми зерттеуді жүргізгеннен кейін құрастырылады: олардың мақсаты жаңа деректерді айқындау емес, алынған нәтижелерді растау мен оларды негіздеу. Олар, бұрын дәстүрлі әдістермен алынған, тілдік фактілерді (ауызша, мәтіндік), нәтижелердің дұрыстығын дәйектеуге қызмет етеді. Иллюстрациялық корпус туралы Путеводитель по дис курсивным словам русского языка атты жұмыстан қарап, танысуға болады, мұнда демеулік терге семантикалық талдау мен оқырманға ұсынылған семантикалық түсіндірмені тексеруге мүмкіндік беретін көлемді мәтіндік материалдар тіркеліп беріледі.
Динамикалық (мониторлы) критерий бойынша корпустар динамикалық және статика лық деп бөліп қарастырылады. Алғашқы мәтіндер корпустары белгілі уақыт аралығындағы тілдік жүйені сипаттайтын статикалық мәтіндердің көрінісі ретінде құрастырылатын. Статика лық корпустар қайсыбір аздаған уақыт аралығындағы мәтіндерді жинақтайды. Мұндай корпус тардың типтік өкілі ретінде авторлық корпустарды - жазушылар шығармалары мәтіндерінің топтамасын атауға болады.
Тіл дамуымен бірге тілдік құбылыстар да өзгермелі болып отыратындықтан, тілдік құбы лыстардың өзгерісін сипаттайтын динамикалық корпустар құрастыру да қажет болды. Мыса лы, сөз мағынасының өзгеруі, қайсыбір синтаксистік конструкциялардың қолдану жиіліктерінің және т.б. өзгеруі. Проблемалық саланың процессуалдық аспектілерін бейнелеу үшін мәтіндердің динамикалық корпусын құрастыру мен оны пайдалану мақсатында жаңа технология пайдала нылды. Динамикалық корпустарды мониторлық немесе мониторингтік корпустар деп те атайды. Мониторлық корпустардың мақсаты - компьютер жадындағы сан жағынан үнемі өсіп отыра тын мәтіндерді қаттау (складировать). Мұндай корпустарда алдын ала белгіленген уақыт аралығында корпустағы мәтіндер жиыны жаңартылып жәненемесе толықтырылып отырады. Шексіз (әрдайым өсіп отыратын) сипаттағы мониторлық корпустар лексикографиялық сөздіктер құрылысының сапасын арттыруда маңызды рөл атқарады. Себебі лексикографтарға тілімізге жаңадан енетін сөздерді немесе мағынасы өзгеріске ұшырайтын бұрыннан бар сөздерді және стильдік өзгеріске қарай сөздердің қолданысының теңгерімін үнемі қадағалап тұруға мүмкіндік тудырады. Динамикалық мәтіндер корпустарында, әдетте, ұзақ мерзім аралығындағы жазба дереккөздер сақталады, сондықтан, олар неше түрлі диахрондық зерттеулер жүргізуге арналған.
Белгіленім критерийі бойынша корпустар белгіленген және белгіленбеген корпустарға ажыратылады. Мұны басқа да терминдермен атайды: индекстелген және индекстелмеген, аннотацияланған және аннотацияланбаған, таггирленген және таггирленбеген. Белгіленген корпустарда сөздерге немесе сөйлемдерге белгіленімнің сипатына қарай тиісті белгілер (тэг тер) қойылады: морфологиялық, синтаксистік, семантикалық, просодикалық және т.б.
Мәтіндер көлемі критериясы бойынша толықмәтінді және фрагменттімәтіндік корпус тар деп екіге ажыратылады. Мәтін ұзындығы 2000 сөзге (сөзқолданысқа) сай келу критерия сына қатаң түрде сай келетін мәтіндер тәжірибе жүзінде жоқ деуге де болады. Ондай корпус тарды фрагменттімәтіндік деп атайды. Толықмәтіндік корпустарға белгілі қалам иелерінің кейбір шығармалар мәтіндерінің корпустарын, қысқа мәтіндер корпустарын, мысалы, газет тақырыптары корпусын жатқызуға болады.
Асқар Жұбанов Параллель корпустар туралы да ең алғаш мәселенің маңыздылығын терең түсініп, мұндай корпус жасау туралы төмендегіше ой қорытады:
Түпкі және аударма мәтіндердің бірліктері арасында теңестіру нәтижесінде арнайы қарастырылған шаралар бойынша сәйкестік жүзеге асады. Теңестірілген паралельді корпус - ол ғылыми зерттеулердің, әсіресе, аударма жасаудың теориясы мен практикасының аса тиімді құралы.
Мәтіндердің параллель корпустары ауқымды ақпарат алуға мүмкіндік туғызады. Олардың көмегімен мынадай жұмыстарды жүзеге асыруға болады:
екітілдік және көптілдік аударма сөздіктерін құрастыру;
мәшинелік аударма жүйелері үшін сөздіктер құрастыру және оларды толықтыру;
ұзындығы жағынан сөйлем ұзындығынан артық болатын көпмағыналы сөздердің кон текстік қоршауын пайдалана отырып, компьютер көмегімен лексикалық бірліктердің полисе миясын жою.
мәтіннің терминологиялық және фразеологиялық бірліктерін аудару;
аудармалық жады бар жүйелер деп аталатын мәшинелік аударманың жаңа жүйелерінің аясында, әртүрлі деңгейде өзара теңестірілген мәтіндер корпустары мен олардың аудармала рын компьютер жадында жинақтау және соның негізінде автоматты аударманы толық жүзеге асыру.
Мұндай жаңа жүйе мәтіндерді аудару кезінде кезекті аударуға тиісті сөйлемді немесе оның фрагментін бастапқы параллель мәтіндердің массивінен тауып алуға ұмтылады. Егер іздеген сөйлем немесе оның фрагменті бастапқы түпнұсқамәтін массивінен табылса, онда жаңа жүйе аударылған мәтіндер массиві ішінен сол сөйлемнің немесе оның бөлігінің аудармасын бөлік теп алады, - деп, қазақ тілінде алғаш болып параллель корпус жасаудың қажеттігін негіздеп берді [3].
Қазіргі кезде Қазақ тілінің ұлттық корпусында Параллель ішкорпус көркем шығармалар мен ісқағаз мәтіндері бойынша әзірленіп отыр. Параллель мәтіндерді теңестірудің бұл әзір басы, алғашқы іргетасы деп санаймыз.
Қазақ тілінің ұлттық корпусында ауызша сөзден жинақталған Ауызша ішкорпус базасы да жасақталған. Ауызша сөз - тілдің шынайы болмысын көрсететіндіктен, оны кейде табиғи тіл деп те қолданады. Жазба тілде байқала бермейтін кейбір тілдік құбылыстар ауызша тілде айқын көрініс табады. Осы ретте корпус құрастырушылар Ауызша корпустың тілді зерттеуде әсіресе дискурстық зерттеулер үшін аса маңызды екенін атап көрсетеді. Қазақ тілінде Ауыз ша корпусты әзірлеудің қажеттігін негіздей отырып, Асқар Жұбанов оның проблемаларын төмендегіше көрсетеді:
Ауызша тіл корпустарын құрастыру жазба тіл корпустарын құрастырудан барынша баяу жүріп жатқандығымен түсіндіруге болады. Мұны жолға қою үшін ең алдымен, ауызша тілді жазып алудың (есте сақтаудың) бір амалын табу керек - мысалы, магниттік лента көмегімен, цифрлік жазбалар арқылы немесе видеокассеталарға жазу. Содан кейін, оларды әріптермен жазып алу қажеттігі туындайды, әрине мұндай әрекет барынша жалықтыратын жұмыс болуы және қымбатқа түсуі мүмкін, себебі, ондай жазбаның сапасы табиғи жағдайдағы сырт ортаның шулышусыз жағдайына байланысты болады.
Фонетикалық лингвистикалық ресурстарды құрастырудағы басты күрделілік ауызша тілді транкрипциялау қажеттігіне байланысты. Мұндай жағдайда келесі мәселелер туын дайды:
1. Транкрипциялау үшін қандай алгоритм қолдану қажет?
2. Айтылу кезінде сөйлеуші факторы есепке алына ма?
3. Ауызша мәтін толық ескерілу керек пе, әлде тек оның фрагменті ғана ма?
4. Сөздің айтылуында диалектілік варианттар ескеріле ме?
5. Айтылу кезінде сөздердегі екпін ескеріле ме?
6. Фразалар айтылғанда просодиялық белгілер ескеріле ме?
7. Тыңдау кезінде танылмаған сөздерді арнайы белгілеу қажет пе?
8. Фонетикалық корпус үшін паралингвистикалық құбылыстарды, ілеспелі дыбыстарды (кідіріс, күлкі, жөтел, міңгірлеу, және т.б.) белгілеу қажет пе? - деген сияқты сұрақтарды алға тартып, ауызша корпус құрастырудың проблемаларын алғаш көтерді [3].
Асқар Жұбановтың назарынан Оқу ... жалғасы
ИНСТИТУТ ЯЗЫКОЗНАНИЯ ИМЕНИ АХМЕТА БАЙТУРСЫНУЛЫ
КОМИТЕТА НАУКИ МИНИСТЕРСТВА НАУКИ И ВЫСШЕГО ОБРАЗОВАНИЯ РЕСПУБЛИКИ КАЗАХСТАН
AKHMET BAITURSYNULY INSTITUTE OF LINGUISTICS OF THE COMMITTEE OF SCIENCE OF THE MINISTRY OF SCIENCE AND HIGHER EDUCATION OF THE REPUBLIC OF KAZAKHSTAN
АСҚАР ЖҰБАНОВ ОҚУЛАРЫ
(тұрақты ғылыми тілтанымдық алаң)
ҚАЗАҚСТАНДАҒЫ ҰЛТТЫҚ ЖАРНАМА ТІЛІН ҚАЛЫПТАСТЫРУ ЖӘНЕ ЦИФРЛАНДЫРУ
және
ҒЫЛЫМИ-ЗЕРТТЕУ ЖӘНЕ ОҚЫТУ ИНТЕРНЕТ-РЕСУРСЫ РЕТІНДЕГІ ҰЛТТЫҚ КОРПУСТАР ӘЗІРЛЕУ ТӘЖІРИБЕСІ
Асқар Жұбанов оқулары аясында ұйымдастырылған
Қазақстандағы ұлттық жарнама тілін қалыптастыру және цифрландыру және Ғылыми-зерттеу және оқыту интернет-ресурсы ретіндегі
Ұлттық корпустар әзірлеу тәжірибесі
атты халықаралық ғылыми-теориялық конференцияның
МАТЕРИАЛДАР ЖИНАҒЫ
СБОРНИК МАТЕРИАЛОВ
международной научно-теоретической конференции
Цифровизация и формирование языка национальной рекламы в Казахстане и Опыт создания Национальных корпусов как научно-исследовательский
и обучающий интернет-ресурс в рамках регулярной научно-языковой площадки Аскар Жубановские чтения
Алматы, 2023
ӘОЖ 811.512.122
КБЖ 81.2 Каз.
А 88
Бас редактор
А.Фазылжан - А.Байтұрсынұлы атындағы Тіл білімі институтының директоры
Пікір жазғандар:
Н.Уәли - филология ғылымдарының докторы, профессор
Э.Сүлейменова - филология ғылымдарының докторы, профессор
Редакция алқасы:
ф.ғ.д., профессор Н.Уәли, ф.ғ.д., профессор Р. Шойбеков, ф.ғ.д., профессор З.Базарбаева, ф.ғ.д., профессор Ж.Манкеева, ф.ғ.д., профессор А.Алдаш, ф.ғ.д., профессор М.Малбақов, ф.ғ.д., профессор Б.Момынова, ф.ғ.д., доцент Қ.Рысберген, ф.ғ.д., профессор Қ.Күдеринова, ф.ғ.к., доцент С.Құлманов, ф.ғ.к. Г.Исаева
Жауапты шығарушылар:
А.Жаңабекова, А.Қожахметова, Г. Тлегенова, А.Махамбетова
А 88 Асқар Жұбанов оқулары тұрақты ғылыми тілтанымдық алаң аясында ұйымдас тырылған халықаралық ғылымитеориялық конференция материалдары. - Алматы: ЖК Асыл, 2023. - 288 бет.
ІSBN 978-601-7288-18-1
Бұл жинаққа Мемлекеттік тілдің ақпараттықинновациялық базасы ретіндегі Қазақ тілінің ұлттық кор пусын әзірлеу: ғылымизерттеу және оқыту интернетресурсы (BR11765619) және Мәденирепрезентативті және жарнама мәтіндерінің ішкорпусын әзірлеу (BR18574132) ғылыми жобалары бойынша Асқар Жұбанов оқулары тұрақты ғылыми тілтанымдық алаң аясында ұйымдастырылған Қазақстандағы ұлттық жарнама тілін қалыптастыру және цифрландыру және Ғылымизерттеу және оқыту интернетресурсы ретіндегі Ұлттық корпустар әзірлеу тәжірибесі атты халықаралық ғылымитеориялық конференция материалдары енді.
Конференция материалдары жоғарғы оқу орындарының оқытушылары мен ғылыми зерттеу институтта ры қызметкерлеріне, PhD докторанттар мен магистранттарға арналады.
ӘОЖ 811.512.122
КБЖ 81.2 Каз.
ІSBN 9786017288181 (C) А.Байтұрсынұлы атындағы
Тіл білімі институты, 2023
АЛҒЫ СӨЗ
Бұл ғылыми жинаққа Қазақстан Республикасы Ғылым және жоғары білім министрлігі Ғылым комитетінің Ахмет Байтұрсынұлы атындағы Тіл білімі институтының Асқар Жұбанов оқулары тұрақты ғылыми тілтанымдық алаң аясында өткізген Ғылымизерттеу және оқыту интернетресурсы ретіндегі Ұлттық корпустар әзірлеу тәжірибесі және Қазақстандағы ұлт тық жарнама тілін қалыптастыру және цифрландыру атты халықаралық ғылымитеориялық конференциялар материалдары еніп отыр.
Асқар Жұбанов - қазақ тіл білімінің ғылыми негізін қалаған белгілі ғалым, қоғам қайратке рі, профессор Құдайберген Жұбановтың ұрпағы, қазақ тіл білімінің қолданбалы саласының қарыштап дамуына ерекше үлес қосқан, саналы ғұмырын қазақ лингвостатистикасы, корпус тық лингвистикасы сияқты заманауи бағыттарды қалыптастыруға арнаған әлемдік деңгейдегі ғалым, Қазақ тілінің ұлттық корпусының негізін қалаушы.
А.Байтұрсынұлы атындағы Тіл білімі институты Асқар Жұбанов бастамашы болған қазақ тіл білімінің қолданбалы бағытын әрі қарай дамытуды мұрат етеді. Өйткені мемлекеттік тілдің қолданыс аясын барынша кеңейту тіліміздің осы қолданбалы бағытымен де тығыз байланысты. Осы ретте 2022 жылы қараша айында Асқар Жұбановтың 85 жылдық мерейтойына орай Асқар Жұбанов оқулары тұрақты тілтанымдық алаңы ашылып, іске қосылған болатын. Биыл Асқар Жұбанов оқулары тұрақты тілтанымдық алаңы өз жұмысын екінші жыл жалғастырып отыр. Институт 20222023 жж. Мемлекеттік тілдің ақпараттықинновациялық базасы ретіндегі Қазақ тілінің ұлттық корпусын әзірлеу: ғылымизерттеу және оқыту интернетресурсы (BR11765619) бағдарламалықнысаналы қаржыландыру зерттеу жобасы (20222023 жж.) бойынша Қазақ тілінің ұлттық корпусының жаңа 3 ішкорпусын (Параллель, Ауызша, Тарихи корпус) және 3 лингвистикалық белгіленімін (лексикасемантикалық, мәденисемантикалық, просодикалық) әзірледі. Аталмыш конференцияда осы ішкорпустарды әзірлеу барысындағы нәтижелер баяндалып, Ұлттық корпустар жасау тәжірибесі таныстырылды. Конференцияда Орыс тілінің ұлттық корпусын (профессор Е.Рахилина), башқұрт тілінің мәшинелік қорын
жасаушы ғалымдар (З.Сиразитдинов және т.б.) зерттеулері ұсынылды.
Сонымен қатар Институтта Мәденирепрезентативті және жарнама мәтіндері ішкорпус тарын әзірлеу (20232024 жж.) атты бағдарламалықнысаналы қаржыландыру зерттеу жобасы бойынша қазақ тіліндегі жарнама ішкорпусы әзірленіп жатыр. Осы ретте конференцияда қазақ жарнамасының бүгінгі тілдік келбеті, құрылымы мен құрылысы, түрлері мен типтері мәселесі көтеріліп, осы ішкорпусты әзірлеуші мамандардың жарнама мәтіндерін жинақтау мен жүйелеу барысында шығарылған қорытынды тұжырымдары ортаға салынды. Ісшараға қоғам қайраткерлері, ғылыми қауым өкілдері және мемлекеттік тілді оқыту орталықтарының мамандары мен БАҚ қызметкерлері қатысты.
Асқар Жұбанов оқулары тілтанымдық алаңы - қазақ тіл білімінің қолданбалы бағытын дағы өткен тарихтан сабақ алушы, бүгінгі қол жеткізген нәтижелер мен өнімдерді насихаттау шы, қолданбалы лингвистиканың келешек бағытын айқындаушы ақпараттық қоғамның өзекті мәселелерін тілтанымдық аспектіде зерттеудің нәтижелерін апробациядан өткізуші мықты орта қатыптастыратын құрал болуына осы конференция да өз үлесін қосты. Асқар Жұбанов оқулары жыл өткен сайын ақпараттық қоғам сұранысына қажет тілтанымдық ізденістер мен өнімдерді сынамадан өткізетін жоба ретінде көкжиігін кеңейтіп, жетіле беретініне сенімдіміз.
Ғалым мен Ғылым тоғысында өткізілген аталмыш конференцияның жас ғалымдарды тәрбиелеуге, мемлекеттік тілдің ақпараттық кеңістігін нығайтуға, Цифрлық қазақ тілінің әлеуетін арттыруға және қазақтілді жарнама мәселесін жолға қоюға септігі мол болды деп бағалаймыз.
Анар ФАЗЫЛЖАН
Ахмет Байтұрсынұлы атындағы Тіл білімі институтының директоры
І. ПРОФЕССОР АСҚАР ЖҰБАНОВТЫҢ ТІЛТАНЫМДЫҚ МҰРАСЫ
Н.А. САДУАҚАС
филология ғылымдарының кандидаты, доцент, Қ.Жұбанов атындағы Ақтөбе өңірлік университеті,
Ақтөбе, Қазақстан
ҒАЛЫМ АСҚАР ЖҰБАНОВ ЖӘНЕ ҚОЛДАНБАЛЫ ТІЛ БІЛІМІ
Аңдатпа. Мақалада қазақ тіл білімінің қолданбалы саласында танымал ғалым Жұбанов Асқар Құдайбергенұлының өмір жолы, ғылыми және педагогикалық еңбектері туралы баян далған. Ғалымның қазақ тілінің статистикасы, жиілік сөздіктер, компьютерлік және корпустық лингвистиканың ғылыми мәселелері жөнінде жүргізген зерттеу жұмыстарына талдау жасалған. Тірек сөздер: Қолданбалы тіл білімі, машиналық аударма, статистика, формалды модель дер, мәтін лингвистикасы, компютерлік лингвистика, корпустық лингвистика, жиілік сөздіктер.
Аннотация. В статье рассказывается о жизненном пути, научных и педагогических тру дах известного ученого в прикладной области казахского языкознания Жубанова Аскара Кудайбергеновича. Проведен анализ исследовательской работы ученого по статистике казах ского языка, частотным словарям, научным проблемам компьютерной и корпусной лингвис тики.
Ключевые слова: прикладное языкознание, машинный перевод, статистика, формальные модели, лингвистика текста, компютерная лингвистика, корпусная лингвистика, частотные словари.
Abstract. The article tells about the life path, scientific and pedagogical works of the famous scientist in the applied field of Kazakh linguistics Zhubanov Askar Kudaibergenovich. The analysis of the scientist's research work on statistics of the Kazakh language, frequency dictionaries, scientific problems of computer and corpus linguistics is carried out.
Key words: applied linguistics, machine translation, statistics, formal models, text linguistics, computer linguistics, corpus linguistics, frequency dictionaries.
Қазақ тіл білімінің қолданбалы саласын дамытуға, дәлірек айтқанда, қазақ цифрлық тіл білімін, қазақ инженерлік лингвистикасын, корпустық лингвистиканы қалыптастыруда, айтар лықтай қомақты үлес қосқан ғалым, есімі бүкіл түркі жұртына аты әйгілі маман, филология ғылымдарының докторы, профессор А.Қ.Жұбанов еңбектерінің маңызы зор. Есімі елге таны мал профессор Құдайберген Жұбановтың бел баласы, сүт кенжесі болған Асқар Жұбановтың математик маман болып, еңбек жолын жаңа бастаған кезеңіне ойша зер салар болсақ, сол тұста ғылым салаларындағы ізденістердің алға басуы әртүрлі ғылым салаларының да тоғысып, за ман талабына қарай жаңа бағыттағы зерттеулерді талап ете бастағанын байқатқан еді. Бұл жылдары ел басына төнген талай қиындықтардың бұлты сейіліп, өнермәдениет, ғылым мен техниканың дамуы жаңаша сипат алып, елдің де еркін тыныстай бастаған кезі еді. Осы кезде тілге де математика жағынан келіп, тілдік бірліктердің сандық өлшемін есептеп, оны алго ритмдік негізде жүйелеуге, мәтінді электронды есептеуіш машина арқылы қарастырып, аудар ма жасау ісін де компьютерлік техника көмегімен жүзеге асыруға бағытталған жаңа ғылыми сала ретінде қолданбалы тіл білімі ғылымының аясында математикалық лингвистика бой көтере бастаған болатын [1,108]. Осы тұста жас математик Асқардың бірбірінен алыс жатқан екінші бір сала - лингвистикаға келуін бір жағы күтпеген жағдай десек, екіншіден тағдырдың жазуы деуге болады. Себебі әкесі профессор Құдайберген Жұбанов өзінің қысқа өмірінде тілдің сансалалы бағытына қалам тербеген болса, ғылым дамуына байланысты дүниеге келген қазіргі тіл білімінің жаңа салаларының алғашқы ұшқындары да ғалым Құдайберген
Жұбановтың еңбектерінен бастау алып жатқанын бүгінгі жас ғалымдар өз зерттеулерінде көрсетіп келеді. Осындай жаңаша зерттеу әдістерінің бірі тілдік бірліктерді санмен байла ныстыра зерттеудің алғашқы үлгісі Құдайберген Жұбанов еңбектерінен табылған болатын [1, 109]. Қолданбалы тіл білімінің Статистикалық лингвистика деп аталып жүрген жаңа саланың бастауында профессор Құдайберген Қуанұлы Жұбановтың тұрғаны жайында белгілі тілшістатист ғалымдар - Қ.Б.Бектаев, С.Мырзабеков т.б. қазақ тілінің статистикасы туралы зерттеулері мен мақалаларында арнайы атап көрсеткен болатын.
Асқар ағамыз өзінің әке жолын ұстап, осы бір жалынның ұшқынын үрлеп, одан әрі лаулата жандыруына, математикалық тіл білімі жолына түсуіне өзінің ағасы, ғалым Есет Жұбановтың да ағалық ақылының қозғау салғанын айтып отыратын еді. Алғашқы уақытта тілді тек тілдік тұрғыдан зерттеу керек деген көзқарастағылар тілді математикалық есептеулермен байланыс тыра қарастырудың қажеттілігін дұрыс сезіне алмай жатқан кезінде, яғни, бүгінгі таңда керекті ақпараттарды алу, не өз ақпаратымызды екінші бір жерге жіберу сияқты толып жатқан барлық ісәрекетімізді автоматты түрде үйде отырыпақ жүзеге асыратынымызды ойласақ, Асқар Жұбановтың бүгінде цифрлық технология деген жаңа атаумен бүкіл адамзаттың қажеттілігіне айналып отырған осы салаға қарай бұрылуын ғылыми көрегендік, батыл қадам, ғылымдағы сирек құбылыс деп те бағалауға болады. Себебі жаңа салаға сол саланың мамандары да ба тыл бара бермейтінін ескерсек, тіл саласына математик маманның келуі, сонымен бірге өз жұмысында бір елге жүк болатындай пайдалы іс жасау екінің бірі қолынан келе бермейтін шаруа деп есептейміз. Сонымен бірге әкесі Құдайберген Жұбановтың өзінің өлшеусіз ғылыми мәнді еңбектерімен қазақ тіл білімін биікке көтергенін, одан кейін туған ағасы ғалым Есет Жұбановтың да қазақ фольклорының тілін зерттеуді алғашқы болып қолға алып, өзінің өзгеге ұқсамайтын терең білімімен ғылымға өшпестей үлес қосып кеткенін ескерсек, қазақ тіл білімінде алғашқы болып жаңа бір саланың іргесін қалап, оның ғылыми нәтижелерін ел игілігі не ұсынып, соңына ерген ізбасар ғалым шәкірттеріне жол көрсете білуі Асқар Жұбановтың ғылымдағы өзіндік дара жолын көрсетеді.
Жұбанов Асқар Құдайбергенұлы 1937 жылғы күз айының 13 қарашасында Алматы қала сында дүниеге келді [2, 382]. Әкесі халқымыздың тарихындағы тіл ғылымының тұңғыш про фессоры, қазақ тіл білімінің теориялық негізін қалаушылардың бірі, алғашқы кәсіби лингвист, ағартушы, түркітанушы ғалым Құдайберген Қуанұлы Жұбанов болатын. Әкесі Құдайберген солақай саясаттың құрығына іліккен кезде Асқар үш айлығындаақ жер аударылып, туған қаласы Алматыдан әкешешесінің туған жері Ақтөбедегі Мұғалжар өлкесінен бірақ шығады. Құдайберген Жұбановтың жөргектегі нәрестесі Асқардың жарық дүниеге келгеніне небәрі үш ақ күн болғанда жапон шпионы деген жалған жаламен қамауға алынған сәтінен інілерінің тағдырына алаңдап, ағалық көмек көрсетіп, ақылкеңес беріп келген Ахмет Жұбанов 1949 жылы бала Асқарды Алматыға алдырып, №18 қазақ орта мектепинтернатының төртінші сыныбына оқуға береді. Бір жыл өте үлкен ағасы Ақырап Алматыдағы 1950 жылы көркемсурет учили щесін бітіріп, жолдама бойынша Петропавл қаласына жұмысқа тұрып, анасы мен бауырларын көшіріп алған кезде, отбасының сүт кенжесі Асқар да осы басқа жерде оқуын жалғастырады. Шыр етіп жарық дүниенің есігін ашқаннан тағдырдың тепкісін көрген кенже бала Асқар өзінің екі аға, үш апасы, халық жауының әйелі атанған Раушан ансымен қалып, сол кезеңдегі қызыл саясаттың кесірінен әке есімі ақталғанша талай жерде қиындықты көріп өседі.
Бала кезінен техника, математика бағытындағы салаларға ерекше қызығушылық таны тып өскен Асқар Құдайбергенұлы орта мектепті бітірген соң 1955 жылы Алматы қаласындағы Таукен (политехникалық ) институтына ең жоғары балл жинап, оқуға түсіп тұрған сәтінде, сол қатал заманның Халық жауының баласы! деген айыптауы тағы да алдын орап, білім қуған талапты жастың арманының тауы шағылған еді. Қай заманда да үлкен жүректі, адал азамат тар болды десек, алаштың атақты перзенттерінің бірі, сол кезде ҚазПИдің ректоры, Кеңестер Одағының Батыры Мәлік Ғабдуллиннің: Сенің әкең - ұлы кісі деп, сол сәтте жас жігіттің жарым көңіліне жарық нұр сепкендей болып, бауырына басып, 1955 жылы Абай атындағы ҚазПИдің физикаматематика факультетіне оқуға түсуіне қол ұшын бергенін Асқар Жұбанов әр кез айтып отыратын [3, 6].
Әке жолын қуып, әке рухына табына жүріп, тіл саласына келген математика маманы Жұбанов Асқар Құдайбергенұлы 19671970 жылдары Қазақ ССР Ғылым академиясы Тіл білімі институтының күндізгі бөлімінің аспиранты болып, Минск қаласындағы Шет тілдер институ ты жанында ғылыми тәжірибеден өтіп, МәскеуЛенинградтың осы саладағы ғалымдарымен байланыс жасап тұрады. Тіл білімі институтындағы тілді зерттеуде математика мүмкіндігін пайдалануды іске асыратын жаңа бағыттағы Статистикалингвистикалық зерттеу және авто маттандыру тобының кіші, кейіннен аға ғылыми қызметкері бола жүріп, тілдің сөз байлығын жаңа қырынан зерделеу жолында лингвистикалық сөздіктерді сандық және сапалық белгі леріне қарай математикалық статистика тәсілімен зерттеуді қолға алған алғашқы белгілі математикғалым Қалдыбай Бектаевпен бірлесе еңбек етеді. Асқар Құдайбергенұлы 1973 жылы физикаматематика ғылымдарының кандидаты, филология ғылымдарының докто ры Қ.Б.Бектаевтың және академик І.Кеңесбаевтың ғылыми кеңесшілігімен ЭЕМ көмегімен қазақ мәтінін статистикалық зерттеу атты тақырыпта кандидаттық диссертациясын қорғап, қазақ тілін математикалық әдіспен, яғни статистика мен ықтималдылықтар теориясы әдісте рімен зерттеу жұмыстарын жүргізді [2, 382]. Қазақша мәтіндерді электронды есептеу машина сының көмегімен зерттеп, тұңғыш рет сөзформа, негіз сөз, әріп, әріп тіркесі, т.б. тілдік бірлік тердің автоматтанған жиілік сөздіктерін құрастырудың алгоритмі мен бағдарламасын жасап шығарады. Осындай зерттеулер нәтижесінде заманымыздың заңғар жазушысы Мұхтар Әуезов
Абай жолы эпопеясында 465691 сөзқолданысты пайдаланғанын, онда сөз саны - 16983, ал сөзформасы - 61424 екенін ғылыми түрде анықтайды [4.68]. Ал 2002 жылы А. Байтұрсынұлы атындағы Тіл білімі институтының Қолданбалы лингвистика бөлімінің меңгерушісі қызметін атқара жүріп, сол мекеменің ғылыми кеңесінде Қазақ мәтіні мазмұнын формалдаудың негіз гі ұстанымдары атты тақырыпта докторлық диссертация қорғап, филология ғылымдарының докторы ғылыми атағын алады. Ол қазақ тіл білімінің корпустық лингвистика деп аталған жаңа бағыттағы саласының бірденбір білікті маманы ретінде өзіне ізбасар ғалымшәкірттер дайын даумен шұғылданып, 1991 жылдан бастап А. Байтұрсынұлы атындағы Тіл білімі институтының
Қолданбалы лингвистика бөлімінің меңгерушісі, кейіннен жаңаша аталымдағы Компью терлік лингвистика ғылыми тобының бас ғылыми қызметкері міндеттерін атқарды.
Адам бойында ата сүйегімен біткен, ана сүтімен сіңген тектік сипатымен қатар, әркімнің өзіне ғана тән табиғатына біткен қарымқабілеті болады десек, әкесі Құдайберген Жұбановтан келген тума талантылығы, дарынды ғалым ағасы Есет Жұбановтан алған үлгіөнегесі бар Асқар Жұбанов та ерекше қабілетті, білімді азамат еді. Асқар Жұбанов М.О. Әуезовтің толық шығармалар жинағы мәтінін ЭЕМге енгізуге дайындау және сөзнұсқағышсөздіктерді құрас тыру, М. Әуезовтің 20 томдық шығармалары бойынша автоматтанған картотекалық қор жа сау, М. Әуезовтің шығармалары бойынша сөзформалар мен сөздердің жиілік сөздіктерін ЭЕМ арқылы құрастыру атты ғылыми тақырыптарға жетекшілік етеді. Профессор ғылыми атағын алған ғалым Асқар Жұбанов корпустық лингвистиканың еліміздегі алғашқы ірі мама ны ретінде әлФараби атындағы Қазақ ұлттық университетінің филолог магистранттары мен студенттеріне математикалық және компьютерлік лингвистика пәндері бойынша дәріс беріп, осы салаға арналған жоғары оқу орындарына арналған оқулықтарын дайындап шығарады [5]. Корпустық лингвистика маманы ғалым Асқар Жұбановтың жетекшілігімен осы саланың 5 кандидаттық және бірнеше магистрлік диссертациясы қорғалды.
Көпшілікке жете таныс емес формалды логика дегенді тіл ғылымына қарай бұру, қазақ тілін зерттеуде математикалық әдістерді қолдануда, сол арқылы машиналық аударма жа саумен айналысатын ғылыми саланың дүниеге келіп, оның статистика, формалды модель дер, мәтін лингвистикасы, қолданбалы лингвистика, компютерлік лингвистика, корпустық лингвистика деген атаулармен дамуында осы бағыттың алғашқы мамандардың бірі ретінде Асқар Жұбановтың көп еңбегі сіңген еді [6]. Қазіргі таңда қазақ тіл білімінде аталған саланың сандық технологиялармен үндесе жаңа қырынан дами бастағанын ескерсек, Асқар Жұбанов еңбектерінің заман көшімен бірге ілесіп, жаңа леппен дамып бара жатқанын көріп, ғалым ның осы жаңа саланың алғашқы бастаушылардың бірі ғана емес, оны әрі қарай алып ба рушы да болғанын мақтан етеміз. Жұбанов Асқар Құдайбергенұлы өзінің ғалымдық еңбегі
үшін Қазақстан Республикасының ғылымын дамытуға сіңірген еңбегі үшін (2013) медалі, Қ.Жұбанов атындағы Ақтөбе өңірлік мемлекеттік университеті Ғылыми кеңесінің шешімімен
Жұбанов медалімен (27.11.2017 ж. №3 хаттама), Қазақстан Республикасының Құрмет гра мотасы (5.12.2017 ж.), Қазақстан Республикасының ғылымын дамытуға сіңірген еңбегі үшін (2017) медалі, Еңбек ардагері медалімен (2018) марапатталды. Корпустық лингвистиканың білгір маманы ретінде Асқар Жұбанов Квантитативная структура казахского текста (1987),
Куманшақазақша жиілік сөздік (құрастыруш. бірі. 1978), М.О.Әуезовтің 20 томдық шы ғармалар текстерінің жиілік сөздіктері (құрастыруш. бірі. 1995), Основные формализации содержания казахского текста (2002), Қолданбалы лингвистика: қазақ тілінің статистикасы (2004), Қолданбалы лингвистика: формалды модельдер (2006), Қолданбалы тіл білімінің мәселелері (2008), Корпустық лингвистика (2017), т.б. еңбектер жазып қалдырды [2, 385]. Ғалым Асқар Жұбанов математика маманы ретінде тілге де математика жағынан келіп, тіл дік бірліктердің сандық өлшемін есептеп, оны алгоритмдік негізде жүйелеуге, мәтінді элек тронды есептеуіш машина арқылы қарастырып, аударма жасау ісін де компьютерлік техника көмегімен жүзеге асыруға бағытталған жаңа ғылыми сала ретінде қолданбалы тіл білімі ғылымының аясында математикалық лингвистика, статистикалық лингвистика деп түрлі ше аталған салаға көп үлес қосты. Статистикалық лингвистика - тілдің грамматикалық ка тегорияларын, тілдегі барлық деректерді сандық тұрғыда тексеріп, тіл элементтерін өлшеудің сандық мәселелерімен айналысатын қолданбалы тіл білімінің бір жаңа саласы. Тілдегі жиілік сөздіктердің түрлерін, кері әліпбижиілік сөздік, сөзнұсқағыш әліпбижиілік сөздік, мәтін мен оның жиілік сөздігі бірліктерімен арақатынасы, сөздерді компьютер арқылы алудың біріккен және іріленген алгоритмін жасау, цифр заңы және оны қазақ мәтіні бойынша түзілген жиілік сөздіктерге қолдану, мәтін және оның жиілік сөздігі ішіндегі сөздің ақпараттық сипаттамасын беру, лингвистикалық болжамды тексеру критерийін анықтау, т.б. мәселелерді қарастырады. Ғалымның осы статистика мәселесі жөнінде жазған оқулығы бүгінде жастардың игілігіне ай налды. Қазақ цифрлық тіл білімін қалыптастыруда ғалым А.Қ.Жұбанов еңбектерінің маңызы зор.
Қазіргі ғылымитехникалық үдерістер заманында ақпарат көлемінің бұрынсоңды болма ған дәрежеде артуына байланысты қажетті мәліметтерді тез тауып алу бағытындағы ізденіс тер Асқар Құдайбергенұлының компьютерлік лингвистика саласындағы зерттеулерінде өз шешімін тауып, ақпаратты іздестіру, оны табу әрекеттері, аталған қызметтерді жүзеге асыра тын құралдары мен әдістері, яғни ішкі жүйелерді жабдықтау түрлері, ақпарат іздестіру тілі нің грамматикасы, қазақ тілінің компьютерлік қорын құрастыру, т.б. теориялық мәселелер қарастырылды. Бүгінгі таңда осы аталған саланың ғылым қуған жас мамандары ғалым ға лымдар Асқар Құдайбергенұлының зерттеулері арқылы корпустық лингвистиканың ғылыми негіздерімен танысып, корпустық технологиялардың мәнін түсініп, корпустармен жұмыс істеу дағдысын меңгеріп жатыр. Ғалым Асқар Жұбановтың жетекшілігімен қазақ тілінің жиілік сөздіктері де шығарылып, корпустық лингвистиканың жас мамандары да ғылыми жетістік терімен тілімізді жаңа бағытта зерттеуге үлес қосып келеді [7]. Асқар Құдайбергенұлы өзінің зерттеу нәтижелерін ғалым шәкірті А. Жаңабековамен бірлесіп жазған Корпустық лингвис тика атты монографиясында баяндады. Корпустық лингвистика компьютерлік технология ларды қолдана отырып, тілдік мәліметтердің лингвистикалық корпусын құрастыру мен оны қолданудың жалпы принциптерін зерттеумен айналысады. Ол мынадай үш түрлі тәсілді қол данады: 1. Корпус ішінен тілге қатысты мәліметтерді автоматты түрде таңдап алу; ақпаратты өңдеу; өңделген мәліметтерді тексеру және оларға түсініктеме беру, - деп түсіндірген еді [8, 17]. Ғалымдардың көрсетуіне қарағанда, осы тәсілдер алдағы уақытта да жанжақты зерт теулермен жалғаса бермек.
Қазақтың тектілік деген түсінігін дәлелдеп, халқымыздың мақтанышына айналған
Жұбановтар әулеті деген қымбат атты жоғары ұстап келе жатқан ғалым ағамыз Асқар Жұбанов әкешешесінің туған жері Ақтөбе, Мұғалжар өлкесінің жұртшылығына сыйлы, әкесінің есі мін иеленген Құдайберген Жұбанов атындағы Ақтөбе өңірлік мемлекеттік университетінің профессороқытушыларына жақсы таныс, тығыз қарым - қатынас орната білген ардақты аза
мат еді. Университеттің ғылымипедагогикалық өміріне өзінің ғылыми ақылкеңестерімен қол ұшын беріп, жастардың ғылыми шығармашылығына қолдау көрсетіп жүретін. Асекең университет жастарымен келген сайын кездесіп, оларға ғылыми тұрғыда ағалық, аталық ақылын айтып, қазіргідей жастарға барлық жағдайлар жасалып жатқан кезеңде қиындықтан қашпай еңбектенуге, оқубілімге зейін салып, ғылыммен шұғылдануға шақырушы еді. Сондай кездесулердің бірінде: Өмірдің жақсы да, жаман да жақтарын басымнан кешірдім, бірақ оның қиын тұстарының бәрі де әкемнің нақақтан халық жауы аталуымен салыстырғанда түк те емес, - деп, өткен күндерді еске ала отырып, бақытты заманның бақытты жастарына батасын беріп, университетіміздің жақсы істеріне куә болып, жеткен биіктеріне балаша мәз болып отыратын... Ақтөбе жеріне әр келген сайын университеттің қазіргі білім беру ісіндегі заман талаптарына сай жұмыс жүргізіп, көш басындағы алдыңғы оқу орындары қатарынан көрініп келе жатқанына қуанып, өзінің ғалымдық, азаматтық келбетімен білімді жастарға ру хани күш сыйлайтын. Университетте Жұбановтану саласындағы жас зерттеушілерге де да бағытбағдар беріп отыратын.
Қорыта айтқанда, қазақ тіл білімі ғылымының жарық жұлдызы атанған Құдайберген Жұбановтың даңқына сай ұл болып, Әкеден ұл тумас па, әке жолын қумас па? деп дана қазақтың әр қариясы арман еткендей ғылымдағы толағай табыстарымен танылған Жұбанов Асқар Құдайбергенұлының артында ғылыми мол мұрасы, жоғары оқу орындарына арналған оқу құралдары, үлгіөнеге берген өзінің ізін қуған талантты шәкірттері қалды. Ахмет Байтұрсынұлы атындағы Тіл білімі институтының бас ғылыми қызметкері ретінде зерттеу жүргізен корпустық лингвистика саласындағы ғылыми еңбектері кейінгі ұрпаққа рухани мол мұра деп білеміз.
Әдебиеттер тізімі:
1. Құдайберген Жұбанов және қазақ совет тіл білімі. - Алматы: Ғылым, 1990. - 368 б.
2. Құдайберген Жұбанов. (Ұлы дала тұлғалары). (жалпы редакциясын басқарған ф.ғ.д., профессор М.Малбақов). - Алматы: Шафран ЖШС, 2013. - 528 б.
3. Оразбаева Ф.Ш. Жұбанов тағылымының ұлағаты Жұбанов тағылымы-IX дәстүрлі халықаралық ғылыми конференция материалдары жинағы. - Ақтөбе: Қ.Жұбанов атындағы Ақтөбе ӨМУ, 2017. - 59 б.
4. Жұбанов А.Қ. Қолданбалы лингвистика: Қазақ тілінің статистикасы. Оқу құралы. - Алматы: Қазақ уни верситеті, 2007. - 210 б.
5. Жұбанов А.Қ. Компьютерлік лингвистикаға кіріспе: Оқу құралы. - Алматы: КИЕ лингвоелтану иннова циялық орталығы, 2013. - 204 б.
6. Жұбанов, А. Қ. Қолданбалы лингвистика: формалды модельдер : Оқу құралы. - Алматы : Қазақ универси теті, 2006. - 280 б.
7. Жұбанов А., Жаңабекова А., Б.Д. Карбозова, А.Қ. Қожахметова Қазақ тілінің жиілік сөздігі. - Алматы,
Қазақ тілі баспасы, 2016. - 792 б.
8. Жұбанов А., Жаңабекова А. Корпустық лингвистика. - Алматы: Қазақ тілі баспасы, 2017. - 336 б.
А.ЖАҢАБЕКОВА
А.Байтұрсынұлы атындағы Тіл білімі институты Қолданбалы лингвистика бөлімінің меңгерушісі, ф.ғ.д.,
Алматы, Қазақстан
ПРОФЕССОР АСҚАР ЖҰБАНОВ - ҚАЗАҚ ТІЛІНІҢ ҰЛТТЫҚ КОРПУСЫНЫҢ НЕГІЗІН ҚАЛАУШЫ
А.Байтұрсынұлы атындағы Тіл білімі институтының Қолданбалы лингвистика бөлімінде көп жылдар бойы меңгерушілік қызмет атқарған профессор Асқар Құдайбергенұлы Жұбанов Қолданбалы лингвистика саласының Статолингвистика, Формалды модельдеу, Компьютерлік лингвистика сияқты салалары бойынша зерттеулер жүргізе жүріп, Қазақ тілінің ұлттық корпу сын жасау қажеттігін де ертеденақ көре білді.
Мұны ғалым А.Жұбановтың: Әлемдік корпустық лингвистиканың даму сипаты - ұлттық толық мәтіндерді арнайы зерттеу нысаны етіп алуды қажет етуде. Қазақ мәтіндерінің стильдік, құрылымдық, мағыналық, функционалдық және т.б. сипаттарын анықтау өзекті мәселелердің бірі болып отыр. Сондықтан автоматтанған қазақ тіліндегі мәтіндер корпу сының компьютерлік базасын құру да ғылыми және практикалық жағынан аса құнды мәселе, - деуінен көреміз [1].
Ғалым Қолданбалы лингвистика бөлімінің меңгерушісі бола жүріп, ең алғаш Мәдени құндылықтар ретіндегі Қазақ тіліндегі мәтіндер корпусы және сөздіктердің Тіл - қазына атты ұлттық компьютерлік қоры (20092011) атты ғылыми жоба аясында корпустық лингвис тика саласы мен Ұлттық корпустар құрастырудың метатілі туралы алғашқы мақалаларын жа зып бастады.
Қазақ әдеби тілінің аннотацияланған ұлттық корпусы (20122014), Қазақ тілінің ұлттық корпусындағы метамәтіндік белгіленімдердің ұстанымдары атты тақырыптарға жетекшілік жасап, қазақтың белгілі жазушылары А.Құнанбаев, М.Әуезов, Ә.Кекілбаев, М.Мағауин, М.Мақатаев шығармаларынан алынған таңдама мәтіндер (көркем стиль) бойынша мәтіндік бірліктерге (150 000 сөзқолданыс) қолдап (ручная разметка) морфологиялық белгіленім дер қою жұмысын басқарды. Бұл ретте Грамматика бөлімінің қызметкерлерін (С.Құлманов, О.Жұбаева, А.Жаңабекова) мәтінге морфологиялық белгіленімдер қою жұмысына тартып, осы істің оң нәтиже алуына барын салды.
Қазіргі Қазақ тілінің ұлттық корпусында жұмыс істеп тұрған автоматты морфологиялық анализатор бағдарламасына Асқар Жұбановтың грамматикалық түрленім кестесі негіз болды. Зат есім мен етістіктің түрленім қосымшаларының парадигмасы берілген бұл кесте кейінірек грамматикалық тұрғыдан аннотацияланып, кез келген мәтіндегі сөздерді автоматты түрде түбір мен қосымшаға ажырататын және қосымшаларға белгіленім қоятын программа жасалды. Бұл программа қазіргі кезде әлі де жетілдіре түсуде.
Асқар Жұбанов институтта қызмет істеген жылдары программистбағдарламашылар үшін арнайы штат болмай, маман жағынан жұмыстың тиімді жүргізілуіне көп кедергі болды. Ғалым бұл ретте жоғары жаққа бірнеше рет хат жазып, институтта программист штатын ашуды сұрады. Цифрлық қоғам үшін Қазақ тілінің ұлттық корпусы сияқты күрделі құралды жасау қажет тігін көрегендікпен байқаған ғалым программист мәселесі мен корпус құрастыруға жұмыла
кірісу керектігін шырылдап жүріп айтқан болатын.
А.Жұбанов Қолданбалы лингвистика бөлімінің зерттеу бағытын осы мәселеге бұрды. Қазақ тілінің ұлттық корпусын жасау ісін орталықтандыру керек деген үндеу тастап, бұл тура лы Ана тілі газетіне көлемді мақала жариялады және бұл туралы Ғылым комитетіне арнайы хат жолдаған болатын [2].
Асқар Жұбанов орыс тілінде жазылған корпустық лингвистика еңбектеріне сүйене оты рып, корпустағы негізгі аннотациялаушы бірлік разметка терминін қазақ тіліне белгіленім деп аударды. Бұл термин Қазақ тілінің ұлттық корпусын жасау тәжірибесіне еніп, кеңінен қол
даныс тауып отыр. Сондайақ метатекстовая разметка терминін ғалым метамәтіндік бел гіленім деп қолдану қажет деп санайды.
Белгіленім қойылуы мен ішкорпус мәтіндерінің түріне, қызметіне, қолжетімділігіне қарай Асқар Жұбанов қазақ тіл білімінде алғаш болып арнайы корпустар түрлерін, яғни классифи кациясын ажыратып көрсетті. Ғалымның өкшебасар шәкірттерінің бірі А.Фазылжан мұндай арнайы мақсатта жасалатын шағын корпустарды ішкорпус терминімен атауды ұсынды.
Асқар Жұбанов корпус классификациясына қатысты мынадай тұжырым жасайды: Кор пустардың бірнеше түрін кездестіруге болады, мысалы, бір ғана автордың корпусы, бір ғана кітаптың корпусы, бір ғана стильдің корпусы және т.б. Корпустың көптүрлігіне қарамай, олар ды негізгі екі топқа бөліп қарастыруға болады:
1) барлық тілге қатысты (тілдердің белгілі кезеңдеріне қатысты), тілдердің ішкі түрлеріне қатысты (жанр, стиль, тіл иелерінің жасына немесе әлеуметтік тобына қарай (жазушы тілі не месе ғалымның еңбектері және т.б.) корпустарды жіктеу;
2) корпустарды тілдік белгіленім (разметка) типіне қарай бөлу. Белгіленім типтерінің көп тігіне қарамай, корпустардың жүзеге асқан нақты түрлері морфологиялық немесе синтаксистік белгіленім жүргізілген типтеріне қатысты (синтаксистікті ағылшынша әдебиеттерде treebanks деп атайды, оның қазақша аудармасы синтаксистік құрылымды банк). Солай бола тұра, син таксистік белгіленім жасалған жерде морфологиялық белгіленімі де міндетті түрде қамтылады. Корпустың алға қойған мақсатқа және классификациялау белгілеріне қарай әртүрлі тип
терін бөліп көрсетуге болады (1кесте).
Тілдік деректердің типіне қарай корпустар жазба тіл, сөйлеу тілі және аралас тілдік кор пустар деп бөлінеді. Жазба корпустарда сөйлеу тілі мәтіндері алынбаған (Браундық корпус, LOB), ауызша корпустарда сөйлеу тілінен жазылып алынған мәтіндер беріледі, ал аралас кор пустар, әдетте, белгілі кезеңдегі тілдің қолданысын бейнелейтін ұлттық корпустарда көрініс табады (НКРЯ, BNC және т.б.).
Параллельдік критериясы бойынша корпустар біртілдік, екітілдік және көптілдік деп бөлінеді. Біртілдік корпустарда диалектілер, варианттар қарамақарсы қойылады. Мысалы, ағылшын тілінде көптеген тілдік мәселелер жаңа технологиялар өмірге келгенше ғылыми тұрғыдан қызығушылық тудырмаған. Жаңа технологияны қолданудың арқасында көптеген са лыстыруды қажет ететін шығармалар тілі контрастивтік талдау әдістерімен зерттелді.
Екітілді және көптілді корпустарда екі немесе бірнеше тілде жазылғандарына қарамай (мысалы, белгілі ғылыми проблемаға арналған, әртүрлі елдерде және бірнеше тілде өткен конференция материалдары корпусы), бір тақырыпқа қатысты мәтіндер біріктіріліп беріледі. Мұндай корпустар терминдермен жұмыс істеу кезінде ұтымды және оны аудармашылар жиі қолданады. Екітілді немесе көптілді корпустардың тағы бір түрі - қайсыбір бастапқы тілде жазылған мәтінтүпнұсқалардың жинағы және осы бастапқы мәтіндердің бір немесе бірнеше тілдерге аудармамәтіндер жинағы корпусы. Мұндай корпус салыстырмалысалғастырмалы және аударма теориясы бойынша зерттеулер жүргізуге септігін тигізеді. Адамдарды аударма жасау ісіне үйретуде және машиналық аудармаға құнды материал береді.
Әдебилік критериясы бойынша мынадай: әдеби тіл, диалект тілі, сөйлеу тілі, терминоло гиялық, аралас корпус түрлеріне бөлінеді. Сөйлеу тілі корпусына мысал ретінде СанктПетер бургте құрастырылған Один Речевой День (ОРД) атты корпусты келтіруге болады.
Мақсатына қарай корпустарды құрастыру көпмақсатты және мамандандырылған кор пустарға бөлінеді. Көпмақсатты корпустар әдетте әртүрлі жанр мәтіндерін жинақтайды (бұған ұлттық корпустар да жатады), ал мамандандырылған корпустар бір ғана жанрмен немесе жанрлар тобымен ғана шектелуі мүмкін.
Мәтіндер корпустары жанрлар бойынша әдеби, фольклорлық, драматургиялық, публицис тикалық және т.б. жанрлаға жіктеледі. Публицистикалық корпустарға мысал ретінде ХХ ға сырдың соңындағы орыс газеттерінің компьютерлік корпусын және саяси метафоралар корпу сын келтіруге болады.
Корпусты пайдаланушылар үшін корпустың қолжетімділік сипаты маңызды критерий бо лып саналады. Еркін қолжетімді корпустар кез келген уақытта корпустың толық көлемдегі
барлық мәтіндерінен online режимінде қалаған ақпаратты алуға мүмкіндік тудырады. Кей бір жағдайларда еркін қол жеткізу сипаты корпус деректерінің тек жеке бөліктеріне ғана мүмкін болады. Коммерциялық корпустармен жұмыс істегенде оны online режимінде не месе компактдискідегі көшірмесін пайдалану үшін арнайы рұқсат алуға тура келеді. Көлем жағынан кішігірім корпустар ғана ашық жүйеде тұрады. Жабық корпустар, яғни кез келген пайдаланушыға қолжетімсіз корпустар арнайы мақсаттармен құрастырылады.
Қызметіне қарай зерттеуге арналған және иллюстрациялық мақсатта құрастырылған кор пустарды ажыратып айтуға болады. Зерттеу жұмысына арналған корпустар тіл қызметінің әртүрлі аспектілерін зерттеу мақсатында құрастырылады. Корпустардың бұл типі тілдегі әлі де шешімін таппаған өзекті мәселелерді шешуге бағытталады. Мұндай мәтіндер корпуста ры бірнеше ондаған миллионнан жүздеген миллионға дейінгі сөзқолданыстарды қамтиды. Иллюстрациялық корпустар ғылыми зерттеуді жүргізгеннен кейін құрастырылады: олардың мақсаты жаңа деректерді айқындау емес, алынған нәтижелерді растау мен оларды негіздеу. Олар, бұрын дәстүрлі әдістермен алынған, тілдік фактілерді (ауызша, мәтіндік), нәтижелердің дұрыстығын дәйектеуге қызмет етеді. Иллюстрациялық корпус туралы Путеводитель по дис курсивным словам русского языка атты жұмыстан қарап, танысуға болады, мұнда демеулік терге семантикалық талдау мен оқырманға ұсынылған семантикалық түсіндірмені тексеруге мүмкіндік беретін көлемді мәтіндік материалдар тіркеліп беріледі.
Динамикалық (мониторлы) критерий бойынша корпустар динамикалық және статика лық деп бөліп қарастырылады. Алғашқы мәтіндер корпустары белгілі уақыт аралығындағы тілдік жүйені сипаттайтын статикалық мәтіндердің көрінісі ретінде құрастырылатын. Статика лық корпустар қайсыбір аздаған уақыт аралығындағы мәтіндерді жинақтайды. Мұндай корпус тардың типтік өкілі ретінде авторлық корпустарды - жазушылар шығармалары мәтіндерінің топтамасын атауға болады.
Тіл дамуымен бірге тілдік құбылыстар да өзгермелі болып отыратындықтан, тілдік құбы лыстардың өзгерісін сипаттайтын динамикалық корпустар құрастыру да қажет болды. Мыса лы, сөз мағынасының өзгеруі, қайсыбір синтаксистік конструкциялардың қолдану жиіліктерінің және т.б. өзгеруі. Проблемалық саланың процессуалдық аспектілерін бейнелеу үшін мәтіндердің динамикалық корпусын құрастыру мен оны пайдалану мақсатында жаңа технология пайдала нылды. Динамикалық корпустарды мониторлық немесе мониторингтік корпустар деп те атайды. Мониторлық корпустардың мақсаты - компьютер жадындағы сан жағынан үнемі өсіп отыра тын мәтіндерді қаттау (складировать). Мұндай корпустарда алдын ала белгіленген уақыт аралығында корпустағы мәтіндер жиыны жаңартылып жәненемесе толықтырылып отырады. Шексіз (әрдайым өсіп отыратын) сипаттағы мониторлық корпустар лексикографиялық сөздіктер құрылысының сапасын арттыруда маңызды рөл атқарады. Себебі лексикографтарға тілімізге жаңадан енетін сөздерді немесе мағынасы өзгеріске ұшырайтын бұрыннан бар сөздерді және стильдік өзгеріске қарай сөздердің қолданысының теңгерімін үнемі қадағалап тұруға мүмкіндік тудырады. Динамикалық мәтіндер корпустарында, әдетте, ұзақ мерзім аралығындағы жазба дереккөздер сақталады, сондықтан, олар неше түрлі диахрондық зерттеулер жүргізуге арналған.
Белгіленім критерийі бойынша корпустар белгіленген және белгіленбеген корпустарға ажыратылады. Мұны басқа да терминдермен атайды: индекстелген және индекстелмеген, аннотацияланған және аннотацияланбаған, таггирленген және таггирленбеген. Белгіленген корпустарда сөздерге немесе сөйлемдерге белгіленімнің сипатына қарай тиісті белгілер (тэг тер) қойылады: морфологиялық, синтаксистік, семантикалық, просодикалық және т.б.
Мәтіндер көлемі критериясы бойынша толықмәтінді және фрагменттімәтіндік корпус тар деп екіге ажыратылады. Мәтін ұзындығы 2000 сөзге (сөзқолданысқа) сай келу критерия сына қатаң түрде сай келетін мәтіндер тәжірибе жүзінде жоқ деуге де болады. Ондай корпус тарды фрагменттімәтіндік деп атайды. Толықмәтіндік корпустарға белгілі қалам иелерінің кейбір шығармалар мәтіндерінің корпустарын, қысқа мәтіндер корпустарын, мысалы, газет тақырыптары корпусын жатқызуға болады.
Асқар Жұбанов Параллель корпустар туралы да ең алғаш мәселенің маңыздылығын терең түсініп, мұндай корпус жасау туралы төмендегіше ой қорытады:
Түпкі және аударма мәтіндердің бірліктері арасында теңестіру нәтижесінде арнайы қарастырылған шаралар бойынша сәйкестік жүзеге асады. Теңестірілген паралельді корпус - ол ғылыми зерттеулердің, әсіресе, аударма жасаудың теориясы мен практикасының аса тиімді құралы.
Мәтіндердің параллель корпустары ауқымды ақпарат алуға мүмкіндік туғызады. Олардың көмегімен мынадай жұмыстарды жүзеге асыруға болады:
екітілдік және көптілдік аударма сөздіктерін құрастыру;
мәшинелік аударма жүйелері үшін сөздіктер құрастыру және оларды толықтыру;
ұзындығы жағынан сөйлем ұзындығынан артық болатын көпмағыналы сөздердің кон текстік қоршауын пайдалана отырып, компьютер көмегімен лексикалық бірліктердің полисе миясын жою.
мәтіннің терминологиялық және фразеологиялық бірліктерін аудару;
аудармалық жады бар жүйелер деп аталатын мәшинелік аударманың жаңа жүйелерінің аясында, әртүрлі деңгейде өзара теңестірілген мәтіндер корпустары мен олардың аудармала рын компьютер жадында жинақтау және соның негізінде автоматты аударманы толық жүзеге асыру.
Мұндай жаңа жүйе мәтіндерді аудару кезінде кезекті аударуға тиісті сөйлемді немесе оның фрагментін бастапқы параллель мәтіндердің массивінен тауып алуға ұмтылады. Егер іздеген сөйлем немесе оның фрагменті бастапқы түпнұсқамәтін массивінен табылса, онда жаңа жүйе аударылған мәтіндер массиві ішінен сол сөйлемнің немесе оның бөлігінің аудармасын бөлік теп алады, - деп, қазақ тілінде алғаш болып параллель корпус жасаудың қажеттігін негіздеп берді [3].
Қазіргі кезде Қазақ тілінің ұлттық корпусында Параллель ішкорпус көркем шығармалар мен ісқағаз мәтіндері бойынша әзірленіп отыр. Параллель мәтіндерді теңестірудің бұл әзір басы, алғашқы іргетасы деп санаймыз.
Қазақ тілінің ұлттық корпусында ауызша сөзден жинақталған Ауызша ішкорпус базасы да жасақталған. Ауызша сөз - тілдің шынайы болмысын көрсететіндіктен, оны кейде табиғи тіл деп те қолданады. Жазба тілде байқала бермейтін кейбір тілдік құбылыстар ауызша тілде айқын көрініс табады. Осы ретте корпус құрастырушылар Ауызша корпустың тілді зерттеуде әсіресе дискурстық зерттеулер үшін аса маңызды екенін атап көрсетеді. Қазақ тілінде Ауыз ша корпусты әзірлеудің қажеттігін негіздей отырып, Асқар Жұбанов оның проблемаларын төмендегіше көрсетеді:
Ауызша тіл корпустарын құрастыру жазба тіл корпустарын құрастырудан барынша баяу жүріп жатқандығымен түсіндіруге болады. Мұны жолға қою үшін ең алдымен, ауызша тілді жазып алудың (есте сақтаудың) бір амалын табу керек - мысалы, магниттік лента көмегімен, цифрлік жазбалар арқылы немесе видеокассеталарға жазу. Содан кейін, оларды әріптермен жазып алу қажеттігі туындайды, әрине мұндай әрекет барынша жалықтыратын жұмыс болуы және қымбатқа түсуі мүмкін, себебі, ондай жазбаның сапасы табиғи жағдайдағы сырт ортаның шулышусыз жағдайына байланысты болады.
Фонетикалық лингвистикалық ресурстарды құрастырудағы басты күрделілік ауызша тілді транкрипциялау қажеттігіне байланысты. Мұндай жағдайда келесі мәселелер туын дайды:
1. Транкрипциялау үшін қандай алгоритм қолдану қажет?
2. Айтылу кезінде сөйлеуші факторы есепке алына ма?
3. Ауызша мәтін толық ескерілу керек пе, әлде тек оның фрагменті ғана ма?
4. Сөздің айтылуында диалектілік варианттар ескеріле ме?
5. Айтылу кезінде сөздердегі екпін ескеріле ме?
6. Фразалар айтылғанда просодиялық белгілер ескеріле ме?
7. Тыңдау кезінде танылмаған сөздерді арнайы белгілеу қажет пе?
8. Фонетикалық корпус үшін паралингвистикалық құбылыстарды, ілеспелі дыбыстарды (кідіріс, күлкі, жөтел, міңгірлеу, және т.б.) белгілеу қажет пе? - деген сияқты сұрақтарды алға тартып, ауызша корпус құрастырудың проблемаларын алғаш көтерді [3].
Асқар Жұбановтың назарынан Оқу ... жалғасы
Ұқсас жұмыстар
Пәндер
- Іс жүргізу
- Автоматтандыру, Техника
- Алғашқы әскери дайындық
- Астрономия
- Ауыл шаруашылығы
- Банк ісі
- Бизнесті бағалау
- Биология
- Бухгалтерлік іс
- Валеология
- Ветеринария
- География
- Геология, Геофизика, Геодезия
- Дін
- Ет, сүт, шарап өнімдері
- Жалпы тарих
- Жер кадастрі, Жылжымайтын мүлік
- Журналистика
- Информатика
- Кеден ісі
- Маркетинг
- Математика, Геометрия
- Медицина
- Мемлекеттік басқару
- Менеджмент
- Мұнай, Газ
- Мұрағат ісі
- Мәдениеттану
- ОБЖ (Основы безопасности жизнедеятельности)
- Педагогика
- Полиграфия
- Психология
- Салық
- Саясаттану
- Сақтандыру
- Сертификаттау, стандарттау
- Социология, Демография
- Спорт
- Статистика
- Тілтану, Филология
- Тарихи тұлғалар
- Тау-кен ісі
- Транспорт
- Туризм
- Физика
- Философия
- Халықаралық қатынастар
- Химия
- Экология, Қоршаған ортаны қорғау
- Экономика
- Экономикалық география
- Электротехника
- Қазақстан тарихы
- Қаржы
- Құрылыс
- Құқық, Криминалистика
- Әдебиет
- Өнер, музыка
- Өнеркәсіп, Өндіріс
Қазақ тілінде жазылған рефераттар, курстық жұмыстар, дипломдық жұмыстар бойынша біздің қор #1 болып табылады.

Ақпарат
Қосымша
Email: info@stud.kz
Реферат
Курстық жұмыс
Диплом
Материал
Диссертация
Практика
Презентация
Сабақ жоспары
Мақал-мәтелдер
1‑10 бет
11‑20 бет
21‑30 бет
31‑60 бет
61+ бет
Негізгі
Бет саны
Қосымша
Іздеу
Ештеңе табылмады :(
Соңғы қаралған жұмыстар
Қаралған жұмыстар табылмады
Тапсырыс
Антиплагиат
Қаралған жұмыстар
kz