Корпус лингвистикасы


Семинар 13
Тақырыбы: Корпус лингвистикасы
Сұрақтар:
- Лингвистикалық корпус туралы түсінік
- Корпус лингвистикасының (корпус жасаудың) тарихы
Корпустық лингвистика - компьютерлердің көмегімен лингвистикалық корпустарды құру және пайдаланудың жалпы принуиптерін әзірлеу мен айналысатын қолданбалы лингвистика бөлімі. Осы анықтамада корпустық лингвистика екі аспектіні қамтитынын атап өтуге болады:
- мәтіндер корпустарын оларды пайдаланудың автоматты құралдарын жасау;
- әртүрлі типті корпустардың негізінде тілдің әртүрлі деңгейлерін эксперименталды зерттеу тәсілдерін әзірлеу. [1; 38]
«Корпустық лингвистика» контексі (мәнмәтіні) мағынасында маңызды болып саналатын зерттеу нәтижесіне қатысты ақиқаттықты айқындау мәселесін қатыстыруды қажет етеді. Қорыта айтқанда, нәтиженің дұрыстығын (ақиқаттығын) тексеретін теоретикалық, эмпирикалық және интуитивтік әдіс-тәсілдерге жүгіну қажет болады. Бұл жағдайда корпустық лингвистика зерттеу ақиқаттығының эмпирикалық негіздемесін қамтамасыз ететін, ал тәжірибенің жеткіліктілік принципі корпустық лингвистиканың әдіснамалық негізі ретінде саналатын тіл білімінің жеке бір бөлімі деп қарастырылады. Корпустық лингвистиканың негізгі міндеттері ретінде мыналарды жатқызуға болады:
- Аталған бағыттың теориялық негіздемесін жете зерттеу;
- Корпустар түрлерін құрастыру мен қолдану тәжірибесін талдау;
- Корпусқа қойылатын жалпы талаптарды тұжырымдау;
- Әртүрлі зерттеулер мен оқыту міндеттерін атқаратын корпустар құрастыру;
- Тіл білімінің әртүрлі салаларында мәтіндер корпустарын қолданудың тиімді тәсілдерін қалыптастыру. Бұл міндет зерттеуші қауымына практикалық тұрғыда аса құнды болып саналады. [2]
Корпустық лингвистика тіл білімінің жеке саласы ретінде өзімен іргелес жатқан тіл ғылымы пәндерімен жанасып жатады, яғни математикалық лингвистика, дискурстік анализ және лексикография салаларымен жақын жатады. Корпустық лингвистиканың басқа тіл ғылымы пәндерімен қарым-қатынаста болу ерекшелігі, бір жағына алғанда, мәтіндер корпусының корпустық лингвистика қызметінің нәтижесі ретінде болса, ал екіншіден - лингвистикалық пәндердің басқа түрлеріне де бастапқы эмпирикалық материал болу мүмкіндігінде. Міне, дәл осы жағдай корпустық лингвистиканың фонетика, лексикология, грамматика және стилистика салаларымен тығыз байланыста болатындығына негіз бола алады.
Корпустық лингвистика әдістері ішінен келесі бөліктерді жеке қарастыруға болады:
1) филологиялық әдістер;
2) теоретика-лингвистикалық әдістер;
3) математикалық (статистикалық) әдістер;
4) ақпараттық технологиялардың әдістері. [2]
Бірінші топ әдістеріне жанрға, мәтін авторларына, жанрлар мәтіндерінің үлесіне және т. б. мәселелерге қатысты әдістер жатады. Екінші топта - мәтін таңдаудың және корпустағы лингвистикалық ақпараттың берілуінің жалпы және жеке лингвистикалық мәселелерімен байланысты әдіс-тәсілдер. Үшінші топты таңдама мәтіндердің санына, оның репрезентативтілігін (тұлғалылығын) қамтамасыз ету аспектілеріне қатысты математикалық статистиканың әдістері құрайды. Төртінші топқа корпус деректерінің компьютерлік берілісі (көрінісі) мен оны өңдеу әрекеттерін қамтамасыз ететін ақпараттану әдістері жатады.
Корпустық лингвистиканы жаңа білім аясы деп түсінуге байланысты «әдіс» ұғымының орны мен рөлі айтарлықтай өзгеріске ұшырауы мүмкін. Мәселен, корпустық лингвистиканы компьютерлік лингвистиканың бір бөлігі деп қарастыратын болсақ, онда төртінші топқа қатысты ақпараттану әдістері басымшылық етер еді. Ал В. П. Захаровтың жоғары оқу орындарында «Корпустық лингвистика» пәнін оқыту курсында мәтінге лингвистикалық шартты белгілер енгізуге, корпустарды құру технологиясына, корпустан қажетті ақпаратты іздеу әдістеріне (конкордансерілерге, корпустық менеджерлерге, сұрату тілдеріне) көбірек көңіл бөлінген. [3; 5]
Мәтіндер корпусын қолдану аясы неше түрлі болғандықтан, олар лингвистикалық, филологиялық және педагогикалық салаларға топтастырылуы мүмкін. Ондай топтарға жататын пәндер: лексикография, грамматика, мәтін лингвистикасы, типология, контрастивтік лингвистика, аударма жасаудың теориясы мен практикасы, әдебиеттану ғылымы, лингводидактика. Қазіргі кезде корпустық лингвистиканың қолдану аясы бұрынғыдан да кеңейе түсті.
Корпустық лингвистиканың негізгі түсінігін, оның бейнелейтін аясына қарай, корпустағы сақталатын ақпарат бірлігі тұрғысынан, оны әртүрлі негізде топтастыру мен құрастыру және т. б. принциптерді ұстаным етуіне қарай әртүрлі ұғынуға болады.
А. П. Барановтың тұжырымдауынша, корпустық лингвистикада негізгі назар тілдік жүйенің сөйлеу арқылы жүзеге асуына көп көңіл аударылады: «Как правило, в корпусной лингвистике языковой аспект фактически игнорируется, поскольку изначально фиксируется область привлекаемых данных - реализаций языковой системы» [4; 114] . Солай бола тұра, корпусты құру мен оны түрлендіру жағын зерделеуде тілдік аспектіні ескеру қажеттігі күмән тудырмайды.
В. П. Захаровтың корпус ұғымын тар мағынада түсіндіруі қазіргі ғылыми түсінікте эволюциялық тұрғыда көрініс тапқан. Мысалы, ғалым «Корпусная лингвистика» атты оқу құралында былай дейді: «Под названием лингвистический, или языковой, корпус текстов понимается большой, представленный в электронном виде, унифицированный, структурированный, размечанный, филологический компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач» [3; 3] .
Қазақ тіл білімінде корпустық лингвистика ғылымын зерттеп жүрген ғалым А. Жұбановтың жүйелеуі бойынша корпустарды келесі топтарға бөліп қарастыруға болады:
I. Құрылымдық дәрежесіне қарай:
1. Электрондық архив (таспадағы өңделмеген мәтіндер) ;
2. Электрондық кітапхана (өңделген пішіндегі мәтіндер) ;
3. Мәтіндер корпусы (мәтіндердің стандартталған, өңделген және әр пәндік саланы бейнелейтін жиынтығы) .
II. Тілдердің қамтылу санына байланысты:
1. Біртілді. 2. Екітілді. 3. Көптілді.
Сондықтан параллель корпустар дегеніміз - екі және көптілді корпустардың түрлері.
III. Қолдану тәсіліне қарай:
1. Зерттеу корпустары (көбінесе тілдік жүйелер қызметінің әртүрлі аспектілерін зерттеуге арналған) .
2. Иллюстративтік (көрнекілік) корпустары (олар зерттеу жүргізілгеннен кейін ғана құрылады; бұл корпустардың мақсаты - алынған нәтижелерді растау және негіздеу) . Мұндай қарама-қарсы қоюшылық корпустардың ерте даму кезеңіне ғана тән болғаны белгілі, себебі қазіргі кездегі корпустар әрі зерттеу жүргізу үшін, әрі көрнекілік үшін де қолданылуы мүмкін.
IV. Динамикалық сипатына қарай:
1. Тілдік жүйенің белгілі қалпын бейнелейтін статикалық корпустар.
2. Динамикалық (мониторлық) корпустар. Олар пәндік аяның процессуалды аспектісіндегі тілдік феномендердің белгілі уақыт ішіндегі қызметін айқындау мәселелерін қарастырады.
V. Индекстеуге қатысты:
1. Белгіленбеген жай корпустар.
2. Белгіленген (аннотацияланған, мазмұнданған) корпустар. Қазіргі кездегі корпустар тек аннотацияланған болып келеді, себебі тек белгіленген корпустардан ғана қажетті ақпаратты іздестіруге, пайдалануға мүмкіндік бар.
VI. Тіл формасына (тұрпатына) қарай:
1. Жазба түрдегі корпустар.
2. Сөйлеу түріндегі (фонетикалық) корпустар. [2]
Бүгінгі таңда тілдің ұлттық корпусын түзу мәселесіне ерекше көңіл бөліне бастады. Бұл орайда әсіресе еуропалық ғалымдар бірқатар зерттеулерге қол жеткізген. Мәселен, орыс тілінің упсалдық корпусында 1960-70-жылдардағы көркем әдебиет нұсқалары мен публицистикалық шығармалардағы сөз қолданыстар талданған. Ол бастапқыда Швецияда құрылып, кейін Германияның Тюбенен университетіне ауысқан. Сондай-ақ орыс тілінде корпустық лингвистикаға қатысты зерттеулер Финляндияда да қарқынды түрде жүргізіліп келеді. Орыс тіл білімінде В. В. Виноградов еңбектерінде корпустық лингвистиканың бастапқы нышандарын көруге болады. Сондай-ақ А. А. Зализняк, Д. В. Сичинава, В. М. Андрошенко, В. Плунгян сияқты зерттеуші-ғалымдардың еңбектерін атап көрсетуге болады. Қазақ тіл білімінде корпустық лингвистика әлі де қалыптасу үстінде. Алайда қазақ әдеби тілінің тарихына байланысты жазылған еңбектерге шолу жасай отырып, бұл бағытта бірқатар нәтижелер бар екеніне көз жеткізуге болады. Яғни Р. Сыздық, Б. Әбілқасымов, Т. Қордабаев т. б. ғалымдар белгілі бір кезеңге тән ескерткіштердің тілдік ерекшеліктерін сөз ету барысында корпустық лингвистиканың бірқатар келелі мәселесін сөз еткенін көреміз. Компьютерге түсіріліп, арнайы түзілген сөздік болмаса да, осы бағыттағы алғашқы қадамдар жасалған. Алғашқы қазақ газеттерінің тілін зерттеген профессор Б. Әбілқасымовтың еңбектерінде де ХІХ ғасырдағы тілде орын алған ерекшеліктер, жаңалықтар туралы сөз болады. Академик Р. Сыздық қатыстық сын есімдердің қолданылу ерекшеліктеріне тоқтала келіп: «Қатыстық сынды білдіру тұлғаларында да варианттар қатары бар: бірі жұрнақ жалғау тәсілімен келсе (азаматтық соғыс), екіншісі тәуелдік жалғаулы тіркес-изафетпен келген варианты (азамат соғыс) . Бұл варианттардың аффиксация жолымен жасалатындары жазба тілде бел ала бастаған тәрізді. Бір кездерде, ХХ ғасырдың алғашқы жартысында азамат соғысы, коммунист партиясы, қала өндірісі, ауыл мектебі деп қолданылып келген тіркестер бұл күнде көбінесе азаматтық соғыс, коммунистік партия, қалалық өндіріс, ауылдық мектеп деген варианттар әдеби норма ретінде жиірек қолданылып кетті. Дегенмен бұл қатардың әр сыңарының семантикалық реңктері бар екенін білу керек: жұрнақты түрінде қатыстық мән, изафеттік түрінде тәуелдік, меншіктік мағына басым болып келеді. Мысалы, мектеп оқушылары дегенді мектептік оқушылар деп атау қисынсыз көрінеді, өйткені мектеп оқушы бала дегеннің қатыстық сыны емес, керісінше, «иесі», яғни бала (оқушы) өзге орынның емес, мектептің «иелігінде», «құзырында», «шаңырағының астында». Бұл морфологиялық-семантикалық вариант қатарының ішінде қалыптасып, өзгеріске ұшырап кеткен тіркестер аз емес. Мысалы, кітап саудасы, ауыл шаруашылығы, оқу орны сияқты варианттары жиі қолданылады, - дейді.
Корпустық лингвистиканың мемлекеттік тілдің дамуы үшін практикалық, теориялық құндылығы қандай деген мәселеге келетін болсақ, ол ең алдымен, тілді зерттеушілер үшін аса қажет. Өткен ғасырда тіл біліміндегі қандай да бір заңдылықты, ерекшелікті анықтамақ болған зерттеуші алдымен сол мәселеге байланысты карточка жинап, топтастырып отырғаны белгілі. Бүгінгі заманда техниканы, компьютердің қарқынды дамуына байланысты қол еңбектерін жеңілдетіп, ондай мәліметтердің бәрін компьютерге алдын ала енгізу арқылы зерттеушілердің қажет мәліметті тауып алуы үшін қор жинақтауына мүмкіндік береді. Сондай-ақ тіл тарихын немесе қазіргі кездегі тілдің дамуын, бағытын анықтауды мақсат еткен зерттеушілер үшін де мұндай сөздіктердің берері мол. Яғни тілдің қалай дамып жатқаны, қандай тұлғалардың жиі қолданылып жатқанын, қайсыларының қолданысы азайып, сиреп бара жатқанын анықтау үшін де бұл сөздік бірден-бір құрал бола алады. Сонымен қатар тіл тазалығына нұқсан келтірмеуді, тілдің шұрайын кетірмей, әр сөзді орынды қолдана білуді мақсат еткен журналист үшін де, баспа редакторы үшін де мұндай сөздіктің берері мол.
Сонымен қатар мұндай сөздік тіл тарихын зерттеушілер үшін де өте пайдалы болмақ. Белгілі бір тілдік қолданыстың қай кезден бастап айналымға енгені, бастапқыда қандай мағыналық реңктерін болғанын анықтау үшін, кейін қандай мән жамағанын білу үшін де мұндай сөздіктердің берері мол. Мәселен, қазіргі тіліміз бен ХІХ ғасырдағы немесе ХХ ғасырдың басындағы тілді өзара салыстыратын болсақ, тіліміздің біршама дамығанын, бірқатар өзгерістерге түскенін байқаймыз. Бұл орайда әсіресе лексика мен фонетикаға өзгеріске бейім болатыны белгілі. Алайда тілде жүйелі түрде қолданыс тапқан өзгерістер грамматикада да ізін қалдырып отырады. Грамматика лексика мен фонетикамен салыстырғанда, өзгерістерге бейім бола қоймаса да, белгілі бір кезеңдегі жиі қолданылған грамматикалық тұлғалардың да өзіндік ерекшеліктері болатыны белгілі. Алайда тілде жүйелі түрде қолданыс тапқан өзгерістер грамматикада да ізін қалдырып отырады. Грамматика лексика мен фонетикамен салыстырғанда, өзгерістерге бейім бола қоймаса да, белгілі бір кезеңдегі жиі қолданылған грамматикалық тұлғалардың да өзіндік ерекшеліктері болатыны белгілі. Мәселен, Т. Қордабаев -у тұлғалы қимыл атауының ХІХ ғасырдың аяқ кезіне дейінгі шығармаларда некен-саяқ кездескенін, олардың қазіргі әдеби тілімізде мейлінше жиі қолданылатын актив тұлғаға айналғанын айта келіп, оның себебін ертеректегі жазбаларда өте жиі қолданылған он шақты форманың қолданыстан шығарып, оның орнын басуынан деп түсіндіреді.
Кез келген лингвистикалық зерттеудің негізгі де бірден-бір объектісі тілдік материал, тілдік деректер екендігі белгілі. Материал көп болған сайын қорытынды да дәлелді, байқалған заңдылықтарды дәлелдеу де оңай болады. Сондықтан лингвистиканың көптеген салаларында жаңа тілдік деректерді жинау лингвистикалық сипаттаманың негізгі міндеті болып саналады.
Осы ретте зерттеушілердің (әсіресе тіл біліміне енді аяқ басқан жас зерттеушілердің) алдында тілдік материалдарды жинау мен сақтаудың дәстүрлі әдістері қандай? деген сұрақ туындайды. Фонетика саласын есепке алмайтын болсақ (бұл арнайы зерттеуді қажет ететін тақырып), онда әңгіме жазбаша мәтіндерді қолмен «жинау», «сұрыптау», «өңдеу», ақпарат берушілерге әртүрлі әдістермен сауалнама жүргізу және оны кейіннен өңдеу, жазбаша мәтіндерді жазып алу, сөздік картотекалар және т. б. туралы болады [1] . Дәстүрлі әдістер (технология) бойынша материал жинау көптеген жылдарды алғандығын айтып, мысалдар келтіріп жатудың өзі артық.
... жалғасы- Іс жүргізу
- Автоматтандыру, Техника
- Алғашқы әскери дайындық
- Астрономия
- Ауыл шаруашылығы
- Банк ісі
- Бизнесті бағалау
- Биология
- Бухгалтерлік іс
- Валеология
- Ветеринария
- География
- Геология, Геофизика, Геодезия
- Дін
- Ет, сүт, шарап өнімдері
- Жалпы тарих
- Жер кадастрі, Жылжымайтын мүлік
- Журналистика
- Информатика
- Кеден ісі
- Маркетинг
- Математика, Геометрия
- Медицина
- Мемлекеттік басқару
- Менеджмент
- Мұнай, Газ
- Мұрағат ісі
- Мәдениеттану
- ОБЖ (Основы безопасности жизнедеятельности)
- Педагогика
- Полиграфия
- Психология
- Салық
- Саясаттану
- Сақтандыру
- Сертификаттау, стандарттау
- Социология, Демография
- Спорт
- Статистика
- Тілтану, Филология
- Тарихи тұлғалар
- Тау-кен ісі
- Транспорт
- Туризм
- Физика
- Философия
- Халықаралық қатынастар
- Химия
- Экология, Қоршаған ортаны қорғау
- Экономика
- Экономикалық география
- Электротехника
- Қазақстан тарихы
- Қаржы
- Құрылыс
- Құқық, Криминалистика
- Әдебиет
- Өнер, музыка
- Өнеркәсіп, Өндіріс
Қазақ тілінде жазылған рефераттар, курстық жұмыстар, дипломдық жұмыстар бойынша біздің қор #1 болып табылады.

Ақпарат
Қосымша
Email: info@stud.kz