«Ana tili»

Қазақ тілі, оның тарихы, бүгіні мен болашағы, алдағы уақытта тілдік құрылым мен сөз қолданысында болуы мүмкін өзгерістер тек тіл мамандарының ғана емес, тіл тағдырына алаңдайтын көпшіліктің де көңілін алаңдататын тақырып болса керек. Десе де, лингвистерден осы туралы сұрағанда көбі лингвистикалық корпус ­туралы айтады. Ол қандай корпус? Маңызы қандай? Қазақстанда неге үшеу? Олардың бір-бірінен айырмашылығы қандай? Осы сауалдарға жауап іздеп көрдік.

ЛИНГВИСТИКАЛЫҚ КОРПУС ДЕГЕН НЕ?

Лингвистикалық корпус – белгілі бір тілдегі жазбаша және ауызша мәтіндердің электронды түрде жинақталған ақпараттық-анықтамалық базасы. Ол тілдік құбылыстарды, әсіресе сөздер мен фразаларды іздеуді жеңілдетеді және тілдің лексикасы мен грамматикасын, ондағы жүздеген жылдар бойы болған өзгерістерді ғылыми зерттеу үшін қажет.

Әлемдегі тілдердің біршамасы өзде­рінің ұлттық корпустарын жасаған. Олар бір-бірінен негізінен мәтіндерді ғылыми өңдеуі, база толықтығы мен субкорпустарының алуандығы бойынша ерекшеленеді. Қазіргі әлем тілдері ішінде BNC британ ұлттық корпусы мойындалған. Басқа заманауи корпустар соның негізінде жасалады. Мәселен, Прагадағы Карл универси­те­тінде құрылған Чех ұлттық корпусы, сонымен қатар Орыс тілінің ұлттық кор­пусы да қарқынды дамып келеді. Қазақ­станда осындай үш корпус бар: Ұлттық корпус, Алматы қазақ тілі кор­пусы және публицистикалық кіші корпус.

КОРПУСТАРДЫҢ ЕРЕКШЕЛІГІ НЕДЕ?

Қазақ тілінің ұлттық корпусын­да қазақ тілінің электронды мә­тіндік қоры жинақталған. Кор­пустағы мәтін көлемі – 21 миллион. Мәтіндер қазақ тілінің 5 стиль түрінен (көркем стиль, ғы­лыми стиль, публицистикалық стиль, ісқағаз стилі, сөйлеу стилі) жи­нақталған. Корпустан сөз, сөзформа (сөз түрленімі) бойынша іздеу жүргізіп, сол сөз қолданыл­ған сөйлемдердің тізімін және олардың дереккөзін көруге болады. Табылған сөз/сөзформа немесе мы­салдардағы кез келген сөз туралы тілдің барлық деңгейіне қатысты ақпарат беріледі. Ол Тіл білімі ­институты мамандары жүзеге асырған «Қазақ тілінің ұлттық корпусын қалыптастырудың негізгі факторлары, Қазақстан Республикасындағы үштілділік идеологиясы тұрғысы­нан оның коммуникативтік және ин­теграциялық қасиеттерін күшейту» атты зерттеу аясында әзірленген.

Алматы қазақ тілі корпу­сының көлемі 40 миллионнан аса сөз­қолданыстан тұрады. Корпус мәтіндері автоматты мор­фологиялық талдағыш кө­мегімен белгіленген, корпус­тағы сөзформаның 86%-на грамма­тикалық талдау жасалынған. Бұл корпусты әл-Фараби атындағы Қазақ ұлттық университетінің лингвистері жасаған.

Қазақ тілінің ұлттық кор­пу­сы­ның публицистикалық кіші корпусын Білім және ғылым ми­нистрлігі Тіл саясаты комитетінің тапсы­рысымен Ш.Шаяхметов атындағы «Тіл-Қазына» ұлттық ғылы­ми-практикалық орталығында жасалған.

Осы жерде «Қазақ тілінің бірнеше корпусын жасау қаншалықты маңыз­ды? Неге Ұлттық корпусты жетілдіре бермеске?» деген сауал туындайды.

Публицистикалық кіші кор­пустың жоба жетекшісі, «Тіл-Қазына» ұлттық ғылыми-практикалық орталығы­ның ғалым хатшысы, ­филология ғылымдарының кандидаты, қауымдас­тырылған профессор Нұрлыхан Аитова­ның айтуынша, әр жерден корпустар көптеп жасала бастаса, тек қуану керек.