«Ana tili»
Қазақ тілі, оның тарихы, бүгіні мен болашағы, алдағы уақытта тілдік құрылым мен сөз қолданысында болуы мүмкін өзгерістер тек тіл мамандарының ғана емес, тіл тағдырына алаңдайтын көпшіліктің де көңілін алаңдататын тақырып болса керек. Десе де, лингвистерден осы туралы сұрағанда көбі лингвистикалық корпус туралы айтады. Ол қандай корпус? Маңызы қандай? Қазақстанда неге үшеу? Олардың бір-бірінен айырмашылығы қандай? Осы сауалдарға жауап іздеп көрдік.
ЛИНГВИСТИКАЛЫҚ КОРПУС ДЕГЕН НЕ?
Лингвистикалық корпус – белгілі бір тілдегі жазбаша және ауызша мәтіндердің электронды түрде жинақталған ақпараттық-анықтамалық базасы. Ол тілдік құбылыстарды, әсіресе сөздер мен фразаларды іздеуді жеңілдетеді және тілдің лексикасы мен грамматикасын, ондағы жүздеген жылдар бойы болған өзгерістерді ғылыми зерттеу үшін қажет.
Әлемдегі тілдердің біршамасы өздерінің ұлттық корпустарын жасаған. Олар бір-бірінен негізінен мәтіндерді ғылыми өңдеуі, база толықтығы мен субкорпустарының алуандығы бойынша ерекшеленеді. Қазіргі әлем тілдері ішінде BNC британ ұлттық корпусы мойындалған. Басқа заманауи корпустар соның негізінде жасалады. Мәселен, Прагадағы Карл университетінде құрылған Чех ұлттық корпусы, сонымен қатар Орыс тілінің ұлттық корпусы да қарқынды дамып келеді. Қазақстанда осындай үш корпус бар: Ұлттық корпус, Алматы қазақ тілі корпусы және публицистикалық кіші корпус.
КОРПУСТАРДЫҢ ЕРЕКШЕЛІГІ НЕДЕ?
Қазақ тілінің ұлттық корпусында қазақ тілінің электронды мәтіндік қоры жинақталған. Корпустағы мәтін көлемі – 21 миллион. Мәтіндер қазақ тілінің 5 стиль түрінен (көркем стиль, ғылыми стиль, публицистикалық стиль, ісқағаз стилі, сөйлеу стилі) жинақталған. Корпустан сөз, сөзформа (сөз түрленімі) бойынша іздеу жүргізіп, сол сөз қолданылған сөйлемдердің тізімін және олардың дереккөзін көруге болады. Табылған сөз/сөзформа немесе мысалдардағы кез келген сөз туралы тілдің барлық деңгейіне қатысты ақпарат беріледі. Ол Тіл білімі институты мамандары жүзеге асырған «Қазақ тілінің ұлттық корпусын қалыптастырудың негізгі факторлары, Қазақстан Республикасындағы үштілділік идеологиясы тұрғысынан оның коммуникативтік және интеграциялық қасиеттерін күшейту» атты зерттеу аясында әзірленген.
Алматы қазақ тілі корпусының көлемі 40 миллионнан аса сөзқолданыстан тұрады. Корпус мәтіндері автоматты морфологиялық талдағыш көмегімен белгіленген, корпустағы сөзформаның 86%-на грамматикалық талдау жасалынған. Бұл корпусты әл-Фараби атындағы Қазақ ұлттық университетінің лингвистері жасаған.
Қазақ тілінің ұлттық корпусының публицистикалық кіші корпусын Білім және ғылым министрлігі Тіл саясаты комитетінің тапсырысымен Ш.Шаяхметов атындағы «Тіл-Қазына» ұлттық ғылыми-практикалық орталығында жасалған.
Осы жерде «Қазақ тілінің бірнеше корпусын жасау қаншалықты маңызды? Неге Ұлттық корпусты жетілдіре бермеске?» деген сауал туындайды.
Публицистикалық кіші корпустың жоба жетекшісі, «Тіл-Қазына» ұлттық ғылыми-практикалық орталығының ғалым хатшысы, филология ғылымдарының кандидаты, қауымдастырылған профессор Нұрлыхан Аитованың айтуынша, әр жерден корпустар көптеп жасала бастаса, тек қуану керек.