

Астана қаласы, 2026 жылғы 4 маусым
Астанадағы Халықаралық «Қазақ тілі» қоғамының кеңсесінде OpenAI компаниясы өкілдерінің қатысуымен кездесу өтті. Жиында қазақ тілін цифрлық кеңістікте дамытуға бағытталған бірлескен жобаның іске асу барысы мен алғашқы нәтижелері таныстырылды. Кездесуде қатысушылардың назарына көлемі 10 миллиардтан астам токеннен тұратын қазақ тілінің мәтіндік корпусы (Kazakh Text Corpus), 10 мың сағаттан асатын дыбыстық деректер қоры (Speech Corpus) және үлкен тіл модельдерін бағалауға арналған AI Evaluation Benchmark Suite жинағы ұсынылды.
Бұл ауқымды бастама 2025 жылғы 7 қарашада Вашингтонда Халықаралық «Қазақ тілі» қоғамы мен OpenAI арасында жасалған келісім аясында жүзеге асып жатыр. Жобаның басты мақсаты – сапалы цифрлық контент пен сенімді деректер қорын қалыптастырып, үлкен тіл модельдерінің қазақ тіліндегі жұмыс сапасын арттыру. Бүгінде бастама қазақ тілінің цифрлық экожүйесін дамытуға бағытталған маңызды жобалардың біріне айналды.
Жоба аясында жинақталған қазақ тілінің мәтіндік корпусының (Kazakh Text Corpus) көлемі 10 миллиардтан астам токенді құрады. Тілдік қор толықтай шынайы дереккөздерден алынып, терең тазартудан, жіктеуден және құпия мәліметтер сүзгісінен өтті, сондай-ақ қажетті метадеректермен құрылымданды.
Корпусқа қазақ тілінің тарихи даму кезеңдерін көрсететін мазмұнмен қатар, шетелдегі қазақ диаспораларының тілдік мұрасы да енді. Мұнда білім, ғылым, технология, экономика, құқық, медицина, тарих, этнография, медиа және балалар контенті толық қамтылған.
Сонымен қатар мәтінді оптикалық тану жүйесі (OCR) кирилл қарпіндегі қазақша мәтінді 99% дәлдікпен оқи алатынын көрсетті. Күрделі құрылымды беттер мен бағандарды талдауға арналған құжат құрылымын тану жүйесінің де (Layout Parsing) дәлдігі 99%-ға жетті. Екі жүйе де бір мезетте үлкен көлемдегі топтастырылған деректерді өңдей алады.
Жасанды интеллект жүйелерінің қазақ тілін меңгеру деңгейін тексеретін арнайы AI Evaluation Benchmark Suite бағалау жүйесі әзірленді.
Бұл жүйе үлкен тіл модельдерін бірнеше негізгі бағыт бойынша сынайды: мәтінді түсіну (Reading Comprehension), грамматика (Grammar), тілдің табиғилығы (Kazakh Language Naturalness), мақал-мәтелдер мен тұрақты тіркестерді қолдану (Proverbs & Idioms), академиялық аударма (Academic Translation), қазақ тілінен ағылшын тіліне аударатын көркем аударма (Literary Translation), балалар әдебиетінің аудармасы (Kids Literature Translation), қауіпсіздік (Safety) және этнографиялық білім (Ethnography). Қазіргі уақытта тоғыз бағыттың жетеуі толық дайын, ал Safety және Ethnography бөлімдері бойынша жұмыс аяқталуға жақын.
Бұл бағалау жүйесі ағылшын тілінен аударылмай, қазақ тілінің тілдік және мәдени ерекшеліктерін ескере отырып, қазақ тілінде құрастырылды. Оның алғашқы қорытындысы бойынша мәтінді түсіну (Reading Comprehension) көрсеткіші – 76,89%, грамматика (Grammar) – 72,24%, мақал-мәтелдер мен тұрақты тіркестерді қолдану (Proverbs & Idioms) – 71,90% болды. Ал қазақ тілінің табиғилығы (Kazakh Language Naturalness) әзірге 23,08% деңгейінде. Аударма сегментінде жоғары нәтижелер тіркелді: академиялық аударма (Academic Translation) – 85,81%, көркем аударма (Literary Translation) – 86,46%, балалар әдебиетінің аудармасы (Kids Literature Translation) – 89,22%.
Жобаның аудиоқорына қазірдің өзінде 10 810 сағаттық аудио-материал жиналып, тазаланды. Оның ішінде 1000 сағаттық «алтын стандарт» деректер жиыны (Gold Standard Dataset) қолмен транскрипцияланып, сарапшылардың қатаң тексеруінен өтті. Деректердің 70%-дан астамы 44 кГц және одан жоғары жиілікте жазылған, ал қор толықтай табиғи сөйлеу үлгілерінен тұрады.
Қазіргі уақытта қазақ тіліндегі дыбысты мәтінге айналдыру (Speech-to-Text Models) үлгілерінің дәлдігі 92%-дан асады. Дегенмен, кейбір ЖИ жүйелерінің қазақ тілін қырғыз, татар, кейде түрік тілімен шатастырып алатын тұстары анықталды.
Халықаралық «Қазақ тілі» қоғамы тіл модельдерінің қазақша сөйлеу қабілетін тексеретін Automatic Speech Recognition (ASR) бағалау бенчмаркін жасап жатыр. Ол сөздерді тану дәлдігін (WER), таңбаларды тану дәлдігін (CER) жәнетүрлі тақырыптарды қамту деңгейін терең бағалауға мүмкіндік береді.
Алдағы уақытта қазақ тіліндегі дыбысты тану үлгілерінің дәлдігін 99%-ға дейін жеткізу жұмыстары жалғасады. Осы серіктестіктің аясында қазақ тілінде бұрын-соңды болмаған ауқымды мәтіндік және дыбыстық деректер қоры, жоғары дәлдіктегі цифрландыру құралдары және үлкен тіл модельдерінің сапасын бағалайтын кешенді инфрақұрылым жасалды. Бұл жұмыс қазақ тілінің цифрлық әлемдегі өрісін кеңейтіп, оның жасанды интеллект дәуіріндегі бәсекеге қабілетті тілдер қатарынан нық орын алуына жол ашады.
Анықтама:
OpenAI, Inc. – жасанды интеллект технологияларын зерттеу және дамытумен айналысатынамерикалық компания. Миссиясы — жасанды интеллект игілігін бүкіладамзатқа тиімді жеткізу.
Халықаралық «Қазақ тілі» қоғамының баспасөз қызметі,
+7 707 356 64 91

ПРЕСС-РЕЛИЗ
Астана, 4 июня 2026 года
МЕЖДУНАРОДНОЕ ОБЩЕСТВО «ҚАЗАҚ ТІЛІ» И OPENAI ПРЕДСТАВИЛИ ПЕРВЫЕ РЕЗУЛЬТАТЫ ПАРТНЕРСТВА
В столичных офисе Международного общества «Қазақ тілі» состоялась встреча с представителями компании OpenAI. Участники обсудили ход реализации совместного проекта по развитию казахского языка в цифровом пространстве и презентовали первые итоги работы. Вниманию экспертов представили текстовый корпус казахского языка (Kazakh Text Corpus) объемом более 10 миллиардов токенов, аудиокорпус (Speech Corpus) мощностью свыше 10 тысяч часов, а также набор AI Evaluation Benchmark Suite, предназначенный для оценки больших языковых моделей.
Этот масштабный проект реализуется в рамках соглашения между Международным обществом «Қазақ тілі» и OpenAI, подписанного 7 ноября 2025 года в Вашингтоне. Его главная цель – создание качественного цифрового контента и надежной базы данных для повышения качества работы больших языковых моделей на казахском языке. Сегодня эта инициатива стала одним из важнейших проектов, направленных на развитие цифровой экосистемы казахского языка.
В рамках проекта сформирован уникальный текстовый корпус казахского языка (Kazakh Text Corpus) объемом более 10 миллиардов токенов. Этот языковой ресурс создан на основе реальных источников, прошел глубокую очистку, классификацию, фильтрацию персональных и конфиденциальных данных, а также был дополнен необходимыми метаданными.
В корпус вошли тексты всех этапов исторического развития казахского языка, включая языковые традиции казахских диаспор за рубежом. Таким образом, авторам удалось создать глобальный цифровой ресурс, охватывающий все историческое и географическое пространство языка. Материалы охватывают сферы образования, науки, технологий, экономики, права, медицины, истории, этнографии, медиа и детского контента.
Параллельно система оптического распознавания текста (OCR) продемонстрировала высокую точность (99%) при обработке казахских текстов на кириллице. Эффективность системы структурного анализа документов (Layout Parsing), распознающей колонки и страницы со сложной версткой, также достигла 99%. Обе системы способны одновременно обрабатывать колоссальные массивы сгруппированных данных.
Для комплексного аудита больших языковых моделей на казахском языке была разработана специальная система AI Evaluation Benchmark Suite.
Она оценивает модели по ключевым направлениям, среди которых: понимание текста (Reading Comprehension), грамматика (Grammar), естественность казахского языка (Kazakh Language Naturalness), использование пословиц и устойчивых выражений (Proverbs & Idioms), академический перевод (Academic Translation), художественный перевод с казахского языка на английский (Literary Translation), перевод детской литературы (Kids Literature Translation), безопасность (Safety) и этнографические знания (Ethnography). На текущий момент полностью готовы семь из девяти направлений, а работа над блоками Safety и Ethnography находится на стадии завершения.
Данная система оценки была разработана на казахском языке, а не переведена с английского, с учетом языковых и культурных особенностей казахского языка. По ее первым результатам показатель понимания текста (Reading Comprehension) составил 76,89%, грамматики (Grammar) – 72,24%, использования пословиц и устойчивых выражений (Proverbs & Idioms) – 71,90%. При этом показатель естественности казахского языка (Kazakh Language Naturalness) пока составляет 23,08%. В сегменте перевода зафиксированы высокие результаты: академический перевод (Academic Translation) – 85,81%, художественный перевод (Literary Translation) – 86,46%, перевод детской литературы (Kids Literature Translation) – 89,22%.
На сегодняшний день для аудиокорпуса проекта собрано и очищено 10 810 часов аудиоматериалов. Из них 1000 часов – это датасет «золотого стандарта» (Gold Standard Dataset), который был транскрибирован вручную и прошел строгую экспертную проверку. Более 70% записей имеют частоту дискретизации от 44 кГц и выше, а сам фонд полностью состоит из образцов живой, естественной речи.
Сейчас точность моделей распознавания казахской речи (Speech-to-Text Models) превышает 92%. При этом зафиксированы случаи, когда ИИ-системы ошибочно принимают казахский язык за кыргызский, татарский или турецкий.
Международное общество «Қазақ тілі» разрабатывает оценочный бенчмарк Automatic Speech Recognition (ASR) для проверки способности языковых моделей воспринимать казахскую речь. Он позволяет проводить глубокую оценку точности распознавания слов (WER), точности распознавания символов (CER) и уровня охвата различных тематик.
В перспективе команда проекта намерена довести точность моделей транскрипции казахской речи до 99%.
В дальнейшем будет продолжена работа по повышению точности моделей распознавания казахской речи до 99%. В рамках данного партнерства созданы беспрецедентные по объему текстовые и аудиокорпуса на казахском языке, высокоточные инструменты цифровизации и комплексная инфраструктура для оценки качества больших языковых моделей. Эта работа качественно расширяет границы присутствия казахского языка в цифровом мире и уверенно выводит его в число конкурентоспособных языков эпохи искусственного интеллекта.
Справка: OpenAI, Inc. – американская технологическая компания, занимающаяся исследованиями и разработкой в области искусственного интеллекта.
Пресс-служба Международного общества «Қазақ тілі»
+7 707 356 64 91
