В создании первой большой языковой модели на казахском языке (KazLLM) ключевую роль играет институт, который работает над этим проектом. Эта модель станет базовой платформой для будущей работы в сфере искусственного интеллекта в Казахстане. Такие модели уже создаются в развитых странах, и их цель — отразить менталитет и историю каждого конкретного общества. Работа над проектом началась в апреле 2024 года, и для тренировки модели пришлось обратиться к облачным провайдерам, так как в Казахстане отсутствовали необходимые серверы. За четыре года было создано более 150 миллиардов токенов, что является основой для моделей, способных понимать казахский, русский, английский и турецкий языки.
Один из ключевых моментов — это сохранение личных данных. При использовании бесплатных приложений, включая чат GPT, пользователи платят не деньгами, а собственными данными, что представляет определенный риск. Влияет ли это на государственные органы или на обычных пользователей — вопрос актуальный для всех.
Кроме того, важно развитие искусственного интеллекта в стране до 2029 года. Здесь важны три компонента: данные, человеческий капитал и оборудование. Несмотря на наличие данных и кадров, проблемы с оборудованием, в частности с отсутствием казахстанских серверов, могут замедлить развитие данной сферы в стране. Необходимость приобретения собственных серверов для Казахстана обусловлена как обучением моделей, так и получением ценного опыта работы с ними.
10 декабря модель KazIM была выложена на международном портале Hugging Face, а 11 декабря директор института представил Soyle App и KazLLM Президенту страны. На данный момент институт рассматривает дальнейшее развитие обоих проектов в 2025 году.