Команда исследователей из Института фундаментальных моделей MBZUAI и G42 представила K2 Think — передовую открытую систему для AI-рассуждений, обладающую 32 миллиардами параметров. Эта система сочетает в себе длительное обучение с подкреплением на основе проверяемых наград, агентное планирование, масштабирование во время тестирования и оптимизацию вывода, что позволяет достигать выдающихся результатов с меньшим количеством параметров. K2 Think демонстрирует конкурентоспособные результаты в области программирования и науки, а также предлагает прозрачный и полностью открытый релиз, включающий веса, данные и код.
- Обзор системы
- Столп 1: Длительное CoT SFT
- Столп 2: RL с проверяемыми наградами
- Столпы 3–4: Агентное планирование и масштабирование
- Столпы 5–6: Спекулятивное декодирование и вывод на уровне пластины
- Протокол оценки
Обзор системы
K2 Think построена на основе открытой модели Qwen2.5-32B и включает легкую вычислительную структуру, что позволяет быстро итеративно развивать и развертывать систему. Основной акцент сделан на эффективности параметров: 32B выбраны для обеспечения быстрой работы и возможности дальнейших улучшений. Основные компоненты системы включают: (1) Длительное обучение с подкреплением (CoT) с контролируемым обучением; (2) Обучение с подкреплением с проверяемыми наградами (RLVR); (3) Агентное планирование перед решением; (4) Масштабирование во время тестирования через выбор лучшего из N; (5) Спекулятивное декодирование; и (6) Оптимизация вывода на уровне пластины.
Цели системы заключаются в повышении pass@1 на конкурсных математических тестах, поддержании высокой производительности в коде и науке, а также контроле длины ответа и задержки с помощью планирования перед генерацией и аппаратно-осведомленного вывода.
Столп 1: Длительное CoT SFT
Фаза-1 SFT использует курируемые цепочки рассуждений и пары инструкций/ответов, охватывающие математику, код, науку и общий чат. Быстрые улучшения pass@1 наблюдаются на ранних стадиях, что указывает на сходимость.
Столп 2: RL с проверяемыми наградами
K2 Think обучается с использованием RLVR на наборе данных Guru, который включает ~92k запросов в шести областях. Начало RL с сильной контрольной точки SFT дает значительные относительные улучшения.
Столпы 3–4: Агентное планирование и масштабирование
При выводе система создает компактный план перед генерацией полного решения, что позволяет улучшить качество ответов и сократить их длину.
Столпы 5–6: Спекулятивное декодирование и вывод на уровне пластины
K2 Think нацелен на вывод на Cerebras Wafer-Scale Engine, что позволяет достичь высокой пропускной способности.
Протокол оценки
Бенчмаркинг охватывает конкурсы по математике, коду и научным знаниям. K2 Think показывает выдающиеся результаты, превышающие аналогичные системы.
K2 Think демонстрирует, что интеграция дообучения, вычислений во время тестирования и аппаратно-осведомленного вывода может значительно сократить разрыв с более крупными системами. Система представлена как полностью открытая, что делает ее доступной для дальнейших исследований и разработок. Ознакомьтесь с бумагой, моделью на Hugging Face, и GitHub.
Часто задаваемые вопросы
Что такое K2 Think и какие его основные характеристики?
K2 Think — это передовая открытая система для AI-рассуждений с 32 миллиардами параметров. Она сочетает длительное обучение с подкреплением, агентное планирование, масштабирование во время тестирования и оптимизацию вывода, что позволяет достигать выдающихся результатов с меньшим количеством параметров.
На какой модели основана система K2 Think?
Система K2 Think построена на основе открытой модели Qwen2.5-32B и включает легкую вычислительную структуру, что позволяет быстро развивать и развертывать систему.
Каковы цели системы K2 Think?
Цели системы заключаются в повышении pass@1 на конкурсных математических тестах, поддержании высокой производительности в коде и науке, а также контроле длины ответа и задержки с помощью планирования перед генерацией и аппаратно-осведомленного вывода.
Какие методы используются в обучении K2 Think?
K2 Think использует длительное обучение с подкреплением (CoT) с контролируемым обучением и обучение с подкреплением с проверяемыми наградами (RLVR) на наборе данных Guru, что позволяет достичь значительных улучшений.
Где можно найти дополнительные материалы о K2 Think?
Дополнительные материалы о K2 Think можно найти в [бумаге](https://example.com), на [Hugging Face](https://huggingface.co), и на [GitHub](https://github.com).







