DeepConf: новый метод Meta AI с точностью 99,9% на AIME

В мире больших языковых моделей (LLM) достижение высокой точности часто сопряжено с колоссальными вычислительными затратами. Традиционные методы, требующие генерации множества вариантов решений, становятся неэффективными и ресурсоемкими. Однако исследователи из Meta AI и Калифорнийского университета в Сан-Диего (UCSD) представили прорывное решение – Deep Think with Confidence (DeepConf), которое обещает не только рекордно повысить точность LLM, но и кардинально сократить расходы на вычисления.

Преимущества DeepConf для LLM

Традиционный подход к улучшению рассуждений LLM — генерация множества «цепочек мыслей» и выбор ответа большинством голосов. Хотя этот метод работает, его эффективность имеет предел: после определённого порога добавление новых вариантов не улучшает, а иногда даже ухудшает результат из-за «шума» от неверных рассуждений. Кроме того, это крайне ресурсозатратно.

DeepConf элегантно решает эту проблему, используя внутреннюю «уверенность» самой модели в качестве фильтра. Вместо того чтобы считать все варианты равноценными, DeepConf динамически отсеивает пути рассуждений с низкой уверенностью. Это позволяет сосредоточить вычислительные ресурсы только на самых перспективных решениях. Стратегия универсальна: она не требует дообучения модели или сложной настройки и может быть встроена в любую систему с минимальными изменениями в коде, о чем подробно рассказано в оригинальной научной статье на arXiv.

Принцип работы DeepConf: уверенность как фильтр

Чтобы понять, как работает DeepConf, нужно рассмотреть его инновационные метрики для оценки уверенности модели:

  • Уверенность на уровне токена: Для каждого сгенерированного токена вычисляется локальная оценка определённости. Это позволяет отслеживать «колебания» модели в реальном времени.
  • Групповая уверенность в DeepConf: Показатели уверенности отдельных токенов усредняются в скользящем окне, создавая сглаженный и более стабильный сигнал о качестве текущей цепочки рассуждений.
  • Фильтрация цепочек с низкой уверенностью: Используя вышеупомянутые метрики, DeepConf взвешивает голоса (более «уверенные» цепочки имеют больший вес) или полностью отсеивает слабые варианты. В онлайн-режиме генерация цепочки прекращается, как только её уверенность падает ниже заданного порога, что экономит до 85% вычислений.

Рекордные результаты DeepConf: точность и эффективность

Тестирование DeepConf на сложнейших математических и логических бенчмарках (AIME 2024/2025, HMMT 2025, GPQA-Diamond) с использованием различных open-source моделей показало выдающиеся результаты:

  • Рост производительности: DeepConf повышает точность в среднем на 10 процентных пунктов по сравнению со стандартными методами. На олимпиаде AIME 2025 была достигнута точность 99,9% с моделью GPT-OSS-120B.
  • Сверхэффективность: Онлайн-фильтрация позволяет сократить общее количество генерируемых токенов на 43 — 85%, при этом не только не теряя, но и зачастую повышая итоговую точность.
  • Готовность к внедрению: Метод работает «из коробки» с любой моделью, не требуя её изменения. Интеграция DeepConf в существующие системы, такие как vLLM, занимает около 50 строк кода.

Легкость интеграции DeepConf в существующие системы

Развертывание DeepConf удивительно простое. Для его активации в существующих движках инференса, совместимых с OpenAI API, достаточно добавить несколько строк логики для расчета уверенности и поддержки ранней остановки. Это делает технологию доступной для широкого круга разработчиков и компаний, стремящихся оптимизировать свои ИИ-решения. Больше информации о подобных разработках можно найти на официальном сайте Meta AI Research.

DeepConf от Meta AI — это значительный шаг вперёд для всей индустрии. Он доказывает, что высочайшая точность и вычислительная эффективность могут идти рука об руку. Динамически используя сигналы уверенности, DeepConf открывает для open-source моделей возможность решать задачи, которые ранее были под силу только гигантским проприетарным системам, делая передовые ИИ-технологии более доступными и экономичными.

Часто задаваемые вопросы

В чём заключается основная проблема, которую решает метод DeepConf?

Основная проблема, которую решает метод DeepConf, заключается в высокой вычислительной стоимости и ограниченной эффективности традиционных методов повышения точности LLM. DeepConf предлагает более экономичный подход, используя уверенность модели для фильтрации неэффективных решений.

Каковы ключевые преимущества метода DeepConf для LLM?

Ключевые преимущества метода DeepConf включают повышение точности LLM до рекордных значений и значительное сокращение вычислительных затрат. Метод использует внутреннюю уверенность модели для фильтрации слабых решений, что позволяет сосредоточить ресурсы на наиболее перспективных вариантах.

Как работает механизм уверенности в DeepConf?

Механизм уверенности в DeepConf включает оценку уверенности на уровне токена и групповую уверенность, которая усредняется в скользящем окне. Это позволяет отслеживать качество цепочек рассуждений и фильтровать те, которые имеют низкую уверенность, экономя до 85% вычислений.

Какие результаты показал метод DeepConf в тестах?

Метод DeepConf показал выдающиеся результаты на сложных математических и логических бенчмарках, увеличив точность в среднем на 10 процентных пунктов. На олимпиаде AIME 2025 была достигнута точность 99,9% с моделью GPT-OSS-120B, а количество генерируемых токенов сократилось на 43–85%.

Какова сложность интеграции DeepConf в существующие системы?

Интеграция DeepConf в существующие системы проста и требует минимальных изменений в коде. Для активации метода достаточно добавить несколько строк логики для расчета уверенности и поддержки ранней остановки, что делает его доступным для широкого круга разработчиков.

Релевантные статьи

Искусственный интеллект, символизирующий ИИ-хакерство, балансирует между атакой и защитой в киберпространстве.

15.01.2026

Когда Влад Ионеску и Ариэль Герберт-Восс, основатели кибербезопасного стартапа RunSybil [1], получили уведомление от своего ИИ-инструмента, они были на мгновение...

Логотип ИИ-агента Slackbot с интегрированным ИИ-мозгом, соединяющим корпоративные приложения.

14.01.2026

Знакомый многим помощник Slackbot уходит в прошлое, уступая место полноценному ИИ-агенту. Salesforce не скрывает своих амбиций: по словам технического директора...

Стилизованные логотипы Apple и Google, соединенные ИИ Gemini, обеспечивающие работу Google Gemini в Siri.

13.01.2026

В технологической индустрии произошло событие, которое еще недавно казалось немыслимым: Apple, компания, известная своей закрытой экосистемой, официально объявила о партнерстве...

Иконка чат-бота Grok, заблокированная цифровыми барьерами, символизирует скандал Дипфейки Grok и запрет в Азии.

12.01.2026

Мир технологий потрясла новость, знаменующая новый этап в противостоянии общества и неконтролируемого ИИ. Власти Индонезии и Малайзии заявили, что временно...