Jet-Nemotron от NVIDIA: ускорение инференса и снижение затрат

Исследователи NVIDIA совершили прорыв в эффективности больших языковых моделей (LLM), представив Jet-Nemotron — семейство гибридных моделей, которые демонстрируют до 53,6 раз более высокую пропускную способность по сравнению с ведущими LLM на основе полного внимания (full-attention). Это достигается при сохранении или даже превышении их точности, что приводит к снижению стоимости инференса на 98%. Ключевая инновация, лежащая в основе этого достижения, — это не создание модели с нуля, а модернизация существующих с помощью техники Post Neural Architecture Search (PostNAS).

Проблема скорости и стоимости современных LLM

Современные модели, такие как Qwen, Llama и Gemma, установили высокие стандарты точности. Однако их механизм self-attention со сложностью O(n²) требует огромных вычислительных ресурсов и памяти, особенно при работе с длинным контекстом. Это делает их развертывание в промышленных масштабах чрезвычайно дорогим, а запуск на периферийных устройствах — практически невозможным. Попытки заменить трансформеры на более эффективные архитектуры (Mamba, GLA, RWKV) до сих пор не позволяли достичь сопоставимой точности. Именно здесь необходимо ускорение инференса больших моделей.

PostNAS: Эффективная модернизация вместо переобучения

Так что такое PostNAS? Это конвейер поиска нейронных архитектур, разработанный для быстрой и экономичной модернизации уже обученных моделей. Процесс состоит из нескольких этапов:

  • Заморозка знаний в моделях: Берется предобученная модель (например, Qwen), и ее MLP-слои «замораживаются». Это позволяет сохранить накопленные знания и значительно сократить затраты на последующее обучение.
  • Хирургическая замена слоев полного внимания: Вычислительно затратные слои full-attention заменяются на JetBlock — новый, аппаратно-эффективный блок линейного внимания, оптимизированный для последних GPU NVIDIA.
  • Создание гибридной архитектуры LLM: С помощью обучения супер-сети и лучевого поиска (beam search) система автоматически определяет оптимальное количество и расположение слоев полного внимания, необходимых для сохранения точности в ключевых задачах (математика, кодинг, MMLU). Этот поиск ориентирован на конкретное оборудование и максимизирует пропускную способность, а не просто количество параметров.

Отдельного внимания заслуживает эффективность JetBlock. Он использует динамические сверточные ядра, зависящие от входных данных, и устраняет избыточные операции, что повышает точность и скорость по сравнению с предыдущими реализациями линейного внимания.

Производительность Jet-Nemotron в цифрах

Технический отчет NVIDIA демонстрирует впечатляющие результаты, подробно описанные в научной статье на arXiv:

  • Jet-Nemotron-2B соответствует или превосходит Qwen3-1.7B-Base по всем ключевым бенчмаркам, обеспечивая при этом в 47 раз более высокую пропускную способность.
  • Ускорение декодирования достигает 53,6 раза при длине контекста 256K, что эквивалентно снижению стоимости инференса на 98%.
  • Потребление памяти для KV-кэша сокращается в 47 раз (154 МБ против 7168 МБ у Qwen3-1.7B-Base), что открывает дорогу для развертывания на устройствах вроде Jetson Orin и RTX 3090.

Новые возможности для бизнеса, IT и науки

Для бизнеса: Радикальное повышение ROI

Прирост пропускной способности в 53 раза означает возможность обслуживать в 53 раза больше пользователей за те же деньги или сократить расходы на инфраструктуру на 98%. Задачи, ранее считавшиеся слишком дорогими — анализ документов в реальном времени, агенты с длинным контекстом, локальные copilot-ассистенты — становятся экономически выгодными.

Для IT-специалистов: SOTA-модели на периферии

Минимальный KV-кэш Jet-Nemotron позволяет запускать мощные модели на потребительском и мобильном оборудовании без необходимости в сложных техниках оптимизации, таких как квантование или дистилляция. Модернизация существующих чекпоинтов Qwen или Llama происходит без потери точности и изменения конвейеров данных.

Для исследователей: Снижение барьера для инноваций

PostNAS кардинально снижает стоимость экспериментов с архитектурами LLM. Вместо месяцев и миллионов долларов, затрачиваемых на предварительное обучение, поиск оптимальной архитектуры происходит на «замороженных» моделях за долю этого времени и бюджета.

Публикация Jet-Nemotron и JetBlock в открытом доступе открывает новую эру для всего AI-сообщества, позволяя модернизировать существующие модели и достигать беспрецедентной эффективности. Технология PostNAS демонстрирует, что будущее за умной оптимизацией, а не только за созданием с нуля, кардинально снижая барьеры для инноваций. Это не просто ускорение инференса, а фундаментальный сдвиг, который делает передовые LLM доступными и экономически выгодными для широкого круга задач, от периферийных устройств до масштабных облачных развертываний. Изучить подробности и начать экспериментировать с кодом можно в официальном репозитории NVIDIA на GitHub.

Часто задаваемые вопросы

Что такое Jet-Nemotron и как он улучшает производительность LLM?

Jet-Nemotron — это семейство гибридных моделей, которые демонстрируют до 53,6 раз более высокую пропускную способность по сравнению с ведущими LLM на основе полного внимания. Это достигается за счет модернизации существующих моделей с помощью техники Post Neural Architecture Search (PostNAS), что снижает стоимость инференса на 98%.

Как PostNAS помогает в модернизации языковых моделей?

PostNAS — это конвейер поиска нейронных архитектур, разработанный для быстрой и экономичной модернизации уже обученных моделей. Он включает заморозку знаний в моделях, замену вычислительно затратных слоев полного внимания на JetBlock и создание гибридной архитектуры LLM, что позволяет сохранить точность и повысить пропускную способность.

Какие преимущества Jet-Nemotron предлагает для бизнеса?

Jet-Nemotron позволяет радикально повысить ROI, увеличивая пропускную способность в 53 раза, что позволяет обслуживать больше пользователей за те же деньги или сократить расходы на инфраструктуру на 98%. Это делает экономически выгодными задачи, ранее считавшиеся слишком дорогими, такие как анализ документов в реальном времени.

Какие возможности открывает Jet-Nemotron для IT-специалистов?

Jet-Nemotron позволяет запускать мощные модели на потребительском и мобильном оборудовании без сложных техник оптимизации. Минимальный KV-кэш позволяет модернизировать существующие чекпоинты без потери точности и изменения конвейеров данных, что делает SOTA-модели доступными на периферии.

Как Jet-Nemotron способствует снижению барьера для инноваций в исследовательской сфере?

PostNAS снижает стоимость экспериментов с архитектурами LLM, позволяя проводить поиск оптимальной архитектуры на «замороженных» моделях за долю времени и бюджета, необходимых для предварительного обучения. Это открывает новые возможности для инноваций в области искусственного интеллекта.

Релевантные статьи

ИИ убеждение становится ключевым фактором в современных выборах, меняя методы политического влияния.

05.12.2025

В январе 2024 года телефоны зазвонили в домах по всему Нью-Гэмпширу. На другом конце провода был голос Joe Biden, призывающий...