Исследователи NVIDIA совершили прорыв в эффективности больших языковых моделей (LLM), представив Jet-Nemotron — семейство гибридных моделей, которые демонстрируют до 53,6 раз более высокую пропускную способность по сравнению с ведущими LLM на основе полного внимания (full-attention). Это достигается при сохранении или даже превышении их точности, что приводит к снижению стоимости инференса на 98%. Ключевая инновация, лежащая в основе этого достижения, — это не создание модели с нуля, а модернизация существующих с помощью техники Post Neural Architecture Search (PostNAS).
- Проблема скорости и стоимости современных LLM
- PostNAS: Эффективная модернизация вместо переобучения
- Производительность Jet-Nemotron в цифрах
- Новые возможности для бизнеса, IT и науки
Проблема скорости и стоимости современных LLM
Современные модели, такие как Qwen, Llama и Gemma, установили высокие стандарты точности. Однако их механизм self-attention со сложностью O(n²) требует огромных вычислительных ресурсов и памяти, особенно при работе с длинным контекстом. Это делает их развертывание в промышленных масштабах чрезвычайно дорогим, а запуск на периферийных устройствах — практически невозможным. Попытки заменить трансформеры на более эффективные архитектуры (Mamba, GLA, RWKV) до сих пор не позволяли достичь сопоставимой точности. Именно здесь необходимо ускорение инференса больших моделей.
PostNAS: Эффективная модернизация вместо переобучения
Так что такое PostNAS? Это конвейер поиска нейронных архитектур, разработанный для быстрой и экономичной модернизации уже обученных моделей. Процесс состоит из нескольких этапов:
- Заморозка знаний в моделях: Берется предобученная модель (например, Qwen), и ее MLP-слои «замораживаются». Это позволяет сохранить накопленные знания и значительно сократить затраты на последующее обучение.
- Хирургическая замена слоев полного внимания: Вычислительно затратные слои full-attention заменяются на JetBlock — новый, аппаратно-эффективный блок линейного внимания, оптимизированный для последних GPU NVIDIA.
- Создание гибридной архитектуры LLM: С помощью обучения супер-сети и лучевого поиска (beam search) система автоматически определяет оптимальное количество и расположение слоев полного внимания, необходимых для сохранения точности в ключевых задачах (математика, кодинг, MMLU). Этот поиск ориентирован на конкретное оборудование и максимизирует пропускную способность, а не просто количество параметров.
Отдельного внимания заслуживает эффективность JetBlock. Он использует динамические сверточные ядра, зависящие от входных данных, и устраняет избыточные операции, что повышает точность и скорость по сравнению с предыдущими реализациями линейного внимания.
Производительность Jet-Nemotron в цифрах
Технический отчет NVIDIA демонстрирует впечатляющие результаты, подробно описанные в научной статье на arXiv:
- Jet-Nemotron-2B соответствует или превосходит Qwen3-1.7B-Base по всем ключевым бенчмаркам, обеспечивая при этом в 47 раз более высокую пропускную способность.
- Ускорение декодирования достигает 53,6 раза при длине контекста 256K, что эквивалентно снижению стоимости инференса на 98%.
- Потребление памяти для KV-кэша сокращается в 47 раз (154 МБ против 7168 МБ у Qwen3-1.7B-Base), что открывает дорогу для развертывания на устройствах вроде Jetson Orin и RTX 3090.
Новые возможности для бизнеса, IT и науки
Для бизнеса: Радикальное повышение ROI
Прирост пропускной способности в 53 раза означает возможность обслуживать в 53 раза больше пользователей за те же деньги или сократить расходы на инфраструктуру на 98%. Задачи, ранее считавшиеся слишком дорогими — анализ документов в реальном времени, агенты с длинным контекстом, локальные copilot-ассистенты — становятся экономически выгодными.
Для IT-специалистов: SOTA-модели на периферии
Минимальный KV-кэш Jet-Nemotron позволяет запускать мощные модели на потребительском и мобильном оборудовании без необходимости в сложных техниках оптимизации, таких как квантование или дистилляция. Модернизация существующих чекпоинтов Qwen или Llama происходит без потери точности и изменения конвейеров данных.
Для исследователей: Снижение барьера для инноваций
PostNAS кардинально снижает стоимость экспериментов с архитектурами LLM. Вместо месяцев и миллионов долларов, затрачиваемых на предварительное обучение, поиск оптимальной архитектуры происходит на «замороженных» моделях за долю этого времени и бюджета.
Публикация Jet-Nemotron и JetBlock в открытом доступе открывает новую эру для всего AI-сообщества, позволяя модернизировать существующие модели и достигать беспрецедентной эффективности. Технология PostNAS демонстрирует, что будущее за умной оптимизацией, а не только за созданием с нуля, кардинально снижая барьеры для инноваций. Это не просто ускорение инференса, а фундаментальный сдвиг, который делает передовые LLM доступными и экономически выгодными для широкого круга задач, от периферийных устройств до масштабных облачных развертываний. Изучить подробности и начать экспериментировать с кодом можно в официальном репозитории NVIDIA на GitHub.
Часто задаваемые вопросы
Что такое Jet-Nemotron и как он улучшает производительность LLM?
Jet-Nemotron — это семейство гибридных моделей, которые демонстрируют до 53,6 раз более высокую пропускную способность по сравнению с ведущими LLM на основе полного внимания. Это достигается за счет модернизации существующих моделей с помощью техники Post Neural Architecture Search (PostNAS), что снижает стоимость инференса на 98%.
Как PostNAS помогает в модернизации языковых моделей?
PostNAS — это конвейер поиска нейронных архитектур, разработанный для быстрой и экономичной модернизации уже обученных моделей. Он включает заморозку знаний в моделях, замену вычислительно затратных слоев полного внимания на JetBlock и создание гибридной архитектуры LLM, что позволяет сохранить точность и повысить пропускную способность.
Какие преимущества Jet-Nemotron предлагает для бизнеса?
Jet-Nemotron позволяет радикально повысить ROI, увеличивая пропускную способность в 53 раза, что позволяет обслуживать больше пользователей за те же деньги или сократить расходы на инфраструктуру на 98%. Это делает экономически выгодными задачи, ранее считавшиеся слишком дорогими, такие как анализ документов в реальном времени.
Какие возможности открывает Jet-Nemotron для IT-специалистов?
Jet-Nemotron позволяет запускать мощные модели на потребительском и мобильном оборудовании без сложных техник оптимизации. Минимальный KV-кэш позволяет модернизировать существующие чекпоинты без потери точности и изменения конвейеров данных, что делает SOTA-модели доступными на периферии.
Как Jet-Nemotron способствует снижению барьера для инноваций в исследовательской сфере?
PostNAS снижает стоимость экспериментов с архитектурами LLM, позволяя проводить поиск оптимальной архитектуры на «замороженных» моделях за долю времени и бюджета, необходимых для предварительного обучения. Это открывает новые возможности для инноваций в области искусственного интеллекта.







