Qwen3.5-397B MoE: 1 млн токенов и 17 млрд параметров для AI-агентов

Команда Alibaba Qwen вновь меняет ландшафт открытых больших языковых моделей, представив новейшее поколение — Qwen3.5. Флагманская модель, Qwen3.5-397B-A17B, демонстрирует революционный подход к балансу между масштабом и эффективностью. Она сочетает в себе колоссальные 397 миллиардов общих параметров, однако благодаря архитектуре Mixture-of-Experts (MoE) активирует всего 17 миллиардов из них для обработки каждого токена. MoE — это архитектура нейронной сети, которая использует множество небольших подсетей (экспертов), где для решения конкретной задачи задействуется лишь их небольшое подмножество, что кардинально повышает скорость работы и снижает вычислительные затраты. Новая модель является нативной визуально-языковой системой, изначально спроектированной для создания нового поколения AI-агентов. Ее возможности впечатляют: контекстное окно до 1 миллиона токенов и поддержка 201 языка, что открывает беспрецедентные горизонты для разработки сложных интеллектуальных систем.

Архитектурный прорыв: что такое архитектура Mixture-of-Experts и как она работает в Qwen3.5

Ключ к пониманию Qwen3.5-397B лежит в его революционной архитектуре, и чтобы понять ее, нужно разобраться, что такое архитектура Mixture-of-Experts (MoE). На бумаге модель оперирует внушительными 397 миллиардами параметров, что ставит ее в один ряд с крупнейшими моделями индустрии. Однако магия происходит на этапе инференса, когда для обработки каждого токена задействуются лишь 17 миллиардов из них. Этот показатель, известный как «активные параметры«, является решающим для разработчиков. Активные параметры — это количество весов в модели, которые фактически используются и активируются во время одного прямого прохода для обработки входных данных. В разреженных моделях MoE это число намного меньше общего количества параметров, что обеспечивает высокую скорость работы при сохранении высокого интеллекта, заложенного в сотнях миллиардов неактивных весов. Таким образом, Qwen3.5 предоставляет мощь почти 400-миллиардной модели при вычислительных затратах, сопоставимых с гораздо более компактными системами.

Но инженеры Alibaba Qwen Team пошли дальше простого применения MoE, разработав то, что они называют эффективная гибридная архитектура Qwen3.5. В ее основе лежит новаторский подход, где модель сочетает Gated Delta Networks (линейное внимание) с Mixture-of-Experts (MoE) [1]. Эта синергия позволяет преодолеть вычислительные узкие места традиционных Attention-механизмов, особенно при работе с длинными контекстами. Структурно модель состоит из 60 слоев, организованных в группы по четыре. В каждой группе три слоя используют связку Gated Delta Networks-plus-MoE, и только один — более традиционную Gated Attention-plus-MoE. Такая асимметрия в соотношении 3:1 является осознанным инженерным решением для оптимизации производительности.

Технические детали этой гибридной системы впечатляют. Модель включает 512 «экспертов» — специализированных нейросетевых блоков, из которых для обработки каждого токена выбираются 11 наиболее подходящих. Размер скрытого измерения составляет 4096, а расширенный словарь насчитывает 248 320 токенов, что улучшает работу с многоязычным и специализированным текстом. Именно эта инновационная гибридная архитектура (Gated Delta Networks + MoE) обеспечивает заявленное разработчиками феноменальное увеличение пропускной способности декодирования в 8,6 — 19,0 раза по сравнению с предыдущими поколениями. Это не просто количественный скачок, а качественный прорыв, делающий развертывание моделей такого масштаба экономически и технически более целесообразным.

Рожденный для действия: нативная мультимодальность и агентские способности

Ключевое отличие Qwen3.5 от многих конкурентов заключается в том, что это нативная визуально-языковая модель, построенная на подходе Early Fusion. Это означает глубокую, фундаментальную интеграцию текстовых и визуальных данных с самого начала ее обучения. Такой подход кардинально отличается от более распространенной практики, когда к уже обученной языковой модели добавляют отдельный модуль для обработки изображений. Early Fusion — это метод обучения мультимодальных моделей, при котором данные разных типов (например, текст и изображения) объединяются и обрабатываются одновременно на самых ранних этапах. Это позволяет модели лучше интегрировать и рассуждать о взаимосвязях между различными модальностями, в отличие от позднего «прикручивания» зрения. В результате модель не просто распознает объекты на картинке, а по-настояшему понимает визуальный контекст в связке с языковыми инструкциями.

Практическое применение этой архитектурной особенности впечатляет. Qwen3.5 демонстрирует выдающиеся агентские способности, превращаясь из пассивного наблюдателя в активного исполнителя. Например, модель способна взглянуть на скриншот пользовательского интерфейса (UI) и сгенерировать точный HTML и CSS код для его воссоздания. Это открывает новые горизонты для разработчиков и дизайнеров, автоматизируя рутинные задачи. Другой яркий пример — анализ длинных видеофайлов с точностью до секунды, где модель может находить конкретные моменты или описывать последовательность событий, основываясь на сложных текстовых запросах. Эти возможности подкрепляются поддержкой протокола Model Context Protocol (MCP) и сложного вызова функций, что делает связку AI-агенты и function-calling в Qwen3.5 особенно мощной для создания полноценных программных агентов, способных взаимодействовать с приложениями и веб-сервисами.

Именно такая глубокая интеграция делает Qwen3.5 идеальной основой для создания следующего поколения AI-агентов, способных выполнять сложные многоэтапные задачи в цифровой среде, о чем мы ранее писали в статье «Waabi и Volvo представили новый автономный грузовик VNL» [1]. Эффективность модели в выполнении подобных инструкций подтверждается объективными данными. В тесте IFBench модель набрала 76,5 балла, что превосходит многие проприетарные модели [2]. Этот бенчмарк специально оценивает способность моделей следовать сложным инструкциям в визуальном контексте, и высокий результат Qwen3.5 прямо указывает на успех подхода Early Fusion и готовность модели к реальным агентским задачам.

Преодоление «стены памяти»: что означает контекстное окно в 1 миллион токенов

Одной из фундаментальных проблем, сдерживающих потенциал больших языковых моделей, долгое время оставалась так называемая «стена памяти«. Ограниченный размер контекстного окна не позволял моделям удерживать в «памяти» большие объемы информации, что делало невозможной обработку многостраничных документов, обширных баз кода или длинных видео в рамках одного запроса. Модели быстро «забывали» начало диалога или документа, теряя ключевые детали и снижая качество анализа. Это заставляло разработчиков прибегать к сложным и громоздким обходным путям для решения масштабных задач.

Команда Alibaba Qwen предлагает радикальное решение этой проблемы. Базовая модель Qwen3.5 обладает нативным контекстным окном в 262 144 (256K) токенов, что уже является внушительным показателем. Однако хостинговая версия Qwen3.5-Plus с 1 миллионом токенов идет еще дальше, расширяя этот предел до экстремального значения. На практике это означает, что разработчики могут передать модели всю кодовую базу проекта, полный текст диссертации или транскрипцию двухчасового видео целиком, в одном-единственном запросе. Модель сможет анализировать весь объем данных как единое целое, не упуская взаимосвязей и сохраняя полный контекст от начала до конца.

Такой подход ставит на повестку дня вопрос Qwen3.5 vs RAG-системы: хостинговая версия Qwen3.5-Plus с ее гигантским контекстом во многих случаях устраняет необходимость в сложных RAG-пайплайнах, особенно при обработке больших кодовых баз или корпоративных документов. Retrieval-Augmented Generation (RAG) — это технология, которая позволяет LLM получать доступ к внешним источникам данных, но теперь, вместо того чтобы настраивать внешние базы данных и механизмы поиска, разработчик может просто «скормить» весь массив информации напрямую модели.

Для обеспечения высокой точности на всей длине такого массивного контекста команда Qwen применила новый асинхронный фреймворк на основе обучения с подкреплением (Reinforcement Learning, RL). Этот подход гарантирует, что модель не теряет фокус и сохраняет точность ответов, даже когда релевантная информация находится в самом конце миллионного токена. Это не просто количественное увеличение, а качественный прорыв, открывающий новые горизонты для создания более мощных и контекстуально осведомленных ИИ-агентов.

Критический взгляд: скрытые компромиссы и ограничения Qwen3.5

Несмотря на впечатляющие заявления об эффективности, за архитектурой Qwen3.5 скрывается ряд компромиссов, требующих взвешенной оценки. Первый и самый очевидный из них — это практические требования к оборудованию. Заявленная эффективность 17B активных параметров может быть преувеличена, поскольку общие требования к памяти для загрузки 397B модели остаются высокими. Это означает, что для работы с моделью по-прежнему необходимо загружать в память все 397 миллиардов параметров, даже если в каждый момент времени вычисления производятся лишь над небольшой их частью. Такой подход, хотя и ускоряет инференс, оставляет барьер входа для независимых исследователей и небольших компаний крайне высоким из-за необходимости в дорогостоящем оборудовании.

Второй аспект касается архитектурной новизны. Сложность гибридной архитектуры, использующей Gated Delta Networks, может создать значительные проблемы с оптимизацией и стабильностью при развертывании в сторонних производственных средах. Нестандартные решения часто требуют глубокой экспертизы для тонкой настройки, отладки и интеграции, что может замедлить их внедрение по сравнению с более традиционными Transformer-архитектурами.

Пожалуй, наиболее существенное ограничение для энтузиастов открытого исходного кода касается ключевой особенности модели. Ключевая функция контекста в 1 млн токенов доступна только в хостинговой версии Qwen3.5-Plus, что ограничивает ее влияние на сообщество Open Source. Таким образом, самая прорывная возможность, позволяющая анализировать огромные объемы данных без RAG-систем, остается за пределами открытой версии, превращаясь в эксклюзивное предложение проприетарной платформы.

Наконец, возникают вопросы к универсальности и прозрачности. Высокие баллы в бенчмарках, таких как IFBench, могут быть результатом оптимизации под архитектуру Qwen, а не отражением универсальной производительности в реальных, не тестовых задачах. Эта проблема усугубляется тем, что, несмотря на подход Early Fusion, качество мультимодальных возможностей Qwen3.5 сильно зависит от проприетарных триллионов токенов, использованных в обучении, что делает модель «черным ящиком». Невозможность проанализировать обучающий набор данных затрудняет оценку потенциальных смещений и воспроизводимость результатов, что является фундаментальной проблемой для научного сообщества.

Стратегические риски и будущее ландшафта Open Source LLM

Несмотря на впечатляющие технические характеристики и открытый исходный код, появление моделей уровня Qwen3.5-397B формирует не только новые возможности, но и серьезные стратегические риски. Первый из них — экономический. Хотя модель доступна для скачивания, ее реальное развертывание и эксплуатация сопряжены с высокими операционными расходами (OpEx). Нестандартная гибридная архитектура Mixture-of-Experts требует глубокой экспертизы и значительных вычислительных ресурсов для инференса, что ставит под вопрос ее доступность для небольших компаний и независимых разработчиков, фактически централизуя ее использование в руках крупных облачных провайдеров.

На более высоком уровне возникает геополитический риск. Выпуск Qwen3.5 укрепляет доминирование китайских LLM в экосистеме Open Source, что неизбежно привлечет внимание регуляторов в западных странах. Потенциальные регуляторные барьеры или ограничения на использование могут фрагментировать глобальное ИИ-сообщество. К этому добавляется и технологический вызов: работа с контекстом в 1 миллион токенов — это шаг в неизведанное. Несмотря на заявленный фреймворк на основе обучения с подкреплением, сохранение точности и предотвращение галлюцинаций на такой экстремальной длине остается нерешенной проблемой. Ошибки в середине или конце длинного документа могут свести на нет все преимущества гигантского контекстного окна.

Наконец, существует риск быстрого устаревания. Ландшафт генеративного ИИ развивается стремительно, и сегодняшнее технологическое лидерство может оказаться недолговечным. Конкуренты, такие как Meta или Google, активно работают над собственными MoE-моделями. Если они выпустят более эффективные или простые в развертывании архитектуры с аналогичными возможностями, Qwen3.5 может быстро потерять свою актуальность. Таким образом, модель является не столько финальной точкой, сколько очередным мощным ходом в глобальной шахматной партии, где ставки постоянно растут.

Три сценария для Qwen3.5 и новая эра AI-агентов

Выход Qwen3.5 знаменует собой важный этап в эволюции Open Source LLM. Модель от Alibaba Cloud убедительно демонстрирует свои ключевые преимущества: гибридную эффективность архитектуры MoE, обеспечивающую паритет с лучшими закрытыми моделями в кодинге и математике; нативную мультимодальность, заложенную на этапе обучения; и беспрецедентный контекст в 1 миллион токенов. Расширенная поддержка 201 языка дополнительно укрепляет ее позиции. Однако столь амбициозный проект не лишен вызовов, включая сложность архитектуры и высокие требования к ресурсам. Будущее Qwen3.5 можно представить в виде трех вероятных сценариев. В позитивном — она становится мировым стандартом для создания AI-агентов, стимулируя глобальный прорыв в автоматизации. В нейтральном — занимает лидирующие позиции на азиатских рынках и в своей нише, но сталкивается с сильной конкуренцией. В негативном — сложность и высокие требования к GPU ограничивают внедрение, а проблемы с надежностью на длинном контексте сводят на нет ее преимущества. Независимо от того, какой из этих путей реализуется, Qwen3.5 уже установила новую планку для моделей с открытым исходным кодом. Она не просто конкурирует с проприетарными гигантами, но и значительно приближает эру по-настоящему функциональных и автономных AI-агентов.

Часто задаваемые вопросы

Что представляет собой флагманская модель Qwen3.5 и какова ее ключевая особенность?

Флагманская модель Qwen3.5-397B-A17B сочетает колоссальные 397 миллиардов общих параметров с высокой эффективностью. Благодаря архитектуре Mixture-of-Experts (MoE) для обработки каждого токена активируется всего 17 миллиардов параметров. Это позволяет модели достигать мощности почти 400-миллиардной системы при вычислительных затратах, сопоставимых с гораздо более компактными системами.

Как архитектура Mixture-of-Experts (MoE) повышает эффективность Qwen3.5?

MoE — это архитектура, использующая множество небольших подсетей, где для решения конкретной задачи задействуется лишь небольшое подмножество «экспертов». В Qwen3.5 это позволяет активировать только 17 миллиардов из 397 миллиардов общих параметров во время инференса. Такой подход кардинально повышает скорость работы и снижает вычислительные затраты, сохраняя при этом высокий уровень интеллекта.

Что такое подход Early Fusion и как он связан с агентскими способностями Qwen3.5?

Early Fusion — это метод, при котором текстовые и визуальные данные глубоко интегрируются и обрабатываются одновременно на самых ранних этапах обучения. Это делает Qwen3.5 нативной визуально-языковой моделью, способной по-настоящему понимать визуальный контекст в связке с языковыми инструкциями. В результате модель демонстрирует выдающиеся агентские способности, например, генерируя HTML и CSS код по скриншоту пользовательского интерфейса.

Какое максимальное контекстное окно поддерживает Qwen3.5 и в чем его практическое значение?

Хостинговая версия Qwen3.5-Plus поддерживает беспрецедентное контекстное окно до 1 миллиона токенов, хотя базовая модель имеет 262 144 токена. На практике это позволяет разработчикам передавать модели огромные объемы данных, такие как полная кодовая база или транскрипция двухчасового видео, в одном запросе. Это потенциально устраняет необходимость в сложных RAG-системах при работе с большими массивами информации.

Какие основные ограничения или компромиссы присущи модели Qwen3.5-397B?

Одним из главных компромиссов являются высокие требования к оборудованию, поскольку для работы необходимо загружать в память все 397 миллиардов параметров, несмотря на низкое число активных. Кроме того, ключевая функция контекста в 1 миллион токенов доступна только в проприетарной хостинговой версии Qwen3.5-Plus. Это ограничивает ее влияние на сообщество Open Source и повышает барьер входа для небольших компаний.

Релевантные статьи

Совет директоров Nscale обсуждает стратегию развития ИИ-инфраструктуры Nscale и планы роста компании.

10.03.2026

На фоне неутолимого глобального спроса на вычислительные мощности для искусственного интеллекта, британская компания Nscale, занимающаяся ИИ-инфраструктурой и поддерживаемая Nvidia, теперь...

Абстрактный мозг ИИ выполняет поиск уязвимостей и автоматическое исправление кода с помощью OpenAI Codex Security.

07.03.2026

Компания OpenAI анонсировала запуск Codex Security — нового инструмента, который обещает изменить подходы к безопасности приложений. Это не очередной сканер...