Step-DeepResearch: ИИ-агент для глубоких исследований от StepFun AI

Компания StepFun AI анонсировала прорыв в области автономных систем, представив Step-DeepResearch — сквозного ИИ-агента для глубоких исследований с 32 миллиардами параметров [1]. Модель построена на базе Qwen2.5 32B-Base ИИ-агента [3] и ставит перед собой амбициозную цель — превратить стандартный веб-поиск в полноценный исследовательский процесс. В отличие от аналогов, ориентированных на целевой поиск коротких ответов, Step-DeepResearch спроектирован для задач с «длинным горизонтом», требующих планирования, верификации данных из множества источников и подготовки детализированных отчетов. Главным козырем новинки является низкая стоимость инференса — процесса использования обученной модели для выполнения задач, что делает глубокий анализ данных доступнее. Сможет ли этот бюджетный агент, построенный на архитектуре «атомарных» навыков, бросить вызов тяжеловесам рынка, предложив сопоставимое качество при меньших затратах? В этом мы и разберемся.

От поиска к исследованию: Философия «атомарных» возможностей

Большинство существующих веб-агентов сегодня оптимизированы для прохождения стандартных бенчмарков, где главная цель — найти точный ответ на короткий, четко сформулированный вопрос. Такой подход, по сути, является продвинутым целевым поиском, а не настоящим исследованием. Задачи глубокого исследования фундаментально сложнее: они требуют от системы распознавания скрытых намерений пользователя, принятия долгосрочных стратегических решений, многоэтапного использования различных инструментов и, что особенно важно, перекрестной проверки информации из множества источников в условиях неопределенности. Это не спринт за одним фактом, а интеллектуальный марафон по синтезу и верификации знаний.

В основе Step-DeepResearch лежит фундаментальное переосмысление этого процесса. Вместо того чтобы пытаться решить одну гигантскую и аморфную задачу, модель рассматривает исследование как последовательность осознанных решений, принимаемых на основе компактного набора базовых навыков. Разработчики назвали этот подход философией атомарных возможностей ИИ — в контексте ИИ-агентов, это компактный набор базовых, неделимых навыков, которые модель использует для построения сложных действий. Step-DeepResearch оперирует четырьмя такими навыками: планирование, поиск, верификация и создание отчетов.

Эта концепция элегантно раскладывает сложный исследовательский процесс на четыре ключевых компонента. Во-первых, это планирование и декомпозиция задач, когда агент анализирует глобальный запрос и разбивает его на логическую последовательность управляемых подзадач. Во-вторых, глубокий поиск информации, который выходит далеко за рамки простого извлечения фактов и включает в себя анализ, сопоставление и синтез данных из разнородных источников. Третий критически важный навык — рефлексия и верификация. На этом этапе модель оценивает найденную информацию, проверяет ее достоверность и согласованность, а также корректирует первоначальный план действий при обнаружении противоречий. Наконец, четвертая возможность — профессиональное создание отчетов, где агент структурирует все собранные и проверенные данные в логичный, хорошо оформленный и подкрепленный цитатами итоговый документ.

Главная архитектурная инновация заключается в том, что все эти навыки органично интегрированы в единую модель, работающую на архитектуре ReAct. Вместо громоздкой координации множества внешних специализированных агентов, Step-DeepResearch самостоятельно решает, какую «атомарную» возможность применить на каждом конкретном шаге. Такой целостный подход не только повышает автономность и гибкость системы, но и значительно снижает вычислительную сложность и итоговую стоимость всего процесса, эффективно превращая стандартный поиск в полноценное, управляемое исследование.

Синтез данных и прогрессивное обучение: Как научить ИИ думать как исследователь

Залог успеха Step-DeepResearch кроется не столько в архитектуре, сколько в уникальном подходе к обучению, который имитирует процесс становления настоящего исследователя. Вместо того чтобы «скармливать» модели гигантские объемы неструктурированных данных, разработчики из StepFun применили стратегию целенаправленного синтеза данных для каждого из четырех «атомарных» навыков. Обучение модели основано на уникальном синтезе данных, включая обратное проектирование планов, графовые запросы к базам знаний и трассировки от обучающих мультиагентов. Этот подход позволил последовательно «встроить» в модель сложные когнитивные функции.

Первым шагом стало обучение планированию. Для этого команда использовала метод обратного проектирования: анализируя высококачественные технические отчеты, научные обзоры и финансовые документы, они воссоздавали реалистичные планы исследований и деревья задач, которые могли бы привести к созданию таких документов. Это позволило модели освоить структуру долгосрочных проектов, а не просто реагировать на короткие запросы.

Для развития навыка глубинного поиска информации были созданы наборы данных на основе графовых запросов к масштабным базам знаний, таким как Wikidata5m и CN-DBpedia. Исследователи генерировали сложные вопросы, требующие многоходовых рассуждений и связывания сущностей из разных источников. Дополнительно использовался анализ гиперссылок в стиле Wiki, чтобы научить модель находить и комбинировать доказательства из нескольких документов, отсеивая при этом простые задачи.

Навыки рефлексии и верификации прививались через циклы самокоррекции с участием мультиагентных систем-«учителей». Эти агенты-наставники самостоятельно извлекали утверждения, планировали их проверку, верифицировали факты и, при обнаружении несоответствий, корректировали план действий. Только после этого они составляли отчет. Очищенные траектории их работы становились обучающими примерами для основной модели.

Наконец, для создания профессиональных отчетов применялось двухэтапное обучение. На первом этапе модель осваивала общий стиль и глубину изложения на парах «запрос-отчет», а на втором, в ходе тонкой настройки, оттачивалось строгое соблюдение форматирования, структуры и согласованности с первоначальным планом.

Синтезированные данные легли в основу сложного трехэтапного конвейера, демонстрирующего прогрессивное обучение ИИ-агентов. На первом этапе, промежуточного обучения (mid-training), в модель внедрялись атомарные навыки без использования инструментов, с обработкой контекста до 32 тысяч токенов. Затем контекстное окно было расширено до 128 тысяч токенов, и в процесс были добавлены явные вызовы инструментов. Это позволило модели научиться гибко сочетать внутренние рассуждения с внешними источниками данных.

Второй этап — контролируемая донастройка (Supervised Fine-Tuning, SFT). Здесь отдельные навыки объединялись в полные траектории выполнения исследовательских задач. Чтобы повысить надежность агента, в обучающие данные намеренно вводились контролируемые ошибки при работе с инструментами, за которыми следовали правильные шаги по их исправлению. Особое внимание уделялось строгому соблюдению форматов цитирования, чтобы каждый отчет был полностью основан на найденных источниках.

Завершающим этапом стало обучение с подкреплением (Reinforcement Learning, RL), которое оптимизировало поведение агента в реальной среде с инструментами. Для оценки качества генерируемых отчетов была обучена специальная модель-судья (Rubrics Judge), которая проверяла их по детализированным контрольным спискам. Политика агента настраивалась с помощью PPO (Proximal Policy Optimization) — одного из наиболее распространенных и эффективных алгоритмов обучения с подкреплением (RL), используемого для точной настройки политики агента. Он помогает стабилизировать процесс обучения, предотвращая слишком резкие изменения в стратегии агента. Такой подход позволил довести до совершенства не только точность, но и структуру, и обоснованность финальных отчетов.

Архитектура в действии: Стек технологий Step-DeepResearch

В то время как этапы обучения формируют «разум» модели, ее реальная ценность раскрывается на этапе инференса, когда теоретические возможности превращаются в практический результат. Step-DeepResearch функционирует как единый ИИ агент, работающий в рамках архитектурного шаблона ReAct (Reasoning and Acting). Такая архитектура ReAct в ИИ-агентах — это подход, который чередует шаги рассуждения (Thought) и действия (Action), позволяя модели планировать, использовать внешние инструменты и корректировать свой путь на основе наблюдений (Observation), что имитирует человеческий процесс мышления и действия. Вместо координации множества внешних сервисов, модель самостоятельно принимает решения на каждом шаге, итеративно приближаясь к цели — созданию исчерпывающего отчета. Такой автономный подход к выполнению задач является ключевой темой в развитии современных систем, как мы уже отмечали в статье «ИИ-хакерство: как искусственный интеллект становится взломщиком» [1].

Для выполнения действий агент вооружен компактным, но мощным набором инструментов. В его арсенале — пакетный веб-поиск для сбора данных, менеджер задач для отслеживания прогресса, а также команды оболочки и файловые операции, выполняемые в изолированной «песочнице» для обеспечения безопасности. Эта среда сохраняет состояние между сессиями, позволяя агенту продолжать работу над долгосрочными проектами без потери контекста.

Основой информационного обеспечения служит продвинутый поисковый стек, разработанный для максимальной релевантности и достоверности. Он опирается на собственный Search API, который индексирует более 20 миллионов научных статей и 600 премиальных источников. Ключевым элементом является стратегия курируемого индексирования авторитетности: система отдает предпочтение информации из более чем 600 доверенных доменов, включая правительственные, академические и институциональные сайты. Такой подход гарантирует, что при схожей релевантности предпочтение будет отдано более надежному источнику, что критически важно для глубоких исследований.

Для решения проблемы ограниченного контекста в длительных проектах реализован эффективный механизм внешней памяти. Вместо того чтобы перезаписывать файлы целиком, агент использует редактирование на основе патчей, изменяя только необходимые фрагменты. Кроме того, применяется схема хранения с учетом суммаризации: полные результаты работы инструментов сохраняются в локальные файлы, а в рабочий контекст модели подается лишь их краткое резюме. Это предотвращает переполнение контекстного окна и позволяет Step-DeepResearch успешно справляться с задачами, требующими многодневной работы и анализа огромных объемов информации.

Оценка производительности и критика: Конкурент гигантам или нишевый игрок?

На первый взгляд, результаты производительности Step-DeepResearch выглядят более чем убедительно, позиционируя модель как серьезного конкурента на рынке ИИ-агентов. Специально для оценки ее уникальных возможностей команда разработчиков представила собственный набор тестов. Для оценки поведения в глубоких исследованиях команда представила бенчмарк ADR-Bench для ИИ — китайский набор тестов со 110 открытыми задачами в 9 областях [2]. На этом полигоне, а также по метрикам Scale AI Research Rubrics, Step-DeepResearch демонстрирует конкурентоспособное качество, достигая 61,42% соответствия рубрикам. Этот показатель ставит относительно компактную 32B-модель в один ряд с такими проприетарными системами-гигантами, как решения от OpenAI и Gemini, демонстрируя, чем Step-DeepResearch отличается от Gemini в плане эффективности на специализированных задачах, и обеспечивает ей явное превосходство над другими открытыми моделями.

Однако за впечатляющими цифрами скрывается ряд критических вопросов, которые заставляют задуматься о реальном положении модели на рынке. Во-первых, заявленная «бюджетность» инференса может быть обманчива. Она рискует быть полностью нивелирована высокой стоимостью и сложностью воспроизведения трехэтапного конвейера обучения, включающего обработку 150 миллиардов токенов, обучение с подкреплением и использование модели-оценщика Rubrics Judge. Это создает высокий порог входа для независимых команд. Во-вторых, архитектурный выбор в пользу единой монолитной модели вызывает сомнения в ее гибкости. Интеграция всех функций в один 32-миллиардный агент может снизить адаптивность и масштабируемость по сравнению с модульными мультиагентными системами, где каждый компонент оптимизирован под конкретную задачу.

Два других аспекта критики касаются релевантности оценки и потенциальной предвзятости. Успешное прохождение китайского бенчмарка ADR-Bench не гарантирует аналогичной эффективности при работе с глобальными, западными или узкоспециализированными корпоративными данными, которые могут иметь иную структуру и культурный контекст. Это ограничивает выводы о реальной производительности модели в глобальном масштабе. Наконец, ключевой проблемой является зависимость от проприетарного Search API и тщательно курируемого индекса авторитетных источников. Такой подход, хотя и повышает качество на выходе, создает очевидный риск предвзятости или даже цензуры в результатах исследования. Объективность агента напрямую зависит от непрозрачных критериев отбора информации, что может стать критическим недостатком для задач, требующих беспристрастного анализа. Таким образом, вопрос о том, станет ли этот бюджетный ИИ-агент, конкурент OpenAI, настоящим вызовом для гигантов или останется мощным, но нишевым игроком, пока остается открытым.

Риски, сценарии и будущее исследовательских ИИ-агентов

Инновационный подход Step-DeepResearch, основанный на дизайне с одним агентом, целенаправленном синтезе данных и трехэтапном обучении, позволяет достичь конкурентоспособного качества при меньших затратах на инференс. Однако путь к успеху сопряжен с серьезными рисками. Технический риск заключается в сложности поддержки ресурсоемкого конвейера обучения для сохранения актуальности модели. Экономический — в высокой конкуренции с OpenAI и Google, способных быстро нивелировать ценовое преимущество. Существует и социальный риск: массовое внедрение таких агентов может породить «фабрики контента» и сократить спрос на аналитиков. Наконец, зависимость от синтетических данных создает риск хрупкости модели при столкновении с нетипичными запросами. Будущее проекта можно представить в трех сценариях. В позитивном, Step-DeepResearch становится стандартом де-факто для корпоративного ресерча. Нейтральный сценарий предполагает, что модель займет прочную нишу на азиатском рынке, не достигнув глобального доминирования. В негативном — крупные игроки быстро копируют технологию, делая 32B-агента устаревшим. В конечном счете, долгосрочный успех будет зависеть не только от технологического прорыва, но и от способности компании адаптироваться на стремительно меняющемся рынке ИИ.

Часто задаваемые вопросы

Что такое Step-DeepResearch и в чем его ключевое преимущество перед аналогами?

Step-DeepResearch — это сквозной ИИ-агент для глубоких исследований с 32 миллиардами параметров, разработанный компанией StepFun AI. В отличие от систем, ориентированных на короткие ответы, он спроектирован для задач с «длинным горизонтом», требующих планирования и верификации данных. Главным козырем новинки является низкая стоимость инференса, что делает глубокий анализ данных более доступным.

Какие четыре «атомарные возможности» лежат в основе философии Step-DeepResearch?

В основе работы агента лежит философия атомарных возможностей, которая раскладывает сложный исследовательский процесс на четыре базовых, неделимых навыка. Этими ключевыми компонентами являются планирование и декомпозиция задач, глубокий поиск информации, рефлексия и верификация данных, а также профессиональное создание итоговых отчетов.

Какую архитектуру использует Step-DeepResearch для обеспечения автономности и гибкости?

Step-DeepResearch функционирует как единый ИИ-агент, работающий в рамках архитектурного шаблона ReAct (Reasoning and Acting). Эта архитектура позволяет модели самостоятельно чередовать шаги рассуждения и действия, гибко решая, какую «атомарную» возможность применить на каждом этапе. Такой целостный подход повышает автономность системы и значительно снижает вычислительную сложность всего процесса.

Как разработчики StepFun AI обучали модель Step-DeepResearch навыкам глубокого исследования?

Обучение основано на стратегии целенаправленного синтеза данных для каждого из четырех навыков, имитирующей процесс становления исследователя. Использовались методы обратного проектирования планов из отчетов, графовые запросы к базам знаний для поиска, а также циклы самокоррекции с участием мультиагентных систем-«учителей» для привития навыков верификации.

Какие основные критические замечания высказываются в адрес Step-DeepResearch, несмотря на его производительность?

Критика касается высокой стоимости и сложности воспроизведения трехэтапного конвейера обучения, что создает высокий порог входа для других команд. Кроме того, существует риск предвзятости или цензуры, поскольку агент зависит от проприетарного Search API и тщательно курируемого индекса авторитетных источников. Успешное прохождение китайского бенчмарка ADR-Bench также не гарантирует аналогичной эффективности при работе с глобальными данными.

Релевантные статьи

Изометрическая иллюстрация, показывающая, как нулевые налоги Индия ИИ привлекают мировые инвестиции в ЦОД.

02.02.2026

В условиях стремительного ускорения глобальной гонки за создание инфраструктуры искусственного интеллекта Индия сделала решительный и беспрецедентный шаг, способный кардинально изменить...