Эволюция open-source AI-агентов: от Devstral к новым лидерам в разработке и автоматизации

2025 год действительно стал годом расцвета AI-агентов, и эта тенденция продолжает набирать обороты. Если еще недавно многие обсуждали лишь концепцию, то сегодня мы видим, как агенты активно внедряются в реальные процессы разработки. Особый интерес вызывают AI-агенты с открытым исходным кодом, которые позволяют командам не только использовать, но и адаптировать технологии под свои нужды. В этой статье мы рассмотрим, как развивались эти инструменты и как они помогают решать комплексные задачи программной инженерии. Мы начнем с обзора ранних, но значимых игроков, таких как Devstral, и перейдем к более актуальным решениям, доступным сейчас.

cloud

Обзор ландшафта опенсорсных AI-агентов для кодинга

Первые заметные шаги в сторону открытых агентов для разработки были сделаны благодаря таким моделям, как Devstral. Разработанный в сотрудничестве Mistral AI и All Hands AI, Devstral стал прорывным решением. Благодаря своей легкости (всего 24 миллиарда параметров) он мог работать на одной Nvidia RTX 4090, что делало его доступным для локального использования. С большим контекстным окном в 128k токенов и продвинутым токенизатором он отлично справлялся с многоэтапными задачами в крупных кодовых базах.

Однако мир AI не стоит на месте. Сегодня появилось множество новых, более производительных и функциональных агентов. Среди них стоит выделить:

OpenHands: Один из самых популярных на данный момент open-source-фреймворков. Он предоставляет гибкую платформу для создания и развертывания агентов, позволяя разработчикам легко интегрировать различные LLM для выполнения задач.
Moatless Tools: Это набор инструментов, которые расширяют возможности агентов, позволяя им взаимодействовать с различными сервисами и API, что делает их особенно эффективными для автоматизации сложных рабочих процессов.
Refact.ai: Полноценный AI-ассистент с открытым исходным кодом, который фокусируется на рефакторинге, анализе кода и написании тестов. Он предлагает широкий спектр функций для повышения производительности разработчиков.
SWE-agent и его мини-версия mini — это инструменты для агентов, созданные исследователями из Принстонского и Стэнфордского университетов. SWE-agent позволяет LLM, таким как GPT-4o, автономно решать задачи в реальных репозиториях GitHub, демонстрируя высокую эффективность. mini — это его компактная и минималистичная версия (всего 100 строк кода), которая, несмотря на свой размер, способна решить 65% задач из бенчмарка SWE-bench. Это делает ее отличным выбором для исследователей и разработчиков, которым нужен простой, но мощный инструмент для создания агентов-кодировщиков.

Каждый из этих проектов вносит свой вклад в развитие агентского кодинга, предоставляя разработчикам мощные и гибкие инструменты.

SWE-Bench: стандарт для оценки агентского кодинга

Чтобы понять, насколько эффективно работают эти агенты, нужно иметь надежную систему оценки. В этой роли выступает SWE-Bench, который стал де-факто стандартом для измерения способностей LLM в программной инженерии. Бенчмарк состоит из 2294 реальных проблем с GitHub, взятых из 12 популярных Python-репозиториев.

Для повышения точности оценки был создан SWE-Bench Verified — тщательно отобранное подмножество из 500 задач. Эти задачи были проанализированы профессиональными разработчиками и разделены по сложности: 196 «легких» (менее 15 минут на исправление) и 45 «сложных» (более часа). Задача считается решенной, если изменения, предложенные моделью, успешно проходят все юнит-тесты.

Изначально Devstral был одним из лидеров на SWE-Bench Verified среди моделей с открытым кодом. Например, в мае 2025 года связка OpenHands + Devstral Small 2505 успешно решила 46,8% задач. Но мир AI-агентов развивается невероятно быстро. Сегодня, всего через три месяца, в августе 2025 года, эти результаты уже не входят даже в десятку лучших. Актуальный лидер, Trae.ai, показывает впечатляющие 75,20% решенных задач, что демонстрирует, насколько стремительно прогрессируют эти технологии.

Не только бенчмарки, но и реальная работа

На первый взгляд может показаться, что единственный важный показатель для AI-агента — это его производительность на бенчмарках вроде SWE-Bench. И, конечно, впечатляющие цифры, как у Trae.ai, говорят о многом. Но на практике, при решении реальных задач, важны не только сухие проценты. Куда важнее функциональность и интеграция в рабочий процесс.

Современные AI-агенты — это не просто модели, генерирующие код. Они стали настоящими ассистентами-многостаночниками, способными взаимодействовать с Git, запускать тесты, анализировать логи и даже создавать pull-реквесты. Но и они бывают разные, и каждый из них силен в своей области.

Devstral, например, отлично подходит для выполнения многоступенчатых задач в больших кодовых базах. Благодаря своей легкости и большому контекстному окну он позволяет работать локально, что особенно ценно для многих команд.

OpenHands — это не столько сам агент, сколько гибкая платформа, которая позволяет собирать и развертывать агентов под конкретные нужды, легко интегрируя различные языковые модели.

А Refact.ai и вовсе является полноценным ассистентом, который сфокусирован на анализе, рефакторинге и написании тестов, помогая разработчикам поддерживать высокое качество кода.

Не стоит забывать и про SaaS-решения, которые бьют рекорды по выручке с начала года: Replit, Bolt, Lovable и другие.

Таким образом, выбор агента зависит от конкретной задачи: нужен ли вам инструмент для сложных многоэтапных изменений, гибкая платформа для создания своего решения или ассистент, который поможет с рефакторингом. В конечном счете их главное преимущество — это не только способность писать код, но и умение органично встраиваться в рабочий процесс, беря на себя рутинные и сложные задачи.

Запускаем своего агента

Давайте рассмотрим, как развернуть один из современных агентов — OpenHands — на облачной платформе Timeweb Cloud. Мы будем использовать модель Devstral, так как она остается одной из моделей с открытым исходным кодом, которую можно запустить на своем железе.

Подготовка GPU-сервера

Для начала нужно создать виртуальный сервер с GPU на платформе Timeweb Cloud. Выберите подходящую конфигурацию с GPU (например, с NVIDIA A100 с 60 ГБ RAM), чтобы обеспечить необходимую производительность. После создания сервера подключитесь к нему по SSH.

Установка зависимостей

Обновите пакеты и установите Docker, который будет использоваться для запуска OpenHands. Пример для Ubuntu:

sudo apt update && sudo apt install docker.io -y

Настройка и запуск OpenHands

Мы будем использовать готовый Docker-образ OpenHands, что упрощает развертывание.

docker pull docker.all-hands.dev/all-hands-ai/runtime:0.51-nikolaik

docker run -it --rm --pull=always \
    -e SANDBOX_RUNTIME_CONTAINER_IMAGE=docker.all-hands.dev/all-hands-ai/runtime:0.51-nikolaik \
    -e LOG_ALL_EVENTS=true \
    -v /var/run/docker.sock:/var/run/docker.sock \
    -v ~/.openhands:/.openhands \
    -p 0.0.0.0:3000:3000 \
    --add-host host.docker.internal:host-gateway \
    --name openhands-app \
    docker.all-hands.dev/all-hands-ai/openhands:0.51

Эта команда запустит OpenHands в Docker-контейнере, который будет доступен через браузер по адресу вашего сервера на порту 3000. В процессе запуска вы получите URL-адрес для доступа к веб-интерфейсу OpenHands.

«-p 0.0.0.0:3000:3000» означает, что OpenHands будет доступен извне. По умолчанию web-интерфейс не требует логина и пароля, поэтому будьте осторожны.

Подключение к агенту

Откройте в браузере URL: https://IP-АДРЕС-СЕРВЕРА:3000. Вы увидите такой экран:

Установка языковой модели (LLM)

Чтобы агент заработал, ему нужна LLM. OpenHands поддерживает API различных провайдеров, таких как OpenAI (семейство GPT), Anthropic (семейство Claude), Google Gemini и других. Но поскольку мы используем сервер с GPU, модель можно запустить локально. Связка OpenHands + Devstral Small по-прежнему остается лидером в бенчмарке SWE-bench среди open-source-решений, поэтому мы будем использовать именно эту модель.

Сначала модель нужно установить локально. Способ установки зависит от того, какой сервис вы будете использовать для ее запуска. Самый простой вариант — через Hugging Face:

huggingface-cli download mistralai/Devstral-Small-2505 --local-dir mistralai/Devstral-Small-2505

Модель можно запустить с помощью Ollama, vLLM или других популярных решений. В нашем случае использовался vLLM:

vllm serve mistralai/Devstral-Small-2505 \
    --host 127.0.0.1 --port 8000 \
    --api-key local-llm \
    --tensor-parallel-size 2 \
    --served-model-name Devstral-Small-2505 \
    --enable-prefix-caching

Добавление модели в OpenHands

В настройках LLM в OpenHands перейдите в раздел «see advanced settings». Заполните следующие поля:

Custom model: mistralai/Devstral-Small-2505;
Base URL: http://127.0.0.1:8000/v1 (ссылка зависит от сервиса, который вы используете для запуска модели);
API Key: local-llm (может зависеть от ваших настроек).

Эксперимент: сгенерить код MCP-сервера для Timeweb Cloud

Агент готов, и мы можем попросить его написать код. Я попросил его создать Model Context Protocol (MCP) сервер для Timeweb Cloud.

Весь сгенерированный агентом код можно найти здесь: blog-data/openhands-experiment. В целом агент справился с задачей, но сервер у меня не запустился с первого раза. В коде были небольшие несостыковки (например, не совпадало имя переменной в конфиге и в коде), которые можно списать на проблему с размером контекстного окна. После пары дополнительных промптов, агент исправил собственные ошибки. Интересно, что по ходу работы агент запускал тесты и самостоятельно исправлял возникающие ошибки.

Будущее агентского кодинга: больше, чем просто автодополнение

Эволюция от Devstral к таким платформам, как OpenHands, показывает, что мы движемся от простых моделей к полноценным инструментам, способным работать автономно. LLM-агенты перестают быть просто «улучшенными автодополнялками» и становятся настоящими помощниками в разработке, способными взять на себя рутинные и сложные задачи. Они могут:

Реализовывать фичи, требующие изменений в десятке файлов.
Автоматически создавать и запускать тесты для нового или существующего кода.
Проводить рефакторинг и оптимизацию кода на уровне всего проекта.
Взаимодействовать с Git, автоматически создавая ветки и пулл-реквесты.

Такие агенты, как Refact.ai, уже интегрируются в IDE, а OpenHands позволяет построить полноценный CI/CD-пайплайн на основе AI. Впереди нас ждет мир, где разработчик будет скорее архитектором и контролером, а рутинная работа будет автоматизирована с помощью AI-агентов.

А что думаете вы? Готовы ли вы доверить AI-агентам часть своей работы?

08 августа 2025 г.

133

9 минут чтения