2025 год действительно стал годом расцвета AI-агентов, и эта тенденция продолжает набирать обороты. Если еще недавно многие обсуждали лишь концепцию, то сегодня мы видим, как агенты активно внедряются в реальные процессы разработки. Особый интерес вызывают AI-агенты с открытым исходным кодом, которые позволяют командам не только использовать, но и адаптировать технологии под свои нужды. В этой статье мы рассмотрим, как развивались эти инструменты и как они помогают решать комплексные задачи программной инженерии. Мы начнем с обзора ранних, но значимых игроков, таких как Devstral, и перейдем к более актуальным решениям, доступным сейчас.
cloud
Обзор ландшафта опенсорсных AI-агентов для кодинга
Первые заметные шаги в сторону открытых агентов для разработки были сделаны благодаря таким моделям, как Devstral. Разработанный в сотрудничестве Mistral AI и All Hands AI, Devstral стал прорывным решением. Благодаря своей легкости (всего 24 миллиарда параметров) он мог работать на одной Nvidia RTX 4090, что делало его доступным для локального использования. С большим контекстным окном в 128k токенов и продвинутым токенизатором он отлично справлялся с многоэтапными задачами в крупных кодовых базах.
Однако мир AI не стоит на месте. Сегодня появилось множество новых, более производительных и функциональных агентов. Среди них стоит выделить:
- OpenHands: Один из самых популярных на данный момент open-source-фреймворков. Он предоставляет гибкую платформу для создания и развертывания агентов, позволяя разработчикам легко интегрировать различные LLM для выполнения задач.
- Moatless Tools: Это набор инструментов, которые расширяют возможности агентов, позволяя им взаимодействовать с различными сервисами и API, что делает их особенно эффективными для автоматизации сложных рабочих процессов.
- Refact.ai: Полноценный AI-ассистент с открытым исходным кодом, который фокусируется на рефакторинге, анализе кода и написании тестов. Он предлагает широкий спектр функций для повышения производительности разработчиков.
- SWE-agent и его мини-версия mini — это инструменты для агентов, созданные исследователями из Принстонского и Стэнфордского университетов. SWE-agent позволяет LLM, таким как GPT-4o, автономно решать задачи в реальных репозиториях GitHub, демонстрируя высокую эффективность. mini — это его компактная и минималистичная версия (всего 100 строк кода), которая, несмотря на свой размер, способна решить 65% задач из бенчмарка SWE-bench. Это делает ее отличным выбором для исследователей и разработчиков, которым нужен простой, но мощный инструмент для создания агентов-кодировщиков.
Каждый из этих проектов вносит свой вклад в развитие агентского кодинга, предоставляя разработчикам мощные и гибкие инструменты.
SWE-Bench: стандарт для оценки агентского кодинга
Чтобы понять, насколько эффективно работают эти агенты, нужно иметь надежную систему оценки. В этой роли выступает SWE-Bench, который стал де-факто стандартом для измерения способностей LLM в программной инженерии. Бенчмарк состоит из 2294 реальных проблем с GitHub, взятых из 12 популярных Python-репозиториев.
Для повышения точности оценки был создан SWE-Bench Verified — тщательно отобранное подмножество из 500 задач. Эти задачи были проанализированы профессиональными разработчиками и разделены по сложности: 196 «легких» (менее 15 минут на исправление) и 45 «сложных» (более часа). Задача считается решенной, если изменения, предложенные моделью, успешно проходят все юнит-тесты.
Изначально Devstral был одним из лидеров на SWE-Bench Verified среди моделей с открытым кодом. Например, в мае 2025 года связка OpenHands + Devstral Small 2505 успешно решила 46,8% задач. Но мир AI-агентов развивается невероятно быстро. Сегодня, всего через три месяца, в августе 2025 года, эти результаты уже не входят даже в десятку лучших. Актуальный лидер, Trae.ai, показывает впечатляющие 75,20% решенных задач, что демонстрирует, насколько стремительно прогрессируют эти технологии.
Не только бенчмарки, но и реальная работа
На первый взгляд может показаться, что единственный важный показатель для AI-агента — это его производительность на бенчмарках вроде SWE-Bench. И, конечно, впечатляющие цифры, как у Trae.ai, говорят о многом. Но на практике, при решении реальных задач, важны не только сухие проценты. Куда важнее функциональность и интеграция в рабочий процесс.
Современные AI-агенты — это не просто модели, генерирующие код. Они стали настоящими ассистентами-многостаночниками, способными взаимодействовать с Git, запускать тесты, анализировать логи и даже создавать pull-реквесты. Но и они бывают разные, и каждый из них силен в своей области.
Devstral, например, отлично подходит для выполнения многоступенчатых задач в больших кодовых базах. Благодаря своей легкости и большому контекстному окну он позволяет работать локально, что особенно ценно для многих команд.
OpenHands — это не столько сам агент, сколько гибкая платформа, которая позволяет собирать и развертывать агентов под конкретные нужды, легко интегрируя различные языковые модели.
А Refact.ai и вовсе является полноценным ассистентом, который сфокусирован на анализе, рефакторинге и написании тестов, помогая разработчикам поддерживать высокое качество кода.
Не стоит забывать и про SaaS-решения, которые бьют рекорды по выручке с начала года: Replit, Bolt, Lovable и другие.
Таким образом, выбор агента зависит от конкретной задачи: нужен ли вам инструмент для сложных многоэтапных изменений, гибкая платформа для создания своего решения или ассистент, который поможет с рефакторингом. В конечном счете их главное преимущество — это не только способность писать код, но и умение органично встраиваться в рабочий процесс, беря на себя рутинные и сложные задачи.
Запускаем своего агента
Давайте рассмотрим, как развернуть один из современных агентов — OpenHands — на облачной платформе Timeweb Cloud. Мы будем использовать модель Devstral, так как она остается одной из моделей с открытым исходным кодом, которую можно запустить на своем железе.
- Подготовка GPU-сервера
Для начала нужно создать виртуальный сервер с GPU на платформе Timeweb Cloud. Выберите подходящую конфигурацию с GPU (например, с NVIDIA A100 с 60 ГБ RAM), чтобы обеспечить необходимую производительность. После создания сервера подключитесь к нему по SSH.
- Установка зависимостей
Обновите пакеты и установите Docker, который будет использоваться для запуска OpenHands. Пример для Ubuntu:
sudo apt update && sudo apt install docker.io -y
- Настройка и запуск OpenHands
Мы будем использовать готовый Docker-образ OpenHands, что упрощает развертывание.
docker pull docker.all-hands.dev/all-hands-ai/runtime:0.51-nikolaik
docker run -it --rm --pull=always \
-e SANDBOX_RUNTIME_CONTAINER_IMAGE=docker.all-hands.dev/all-hands-ai/runtime:0.51-nikolaik \
-e LOG_ALL_EVENTS=true \
-v /var/run/docker.sock:/var/run/docker.sock \
-v ~/.openhands:/.openhands \
-p 0.0.0.0:3000:3000 \
--add-host host.docker.internal:host-gateway \
--name openhands-app \
docker.all-hands.dev/all-hands-ai/openhands:0.51
Эта команда запустит OpenHands в Docker-контейнере, который будет доступен через браузер по адресу вашего сервера на порту 3000. В процессе запуска вы получите URL-адрес для доступа к веб-интерфейсу OpenHands.
«-p 0.0.0.0:3000:3000
» означает, что OpenHands будет доступен извне. По умолчанию web-интерфейс не требует логина и пароля, поэтому будьте осторожны.
- Подключение к агенту
Откройте в браузере URL: https://IP-АДРЕС-СЕРВЕРА:3000
. Вы увидите такой экран:
- Установка языковой модели (LLM)
Чтобы агент заработал, ему нужна LLM. OpenHands поддерживает API различных провайдеров, таких как OpenAI (семейство GPT), Anthropic (семейство Claude), Google Gemini и других. Но поскольку мы используем сервер с GPU, модель можно запустить локально. Связка OpenHands + Devstral Small по-прежнему остается лидером в бенчмарке SWE-bench среди open-source-решений, поэтому мы будем использовать именно эту модель.
Сначала модель нужно установить локально. Способ установки зависит от того, какой сервис вы будете использовать для ее запуска. Самый простой вариант — через Hugging Face:
huggingface-cli download mistralai/Devstral-Small-2505 --local-dir mistralai/Devstral-Small-2505
Модель можно запустить с помощью Ollama, vLLM или других популярных решений. В нашем случае использовался vLLM:
vllm serve mistralai/Devstral-Small-2505 \
--host 127.0.0.1 --port 8000 \
--api-key local-llm \
--tensor-parallel-size 2 \
--served-model-name Devstral-Small-2505 \
--enable-prefix-caching
- Добавление модели в OpenHands
В настройках LLM в OpenHands перейдите в раздел «see advanced settings». Заполните следующие поля:
- Custom model:
mistralai/Devstral-Small-2505
; - Base URL:
http://127.0.0.1:8000/v1
(ссылка зависит от сервиса, который вы используете для запуска модели); - API Key:
local-llm
(может зависеть от ваших настроек).
Эксперимент: сгенерить код MCP-сервера для Timeweb Cloud
Агент готов, и мы можем попросить его написать код. Я попросил его создать Model Context Protocol (MCP) сервер для Timeweb Cloud.
Весь сгенерированный агентом код можно найти здесь: blog-data/openhands-experiment. В целом агент справился с задачей, но сервер у меня не запустился с первого раза. В коде были небольшие несостыковки (например, не совпадало имя переменной в конфиге и в коде), которые можно списать на проблему с размером контекстного окна. После пары дополнительных промптов, агент исправил собственные ошибки. Интересно, что по ходу работы агент запускал тесты и самостоятельно исправлял возникающие ошибки.
Подготовили для вас выгодные тарифы на облачные серверы
Будущее агентского кодинга: больше, чем просто автодополнение
Эволюция от Devstral к таким платформам, как OpenHands, показывает, что мы движемся от простых моделей к полноценным инструментам, способным работать автономно. LLM-агенты перестают быть просто «улучшенными автодополнялками» и становятся настоящими помощниками в разработке, способными взять на себя рутинные и сложные задачи. Они могут:
- Реализовывать фичи, требующие изменений в десятке файлов.
- Автоматически создавать и запускать тесты для нового или существующего кода.
- Проводить рефакторинг и оптимизацию кода на уровне всего проекта.
- Взаимодействовать с Git, автоматически создавая ветки и пулл-реквесты.
Такие агенты, как Refact.ai, уже интегрируются в IDE, а OpenHands позволяет построить полноценный CI/CD-пайплайн на основе AI. Впереди нас ждет мир, где разработчик будет скорее архитектором и контролером, а рутинная работа будет автоматизирована с помощью AI-агентов.
А что думаете вы? Готовы ли вы доверить AI-агентам часть своей работы?