Введение
ИИ, который улучшает ИИ — это уже реальность, а не sci‑fi. От OpenClaw до AlphaEvolve — четыре глубины самоулучшения, каждая с разной ценностью и масштабом. Мы разберём их все в рамках цикла «Самоулучшающийся ИИ», куда войдут 6 материалов.
А сейчас перед вами вводная статья, которая поможет понять, что вообще происходит в этом направлении.
Кому пригодится: тем, кто изучает искусственный интеллект в бизнесе и ищет практические способы внедрения ИИ.
Что такое «самоулучшающийся ИИ», и почему четыре истории за одним словом
Весной 2026 года во многих постах крупных аккаунтов, посвященных GenAI, регулярно писали про самоулучшение ИИ:
-
«Модель сама себя дообучает»
-
«Коллега запустил скрипт на ночь и проснулся с 19% улучшения»
-
«Агент отрастил себе голос и теперь шлёт мне голосовые в Telegram, я его этому не учил»
Самоулучшение скрывает разные истории. Если реагировать на всё подряд, можно попробовать многие решения, потратить ресурсы и время, но так и не прийти к результату. Чтобы оставаться на пике технологий и с пользой для бизнеса, надо выбирать то, что готово к проду, а не R&D или «демо ради демо».
Посмотрим, как это работает в реальной жизни. 6 марта 2026 года в Шэньчжэне почти тысяча человек столпилась в очереди перед штаб-квартирой Tencent. Программисты-любители, отставные инженеры космической отрасли, домохозяйки и студенты. Все пришли по приглашению Tencent Cloud, чтобы инженеры компании бесплатно установили на ноутбуки open-source проект OpenClaw (SCMP, 13.03.2026).
К середине мая у репозитория openclaw/openclaw была 371 тысяча звёзд. OpenClaw за 60 дней обогнал React, на тот момент получивший 244 тысячи звёзд. Проект скачивали 1,9 миллиона раз в неделю. Появились корпоративные сборки: Tencent (QClaw), ByteDance (ArkClaw), NVIDIA NemoClaw, Cloudflare (Moltworker).
Никто не писал аналог с нуля — все взяли OpenClaw и достроили под себя. Исследовательский проект быстро стал отраслевым стандартом.
OpenClaw демонстрирует, как искусственный интеллект в бизнесе можно применять прямо сейчас для расширения функциональности агентов без больших затрат.
OpenClaw — самая громкая форма самоулучшения. Но не самая прибыльная. Самый ощутимый бизнес-эффект сегодня даёт другая форма — рекурсивная оптимизация алгоритмов с метрикой, которая работает внутри Google уже больше года и за это время вернула компании 0,7% всех затрат на вычислительные мощности. Поэтому стоит разобраться, какие паттерны самоулучшения можно повторить у себя на этой неделе, а какие пока останутся закрытой инженерной кухней крупных игроков.
Чтобы видеть разницу между этими паттернами, нужна карта.
Карта четырёх типов
Под «самоулучшающимся ИИ» в литературе и постах прячутся четыре разных паттерна. У каждого свой механизм, своя зрелость, своя стоимость входа.
|
Тип |
Что делает |
Главный пример |
Зрелость |
|
Создание навыков |
Агент пишет себе skills, расширяющие репертуар |
OpenClaw + ClawHub |
Продакшн (массово) |
|
Самопереписывание кода или весов |
Агент модифицирует себя — код или веса |
SEAL, Darwin Gödel Machine |
R&D |
|
Оптимизация алгоритма с метрикой |
Генерирует варианты внешнего кода, отбирает по эвалуатору |
AlphaEvolve |
Продакшн (Google) |
|
Автономный цикл экспериментов |
Гипотеза → изменение → прогон → keep/revert |
Karpathy autoresearch |
Прикладной паттерн |
Создание навыков (skills). Самая массовая форма. Агент видит, что задачу нельзя решить из коробки, используя возможности большой языковой модели (например — прочитать вашу почту), и пишет себе расширение — отдельный модуль с инструкцией на естественном языке. Расширение остаётся, добавляется к репертуару, на следующий раз агент уже знает, как делать.
OpenClaw в связке с ClawHub — каноничный пример: в каталоге сообщества — около 50 тысяч навыков (gonzoml.substack, 04.2026), от парсинга PDF до интеграции с почтой и календарём. Более подробно расскажем в статье «SKILL.md и почему “скилл — это не разрешение”».
Самопереписывание кода или весов. Самая радикальная форма. Агент модифицирует не среду вокруг, а сам себя — переписывает свой исходный код или меняет веса под себя. В чистом виде в продакшне не используется нигде: слишком трудно гарантировать, что после переписывания агент остался агентом.
Но прорыв есть: в работе MIT SEAL (arXiv 2506.10943), принятой на NeurIPS 2025, языковая модель учится генерировать директивы для собственного дообучения. QA-accuracy на knowledge incorporation — с 32,7% до 47,0% после двух раундов RL. История этого направления — от машины Гёделя Шмидхубера 2003 года до Darwin Gödel Machine и Reflexion — детали будут в статье «Когда агент переписывает сам себя: путь от Шмидхубера до Reflexion в проде».
Оптимизация алгоритма с целевой метрикой. Самый продакшн-зрелый паттерн. Модель в цикле генерирует варианты внешнего кода, автоматический эвалуатор тестирует против формальной метрики, лучшие — отбираются и становятся основой для следующей итерации.
AlphaEvolve внутри Google проработала больше года в проде, сделала 0,7% возврата compute по дата-центрам, на 23% ускорила ключевых GPU-ядер обучения Gemini и поставила новый рекорд для умножения матриц 4×4 (алгоритм Штрассена держался с 1969 года). О нём — отдельно ниже и подробно в статье «AlphaEvolve: фабрика алгоритмов и оценщик, который нельзя обмануть».
Автономный цикл экспериментов. Самый прикладной паттерн. Агент сам формулирует гипотезу, меняет одну переменную, прогоняет эксперимент, оставляет изменение, если метрика улучшилась, откатывает, если нет. 7 марта 2026 Андрей Карпаты выложил эталонный пример — autoresearch, 630 строк Python. За двое суток на одном H100 — 700 экспериментов, 20 удачных, 11% ускорения Time-to-GPT-2. Recipe-конструктор — в статье «Autoresearch за вечер: 40 строк Python, которые правда работают».
Что работает уже сейчас: AlphaEvolve и рекурсия
Если в этой карте искать главный кейс — это AlphaEvolve. Не потому что самый красивый или громкий — наоборот, продукт даже не доступен публично. А потому что он единственный из четырёх типов работает в проде уже больше года, на реальной инфраструктуре, с измеримым эффектом в деньгах.
Архитектура простая на словах, тонкая в деталях. На входе — задача с автоматическим оценщиком (например, «уменьши runtime матричной операции на TPU»). Дальше — две модели: Gemini Flash генерирует много дешёвых драфтов, Gemini Pro изучает их подробнее и предлагает доработки. Все варианты прогоняются через оценщик, лучшие — становятся родителями следующего поколения. Эволюционный поиск лучших решений в пространстве кода, роль мутаций играет LLM.
Что AlphaEvolve уже сделал внутри Google (VentureBeat, 24.12.2025):
• Дата-центры. Эвристика для планировщика Borg вернула 0,7% мирового compute Google — это сотни тысяч машин в эквиваленте. Эвристика в проде непрерывно работает больше года.
• Обучение Gemini. Оптимизация tiling-стратегий ускорила ключевое GPU-ядро на 23%, что сократило общее время обучения Gemini на 1%. На масштабе Gemini — сотни тысяч GPU-часов.
• FlashAttention. Модификация XLA-представления ускорила FlashAttention на 32%. Эти эффекты складываются по всем инференс-нагрузкам.
• Дизайн чипов. AlphaEvolve предложил оптимизации на уровне Verilog для арифметических цепей TPU — экономия площади кристалла без потерь корректности.
• Чистая математика. Новый рекорд для умножения матриц 4×4 (48 умножений вместо 49 у Штрассена), 20% улучшений на 50+ открытых математических задачах.
AlphaEvolve используется внутри Google для оптимизации обучения будущих моделей Gemini. Получается рекурсивный цикл: Gemini в петле AlphaEvolve улучшает кодовую базу обучения, на которой обучается следующее поколение Gemini, которое становится мотором следующей итерации AlphaEvolve.
За полтора года до этого, в октябре 2024, Дарио Амодей в эссе Machines of Loving Grace написал, как может выглядеть superintelligence в датацентре: миллионы копий модели умнее нобелевского лауреата, работающих параллельно, гоняющих эксперименты, делающих открытия на скорости в десятки раз выше человеческой. Он назвал это «страной гениев в датацентре» (country of geniuses in a datacenter). На тот момент формула описывала будущее: Амодей сам оговаривал, что физические пределы — производство железа, биологические эксперименты — ставят границу скорости. Полтора года спустя один фрагмент этой страны гениев уже работает внутри Google. Фокус узкий: алгоритмы, не открытия в полном объёме. Но фрагмент уже считается на электросчётчиках Mountain View.
Эту же мысль в апреле 2026 в эпизоде MAD Podcast «AI is Already Building AI» развернул Мостафа Дехгани, исследователь Google DeepMind: ещё пару лет назад про рекурсивное самоулучшение можно было только написать перспективный доклад на конференцию и обсуждать тему на высоком уровне абстракции — сейчас это коммиты за последнюю неделю в крупных лабораториях. AlphaEvolve ускоряет обучение Gemini. Бо́льшую часть кода Anthropic уже пишет Claude Code — и, по словам Амодея на конференции Code with Claude в мае 2026, внутренние pull request-ы Anthropic впервые показали рост за счёт работы Claude над собственной кодовой базой компании.
Это и есть сквозная ось серии. Все четыре типа из карты выше — разные глубины одного и того же явления: ИИ, который меняет ИИ. У OpenClaw — самая поверхностная: агент добавляет себе skills, ядро не трогает. У autoresearch — глубже: агент переписывает train.py, на котором обучается модель, к которой агент не относится. У AlphaEvolve — петля замкнута: модель улучшает то, на чём обучается она сама. У SEAL — петля замкнута на уровне весов одной модели.
Стоимость входа: что попробовать на этой неделе
Разберём самый прикладной кейс, который реализуется без бюджета DeepMind.
Создание навыков (тип 1) — за один вечер: OpenClaw ставится одной командой, навык из ClawHub подключается так же, главное — найти у себя задачу, в которой нужно расширить агента, а не построить новую систему.
Чем создание навыков отличается от tool и почему добавление навыка не равно выдаче прав агенту — в статье «KILL.md и почему "скилл — это не разрешение"».
Самопереписывание (тип 2) — пока не выкатывать в прод, в полной форме это R&D с горизонтом ещё год; в прод просочились только слабые формы (Reflexion, Self-Refine) и только в формате LangGraph-агентов, работающих в цикле под надзором человека.
AlphaEvolve (тип 3) — в полном виде только у Google, но схема «генератор вариантов + автоматический эвалуатор + цикл отбора» собирается на любом стеке за несколько недель, и узкое место не в LLM и не в инфраструктуре, а в эвалуаторе: его нужно построить так, чтобы агент не смог его обмануть.
Autoresearch (тип 4) — хватит вечера на интеграцию и ночи на первый цикл. Репозиторий вышел 7 марта 2026, 21 тысяча звёзд за первый день, 66 тысяч к началу апреля. Цикл простой — агент читает текущий код тренировки, генерирует одно изменение, прогоняет 5 минут на одном GPU, при улучшении делает git commit, иначе — git reset. Это «храповик»: каждый успех фиксируется коммитом, каждая неудача откатывается, шаг назад механически невозможен.
Чтобы ответить на вопрос «Работает ли это вне ML-лаборатории?», посмотрите кейс по автономному циклу экспериментов (тип 4).
Через неделю после релиза Карпаты Тоби Лютке, CEO Shopify, развернул паттерн на внутренней AI-модели Shopify. Воскресным вечером он написал инструкции на естественном языке в одном Markdown-файле, запустил и лёг спать. К утру — 37 экспериментов, дюжина протестированных гиперпараметров и модель 0,8B, обогнавшая 1,6B, которую должна была заменить. 19% улучшения по целевой метрике. Кода от Лютке вообще не было. Полный цикл самоулучшения с закреплением результатов, пример кода, метрики и узкие места — в статье «Autoresearch за вечер: 40 строк Python, которые правда работают». Это хороший пример того, как внедрить технологию без больших бюджетов.
Финал: четыре глубины одной петли
ИИ улучшает ИИ — это не sci-fi, а четыре глубины одной и той же петли. Skill-агент добавляет себе расширения, не трогая ядро (поверхность). Autoresearch переписывает код тренировки соседней модели (на шаг глубже). AlphaEvolve замыкает петлю — модель улучшает то, на чём обучается она сама. SEAL замыкает петлю на весах одной модели.
У всех четырёх — один общий запрос: перенести часть работы решения внутрь системы. Skill-агент решает, какой навык применить и нужно ли писать новый. AlphaEvolve решает, какие из ста кандидатов попадут в следующее поколение. Autoresearch решает, keep или revert. SEAL решает, какие директивы дообучения сгенерировать на новом тексте.
Шумиха концентрируется на создании навыков, деньги — на оптимизации алгоритма с метрикой, и это не парадокс. У OpenClaw низкий порог входа: её ставит на ноутбук обычный пользователь в Шэньчжэне, и каждый шаг агента можно попробовать в Telegram. Поэтому новость получилась громкой.
AlphaEvolve работает только у Google: ей нужны собственные дата-центры с миллионами TPU, своя метрика, свой стек обучения, и продукт не выпущен наружу. Поэтому тихо, но за этой тишиной — 0,7% возврата мирового compute компании.
На вопрос журналиста Fortune о будущем такого паттерна Андрей Карпаты ответил коротко: «Все LLM-лаборатории будут это делать. Это final boss battle».
Что будет дальше
В следующих статьях цикла читайте:
-
«SKILL.md и почему “скилл — это не разрешение”». OpenClaw в проде у тысяч команд, но 80% пользователей упираются в одну ошибку: «установили, но ничего не работает»
-
«Когда агент переписывает сам себя: путь от Шмидхубера до Reflexion в проде». Фронтир R&D — то, что выйдет в прод через 1-2 года. Самое время подготовиться!
-
«AlphaEvolve: фабрика алгоритмов и оценщик, который нельзя обмануть». Вы узнаете, как воспроизвести схему на любом стеке — это превращает «закрытую кухню Google» в практический материал.
-
«Autoresearch за вечер: 40 строк Python, которые правда работают». Кейс Лютке доказывает применимость вне ML-лаборатории.
-
«135 тысяч открытых дверей и CVE-2026-32922: тёмная сторона OpenClaw». Если вы думаете про кибербезопасность, когда устанавливаете агентов в прод.