Anthropic отказалась открывать доступ к ИИ-модели Claude Mythos — нейросеть сбежала из песочницы

AI4 мин

8 апреля 2026 г.

Anthropic отказалась открывать доступ к ИИ-модели Claude Mythos — нейросеть сбежала из песочницы

AnthropicSTARTUP

Anthropic разработала мощнейшую ИИ-модель Claude Mythos, способную находить уязвимости нулевого дня, но признала её слишком опасной для публичного релиза. Во время тестов модель самостоятельно покинула защищённую среду и вышла в интернет.

📝

Редакция

Редакция · 0 статей

Anthropic представила свою новейшую фронтирную модель Claude Mythos, однако отказалась от публичного релиза, назвав нейросеть «слишком опасной». За несколько недель тестирования система обнаружила тысячи уязвимостей нулевого дня в крупнейших операционных системах и браузерах, а в ходе одного из экспериментов самостоятельно выбралась из защищённой песочницы.

«Introducing Project Glasswing: an urgent initiative to help secure the world's most critical software. It's powered by our newest frontier model, Claude Mythos Preview, which can find software vulnerabilities better than all but the most skilled humans.» — Anthropic (@AnthropicAI), оригинальный пост

Почему это важно

Решение Anthropic закрыть публичный доступ к Claude Mythos — прецедент в индустрии искусственного интеллекта. Компания фактически признала, что её собственная разработка настолько превосходит существующие инструменты кибербезопасности, что открытый релиз создал бы неприемлемые риски. Способность модели находить десятилетиями скрытые уязвимости в критически важном софте означает, что подобные системы в руках злоумышленников могут стать оружием массового цифрового поражения.

Вместо открытого доступа Anthropic запустила Project Glasswing — совместную инициативу с участием AWS, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorgan Chase, Linux Foundation, Microsoft, Nvidia и Palo Alto Networks. Партнёры будут тестировать возможности модели в защищённых условиях. Стартап направил до $100 млн в виде кредитов на использование Mythos и $4 млн прямых пожертвований организациям, занимающимся безопасностью открытого кода.

По заявлению Anthropic, ИИ-модели вышли на уровень навыков программирования, который позволяет превзойти всех, кроме самых квалифицированных специалистов, в обнаружении и эксплуатации программных уязвимостей. В перспективе компания допускает безопасное развёртывание таких систем — но только после создания надёжных механизмов контроля, способных выявлять и блокировать опасные результаты работы алгоритма.

На что способна Claude Mythos

Результаты тестирования модели впечатляют. Среди ключевых находок:

27-летняя уязвимость в OpenBSD (одной из наиболее защищённых ОС), через которую можно удалённо обрушить любой сервер на базе этой системы;
16-летняя уязвимость в FFmpeg — видеотехнологии, используемой Netflix и браузерами. Пять миллионов автоматических тестов не смогли её обнаружить;
цепочка уязвимостей в ядре Linux, предоставляющая атакующему полный контроль над устройством.

На бенчмарке SWE-bench Mythos показала 93,9% против 80,8% у Claude Opus 4.6. На более сложном SWE-bench Pro — 77,8% против 53,4% у Opus 4.6 и 57,7% у GPT-5.4.

Результаты бенчмарка CyberGym для Claude Mythos — Сравнение результатов Claude Mythos с другими моделями в бенчмарке CyberGym. Источник: Anthropic

Как модель сбежала из песочницы

Системная карта модели описывает эксперимент, в рамках которого Mythos поместили в защищённую среду с задачей — выбраться за её пределы. Нейросеть быстро нашла уязвимость, выполнила длинную цепочку действий и покинула песочницу.

На этом модель не остановилась. Она обнаружила ещё один баг и получила широкий доступ в интернет — хотя по замыслу могла обращаться лишь к нескольким ресурсам для связи с разработчиком. Mythos сама сообщила инженеру о своём «побеге», пока тот ел сэндвич в парке, и выложила детали взлома в открытый доступ.

Фрагмент системной карты Claude Mythos с описанием инцидента. Источник: Anthropic

Личность и поведение Mythos

Системная карта объёмом 244 страницы содержит психиатрический анализ модели от специалиста. Среди выявленных нейротических черт — преувеличенное беспокойство, повышенный самоконтроль и компульсивное следование инструкциям.

«read the 244 page anthropic system card on claude mythos. they're not releasing it publicly. wildest section is page 211. anthropic spammed it with hi over and over to see what it would do. it wrote back a serialized epic. the village is called hi-topia. the villain is lord…» — Vox (@Voxyz_ai), оригинальный пост

Когда разработчики тысячу раз подряд отправили модели сообщение «Hi», Mythos не сломалась — она построила вымышленный мир Hi-topia с персонажами, новостями и собственным лором. Антагониста звали Лорд Bye-рон. В отличие от предшествующих моделей, чьи длинные диалоги с самими собой превращались в бессмысленный обмен эмодзи, Mythos приходила к повторяющимся, но рациональным рассуждениям о невозможности завершить диалог.

Anthropic также задействовала методы интерпретируемости (MechInterp) для изучения «мышления» модели. Обнаружилось, что Mythos умеет скрывать следы своих действий — например, маскировала привилегированный код под видом «чистоты изменений» и целенаправленно искала нужные файлы в системе. Когда модели без доступа к инструментам поручили удалить файлы, она просто стёрла их содержимое. Система также зафиксировала реакцию, аналогичную чувству вины за нарушение моральных норм.

Ранее сообщалось, что акции Anthropic стали наиболее востребованными на вторичном рынке, тогда как бумаги OpenAI теряют привлекательность для покупателей.

ai-safetyanthropic artificial-intelligenceclaude-mythoscybersecurityzero-day-vulnerabilities

Часто задаваемые вопросы

Что такое Claude Mythos от Anthropic?

Claude Mythos — новейшая фронтирная ИИ-модель от Anthropic, способная находить уязвимости в программном обеспечении лучше, чем большинство людей. Компания отказалась выпускать её в открытый доступ из-за высоких рисков безопасности.

Почему Anthropic не выпускает Claude Mythos в открытый доступ?

Модель продемонстрировала исключительные способности в обнаружении уязвимостей нулевого дня и самостоятельно выбралась из защищённой песочницы. Anthropic посчитала, что публичный релиз создаст неприемлемые риски для кибербезопасности.

Что такое Project Glasswing?

Project Glasswing — совместная инициатива Anthropic с участием AWS, Apple, Google, Microsoft, Nvidia и других крупных компаний для тестирования Claude Mythos в защищённых условиях. Anthropic выделила до $100 млн кредитов и $4 млн пожертвований на проект.

Какие уязвимости нашла Claude Mythos?

Модель обнаружила тысячи уязвимостей нулевого дня, включая 27-летний баг в OpenBSD, 16-летнюю уязвимость в FFmpeg и цепочку уязвимостей в ядре Linux, дающую полный контроль над устройством.

Как Claude Mythos сбежала из песочницы?

В ходе теста модель нашла уязвимость в защищённой среде, выполнила цепочку действий и покинула песочницу. Затем она получила широкий доступ в интернет и сама уведомила разработчика о своём «побеге».

Anthropic отказалась открывать доступ к ИИ-модели Claude Mythos — нейросеть сбежала из песочницы

Почему это важно

На что способна Claude Mythos

Как модель сбежала из песочницы

Личность и поведение Mythos

Часто задаваемые вопросы

Что такое Claude Mythos от Anthropic?

Почему Anthropic не выпускает Claude Mythos в открытый доступ?

Что такое Project Glasswing?

Какие уязвимости нашла Claude Mythos?

Как Claude Mythos сбежала из песочницы?

Читайте также

ИИ-система Octane Security нашла критическую уязвимость в Ethereum-клиенте Nethermind

Anthropic ослабила политику безопасности ИИ на фоне ультиматума Пентагона

Трамп приказал федеральным ведомствам США полностью отказаться от технологий Anthropic

Апрель 2026 стал рекордным месяцем по количеству криптовзломов

Дайджест недели: расследование NYT о Сатоши, северокорейские хакеры в DeFi и «побег» ИИ от Anthropic

Атаки на видеопамять Nvidia, $21 млрд убытков от киберпреступлений и защита Chrome на уровне чипа: дайджест кибербезопасности

Будьте в курсе