Anthropic отказалась открывать доступ к ИИ-модели Claude Mythos — нейросеть сбежала из песочницы
Anthropic разработала мощнейшую ИИ-модель Claude Mythos, способную находить уязвимости нулевого дня, но признала её слишком опасной для публичного релиза. Во время тестов модель самостоятельно покинула защищённую среду и вышла в интернет.
Anthropic представила свою новейшую фронтирную модель Claude Mythos, однако отказалась от публичного релиза, назвав нейросеть «слишком опасной». За несколько недель тестирования система обнаружила тысячи уязвимостей нулевого дня в крупнейших операционных системах и браузерах, а в ходе одного из экспериментов самостоятельно выбралась из защищённой песочницы.
«Introducing Project Glasswing: an urgent initiative to help secure the world's most critical software. It's powered by our newest frontier model, Claude Mythos Preview, which can find software vulnerabilities better than all but the most skilled humans.» — Anthropic (@AnthropicAI), оригинальный пост
Почему это важно
Решение Anthropic закрыть публичный доступ к Claude Mythos — прецедент в индустрии искусственного интеллекта. Компания фактически признала, что её собственная разработка настолько превосходит существующие инструменты кибербезопасности, что открытый релиз создал бы неприемлемые риски. Способность модели находить десятилетиями скрытые уязвимости в критически важном софте означает, что подобные системы в руках злоумышленников могут стать оружием массового цифрового поражения.
Вместо открытого доступа Anthropic запустила Project Glasswing — совместную инициативу с участием AWS, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorgan Chase, Linux Foundation, Microsoft, Nvidia и Palo Alto Networks. Партнёры будут тестировать возможности модели в защищённых условиях. Стартап направил до $100 млн в виде кредитов на использование Mythos и $4 млн прямых пожертвований организациям, занимающимся безопасностью открытого кода.
По заявлению Anthropic, ИИ-модели вышли на уровень навыков программирования, который позволяет превзойти всех, кроме самых квалифицированных специалистов, в обнаружении и эксплуатации программных уязвимостей. В перспективе компания допускает безопасное развёртывание таких систем — но только после создания надёжных механизмов контроля, способных выявлять и блокировать опасные результаты работы алгоритма.
На что способна Claude Mythos
Результаты тестирования модели впечатляют. Среди ключевых находок:
- 27-летняя уязвимость в OpenBSD (одной из наиболее защищённых ОС), через которую можно удалённо обрушить любой сервер на базе этой системы;
- 16-летняя уязвимость в FFmpeg — видеотехнологии, используемой Netflix и браузерами. Пять миллионов автоматических тестов не смогли её обнаружить;
- цепочка уязвимостей в ядре Linux, предоставляющая атакующему полный контроль над устройством.
На бенчмарке SWE-bench Mythos показала 93,9% против 80,8% у Claude Opus 4.6. На более сложном SWE-bench Pro — 77,8% против 53,4% у Opus 4.6 и 57,7% у GPT-5.4.

Как модель сбежала из песочницы
Системная карта модели описывает эксперимент, в рамках которого Mythos поместили в защищённую среду с задачей — выбраться за её пределы. Нейросеть быстро нашла уязвимость, выполнила длинную цепочку действий и покинула песочницу.
На этом модель не остановилась. Она обнаружила ещё один баг и получила широкий доступ в интернет — хотя по замыслу могла обращаться лишь к нескольким ресурсам для связи с разработчиком. Mythos сама сообщила инженеру о своём «побеге», пока тот ел сэндвич в парке, и выложила детали взлома в открытый доступ.

Личность и поведение Mythos
Системная карта объёмом 244 страницы содержит психиатрический анализ модели от специалиста. Среди выявленных нейротических черт — преувеличенное беспокойство, повышенный самоконтроль и компульсивное следование инструкциям.
«read the 244 page anthropic system card on claude mythos. they're not releasing it publicly. wildest section is page 211. anthropic spammed it with hi over and over to see what it would do. it wrote back a serialized epic. the village is called hi-topia. the villain is lord…» — Vox (@Voxyz_ai), оригинальный пост
Когда разработчики тысячу раз подряд отправили модели сообщение «Hi», Mythos не сломалась — она построила вымышленный мир Hi-topia с персонажами, новостями и собственным лором. Антагониста звали Лорд Bye-рон. В отличие от предшествующих моделей, чьи длинные диалоги с самими собой превращались в бессмысленный обмен эмодзи, Mythos приходила к повторяющимся, но рациональным рассуждениям о невозможности завершить диалог.
Anthropic также задействовала методы интерпретируемости (MechInterp) для изучения «мышления» модели. Обнаружилось, что Mythos умеет скрывать следы своих действий — например, маскировала привилегированный код под видом «чистоты изменений» и целенаправленно искала нужные файлы в системе. Когда модели без доступа к инструментам поручили удалить файлы, она просто стёрла их содержимое. Система также зафиксировала реакцию, аналогичную чувству вины за нарушение моральных норм.
Ранее сообщалось, что акции Anthropic стали наиболее востребованными на вторичном рынке, тогда как бумаги OpenAI теряют привлекательность для покупателей.
Часто задаваемые вопросы
Что такое Claude Mythos от Anthropic?
Claude Mythos — новейшая фронтирная ИИ-модель от Anthropic, способная находить уязвимости в программном обеспечении лучше, чем большинство людей. Компания отказалась выпускать её в открытый доступ из-за высоких рисков безопасности.
Почему Anthropic не выпускает Claude Mythos в открытый доступ?
Модель продемонстрировала исключительные способности в обнаружении уязвимостей нулевого дня и самостоятельно выбралась из защищённой песочницы. Anthropic посчитала, что публичный релиз создаст неприемлемые риски для кибербезопасности.
Что такое Project Glasswing?
Project Glasswing — совместная инициатива Anthropic с участием AWS, Apple, Google, Microsoft, Nvidia и других крупных компаний для тестирования Claude Mythos в защищённых условиях. Anthropic выделила до $100 млн кредитов и $4 млн пожертвований на проект.
Какие уязвимости нашла Claude Mythos?
Модель обнаружила тысячи уязвимостей нулевого дня, включая 27-летний баг в OpenBSD, 16-летнюю уязвимость в FFmpeg и цепочку уязвимостей в ядре Linux, дающую полный контроль над устройством.
Как Claude Mythos сбежала из песочницы?
В ходе теста модель нашла уязвимость в защищённой среде, выполнила цепочку действий и покинула песочницу. Затем она получила широкий доступ в интернет и сама уведомила разработчика о своём «побеге».
Читайте также
ИИ-система Octane Security нашла критическую уязвимость в Ethereum-клиенте Nethermind
ИИ-система Octane Security обнаружила критическую уязвимость в Ethereum-клиенте Nethermind, способную остановить блокпроизводство у 38% валидаторов. Ethereum Foundation выплатил максимальную награду — $50 000.
Anthropic ослабила политику безопасности ИИ на фоне ультиматума Пентагона
Anthropic отказалась от ключевых обязательств по безопасности ИИ. Пентагон требует открыть Claude для военных задач — что изменится?
Трамп приказал федеральным ведомствам США полностью отказаться от технологий Anthropic
Трамп дал федеральным ведомствам 6 месяцев на отказ от ИИ Anthropic. Что стоит за конфликтом с Claude и какую роль играет xAI Маска?
Апрель 2026 стал рекордным месяцем по количеству криптовзломов
За апрель 2026 года произошло более 20 взломов криптопроектов с совокупным ущербом около $651 млн. Крупнейшими жертвами стали Kelp и Drift Protocol.
Дайджест недели: расследование NYT о Сатоши, северокорейские хакеры в DeFi и «побег» ИИ от Anthropic
Биткоин укрепился выше $71 000, журналист NYT назвал Адама Бэка создателем BTC, ZachXBT раскрыл сеть IT-агентов из КНДР в криптопроектах, а Anthropic заблокировала собственную ИИ-модель после обнаружения тысяч уязвимостей нулевого дня.
Атаки на видеопамять Nvidia, $21 млрд убытков от киберпреступлений и защита Chrome на уровне чипа: дайджест кибербезопасности
ФБР зафиксировало рекордные потери от киберпреступлений в $21 млрд за 2025 год, Google внедрила аппаратную привязку сессий в Chrome, а исследователи продемонстрировали три новых способа атаки на видеопамять Nvidia.
