Physical Intelligence выпустила ИИ-модель π0.7 для роботов, способную выполнять задачи без прямого обучения
Стартап, основанный бывшими инженерами Google, представил модель π0.7 класса VLA, которая демонстрирует способность комбинировать усвоенные навыки для решения новых задач без дополнительной настройки.
Стартап Physical Intelligence, созданный выходцами из Google, анонсировал новую модель π0.7. По заявлениям разработчиков, система совершила «качественный скачок» в области обобщения навыков — робот под её управлением способен справляться с задачами, которым его никто целенаправленно не обучал.
«Our newest model, π0.7, has some interesting emergent capabilities: it can control a new robot to fold shirts for which we had no shirt folding data, figure out how to use an appliance with language-based coaching, and perform a wide range of dexterous tasks all in one model!» — Physical Intelligence (@physical_int), оригинальный пост
Почему это важно
До сих пор робототехнические ИИ-модели требовали дообучения под каждый конкретный сценарий — по аналогии с ранними версиями языковых моделей. Каждый новый тип робота, каждое новое действие означали необходимость сбора данных и отдельной тренировки. Модель π0.7 претендует на преодоление этого барьера: она работает сразу после развёртывания и адаптируется к незнакомым ситуациям через текстовые и визуальные подсказки. Если заявленные характеристики подтвердятся в промышленных условиях, это может приблизить индустрию к созданию универсальных роботов, не привязанных к узким сценариям.
Композиционное обобщение и перенос навыков
Модель π0.7 относится к классу «зрение-язык-действие» (Vision-Language-Action, VLA) и управляет роботами, объединяя визуальное восприятие, понимание естественного языка и генерацию физических действий. Главная отличительная черта — признаки композиционного обобщения: система комбинирует ранее усвоенные навыки для выполнения задач, с которыми раньше не сталкивалась.
В ходе тестирования π0.7 продемонстрировала ряд неожиданных способностей. Модель смогла управлять роботом UR5e и складывать футболки, хотя обучающая выборка не содержала данных о складывании белья именно на этой платформе.
«Compositional generalization is a key capability of large models like LLMs, but it has been elusive in robotics. Another emergent ability we found is to control a new robot (UR5e) to fold t-shirts, even though we didn't have any laundry folding data on this robot.» — Physical Intelligence (@physical_int), оригинальный пост
Разработчики отметили, что результаты сопоставимы с уровнем операторов, накопивших сотни часов опыта телеуправления. Помимо этого, робот справился с частью задачи по приготовлению батата в аэрогриле — сценарий, полностью отсутствовавший в тренировочных данных. По мнению команды, это стало возможным благодаря объединению разрозненных навыков — механизм, аналогичный тому, как большие языковые модели комбинируют знания из различных доменов.
Мультимодальное управление: не только «что», но и «как»
Принципиальное нововведение π0.7 — расширенная система управления. Модель принимает не только команды о том, что нужно сделать, но и уточнения о способе выполнения. Поддерживаются три типа входных данных:
- текстовые инструкции на естественном языке;
- метаданные — параметры скорости и качества выполнения;
- визуальные субцели — изображения ожидаемого результата на каждом этапе.
«π0.7 handles diverse prompts that don't just say what to do, but also how to do it, including rich language and multimodal information, such as visual subgoal images. At test time, these images can be produced by a lightweight world model.» — Physical Intelligence (@physical_int), оригинальный пост
Часть визуальных субцелей генерируется вспомогательной системой непосредственно в процессе работы. Это позволяет роботу корректировать поведение на лету, без дополнительного обучения. Архитектура также объединяет данные из разных источников — видеозаписи, телеметрию роботов и автономно собранные эпизоды — в единый обучающий пайплайн.
На пути к универсальным роботам
Команда Physical Intelligence подчеркнула, что композиционное обобщение долгое время оставалось прерогативой больших языковых моделей и считалось недостижимым в робототехнике. Модель π0.7 претендует на то, чтобы изменить эту ситуацию, работая «из коробки» и адаптируясь через языковые промпты.
При этом разработчики признают ограничения: без пошаговых инструкций модель не всегда справляется со сложными сценариями. Однако при последовательных подсказках качество выполнения существенно возрастает. В перспективе такой подход может лечь в основу обучения более автономных машин, способных действовать без постоянного участия оператора.
Physical Intelligence расценивает π0.7 как первый признак перехода к универсальным роботам — системам, которые адаптируются к новым условиям без ручной настройки под каждую отдельную задачу.
Часто задаваемые вопросы
Что такое модель π0.7 от Physical Intelligence?
Это ИИ-модель класса «зрение-язык-действие» (VLA), предназначенная для управления роботами. Её ключевая особенность — способность выполнять задачи, которым систему не обучали напрямую, комбинируя ранее усвоенные навыки.
Кто создал Physical Intelligence?
Стартап Physical Intelligence основан бывшими инженерами Google. Компания специализируется на разработке ИИ-моделей для робототехники.
Что такое композиционное обобщение в робототехнике?
Композиционное обобщение — это способность модели комбинировать ранее выученные навыки для решения новых, незнакомых задач. Ранее такая способность была характерна для больших языковых моделей, но в робототехнике оставалась недостижимой.
Какие задачи выполняет робот с π0.7 без обучения?
В тестах модель управляла роботом UR5e для складывания футболок без соответствующих данных в обучающей выборке. Также робот частично выполнил задачу по приготовлению батата в аэрогриле — сценарий, полностью отсутствовавший в тренировочных данных.
Как управлять роботом через π0.7?
Модель принимает текстовые инструкции, метаданные (скорость, качество выполнения) и визуальные субцели — изображения ожидаемого результата. Часть субцелей генерируется автоматически во время работы.
Читайте также
Alphabet отчиталась о рекордной квартальной выручке $94,7 млрд благодаря буму ИИ
Материнская компания Google превзошла прогнозы аналитиков по выручке и прибыли за первый квартал 2026 года, продемонстрировав мощный рост облачного сегмента и успешную интеграцию ИИ в поисковые сервисы.
Google представила нейросеть Nano Banana 2 и обновлённый видеосервис Flow
Google запустила модель Nano Banana 2 для генерации изображений на скорости Gemini Flash, а также масштабно обновила креативную платформу Flow.
ИИ-система Octane Security нашла критическую уязвимость в Ethereum-клиенте Nethermind
ИИ-система Octane Security обнаружила критическую уязвимость в Ethereum-клиенте Nethermind, способную остановить блокпроизводство у 38% валидаторов. Ethereum Foundation выплатил максимальную награду — $50 000.
Google расширил возможности ИИ-платформы Opal новыми агентами
Google расширил ИИ-платформу Opal новыми агентами на базе Gemini 3 Flash, позволяющими автоматизировать рабочие процессы без написания кода.
OpenAI получила $110 млрд в рекордном раунде при оценке $730 млрд
OpenAI закрыла крупнейший в истории стартапов раунд финансирования на $110 млрд. Основными участниками стали SoftBank, Nvidia и Amazon.
Google: для взлома биткоина квантовому компьютеру нужно в 20 раз меньше мощностей, чем считалось ранее
Исследователи Google установили, что для компрометации криптографической защиты Bitcoin и Ethereum может потребоваться менее 500 000 физических кубитов — это на порядок ниже прежних прогнозов.
