AI Research

JEPA: архитектура, которая нужна ИИ для истинного понимания

Мы создали ИИ, который пишет стихи и сдаёт экзамены, но спотыкается, когда падает чашка кофе. Проблема в масштабе или в фундаментальных архитектурных изъянах?

«Тихий скандал» в ИИ: почему JEPA наконец научит машины здравому смыслу — theAIcatchup

Key Takeaways

  • Современные генеративные модели ИИ отлично предсказывают токены/пиксели, но не обладают причинным пониманием реального мира, в отличие от людей.
  • JEPA (Joint Embedding Predictive Architecture) стремится обучать ИИ, предсказывая абстрактные представления (смысл), а не сырые данные, что отражает человеческую интуицию.
  • Этот архитектурный сдвиг может открыть истинные возможности ИИ для рассуждений, что имеет значительные последствия для таких областей, как робототехника и автономные системы.

Мы тренируем ИИ быть умным или просто очень хорошо угадывать следующее слово?

Посудите сами: Кремниевая долина десятилетиями мастерски продавала нам пустышки. Мы видели всё: «революционные» приложения, которые растворились в забвении, «прорывные» платформы, которые оказались лишь красивой обёрткой для уже существующего. И вот, новая блестящая игрушка — генеративный ИИ, особенно эти гигантские языковые модели, способные с пугающей беглостью генерировать тексты, код и даже видео. Впечатляет, не спорю. Но вот что удобно умалчивают маркетинговые отделы: попросите этих триллионно-параметровых гигантов предсказать, что произойдёт, если уронить чашку кофе, и они споткнутся. Двухлетний ребёнок поймёт. ИИ? Нет.

Этот разрыв, этот разительный контраст между утончёнными лингвистическими способностями и элементарной интуицией реального мира, главный научный сотрудник Meta по ИИ Ян ЛеКун и его растущая команда исследователей называют скандалом. А их предлагаемое противоядие имеет весьма несексуальное название: JEPA – Joint Embedding Predictive Architecture (Архитектура совместного вложения для прогнозирования).

Это следующий большой прорыв или просто ещё один хитроумный акроним для привлечения венчурного капитала? Я наблюдаю за этим цирком уже два десятилетия, и мой детектор лжи обычно откалиброван достаточно точно. Хайп вокруг генеративного ИИ, при всей своей ослепительности, всегда ощущался немного пустым, когда копнёшь глубже его фундаментальные ограничения. Мы создаём модели, которые превосходно имитируют, предсказывают следующий токен в последовательности. Но понимание? Реальное осмысление того, как устроен мир? Этого явно не хватает.

Тупик генеративного ИИ?

Доминирующая стратегия последних нескольких лет — грубая сила: больше сетей, больше данных, предсказание следующей части. Это рецепт GPT, Sora и всего генеративного бума. И некоторое время казалось, что это путь к искусственному общему интеллекту. Но стоит копнуть глубже, и обнаруживаешь модели, которые могут писать сонеты о физике, но не способны проанализировать простейший физический сценарий. Генераторы видео создают фотореалистичных драконов, но не могут последовательно нарисовать человеческую руку с нужным количеством пальцев. Планирование на сколько-нибудь значимом временном горизонте? Забудьте. Они скатываются в уверенно звучащую чепуху.

Проблема, как неустанно подчёркивает ЛеКун, не только в том, что модели слишком малы. Дело в фундаментальной цели: предсказание следующего пикселя или токена. Большая часть этих данных — шум: вариации освещения, зернистость камеры, текстуры, которые совершенно не важны для понимания лежащего в основе события. Модель, вынужденная предсказывать каждую мелочь, сжигает огромные вычислительные ресурсы на пустяки. А когда будущее неопределённо — а в реальном мире оно почти всегда такое, — усреднение всех возможных будущих состояний на уровне пикселей даёт лишь размытое пятно. Это как пытаться узнать вкус яблока, скрупулёзно каталогизируя цвет каждого отдельного семечка.

Если я уроню чашку кофе с края стола, двухлетний ребёнок знает, что произойдёт дальше. Языковая модель с триллионом параметров, предоставленная самой себе, — нет.

Вот в чём суть проблемы. Мы тренировали ИИ быть невероятно красноречивыми попугаями, а не подлинными мыслителями.

Ставка ЛеКуна: предсказание смысла, а не пикселей

Итак, каковы альтернативы? Ставка ЛеКуна обманчиво проста: перестать предсказывать сырые данные. Начать предсказывать представление данных. Подумайте, как учимся мы, люди. Когда вы видите падающий лист, ваш мозг не воссоздаёт каждый отдельный фотон. Он строит абстрактное понимание: лист, падающий, с определённой скоростью, в определённом направлении. Эти абстрактные смыслы позволяют вам прогнозировать, что произойдёт дальше, отбрасывая пиксельный шум. В этом интуиция JEPA.

Модель JEPA берёт два связанных фрагмента информации — скажем, два кадра видео или разные части изображения — и вместо того, чтобы пытаться предсказать точные пиксели отсутствующей части, она предсказывает абстрактное вложение этой отсутствующей части. Она учится сопоставлять смысл известного контекста со смыслом предсказываемого будущего. Функция потерь сравнивает не сырые пиксели, а абстрактные представления, или «смысл». Это заставляет модель учиться более сжатому, более осмысленному пониманию мира, отбрасывая нерелевантные детали.

И кто же здесь на самом деле зарабатывает? Ну, сейчас это в основном исследовательские лаборатории и несколько хорошо финансируемых стартапов. Meta во главе с ЛеКуном вкладывает значительные средства. Но если JEPA оправдает себя, представьте себе системы ИИ, которые могут по-настоящему планировать, обладают пониманием физики, могут рассуждать о причинно-следственных связях. Это имеет огромные последствия для робототехники, автономных систем и любой области, где ИИ должен взаимодействовать с непредсказуемым, запутанным реальным миром и понимать его. Компании, которые смогут построить такие системы, будут грести деньги лопатой.

Почему это важно для разработчиков?

Для разработчиков этот сдвиг может быть глубоким. Вместо того, чтобы просто отправлять промпт в чёрный ящик для получения текста, вы можете взаимодействовать с системами ИИ, которые обладают более сильной внутренней моделью мира. Это может привести к созданию более надёжных ИИ-ассистентов, более изощрённых инструментов для научных исследований и совершенно новых категорий приложений, требующих реального мышления и прогнозирования. Текущие генеративные модели мощны, но они часто ощущаются как невероятно изощрённые автозаполнители. Системы на базе JEPA обещают нечто более близкое к реальному интеллекту, что открывает совершенно новую вселенную возможностей для того, что могут создавать разработчики.

Эта идея JEPA развивается медленно. Завтра вы не увидите эффектных демонстраций падающих чашек кофе. Но тихая, настойчивая работа, проводимая в лабораториях, подобных Meta, предполагает, что индустрия осознаёт ограничения своего текущего пути. Генеративный «обходной путь», хотя и плодотворный, может подходить к концу. Настоящий интеллект, тот, который понимает мир, может просто скрываться у всех на виду, в архитектуре, которая учится так же, как мы.

Заменит ли это мою работу?

JEPA, как и любое продвижение в области ИИ, призвано дополнить человеческие возможности, а не обязательно заменить целые рабочие места. Хотя ИИ может автоматизировать определённые задачи, он также создаёт новые роли и возможности в таких областях, как разработка ИИ, управление и этический надзор.

В чём разница между JEPA и текущими LLM?

LLM предсказывают следующий токен (слово/символ) в последовательности, фокусируясь на лингвистических паттернах. JEPA предсказывает абстрактные представления (вложения) данных, стремясь к более глубокому, причинному пониманию мира, а не просто к статистическим корреляциям.

Доступна ли JEPA коммерчески?

JEPA в настоящее время является активной областью исследований. Хотя компоненты и связанные с ними идеи интегрируются в различные системы ИИ, отдельного коммерчески доступного продукта JEPA ещё нет. Такие компании, как Meta, активно участвуют в её разработке.


🧬 Связанные материалы

Written by
theAIcatchup Editorial Team

AI news that actually matters.

Worth sharing?

Get the best AI stories of the week in your inbox — no noise, no spam.

Originally reported by Towards AI