OpenAI и Пентагон: вскрытые риски безопасности

OpenAI пошёл в военные.

Не в какой-то размытой роли советника — это полноценное партнёрство с Пентагоном, объявленное под аккомпанемент слухов о засекреченных frontier-моделях ИИ для национальной безопасности. Сделка мелькнула в свежих отчётах и загадочных постах Сэма Альтмана, обещая внедрить технологии OpenAI в оборонные системы. Но вот в чём закавыка: все спорят об этике и миссии, а настоящий вопрос — тот, что никто не задаёт в полный голос, — выдержат ли их предохранители безопасности на поле боя.

OpenAI с самого начала проповедует alignment. Помните превью o1? Всё про цепочки рассуждений с самопроверкой на вред. Но Хейди Хлааф, главный ИИ-учёный в некоммерческом AI Now Institute, разложила по полочкам:

«Что касается предохранителей безопасности для “высокорисковых решений” или слежки, то существующие ограничения генеративного ИИ серьёзно хромают, и уже доказано, как легко их обойти — намеренно или случайно. Маловероятно, что если они не справляются с безобидными случаями, то выдержат сложные военные операции и слежку».

В точку. Мы это видели: jailbreak через эмодзи-цепочки, ролевые промпты, переключающие защиту как выключатель. OpenAI лихорадочно патчит — ладно. Но армия? Там не реддитские тролли, а противники с бюджетами государств, выискивающие zero-day в реальном времени.

Почему предохранители OpenAI ломаются под давлением?

Начнём с архитектуры. Генеративный ИИ вроде GPT — это вероятностные попугаи, обученные на огромных данных предсказывать следующий токен. Безопасность? Доклеена постфактум: RLHF (обучение с подкреплением на основе отзывов людей), constitutional AI — это латание дыр на фундаменте, который галлюцинирует по определению. Добавьте военные решения с высокими ставками — опознавание целей по дрон-снимкам, например, — и схема вскроется.

Вероятностные выходы — это неопределённость. Модель выдаёт confidence scores, да, но противники подстраивают входные данные. Подайте отравленные данные, имитирующие маскировку врага? Полетят ложные срабатывания. Почему? Законы масштабирования упираются в стену; большие модели не выравниваются волшебным образом — они усиливают предвзятости из тренировочного мусора. o1 от OpenAI пробует chain-of-thought для пошагового мышления, но это декорация. Тесты показывают: она сдувается под умелыми атаками, как в отчётах Anthropic по red-teaming (да, конкуренты сливают инфу).

Но — поворот сюжета — OpenAI это знает. Их статьи по STRRLM признают: emergent behaviors выходят из-под контроля. Так зачем Пентагон? Деньги, разумеется. Оборонные бюджеты затмевают гражданский венчур. Но пахнет это изменой миссии. Помните их старый устав? Военное использование под запретом. Альтман отменил год назад, сославшись на “оборонительные” нужды. Мило, но слежка — не оборона.

Один вывод, который все пропустили: это повторение рождения интернета. DARPA профинансировала ARPANET в 60-х для нуклеароустойчивой связи, родив TCP/IP. Коммерциализировали? Конечно. Но ранний военный надзор заложил бэкдоры — вспомните корни NSA PRISM. OpenAI-Пентагон? Тот же сценарий. Frontier-модели, закалённые для войны, посеют в гражданский dual-use tech невидимые крючки. Не теория заговора — история.

Может ли пентагоновский бюджет починить alignment-хаос OpenAI?

Коротко: нет.

Подробно — как неудачная политика. OpenAI жжёт 7 млрд долларов в год только на вычисления — TPU, H100 штабелями до неба. Военные контракты подсластят, может, откроют DoD-датасеты для дообучения. Но alignment — камень преткновения. Текущие предохранители — activation steering, методы дебатов — лабораторные игрушки. Масштабируй до слежки (пограничные камеры, распознающие лица в толпе) или решений (автономные дроны, выбирающие цели) — и энтропия побеждает.

Почему? Петли обратной связи рушатся. Гражданский RLHF опирается на краудворкеров, ловящих вред. В армии? Всё засекречено. Нет публичных red-team. Хлааф в яблочко: безобидные случаи ломают сейчас. Представьте случайный сбой — модель неверно прочтёт разведку, спровоцирует стычку. Или