AI Research

Масштабирование сейсмических моделей на AWS HyperPod

Геофизики привыкли, что обучение Vision Transformer на терабайтах сейсмических данных — это месяцы вычислительного ада. TGS и AWS только что опровергли это: ровно 5 дней, плюс расширенные контекстные окна в комплекте.

Диаграмма архитектуры кластера SageMaker HyperPod, обучающего сейсмические фундаментальные модели TGS со стримом данных из S3

Key Takeaways

  • TGS сократила обучение SFM с 6 месяцев до 5 дней за счёт почти линейного масштабирования на SageMaker HyperPod.
  • Прямой стрим из S3 обошёл Lustre по пропускной способности для массивных 3D-сейсмических объёмов.
  • Расширенные контекстные окна позволяют целостный геологический анализ, меняя правила разведки.

Масштабирование сейсмических фундаментальных моделей в AWS всегда было настоящим зверем. В энергетическом IT все ждали стандартной рутины: месяцы распределённого обучения на капризных кластерах, данные, душат GPU в узких местах, модели, вечно уставившиеся на жалкие кусочки подземного бардака. TGS, ключевой поставщик сейсмических данных нефтяным гигантам, переписала сценарий. В паре с GenAI Innovation Center от AWS они выжали почти линейное масштабирование на SageMaker HyperPod — 6-месячное обучение в 5 дней — и распахнули контекстные окна для сейсмических объёмов, до которых никто не добирался.

Это не развод. Это математика, которая меняет рынок.

Это совместное решение сократило время обучения с 6 месяцев до каких-то 5 дней, позволив анализировать сейсмические объёмы большего размера, чем раньше.

Слова самого TGS. И шок не только у них — энергетические процессы держатся на этих моделях на базе Vision Transformer, сейсмических фундаментальных моделях (SFM), которые пережёвывают 3D-объёмы с миллиардами точек в проприетарном формате MDIO. Быстрее циклы? Значит, ускоренные итерации и модели посвежее для клиентов, рыщущих по резервуарам.

Что все ожидали — и почему жестоко ошиблись

Представьте: проприетарные 3D-сейсмические стеки в терабайтах, в облачных Zarr-массивах. Обучить masked autoencoder ViT на этом? Вычислительные пожиратели энергии. Сложность данных — эти подземные складки — требовала потоковых фокусов, чтобы кормить 141-гигабайтные H200 GPU без простоя. Эффективность? Фата-моргана, думали все, с Lustre-файловыми системами как костылём и предзагрузкой данных за бешеные деньги.

Но TGS проверила оба пути. FSx for Lustre? Латентность меньше миллисекунды, да, но настраиваешь хранилище на дни, копируешь из S3 заранее. Прямой стрим из S3 через многопоточное чудо MDIO? Параллельные соединения на узел, без посредников, пропускная способность на максимуме. Выбрали второй вариант. Итог: GPU на пике, без пробок.

Вот в чём соль — это не просто ускорение. Это сдвиг тектонических пластов. Энергокомпании сжигают миллиарды ежегодно на провальных разведках. Модели, которые схватывают широкий геологический контекст — локальные разломы плюс бассейновые паттерны, — могут перевернуть коэффициент успеха.

Как зверский кластер HyperPod всё провернул

SageMaker HyperPod — не побочный проект. Это ход AWS в войне за фундаментальные модели: устойчивые кластеры с автолечением, чекпоинтингом, всё в VPC с IAM-принципом минимальных прав. TGS запустили 16 EC2 P5-инстансов — итого 128 NVIDIA H200, по 141 ГБ HBM3e на каждой, 192 vCPU на коробку, 2 ТБ RAM и 3200 Gbps EFAv3 для латентности, которой позавидуют трейдеры.

Распределённое обучение? Продвинутый параллелизм — data, tensor, pipeline — плюс контекстный параллелизм для расширенных окон. Почти линейное масштабирование по узлам. CloudTrail и логи S3? Аудит для параноиков (а в энергетике это норма).

Цифры не врут. Пропускная способность обучения взлетела, потому что пайплайн данных не дрогнул. Больше никаких 6-месячных ожиданий под фидбек клиентов.

И знаете, AWS не новичок в этом цирке, но связать с геосейсмическими SFM? Смело. Мой вердикт: это как GPU-бум в фарме в 2015-м — предшественники AlphaFold обучались за ночь вместо недель, открыв белковые складки. Здесь HyperPod может то же для подповерхностного имиджинга, обещая 2–3-кратный рост успеха разведки к 2026-му. TGS подаёт как коллаб — честно, — но главная фишка в том, чтобы сделать массовый 3D-анализ доступным средним игрокам, а не только супермейджорам.

Стоит ли SageMaker HyperPod хайпа для обучения ИИ?

Коротко: да, если данные в S3 и объёмные. Но разберём по косточкам.

Проблемы раздавлены: масштаб данных через стрим (MDIO тут блестит — респект TGS за open source). Эффективность? 5 дней говорят сами за себя. Расширенный контекст? ViT теперь глотает объёмы, которые сломали бы другие setups.

Скептики заворчат — P5-инстансы не дёшево, $100k+ з

Elena Vasquez
Written by

Senior editor and generalist covering the biggest stories with a sharp, skeptical eye.

Worth sharing?

Get the best AI stories of the week in your inbox — no noise, no spam.

Originally reported by AWS Machine Learning Blog