AI Research

AWS HyperPod'da Sismik Modelleri Ölçekleme

Jeobilimciler terabaytlarca sismik veride Vision Transformer modelleri eğitmenin aylarca sürecek hesaplama cehennemi olduğunu sanıyordu. TGS ve AWS onları susturdu — tam 5 günde bitirdiler, hem de daha geniş bağlam pencereleriyle.

SageMaker HyperPod kümesinin S3 veri akışıyla TGS sismik temel modellerini eğittiği mimari diyagram

Key Takeaways

  • TGS, SageMaker HyperPod'un neredeyse doğrusal ölçeklemesiyle SFM eğitimini 6 aydan 5 güne indirdi.
  • Direkt S3 akışı, dev 3D sismik hacimlerde veri throughput'unda Lustre'ı yendi.
  • Genişletilmiş bağlam pencereleri bütüncül jeolojik analiz sağlıyor, enerji keşfini yeniden şekillendiriyor.

AWS’da sismik temel modelleri ölçeklemek her zaman tam bir canavardı. Enerji teknolojisi ekibi klasik eziyeti bekliyordu: inatçı kümelerde aylarca dağıtık eğitim, veri tıkanıklıkları GPU’ları boğuyor, modeller yeraltı kaosunun küçücük dilimlerine bakakalıyor. Petrol devlerine sismik veri sağlayan kilit oyunculardan TGS sahneyi değiştirdi. AWS’nin GenAI İnovasyon Merkezi ile el ele verip SageMaker HyperPod‘da neredeyse doğrusal ölçekleme yakaladı — 6 aylık eğitimi 5 güne sığdırdı — ve daha önce kimsenin el sürmediği sismik hacimler için bağlam pencereleri açtı.

Bu abartı değil. Piyasayı sallayan matematik.

Bu ortak çözüm eğitim süresini 6 aydan sadece 5 güne düşürürken, daha önce mümkün olmayan büyüklükte sismik hacimlerin analizini sağladı.

TGS’nin kendi ağzından. Şokta yalnız değiller — enerji iş akışları bu Vision Transformer tabanlı sismik temel modellere (SFM’ler) dayanıyor, milyarlarca veri noktasından oluşan 3D hacimleri özel MDIO formatında yutuyor. Daha hızlı döngüler mi? O zaman müşteriler için rezervuar avında daha taze modeller, daha hızlı iterasyonlar.

Herkesin Beklediği — ve Neden Tamamen Yanılmış Oldukları

Şu sahneyi hayal edin: bulut tabanlı Zarr dizilerinde saklanan terabaytlık özel 3D sismik yığınlar. Üzerinde maskeli otoenkoder ViT eğitmek? Hesaplama canavarları. Veri karmaşıklığı bile — o karmaşık yeraltı kıvrımları — 141 GB H200 GPU’larını beslemek için akış sihri gerektiriyordu, boşta kalmadan. Verimlilik? Hayal ürünü sanılıyordu, Lustre dosya sistemleri tek çare diye, dev maliyetlerle ön yükleme yaparak.

Ama TGS her iki yolu da test etti. FSx for Lustre? Sub-milisaniye gecikme evet, ama günlerce depolama ayarla, önce S3’ten kopyala. MDIO’nun çoklu thread sihriyle S3’ten direkt akış? Düğüm başına eşzamanlı bağlantılar, aracı yok, throughput uçuyor. İkincisini seçtiler. Sonuç: GPU’lar zirvede vızıldıyor, tıkanıklık sıfır.

Asıl mesele şu — bu sadece daha hızlı değil. Yapısal değişim. Enerji firmaları keşif fiyaskolarına yılda milyarlar döküyor. Daha geniş jeolojik bağlamı kavrayan modeller — yerel faylar artı havza ölçeğinde desenler — isabet oranlarını tersine çevirebilir.

HyperPod’un Canavar Kümesi Nasıl Başardı

SageMaker HyperPod yan iş değil. AWS’nin temel model savaşlarındaki hamlesi: otomatik iyileşen dayanıklı kümeler, checkpoint’ler, IAM en az yetkiyle VPC’lerde kilitli. TGS 16 EC2 P5 örneği kurdu — toplam 128 NVIDIA H200, her biri 141 GB HBM3e, kasa başına 192 vCPU, 2 TB RAM, 3200 Gbps EFAv3 ile trader’ları kıskandıracak gecikme.

Dağıtık eğitim? Gelişmiş paralelleştirme — veri, tensor, pipeline — artı genişletilmiş pencereler için bağlam paralelliği. Düğümler arası neredeyse doğrusal ölçekleme. CloudTrail ve S3 logları? Paranoyaklar için denetim izi (enerjide akıllıca).

Rakamlar yalan söylemez. Veri hattı sarsılmayınca eğitim throughput’u patladı. Artık müşteri geri bildiriminde 6 ay bekleme yok.

Bakın, AWS bu rodeoda yeni değil ama jeobilim SFM’lerine bağlamak? Cesur. Benim görüşüm: 2015’teki ilaç GPU patlamasını andırıyor — AlphaFold öncüleri haftalar yerine gecelerde eğitildi, protein kıvrımlarını açtı. Burada HyperPod yeraltı görüntülemeyi aynı şekilde dönüştürebilir, 2026’ya kadar keşif başarı oranlarında 2-3 kat sıçrama getirir. TGS basın bülteninde iş birliğini öne çıkarıyor — adil — ama asıl zafer orta ölçekli kaşifler için dev 3D analizi sıradanlaştırmak, sadece süper majörlere değil.

SageMaker HyperPod AI Eğitimi İçin Abartılıyor mu?

Kısa cevap: hayır, eğer verin S3 tabanlı ve hacimselse.

Ezilen zorluklar: akışla veri ölçeği (MDIO burada parlıyor — TGS’ye açık kaynak selamı). Verimlilik? 5 gün her şeyi söylüyor. Genişletilmiş bağlam? ViT artık daha zayıf sistemleri çökertecek hacimleri yutuyor.

Şüpheciler sızlanabilir — P5 örnekleri ucuz değil, ölçekte 100 bin doları aşıyor koşu başına. Ama ROI? TGS daha hızlı iterasyon yapıyor, müşteriler başkalarının kaçırdığı tuzakları gören ü

Elena Vasquez
Written by

Senior editor and generalist covering the biggest stories with a sharp, skeptical eye.

Worth sharing?

Get the best AI stories of the week in your inbox — no noise, no spam.

Originally reported by AWS Machine Learning Blog