AI Research

Seismische Modelle auf AWS HyperPod skalieren

Geowissenschaftler rechneten mit endlosen Monaten Rechenmühe für Vision-Transformer-Modelle auf Terabyte seismischer Daten. TGS und AWS beweisen das Gegenteil: 5 Tage flach, plus fettere Kontextfenster drauf.

Architekturdiagramm des SageMaker HyperPod-Clusters beim Training von TGS seismischen Grundmodellen mit S3-Datenstreaming

Key Takeaways

  • TGS kürzt SFM-Training von 6 Monaten auf 5 Tage durch nahezu lineare Skalierung mit SageMaker HyperPod.
  • Direktes S3-Streaming schlägt Lustre bei Durchsatz für massive 3D-Seismikvolumen.
  • Erweiterte Kontextfenster ermöglichen ganzheitliche geologische Analysen und drehen Energieexploration um.

Das Skalieren seismischer Grundmodelle auf AWS war immer ein Biest. Jeder in der Energietechnik wartete auf den üblichen Albtraum: Monate verteiltes Training auf zickigen Clustern, Datenengpässe, die GPUs ersticken, Modelle, die nur winzige Lappen des unterirdischen Chaos erspähen. TGS, ein Top-Lieferant seismischer Daten für Ölriesen, kehrt alles um. Mit AWS GenAI Innovation Center knacken sie nahezu lineare Skalierung auf SageMaker HyperPod – 6 Monate Training auf 5 Tage gekürzt – und öffnen Kontextfenster für Seismikvolumen, die bisher tabu waren.

Kein Geschwätz. Das sind marktrelevante Zahlen.

Diese Lösung schraubt die Trainingszeit von 6 Monaten auf 5 Tage runter und erlaubt Analysen größerer Seismikvolumen als je zuvor.

TGS selbst sagt’s. Und der Schock sitzt tief – Energieworkflows leben von diesen Vision-Transformer-basierten seismischen Grundmodellen (SFMs). Die fressen 3D-Volumen mit Milliarden Datenpunkten im proprietären MDIO-Format. Schnellere Zyklen? Bedeutet rasante Iterationen, frischere Modelle für Kunden auf Reservoirjagd.

Was alle erwarteten – und warum sie gehörig danebenlagen

Stellen Sie sich vor: proprietäre 3D-Seismik-Stacks, Terabyte schwer, in cloud-nativen Zarr-Arrays. Ein masked-autoencoder ViT darauf trainieren? Rechenfresser pur. Die Datenkomplexität – diese verzwickten Untergrundfalten – verlangt Streaming-Zauberei, damit 141-GB-H200-GPUs durchgehend gefüttert werden, ohne Leerlauf. Effizienz? Wunschtraum, dachten alle, mit Lustre-Dateisystemen als Krücke, Vorbeladung um jeden Preis.

TGS testet beide Wege. FSx for Lustre? Submillisekunden-Latenz, klar, aber Tage Storage provisionieren, erst aus S3 kopieren. Direktes Streaming aus S3 via MDIOs multithreaded Magie? Pro Node parallele Verbindungen, keine Zwischenschritte, Throughput explodiert. Sie wählen Tür zwei. Ergebnis: GPUs auf Hochtouren, keine Engpässe.

Der Clou: Das ist nicht nur schneller. Das verschiebt Strukturen. Energiekonzerne verbrennen jährlich Milliarden mit Fehlbohrungen. Modelle, die breiteren geologischen Kontext kapieren – lokale Verwerfungen plus Beckenmuster – könnten Trefferquoten drehen.

Wie HyperPods Monstercluster das möglich macht

SageMaker HyperPod ist kein Nebenprojekt. AWS’ Waffe im Grundmodell-Krieg: resiliente Cluster mit Auto-Healing, Checkpointing, alles in VPCs mit IAM-Least-Privilege. TGS startet 16 EC2-P5-Instanzen – 128 NVIDIA H200s insgesamt, je 141 GB HBM3e, 192 vCPUs pro Kiste, 2 TB RAM, 3200 Gbps EFAv3 für Latenz, die Trader neidisch macht.

Verteiltes Training? Fortschrittliche Parallelisierung – Data, Tensor, Pipeline – plus Context-Parallelismus für die erweiterten Fenster. Nahezu lineare Skalierung über Knoten. CloudTrail und S3-Logs? Audit-Trail für Paranoiker (klug in der Energiebranche).

Zahlen lügen nicht. Training-Throughput explodiert, weil der Datenpfad nicht wankt. Kein Warten mehr auf 6 Monate bei Kundenfeedback.

Und hey, AWS kennt das Spiel, aber mit Geowissenschaften-SFMs verknüpft? Mutig. Mein Tipp: Das erinnert an den GPU-Boom in der Pharma 2015 – AlphaFold-Vorgänger über Nacht trainiert statt Wochen, Proteinstrukturen geknackt. Hier könnte HyperPod dasselbe für Untergrundbilder tun, mit 2-3x höheren Erfolgsquoten bis 2026. TGS-PR betont Kooperation – okay – doch der echte Coup: Massive 3D-Analyse für Mittelständler, nicht nur Supermajore.

Lohnt SageMaker HyperPod den Hype beim AI-Training?

Kurz: Ja, bei S3-nativen Volumendaten. Aber zerlegen wir’s.

Probleme geknackt: Datenskalen via Streaming (MDIO glänzt – Open-Source-Dank an TGS). Effizienz? 5 Tage sprechen Bände. Erweiterter Kontext? ViT frisst Volumen, die andere zum Absturz bringen.

Skeptiker meckern: P5-Instanzen sind nicht billig, über 100k Dollar pro Run bei Scale. Aber ROI? TGS iteriert flotter, Kunden kriegen Top-Modelle, die Fallen wittern, die andere übersehen. Markt drückt: Energys AI-Ausgaben bei 5 Mrd. Dollar letzte

Elena Vasquez
Written by

Senior editor and generalist covering the biggest stories with a sharp, skeptical eye.

Worth sharing?

Get the best AI stories of the week in your inbox — no noise, no spam.

Originally reported by AWS Machine Learning Blog