$5,4 млрд — и их как не бывало.
Именно такую сумму влетели компаниям Fortune 500 19 июля 2024-го из-за сбоя в датчике CrowdStrike Falcon, который вырубил 8,5 млн Windows-машин. Авиакомпании встали, больницы отменили операции, даже подготовка к Олимпиаде дала сбой — всё из-за одной обновки с логической ошибкой. CrowdStrike быстро признался, выпустил патч, отчитался перед Конгрессом, пообещал тщательное тестирование. Нормальные шаги. Но вот гром среди ясного неба, который они пропустили: усилитель в виде древних IoT-внутренностей, где наши системы мониторинга глотают события с устройств без разбору.
Представьте: как кормить щепорубку случайными брёвнами посреди лесного пожара. Сбои, циклы перезагрузок, отчаянные переподключения из перегруженных сетей — всё летит вразнобой. Правит бал last-write-wins, время прибытия события выдаёт себя за истину. Дашборды мигают фантомами: системы помечены мёртвыми, хотя перезагрузились минуты назад, или живые валятся в обморок незамеченными, потому что их “восстановительный” пинг опередил сигнал сбоя. Команды операторов пялятся в этот бардак, сортируя по наитию, гоняя инженеров за призраками, пока настоящие трупы ждут помощи.
Страховщики оценили прямые убытки только для американских компаний Fortune 500 от сбоя CrowdStrike в $5,4 млрд.
Жестоко, правда? Delta потеряла $550 млн, подала на CrowdStrike в суд за халатность — и понеслись взаимные иски. Но копнём глубже. Почему Delta ковыляла в сеть медленнее конкурентов? Их мониторинг, скорее всего, жрал тот же неверифицированный мусор. Без оценок уверенности событий. Без проверки на инверсии порядка. Решения наобум вместо чистых данных. Представьте, как вы гоняете пожарных тушить тлеющие угли, пока вокруг бушуют пожары — вот такая ваша IT-война.
Почему дашборды предали всех?
В высоконагруженном хаосе неизбежны инверсии. Сети икают под нагрузкой, циклы загрузки разнятся, события прибывают как пьяные пассажиры. Стандартные IoT-стеки — ICS, OT-протоколы, 180 тысяч открытых IP в месяц по Bitsight — воспринимают каждый всплеск за чистую монету. Ни один слой не проверяет качество доказательств. Хлипкий артефакт с уверенностью 0,23 стоит наравне с железобетонным отчётом о сбое. Команды тратят часы на иллюзии, восстановление растягивается на дни.
А вот мой свежий взгляд, исторический хук, о котором никто не орёт: это повтор 1990-го с крахом AT&T. Маленькая софтовая ошибка разрослась, потому что мониторинг не мог отличить шум от реальных сбоев — коммутационные сети встали по всей стране, 75 млн звонков оборвалось за часы. Знакомо? Мы переигрываем это в IoT-шкале, но с куда жирнее кошельками на кону. Тогда телекомы пришили нормальную диагностику. А сегодня? Корпоративный IT дрыхнет, упившись обещаниями вендоров.
CrowdStrike — не злодей, датчики у них острые, — но они оседлали цунами архитектурной гнили, существовавшей задолго до них. Проблема в стеке ниже: процессоры событий слепы к реальной несуразице.
А если бы ИИ проверял каждое событие?
Пристегнитесь. Час платформенного сдвига. ИИ — не просто болтливые помощники, а мотор правды событий, о котором мы мечтали. Представьте нейросети, оценивающие каждый пинг: отпечатки задержек, проверки шаблонов на адекватность, детекторы инверсий за миллисекунды. Не хайп, реально сейчас с трансформерами, обученными на аутопсиях сбоев. Delta могла бы расставить приоритеты: “Этот кластер в петле лжи — игнорь. Тот орёт правду — на него всем скопом”. Восстановление? Часы, не дни. Миллиарды спасены.
Но компании топчутся. PR раздувает баг, игнорируя дыру в инфраструктуре. Скептически? Я тоже. Вендоры толкают “устойчивость”, не трогая верификацию. Смелый прогноз: к 2026-му ИИ-стражи событий войдут в мейнстрим, иначе сожрём ещё один $10-миллиардный завтрак. IoT — не игрушки, это артерии фабрик, рейсов, больниц. Пора вшить мозги.
Короткий панч: проверьте.
А теперь размажемся по схеме фикса. Забудьте last-write-wins в пользу вероятностного слияния состояний — байесовские об