20 października 2025 roku doszło do poważnej awarii Amazon Web Services (AWS), jednej z największych na świecie platform chmurowych, która trwała kilka godzin i wpłynęła na globalny dostęp do wielu popularnych stron internetowych oraz aplikacji. Awaria rozpoczęła się około godziny 07:11 GMT w centrum danych AWS w Virginia – najstarszym i największym obiekcie tego typu należącym do Amazona.
Przyczyną problemu była błędna aktualizacja API usługi DynamoDB, bazy danych obsługującej dane użytkowników i systemy wielu aplikacji. Ta aktualizacja naruszyła działanie systemu DNS, który jest odpowiedzialny za tłumaczenie nazw domen na adresy IP, niezbędne do prawidłowego działania aplikacji. W efekcie setki usług, w tym 113 różnych usług AWS, przestały działać prawidłowo, co spowodowało awarie takich aplikacji i serwisów jak Snapchat, Pinterest, Apple TV, WhatsApp, Zoom, Slack, Fortnite, Roblox, Starbucks, Etsy oraz wiele innych.
Problemy odnotowały także instytucje finansowe (np. Venmo, Coinbase), media (Associated Press, The New York Times, The Wall Street Journal), platformy edukacyjne i projektowe (Duolingo, Canva) oraz firmy telekomunikacyjne i transportowe (Delta Air Lines, United). Nawet urządzenia IoT, takie jak dzwonki Ring i asystent Alexa, przestały działać.
AWS potwierdził pełne przywrócenie usług około godziny 13:00 czasu wschodniego USA (ET) i kontynuuje przetwarzanie zaległych komunikatów przez kolejne godziny. Firma oceniła, że awaria była stosunkowo ograniczona pod względem zasięgu i że klienci raczej nie odejdą od AWS, ponieważ ich systemy są głęboko zintegrowane z tą infrastrukturą.
Ta awaria pokazała, jak bardzo współczesne usługi internetowe i aplikacje są zależne od infrastruktury chmurowej, a także jak skomplikowane i szerokie mogą być skutki nawet pojedynczej wewnętrznej aktualizacji w takim systemie.
Ryzyko centralizacji usług
Sytuacja z AWS ukazuje ogromne ryzyko związane z centralizacją usług w jednym dostawcy i regionie chmurowym, gdzie błąd w jednym komponencie (tu API DynamoDB i problem z DNS) może zablokować dostęp do setek różnych aplikacji i usług globalnie. Z punktu widzenia ciągłości działania ta sytuacja podkreśla konieczność wdrożenia strategii wieloregionalnych lub wielochmurowych, aby ograniczyć ryzyko koncentracji i uniknąć pojedynczego punktu awarii. Firmy korzystające z chmury powinny także mieć gotowe plany awaryjne, obejmujące mechanizmy automatycznego przełączenia ruchu i redundancję danych oraz usług.
Awaria czy cyberatak? Istotny jest skutek.
Z perspektywy bezpieczeństwa ważne jest, aby pamiętać, że chociaż ta awaria nie była cyberatakiem, techniczne błędy konfiguracyjne w infrastrukturze chmurowej mogą mieć równie przykre skutki jak ataki. Wymaga to od zespołów odpowiedzialnych za bezpieczeństwo i infrastrukturę ciągłego monitorowania, automatyzacji testów i walidacji zmian oraz szybkie reagowanie na incydenty.
Ponadto, incydent uwypuklił problem zależności całych ekosystemów aplikacji od wspólnych usług bazowych, takich jak DNS czy autoryzacja. Organizacje muszą rozważyć implementację dodatkowych warstw własnych mechanizmów uwierzytelniania i mechanizmów zapasowych do kluczowych komponentów architektury.
Awaria Amazon Web Services jest przypomnieniem, a przynajmniej powinna być, dla wszystkich organizacji korzystających z chmury, że bezpieczeństwo i ciągłość działania muszą być rozumiane i zarządzane kompleksowo, łącznie z planowaniem odporności na awarie dostawcy chmury oraz wielowarstwowym podejściem do redundancji i odtwarzania systemów krytycznych.
W świecie, gdzie infrastruktura cyfrowa stanowi kręgosłup gospodarki, kluczowe staje się:
- zarządzanie ryzykiem koncentracji technologicznej,
- planowanie redundancji i testowanie scenariuszy awaryjnych,
- sprawna komunikacja kryzysowa,
- oraz kultura uczenia się z incydentów, a nie tylko reagowania na nie.
Nie można zapobiec każdej awarii. Można jednak sprawić, by nie zatrzymała całej organizacji. Jeśli potrzebujecie wsparcia w budowaniu odporności cyfrowej, operacyjnej i strategicznej, zanim wydarzy się kolejny „czarny poniedziałek” internetu, zachęcamy do kontaktu z nami.