Klikając „Akceptuj wszystkie pliki cookie”, zgadzasz się na przechowywanie plików cookie na swoim urządzeniu w celu ułatwienia nawigacji po stronie, analizy korzystania ze strony oraz wspierania naszych działań marketingowych. Zobacz naszą Politykę prywatności, aby uzyskać więcej informacji.
Artykuł

Awaria AWS a ryzyko centralizacji usług

Davidson Consulting

Eksperci ds. zarządzania kryzysowego i ciągłości działania

Ta awaria pokazała, jak bardzo współczesne usługi internetowe i aplikacje są zależne od infrastruktury chmurowej, a także jak skomplikowane i szerokie mogą być skutki nawet pojedynczej wewnętrznej aktualizacji w takim systemie.‍

20 października 2025 roku doszło do poważnej awarii Amazon Web Services (AWS), jednej z największych na świecie platform chmurowych, która trwała kilka godzin i wpłynęła na globalny dostęp do wielu popularnych stron internetowych oraz aplikacji. Awaria rozpoczęła się około godziny 07:11 GMT w centrum danych AWS w Virginia – najstarszym i największym obiekcie tego typu należącym do Amazona.

Przyczyną problemu była błędna aktualizacja API usługi DynamoDB, bazy danych obsługującej dane użytkowników i systemy wielu aplikacji. Ta aktualizacja naruszyła działanie systemu DNS, który jest odpowiedzialny za tłumaczenie nazw domen na adresy IP, niezbędne do prawidłowego działania aplikacji. W efekcie setki usług, w tym 113 różnych usług AWS, przestały działać prawidłowo, co spowodowało awarie takich aplikacji i serwisów jak Snapchat, Pinterest, Apple TV, WhatsApp, Zoom, Slack, Fortnite, Roblox, Starbucks, Etsy oraz wiele innych.

Problemy odnotowały także instytucje finansowe (np. Venmo, Coinbase), media (Associated Press, The New York Times, The Wall Street Journal), platformy edukacyjne i projektowe (Duolingo, Canva) oraz firmy telekomunikacyjne i transportowe (Delta Air Lines, United). Nawet urządzenia IoT, takie jak dzwonki Ring i asystent Alexa, przestały działać.

AWS potwierdził pełne przywrócenie usług około godziny 13:00 czasu wschodniego USA (ET) i kontynuuje przetwarzanie zaległych komunikatów przez kolejne godziny. Firma oceniła, że awaria była stosunkowo ograniczona pod względem zasięgu i że klienci raczej nie odejdą od AWS, ponieważ ich systemy są głęboko zintegrowane z tą infrastrukturą.

Ta awaria pokazała, jak bardzo współczesne usługi internetowe i aplikacje są zależne od infrastruktury chmurowej, a także jak skomplikowane i szerokie mogą być skutki nawet pojedynczej wewnętrznej aktualizacji w takim systemie.

Ryzyko centralizacji usług

Sytuacja z AWS ukazuje ogromne ryzyko związane z centralizacją usług w jednym dostawcy i regionie chmurowym, gdzie błąd w jednym komponencie (tu API DynamoDB i problem z DNS) może zablokować dostęp do setek różnych aplikacji i usług globalnie. Z punktu widzenia ciągłości działania ta sytuacja podkreśla konieczność wdrożenia strategii wieloregionalnych lub wielochmurowych, aby ograniczyć ryzyko koncentracji i uniknąć pojedynczego punktu awarii. Firmy korzystające z chmury powinny także mieć gotowe plany awaryjne, obejmujące mechanizmy automatycznego przełączenia ruchu i redundancję danych oraz usług.

Awaria czy cyberatak? Istotny jest skutek.

Z perspektywy bezpieczeństwa ważne jest, aby pamiętać, że chociaż ta awaria nie była cyberatakiem, techniczne błędy konfiguracyjne w infrastrukturze chmurowej mogą mieć równie przykre skutki jak ataki. Wymaga to od zespołów odpowiedzialnych za bezpieczeństwo i infrastrukturę ciągłego monitorowania, automatyzacji testów i walidacji zmian oraz szybkie reagowanie na incydenty.

Ponadto, incydent uwypuklił problem zależności całych ekosystemów aplikacji od wspólnych usług bazowych, takich jak DNS czy autoryzacja. Organizacje muszą rozważyć implementację dodatkowych warstw własnych mechanizmów uwierzytelniania i mechanizmów zapasowych do kluczowych komponentów architektury.

Awaria  Amazon Web Services jest przypomnieniem, a przynajmniej powinna być, dla wszystkich organizacji korzystających z chmury, że bezpieczeństwo i ciągłość działania muszą być rozumiane i zarządzane kompleksowo, łącznie z planowaniem odporności na awarie dostawcy chmury oraz wielowarstwowym podejściem do redundancji i odtwarzania systemów krytycznych.

W świecie, gdzie infrastruktura cyfrowa stanowi kręgosłup gospodarki, kluczowe staje się:

  • zarządzanie ryzykiem koncentracji technologicznej,
  • planowanie redundancji i testowanie scenariuszy awaryjnych,
  • sprawna komunikacja kryzysowa,
  • oraz kultura uczenia się z incydentów, a nie tylko reagowania na nie.

Nie można zapobiec każdej awarii. Można jednak sprawić, by nie zatrzymała całej organizacji. Jeśli potrzebujecie wsparcia w budowaniu odporności cyfrowej, operacyjnej i strategicznej, zanim wydarzy się kolejny „czarny poniedziałek” internetu, zachęcamy do kontaktu z nami.

Zapisz się już teraz! 

Subskrybując newsletter Davidson Consulting, otrzymujesz merytoryczne analizy z zakresu zarządzania ryzykiem, ciągłości działania, cyberbezpieczeństwa i compliance (m.in. DORA, NIS2), a także informacje o naszych usługach i produktach, które pomogą Ci skutecznie wdrożyć prezentowane strategie.  

Pamiętaj, Twoja subskrypcja jest w pełni dobrowolna i możesz ją anulować w każdej chwili jednym kliknięciem.
* - Pole obowiązkowe
Dziękujemy za zapisanie się do Forum Ekspertów Odporności Operacyjnej.
Ups! Coś poszło nie tak podczas uzupełnienia formy. Spróbuj ponownie lub skontaktuj się bezpośrednio.

Najnowsze artykuły

ENISA 2025: wyzwania i zalecenia dla UE

Europejska Agencja ds. Cyberbezpieczeństwa (ENISA) opublikowała raport Threat Landscape 2025, przedstawiający przegląd ekosystemu cyberzagrożeń w Europie wokresie od lipca 2024 do czerwca 2025 roku.
Czytaj dalej
Raport

ENISA 2025: wyzwania i zalecenia dla UE

Cyberbezpieczeństwo
Geopolityka a biznes
Bezpieczeństwo łańcucha dostaw
ENISA, raport, cyberbezpieczeństwo, threats
Administracja publiczna
IT i technologia

Globalna awaria Azure Front Door

Analiza incydentu i wnioski dla sektora finansowego (i nie tylko)
Czytaj dalej
Case Study

Globalna awaria Azure Front Door

Cyberbezpieczeństwo
Zarządzanie kryzysowe
Bezpieczeństwo łańcucha dostaw
Incydenty
awaria Microsoft Azure, awaria Azure Front Door, globalna awaria Microsoft, Azure Front Door outage, Microsoft Azure outage, awaria usług Microsoft, niedostępność usług Microsoft, Azure AD, Entra ID, App Service, Azure SQL Database, Azure Portal, Xbox, Minecraft, chmura Microsoft, awaria chmury, błąd konfiguracji Azure, konfiguracja tenant, software defect, wada oprogramowania, błąd ludzki Microsoft, human error Azure, efekt kaskadowy, przeciążenie węzłów Azure, awaria DNS, Azure DNS outage, rollback Azure, last known good configuration, LKGC, Site Reliability Engineering, SRE, defense in depth, automatyzacja wdrożeń, błąd walidacji konfiguracji, błędna konfiguracja, kontrola konfiguracji Azure, edge case Azure, control plane, data plane, failure in validation, awaria globalna, Microsoft incident report, Post Incident Report, PIR Microsoft, YKYN-BWZ, resilience Azure, cloud resilience, odporność operacyjna, operational resilience, DORA, Digital Operational Resilience Act, regulacje DORA, zgodność z DORA, compliance DORA, KNF, Komisja Nadzoru Finansowego, nadzór finansowy, ryzyko koncentracji, third party risk, ryzyko dostawcy chmury, cloud risk management, vendor lock-in, multicloud, multi-cloud, multi-region, geodywersyfikacja, architektura odporna, cloud architecture, disaster recovery, DRP, business continuity, BCP, cloud outage analysis, audyt chmurowy, cloud audit, SOC 2, cloud governance, SLA, RTO, RPO, czas odtworzenia Azure, Microsoft downtime, outage recovery, chaos engineering, testy negatywne, automatyczny rollback, Canary Deployment, phased deployment, failover Azure, critical third party provider, CCP, ESAs, EBA, EIOPA, ESMA, nadzór nad dostawcami chmury, resilience banking, odporność banków, ryzyko chmurowe w sektorze finansowym, ryzyko technologiczne, ciągłość działania, cloud compliance, architektura wielochmurowa, cloud diversification, multivendor strategy, strategia multicloud, optymalizacja kosztów chmury, cloud cost optimization, cloud latency, Azure performance, globalna infrastruktura Microsoft, awarie AWS, porównanie Azure AWS, cloud dependency, single point of failure, SPOF, cloud reliability, cloud security, błędy operacyjne Microsoft, analiza incydentu Azure, raport Microsoft Azure, zarządzanie ryzykiem ICT, cloud risk, infrastruktura krytyczna, cloud incident response, audyt poawaryjny, analiza PIR, Microsoft transparency report, cloud service disruption, krytyczne usługi ICT, chmura publiczna, odporność regulacyjna, zgodność z regulacjami UE, dyrektywa DORA, bezpieczeństwo chmury, cloud compliance EU, KNF DORA wytyczne, architektura bankowa, infrastruktura finansowa, cloud resilience strategy, zarządzanie ciągłością działania, ryzyko operacyjne, ryzyko ICT, cyberbezpieczeństwo sektora finansowego.
IT i technologia
Bankowość i rynki finansowe
Firmy w Polsce

Ataki na bankomaty Santander w Poznaniu

Analiza odpowiedzialności, zwrotu środków i wyzwań bezpieczeństwa.
Czytaj dalej
Case Study

Ataki na bankomaty Santander w Poznaniu

Incydenty
Zgodność
atak Santander, Santander bankomaty, zwrot środków po nieautoryzowanej transakcji, odpowiedzialność banku za straty klientów, skimming bankomatowy, zabezpieczenia bankomatów Santander, skradzione pieniądze Santander bank, umowy między bankiem a operatorem bankomatów, dyrektywa PSD2 w ochronie konsumentów, silne uwierzytelnianie klienta (SCA), monitoring bankomatów i wykrywanie oszustw, postępowanie prokuratorskie w sprawie skimmingu, odzyskiwanie pieniędzy przez bank, procedury bezpieczeństwa banku Santander, edukacja klientów w zakresie cyberbezpieczeństwa, System Bezpieczeństwa Danych Przemysłu Kart Płatniczych (PCI DSS), skimmery i kamery na bankomatach, operatorzy bankomatów Euronet i ITCARD, ryzyko prawne banku przy atakach na bankomaty, audyty i testy penetracyjne w sektorze bankowym, współpraca banku z organami ścigania w sprawach cyberprzestępczości.
Bankowość i rynki finansowe

Jak przygotowywać testy planów lub procedur awaryjnych

Incydent w Erding wyraźnie nas uczy: nie możemy sobie pozwolić na „uczenie się na błędach" w obszarach, gdzie stawką jest życie ludzkie.
Czytaj dalej
Case Study

Jak przygotowywać testy planów lub procedur awaryjnych

Komunikacja kryzysowa
Ochrona ludności
Zarządzanie kryzysowe
testy planów awaryjnych, testowanie procedur awaryjnych, zarządzanie ciągłością działania, plan reagowania kryzysowego, zarządzanie kryzysowe, analiza incydentu bezpieczeństwa, analiza incydentu Erding, incydent w Erding, Bundeswehra, ćwiczenia wojskowe Erding, strzelanina podczas ćwiczeń, błędy komunikacji między wojskiem a policją, zarządzanie ryzykiem operacyjnym, ćwiczenia międzyresortowe, komunikacja kryzysowa, błędy w komunikacji między służbami, unified command, testowanie odporności organizacji, analiza FMEA, zarządzanie incydentami, bezpieczeństwo infrastruktury krytycznej, planowanie testów bezpieczeństwa, kultura bezpieczeństwa, lessons learned, testowanie systemów łączności, dobre praktyki testowania procedur, kryzys w Bawarii, systemowe błędy bezpieczeństwa, koordynacja służb, komunikacja międzyresortowa, zarządzanie incydentami w czasie rzeczywistym
Administracja publiczna
Podmioty ważne i kluczowe