V pondělí se svět vrátil do dob, kdy nebylo běžné hrát videohry, brouzdat po sociálních sítích ani posílat peníze přes internetové bankovnictví. V pozadí masivního výpadku internetových služeb přitom stála kaskáda problémů u jedné společnosti – Amazonu třetího nejbohatšího muže světa Jeffa Bezose.
Kromě jeho e-shopu zasáhl výpadek i aplikaci Duolingo, videohry Fortnite či Roblox, sociální sítě Snapchat a Reddit a další více než dva tisíce společností. Za globálním problémem přitom podle všeho stála „drobná chyba“ v jednom datacentru.
„Může to sice znít jako protimluv, dnešní infrastruktura je však extrémně složitá a plná vzájemných závislostí. Stačí, aby se malá chyba dotkla klíčové části systému, na kterou spoléhají další služby – a důsledky se rychle rozšíří po celém světě,“ vysvětluje etický hacker Martin Haller z Patron-IT.
V pondělí za to mohl výpadek cloudové infrastruktury Amazon Web Services (AWS), který se týkal především regionu US-EAST-1, tedy Severní Virginie. Ten je jedním z největších a nejvíce využívaných oblastí AWS, na němž stojí významná část globálního internetu.
„Amazon následně potvrdil, že se incident týkal interní sítě, příčinu odstranil po několika hodinách a služby postupně obnovil,“ říká Monika Kutějová, specialistka kybernetické bezpečnosti v Kanceláři prezidenta republiky.
Prozatím i díky takové reakci problém jednu z největších e-commerce společností skoro nezasáhl – podle odhadů sice kvůli výpadku ztrácela každou hodinu stovky milionů korun, její akcie ale místo paniky vyrostly o 1,3 procenta. V úterý pak nabraly další dvě procenta, než spadly zpět na hodnotu ze dne předtím.
Podle expertů je přitom ze zveřejněných informací zřejmé, že za celým výpadkem stála kombinace chyb v několika systémech platformy cloudových služeb Amazonu, což mělo za následek nedostupnost nebo výrazné zpomalení celé řady služeb dalších.
Amazon Web Services nabízejí stovky služeb z oblasti výpočetních zdrojů, ukládání dat, databází, umělé inteligence, analytiky, doručování obsahu či správy sítí.
„Firmy, vývojáři i vládní organizace využívají AWS proto, že jim umožňuje nasadit kompletní infrastrukturu ‚na vyžádání‘, tedy bez nutnosti vlastnit servery nebo datová centra. Klíčovým principem je škálovatelnost a platba pouze za skutečně využité kapacity, což jej činí atraktivním pro miliony podniků po celém světě,“ dodává Kutějová.
Celý systém pak funguje prostřednictvím regionů, které sestávají z nezávislých datových center. „Region US-EAST-1 v Severní Virginii je přitom vůbec největší a zároveň nejstarší, což z něj dělá kritický uzel světového internetu a hlavní vstupní bod pro řadu globálních aplikací,“ popisuje problém Kutějová.
Není to přitom v posledních letech poprvé, kdy kvůli chybě na jednom místě přestaly fungovat služby všude – loni v létě došlo ke globálnímu výpadku některých počítačových systémů Microsoft Windows kvůli chybné aktualizaci od společnosti CrowdStrike.
Výpadky se týkají i jednotlivých služeb, v roce 2019 například Facebooku. „Ten nebyl dostupný celých čtrnáct hodin a škody se vyšplhaly na 90 milionů dolarů, tedy zhruba 2,2 miliardy korun,“ říká Juraj Masár, CEO a spoluzakladatel Better Stack.
Internetu velí několik velkých firem
Haller i Kutějová dodávají, že Amazon není jediným poskytovatelem těchto služeb – podobné služby obstarávají také Microsoft Azure, Google Cloud, Alibaba Cloud nebo Oracle Cloud. Internet rovněž závisí na společnostech Cloudflare a Akamai Technologies, kteří zajišťují doručování obsahu, ochranu před útoky a výpadky a v mnoha případech také základní infrastrukturu.
„Závislost digitální infrastruktury na těchto několika velkých hráčích je dnes mimořádná. Velká část nejpoužívanějších webových aplikací, e-shopů, streamovacích služeb i mobilních aplikací běží na cloudech typu AWS, Azure nebo GCP. Výpadek jednoho z těchto poskytovatelů se proto může velmi rychle projevit napříč odvětvími, jak ukázal právě tento incident,“ přibližuje expertka.
Jak moc jsou na nich technologie závislé, ukázal i případ společnosti EightSleep, která nabízí „chytré postele“. Jenže jejich „inteligence“ je přímo vázaná na AWS, takže když se ten odhlásil, s postelemi se nedalo hnout ani u nich zastavit případné nahřívání.
To u výrobku, jehož používání stojí takřka čtyři tisíce korun měsíčně, naštvalo řadu uživatelů. Podobnou reakci vyvolalo i to, že na aplikaci Slack nešly ukončit firemní hovory či že některé aerolinky přišly o informace ohledně rezervací a sedadel pasažérů.
Dnes už se většinu problémů podařilo opravit, i po relativním skončení výpadku ale firmy nepřechází nemilý pocit, že by se nemuselo jednat o ojedinělou událost.
„Otázka, zda se podobná situace může opakovat, má bohužel poměrně realistickou odpověď. Ano,“ odpovídá rázně Kutějová. Podle ní AWS provozuje extrémně komplexní a globální infrastrukturu s tisíci propojených komponentů, které jsou z podstaty zranitelné vůči technickým chybám, softwarovým závadám nebo lidským omylům.
Čas od času se tak stane, že i v tak klíčovém regionu výpadek přijde. Přestože Amazon zavádí opatření ke zvýšení odolnosti, nelze podle expertky absolutní spolehlivost u natolik rozsáhlé infrastruktury nikdy zaručit. K výpadku totiž může dojít v důsledku kombinace síťových problémů, chyb při aktualizacích či nedostatečné kapacity jednotlivých komponentů.
„Celkově mi však přijde, že vzhledem ke složitosti moderních systémů funguje internet překvapivě spolehlivě,“ podotýká Haller a dodává, že k výpadku může dojít i u bezpečnostních firem, výrobců operačních systémů, poskytovatelů síťových technologií či dokonce při poškození podmořských kabelů.
Jak se na výpadek připravit?
Společnosti nemusejí čekat a modlit se, ale mohou se na podobné události připravovat už nyní. Řešením může být provozování klíčové části infrastruktury paralelně v několika regionech AWS či v kombinaci s dalšími poskytovateli.
„Výpadek AWS regionu, coby největšího cloudového poskytovatele, vývojářům vždy připomene, že za cloudem je stále jen fyzická serverovna. Firmy dnes opět přehodnocují svůj přístup k využívání vícero cloudových regionů, případně k hybridním cloudovým řešením. I tento výpadek ukazuje, že dražší cloud nemusí automaticky znamenat spolehlivější cloud,“ dodává Juraj Masár.
Společnosti také musejí vědět, jak se jejich systém zachová při výpadku poskytovatele, a měly by mít připravený scénář přesměrování provozu na záložní infrastrukturu.
„Další vrstvu ochrany představují smluvní a pojistné nástroje. Společnosti by měly znát podmínky Service Level Agreement, které AWS a další poskytovatelé nabízejí, tedy garantovanou dostupnost a kompenzace při jejím nedodržení,“ říká Kutějová. V praxi podle ní však tyto kompenzace pokrývají jen zlomek skutečných ztrát, které může výpadek způsobit.
Lze se proto pojistit i na přerušení provozu, což může pokrýt finanční dopady delších výpadků či ztrátu příjmů, ale obvykle neřeší reputační nebo regulatorní škody.
Simulace výpadků, zálohování dat do jiného regionu a vhodně navržená izolace služeb také pomáhá. A vedle technologické připravenosti by společnosti neměly zapomínat ani na dobrou komunikaci.
„Transparentní informování zákazníků a partnerů v případě výpadku může významně snížit reputační škody. Firmy by také měly vyčíslit, jaké by měly finanční ztráty při určité době nedostupnosti, a podle toho investovat do míry zálohování a pojistného krytí,“ připomíná specialistka kybernetické bezpečnosti.
Celkově lze podle Kutějové říci, že absolutní ochrana před výpadkem velkého poskytovatele neexistuje, a cílem tak není výpadky zcela eliminovat, ale minimalizovat jejich dopad a urychlit obnovu provozu.
Jenže většina firem v Česku nehodlá do takových opatření investovat. „Nedávný průzkum, který jsme provedli v podnicích s 500 až 2500 zaměstnanci, ukázal, že pouze třináct procent organizací má zpracovaný a pravidelně testovaný plán obnovy po havárii,“ říká Václav Svátek, generální ředitel IT společnosti ČMIS.
Dalších 32 procent sice má takový plán „na papíře“, ale nikdy jej netestuje, a dalších 55 procent podniků podle Svátka vůbec žádný plán nemá a ani si ho dělat nehodlá.
„Opatření totiž výrazně zvyšují náklady i technickou složitost, a tím paradoxně i riziko lidské chyby. Proto mnohé společnosti po zvážení všech faktorů docházejí k závěru, že nejrozumnější a nejlevnější je občasný krátkodobý výpadek prostě akceptovat,“ shrnuje etický hacker Haller.
The post Jedna společnost a celosvětový výpadek. Proč je internet závislý na Amazonu? appeared first on Forbes.