Jedna společnost a celosvětový výpadek. Proč je internet závislý na Amazonu?

Forbes Před 8 hodinami

V pondělí se svět vrátil do dob, kdy nebylo běžné hrát videohry, brouzdat po sociálních sítích ani posílat peníze přes internetové bankovnictví. V pozadí masivního výpadku internetových služeb přitom stála kaskáda problémů u jedné společnosti – Amazonu třetího nejbohatšího muže světa Jeffa Bezose.

Kromě jeho e-shopu zasáhl výpadek i aplikaci Duolingo, videohry Fortnite či Roblox, sociální sítě Snapchat a Reddit a další více než dva tisíce společností. Za globálním problémem přitom podle všeho stála „drobná chyba“ v jednom datacentru.

„Může to sice znít jako protimluv, dnešní infrastruktura je však extrémně složitá a plná vzájemných závislostí. Stačí, aby se malá chyba dotkla klíčové části systému, na kterou spoléhají další služby – a důsledky se rychle rozšíří po celém světě,“ vysvětluje etický hacker Martin Haller z Patron-IT.

V pondělí za to mohl výpadek cloudové infrastruktury Amazon Web Services (AWS), který se týkal především regionu US-EAST-1, tedy Severní Virginie. Ten je jedním z největších a nejvíce využívaných oblastí AWS, na němž stojí významná část globálního internetu.

„Amazon následně potvrdil, že se incident týkal interní sítě, příčinu odstranil po několika hodinách a služby postupně obnovil,“ říká Monika Kutějová, specialistka kybernetické bezpečnosti v Kanceláři prezidenta republiky.

Prozatím i díky takové reakci problém jednu z největších e-commerce společností skoro nezasáhl – podle odhadů sice kvůli výpadku ztrácela každou hodinu stovky milionů korun, její akcie ale místo paniky vyrostly o 1,3 procenta. V úterý pak nabraly další dvě procenta, než spadly zpět na hodnotu ze dne předtím.

Podle expertů je přitom ze zveřejněných informací zřejmé, že za celým výpadkem stála kombinace chyb v několika systémech platformy cloudových služeb Amazonu, což mělo za následek nedostupnost nebo výrazné zpomalení celé řady služeb dalších.

Amazon Web Services nabízejí stovky služeb z oblasti výpočetních zdrojů, ukládání dat, databází, umělé inteligence, analytiky, doručování obsahu či správy sítí.

„Firmy, vývojáři i vládní organizace využívají AWS proto, že jim umožňuje nasadit kompletní infrastrukturu ‚na vyžádání‘, tedy bez nutnosti vlastnit servery nebo datová centra. Klíčovým principem je škálovatelnost a platba pouze za skutečně využité kapacity, což jej činí atraktivním pro miliony podniků po celém světě,“ dodává Kutějová.

Celý systém pak funguje prostřednictvím regionů, které sestávají z nezávislých datových center. „Region US-EAST-1 v Severní Virginii je přitom vůbec největší a zároveň nejstarší, což z něj dělá kritický uzel světového internetu a hlavní vstupní bod pro řadu globálních aplikací,“ popisuje problém Kutějová.

Není to přitom v posledních letech poprvé, kdy kvůli chybě na jednom místě přestaly fungovat služby všude – loni v létě došlo ke globálnímu výpadku některých počítačových systémů Microsoft Windows kvůli chybné aktualizaci od společnosti CrowdStrike.

Výpadky se týkají i jednotlivých služeb, v roce 2019 například Facebooku. „Ten nebyl dostupný celých čtrnáct hodin a škody se vyšplhaly na 90 milionů dolarů, tedy zhruba 2,2 miliardy korun,“ říká Juraj Masár, CEO a spoluzakladatel Better Stack.

Internetu velí několik velkých firem

Haller i Kutějová dodávají, že Amazon není jediným poskytovatelem těchto služeb – podobné služby obstarávají také Microsoft Azure, Google Cloud, Alibaba Cloud nebo Oracle Cloud. Internet rovněž závisí na společnostech Cloudflare a Akamai Technologies, kteří zajišťují doručování obsahu, ochranu před útoky a výpadky a v mnoha případech také základní infrastrukturu.

„Závislost digitální infrastruktury na těchto několika velkých hráčích je dnes mimořádná. Velká část nejpoužívanějších webových aplikací, e-shopů, streamovacích služeb i mobilních aplikací běží na cloudech typu AWS, Azure nebo GCP. Výpadek jednoho z těchto poskytovatelů se proto může velmi rychle projevit napříč odvětvími, jak ukázal právě tento incident,“ přibližuje expertka.

Jak moc jsou na nich technologie závislé, ukázal i případ společnosti EightSleep, která nabízí „chytré postele“. Jenže jejich „inteligence“ je přímo vázaná na AWS, takže když se ten odhlásil, s postelemi se nedalo hnout ani u nich zastavit případné nahřívání.

To u výrobku, jehož používání stojí takřka čtyři tisíce korun měsíčně, naštvalo řadu uživatelů. Podobnou reakci vyvolalo i to, že na aplikaci Slack nešly ukončit firemní hovory či že některé aerolinky přišly o informace ohledně rezervací a sedadel pasažérů.

Dnes už se většinu problémů podařilo opravit, i po relativním skončení výpadku ale firmy nepřechází nemilý pocit, že by se nemuselo jednat o ojedinělou událost.

„Otázka, zda se podobná situace může opakovat, má bohužel poměrně realistickou odpověď. Ano,“ odpovídá rázně Kutějová. Podle ní AWS provozuje extrémně komplexní a globální infrastrukturu s tisíci propojených komponentů, které jsou z podstaty zranitelné vůči technickým chybám, softwarovým závadám nebo lidským omylům.

Čas od času se tak stane, že i v tak klíčovém regionu výpadek přijde. Přestože Amazon zavádí opatření ke zvýšení odolnosti, nelze podle expertky absolutní spolehlivost u natolik rozsáhlé infrastruktury nikdy zaručit. K výpadku totiž může dojít v důsledku kombinace síťových problémů, chyb při aktualizacích či nedostatečné kapacity jednotlivých komponentů.

„Celkově mi však přijde, že vzhledem ke složitosti moderních systémů funguje internet překvapivě spolehlivě,“ podotýká Haller a dodává, že k výpadku může dojít i u bezpečnostních firem, výrobců operačních systémů, poskytovatelů síťových technologií či dokonce při poškození podmořských kabelů.

Jak se na výpadek připravit?

Společnosti nemusejí čekat a modlit se, ale mohou se na podobné události připravovat už nyní. Řešením může být provozování klíčové části infrastruktury paralelně v několika regionech AWS či v kombinaci s dalšími poskytovateli.

„Výpadek AWS regionu, coby největšího cloudového poskytovatele, vývojářům vždy připomene, že za cloudem je stále jen fyzická serverovna. Firmy dnes opět přehodnocují svůj přístup k využívání vícero cloudových regionů, případně k hybridním cloudovým řešením. I tento výpadek ukazuje, že dražší cloud nemusí automaticky znamenat spolehlivější cloud,“ dodává Juraj Masár.

Společnosti také musejí vědět, jak se jejich systém zachová při výpadku poskytovatele, a měly by mít připravený scénář přesměrování provozu na záložní infrastrukturu.

„Další vrstvu ochrany představují smluvní a pojistné nástroje. Společnosti by měly znát podmínky Service Level Agreement, které AWS a další poskytovatelé nabízejí, tedy garantovanou dostupnost a kompenzace při jejím nedodržení,“ říká Kutějová. V praxi podle ní však tyto kompenzace pokrývají jen zlomek skutečných ztrát, které může výpadek způsobit.

Lze se proto pojistit i na přerušení provozu, což může pokrýt finanční dopady delších výpadků či ztrátu příjmů, ale obvykle neřeší reputační nebo regulatorní škody.

Simulace výpadků, zálohování dat do jiného regionu a vhodně navržená izolace služeb také pomáhá. A vedle technologické připravenosti by společnosti neměly zapomínat ani na dobrou komunikaci.

„Transparentní informování zákazníků a partnerů v případě výpadku může významně snížit reputační škody. Firmy by také měly vyčíslit, jaké by měly finanční ztráty při určité době nedostupnosti, a podle toho investovat do míry zálohování a pojistného krytí,“ připomíná specialistka kybernetické bezpečnosti.

Celkově lze podle Kutějové říci, že absolutní ochrana před výpadkem velkého poskytovatele neexistuje, a cílem tak není výpadky zcela eliminovat, ale minimalizovat jejich dopad a urychlit obnovu provozu.

Jenže většina firem v Česku nehodlá do takových opatření investovat. „Nedávný průzkum, který jsme provedli v podnicích s 500 až 2500 zaměstnanci, ukázal, že pouze třináct procent organizací má zpracovaný a pravidelně testovaný plán obnovy po havárii,“ říká Václav Svátek, generální ředitel IT společnosti ČMIS.

Dalších 32 procent sice má takový plán „na papíře“, ale nikdy jej netestuje, a dalších 55 procent podniků podle Svátka vůbec žádný plán nemá a ani si ho dělat nehodlá.

„Opatření totiž výrazně zvyšují náklady i technickou složitost, a tím paradoxně i riziko lidské chyby. Proto mnohé společnosti po zvážení všech faktorů docházejí k závěru, že nejrozumnější a nejlevnější je občasný krátkodobý výpadek prostě akceptovat,“ shrnuje etický hacker Haller.

The post Jedna společnost a celosvětový výpadek. Proč je internet závislý na Amazonu? appeared first on Forbes.

Pokračovat na celý článek