Key takeaways
- Facebooks tekniska problem var olyckliga, men problemet skulle sannolikt ha lösts mycket snabbare om det inte förlitade sig på så många sammankopplade system.
- Det finns inget sätt att förhindra systemfel helt, men det finns sätt att göra dem mindre sannolika.
- Att ha backup-planer för när (inte om, när) ett system misslyckas kan göra skillnaden mellan 'irriterande' och 'katastrofiskt'.
Facebook-debaclet nyligen visar hur sammankopplade system måste misslyckas och varför vi inte bör använda dem till allt.
Att förlora Facebook, WhatsApp och Instagram i flera timmar på måndagen var obekvämt, skadligt för företag och i vissa fall nästan katastrof alt. Enligt Facebook berodde allt på konfigurationsändringar av dess nätverkskoordinerande routrar.
Det är en rimlig förklaring, men det faktum att ett enstaka fel som det kan få inte bara Facebook utan andra Facebook-ägda system att stanna är lite alarmerande.
En ändring av fel routerkonfiguration gjorde att flera tjänster, och till och med VR-headset, slutade fungera helt. Utöver det hade det, enligt Facebooks eget medgivande, också en kaskadeffekt på hur företagets datacenter kommunicerar, vilket stoppade alla deras tjänster.
"Troendet på sammankopplade system medför en inneboende risk för system- eller till och med servicefel", sa Francesco Altomare, senior teknisk försäljningsingenjör på GlobalDots, i en e-postintervju med Lifewire, "För att motverka denna skrämmande risk använder företag principen för SRE (System Reliability Engineering), såväl som andra verktyg, som alla hanterar olika nivåer av redundans inbyggd i varje lager av ett systems infrastruktur."
What Can Go Wrong
Det är värt att notera att när ett sådant system misslyckas, kräver det vanligtvis en perfekt storm av saker som går fel. Det är mindre som ett korthus som väntar på att falla och mer som en exponerad termisk avgasport på en rymdstation lika stor som en liten måne.
De flesta företag vidtar åtgärder för att försöka se till att det enda som skulle kunna kasta allt i kaos aldrig händer – men oavsett så kan det hända.
"Oväntade misslyckanden är en del av verksamheten och kan uppstå som ett resultat av vårdslöshet från arbetare, fel i internetleverantörens nätverk eller till och med molnlagringstjänster som genomgår problem", säger Sally Stevens, medgrundare av FastPeopleSearch, i en e-postintervju.
"…Så länge de nödvändiga åtgärderna för att skydda systemet, såsom säkerhetskopior, router på plats och nivåstyrd åtkomst, är på plats, är dessa misslyckanden ganska osannolika." Även om det finns en armé av säkerhetsskåp är det fortfarande möjligt för stiftet att misslyckas.
Om systemet som styr saker som primära kontaktformer, apparater, dörrar, etc., misslyckas, kan resultaten bli betydande. Från milda besvär till fullständigt katastrofala, beroende på hur mycket individer och företag förlitar sig på allt.
"Det finns också risk för att hackare kommer in i systemet från någon av de minst skyddade enheterna, såsom kylskåp och brödrostar", tillade Stevens, "vilket kan leda till datastöld och ransomware."
Hur vi kan förbereda oss
Det finns inget sätt att garantera att ett system aldrig kommer att misslyckas, men det finns åtgärder som kan vidtas för att antingen göra fel mindre sannolikt eller för att åtgärda fel smidigare. En kombination av de två tillvägagångssätten som kombinerar säkerhetsskåp och motåtgärder med beredskapsplaner och backupsystem skulle vara idealisk.
"För att eliminera dessa faror som skapas av tredjepartsprodukter och tjänster som hanteras effektivt, måste roller och skyldigheter angående riskhantering från tredje part beskrivas strikt", säger Daniela Sawyer, grundare och teknisk chef för FindPeopleFast, i en e-postintervju, "För att blomstra i dessa nya omgivningar måste riskhanterare förstå de väsentliga delarna av ett så sofistikerat ekosystem."
Det som hände med Facebook, WhatsApp och Instagram var olyckligt, men förhoppningsvis också ögonöppnande. Människor som förlitar sig på sammankopplade system måste förstå att det rätta som går fel kan störa allt. Och åtgärder måste vidtas (eller granskas och förfinas) för att göra sådana störningar mindre sannolika och mindre påverkande.
I Facebooks fall var dess problem inte routerproblemen, utan snarare att nästan hela sitt ekosystem var kopplat till allt annat. Således, med Facebook (tjänsten) nere, fick Facebook (företaget) lägga mycket mer tid och energi på att helt enkelt organisera och ta itu med problemet. Om den antingen inte använde ett så djupt rotat, sammankopplat system eller hade backup-planer på plats för att hantera ett sådant avbrott, skulle det troligen ha tagit mycket kortare tid att åtgärda.