Brandmelding in het Datacenter
Incident Report for PROXSYS
Postmortem

In onderstaande onze RFO inzake incident brandmelding:

Impact gasblussing in ons datacenter

Plotseling kregen we op 2 januari 2019 aan het einde van de werkdag te maken met vreemde storingen op onze systemen. We hadden vrij snel in de gaten dat er iets aan de hand moest zijn met de opslag. Gaandeweg kregen we in de gaten dat meerdere zogenaamde zones problemen ondervonden. Dat was te toevallig en er moest meer aan de hand zijn.

Gasblussing

Onze mensen hadden het goed gemonitord. Er bleek namelijk op het moment van het detecteren van de storingen een gasblussing gaande te zijn waarvan we op dat moment nog niet op de hoogte waren. Per direct zijn er specialisten richting ons datacenter gereden om polshoogte te nemen. Helaas konden zij niet direct de systemen controleren omdat de ruimte nog vol gas stond. De brandweer en beheerder gaven geen toestemming de ruimte te betreden.

Drukgolf met gevolgen

Na enkele uren wachten konden we het datacenter in. Het vermoeden dat er problemen waren met de opslag bleek juist. Zo het er naar uit ziet, had de blussing een drukgolf veroorzaakt waar de apparatuur onder te lijden had. In samenwerking met de leverancier van de opslagapparatuur is gewerkt aan het vervangen van enkele harde schijven en resetten van diverse systemen. Vrij snel daarna kwamen de systemen weer live.

Neveneffecten

Helaas zijn er altijd naweeën bij zo’n voorval. Ook komen er zaken aan het licht waar je alleen achter komt door een dergelijke situatie. Dat laat zich in theorie niet testen zo blijkt. Deze ervaring heeft ons weer nieuwe inzichten gegeven en nemen we mee in onze procedures.

De medewerkers van onze klantteams hebben alle betrokken klanten zoveel mogelijk proactief op de hoogte gehouden over het verloop. Ook wijzelf ondervonden hinder van de storing. In de loop van de ochtend waren de meeste gebruikers weer live.

Valse melding

Een geluk bij een ongeluk was dat het een valse melding was. Er was dus geen brandschade. Zou dat het geval zijn geweest, dan was de impact vele malen groter geweest. We weten op dit moment nog niet wat de reden van de brandmelding en de blussing is.

Wel of niet uitwijken

Vrij snel kwamen er vragen of uitwijken (‘failover’) naar een redundant omgeving (secundaire systeem) mogelijk was om weer snel online te komen. Aangezien we de ruimte niet direct konden betreden, wisten we niet in hoeverre het primaire systeem defect was. Het opstarten van een uitwijk heeft een aanzienlijke impact, zoals extra risico op gegevensverlies en langere downtime. Die route wilden we pas nemen nadat we wisten wat de daadwerkelijke oorzaak en schade was. Dit bleek een goed besluit. Nadat we uiteindelijk bij de systemen konden, was herstel snel geregeld. Een uitwijk zou een veel grotere impact hebben gehad.

Technische achtergrond

In onderstaande geven we een beknopte indruk van de technische opbouw van ons systeem, het verloop van de storing en de oplossing ervan.

Tijdspad storing: 02-01-2019 16:53 – 03-01-2019 02:43

Geraakte diensten: Hosted klant systemen (virtual machines) & Proxsys* shared diensten

Onze storage systemen zijn volledig redundant uitgevoerd. Ook zijn de systemen zo uitgerust dat er meerdere harde schijven tegelijk kunnen uitvallen. Helaas bleken er door de gasblussing te veel harde schijven tegelijk uitgevallen, waardoor RAID-bescherming niet meer voldoende is. De uitval wordt veroorzaakt door zowel een verschil in druk als hoge trillingen. Dit probleem doet zich alleen voor met draaiende harde schijven. Met hulp van de leverancier konden we gelukkig enkele harde schijven weer online brengen waardoor de RAID sets weer beschikbaar werden en de data hersteld kon worden. Enkele harde schijven zijn definitief defect en zijn direct vervangen. Alle harde schijven die weer online zijn gebracht, gaan we preventief vervangen. Dit doen we zodra alle data weer dubbel beschikbaar is.

Toelichting over uitwijk

Tijdens de storing zijn er afwegingen gemaakt om de uitwijklocatie in te zetten. Een uitwijk vereist veel stappen om alles netjes online te brengen en heeft nadelen. Het belangrijkste nadeel is het verlies van data (4-8 uur). Ook dienen route(r)s, netwerken en DNS systemen omgezet te worden en heeft allemaal minimaal een doorlooptijd van enkele uren. Daarna moeten systemen online gebracht worden en geconfigureerd. Hierbij bestaat het risico dat systemen niet meer werken. Tijdens het wachten op toegang zijn we wel al begonnen met het voorbereiden van een uitwijk. Toen bleek dat de primaire systemen weer online gebracht konden worden, hebben we dit uiteindelijk niet doorgezet om zodoende dataverlies te voorkomen. Andere systemen in het datacenter waren onbeschadigd waardoor de kans op een succesvolle recovery hoog waren.

Huidige status

Op dit moment zijn de storage systemen nog bezig met het rebuilden van de resterende RAID sets (70% is reeds voltooid op moment van schrijven). Dit kan ertoe leiden dat de snelheid lager is dan u gewend bent. De interne redundantie is naar verwachting eind van de dag weer op 100%. Ook vinden er extra controles plaats. In de komende dagen en weken houden we de storage systemen extra in de gaten. Zowel door onze storage specialisten als door de leverancier.

Vervolgacties

In de komende dagen zullen we de onderstaande acties uitvoeren. Tijdens deze acties is er mogelijk een performance degradatie merkbaar. Over specifieke zaken informeren wij u separaat aan dit bericht.

  • Als alle data weer veilig en redundant is, gaan we de harde schijven die vreemde waardes geven in de monitoring preventief vervangen;

  • Samen met de leverancier zullen er health checks en consistency checks uitgevoerd worden om er zeker van te zijn dat de data veilig en integer is opgeslagen;

  • Replicatie naar de uitwijklocatie zal eind van de dag weer worden hervat;

  • We hervatten vannacht eveneens de backups.

Eerder PM bericht:

Na de verstoring die gister is opgetreden is er met man en macht gewerkt om de storage systemen te herstellen en uw servers te controleren op juiste werking. Defecte hardware is vervangen en vannacht zijn de laatste controles uitgevoerd. Alle systemen draaien weer. Momenteel zetten wij de puntjes op de “i” om de laatste zaken te controleren en starten zodat uw werkdag “gewoon” kan beginnen.

Ervaart u nog problemen dan kunt u contact met ons opnemen voor verder onderzoek. Wij zijn vanaf 7 uur reeds bereikbaar om u te woord te staan.

Posted Jan 03, 2019 - 09:15 CET

Resolved
All systems up. De laatste controles zijn uitgevoerd en alle systemen draaien weer. Defecte harde schijven zijn vervangen en de laatste puntjes worden nog op de "i" gezet. Donderdag zullen we in de loop van de dag onze klanten nader informeren over deze storing.
Posted Jan 03, 2019 - 02:14 CET
Update
De storage systemen zijn online. Enkele harde schijven zijn kapot en worden z.s.m. vervangen.
Er wordt nog steeds hard gewerkt om de automatisch gegenereerde meldingen uit de monitoring systemen te controleren en er worden nog diverse klantsystemen getest.
Posted Jan 03, 2019 - 00:27 CET
Monitoring
De twee zones zijn hardware technisch weer online gekomen, we gaan nu alle systemen (klantspecifiek) nalopen en zorgen dat iedereen weer volledige functionaliteit terug krijgt.
Posted Jan 02, 2019 - 23:25 CET
Update
Ondertussen is het 2e storage systeem op dit datacenter weer online gekomen.
Posted Jan 02, 2019 - 22:58 CET
Update
Ondertussen is 1 van de 2 storage systemen op dit datacenter weer online gekomen, de 2e wordt momenteel hard aan gewerkt. Een aantal klanten melden dat een aantal diensten (al) terug zijn gekomen.
Posted Jan 02, 2019 - 22:46 CET
Update
Zojuist hebben we toegang gekregen tot de ruimte en er worden op dit moment recovery acties uitgevoerd door onze engineer ter plaatse. Het ziet er naar uit dat binnenkort stap voor stap weer diensten live komen.
Posted Jan 02, 2019 - 22:20 CET
Update
We hebben ondertussen toegang en kunnen bij de betrokken systemen
Posted Jan 02, 2019 - 21:54 CET
Update
Momenteel wachten we op fysieke toegang in het datacenter / dit door dat er gas-geblust is moet er weer zuurstof " in". Hoe lang dit duurt wordt opgehaald. We hopen met de toegang de fysieke schade te kunnen herstellen.
Posted Jan 02, 2019 - 21:37 CET
Identified
Er heeft zich een brandmelding voorgedaan in ons datacenter waarna het automatische blussysteem in werking is getreden.

De brandweer voert op dit moment een controle van de ruimte uit waardoor wij geen toegang hebben tot de ruimte. Nadat de ruimte is vrijgegeven en veilig is om te betreden, gaan we direct aan de slag om onze systemen te controleren.

Door het automatische blussysteem is de ruimte onder hoge druk gezet waardoor mogelijk ons primaire storage systeem beschadigd is geraakt. Onze secundaire systemen zijn onbeschadigd.
Posted Jan 02, 2019 - 20:47 CET
This incident affected: Datacenter Global Switch (Storage, Hypervisor(s), Networking).