ABO-STORAGE
ABO-STORAGE

Zero Downtime

Oder die hohe Kunst, folgenschwere Ausfälle zu vermeiden. Durch IT-Ausfälle riskieren Unternehmen Umsatz, Reputation oder gar ihre Existenz.

ZERO DOWNTIME – ODER DIE HOHE KUNST, FOLGENSCHWERE AUSFÄLLE ZU VERMEIDEN


Permanente Erreichbarkeit und das ständige Funktionieren der IT ist in einer zusehends digitalisierteren Gesellschaft immer mehr das Rückgrat unseres modernen Lebens. Das gilt auch für viele Unternehmen, für die der unterbrechungsfreie IT-Betrieb absolut erfolgsrelevant geworden ist. Ungeplante Ausfälle und Störungen dieses vitalen Systems können zum Teil fatale Folgen in Bezug auf Umsatz, Image, Erfolg und sogar Existenz eines Unternehmens haben.

Prominente Beispiele von Systemausfällen
Ausfälle, deren Auswirkungen besonders verheerend waren, finden naturgemäss schnell den Weg in die Medien und haben darum nicht nur wirtschaftliche, sondern auch Image schädigende Folgen, wie etwa Obamacare für die Obama-Administration. Diese Ereignisse beschränken sich nicht nur auf digitale Handelsplätze, sondern können auch elementare Bereiche unseres täglichen Lebens treffen. Zwei Beispiele aus dem Bereich Mobilität waren besonders spektakulär: Ein gut zweistündiger Ausfall des Radarsystems bei der Deutschen Flugsicherung führte 2012 zu massiven Betriebsstörungen am Münchner Flughafen. 146 Flüge mussten annulliert werden, 358 Starts und Landungen verspäteten sich um mehr als 30 Minuten und der komplette Luftraum musste aus Sicherheitsgründen gesperrt werden. Wegen der Probleme fiel auch ein deutsch-französisches Ministertreffen aus.

Menschliches Versagen führte 2009 zu einem Ausfall des Rechenzentrums der Deutschen Bahn, der Ticketautomaten, Schalter und Anzeigetafeln in weiten Teilen Deutschlands lahmlegte. Die Folgen waren Ausfälle, massive Verspätungen und Einbussen beim Fahrkartenverkauf.

Wie schnell und teuer Systemausfälle online Handelsplattformen in die Knie zwingen, zeigen folgende Ereignisse: Die Website Amazon.com war 2013 für 30 bis 40 Minuten nicht erreichbar. Der Schaden belief sich auf geschätzte 3 bis 4 Millionen US-Dollar. Ebay war 2009 einen ganzen Tag lang vom Netz, mit einer vergleichbaren Schadensumme. Wer glaubt, dass solche Ausfälle in der Neuzeit weniger häufig auftreten, der irrt. So wurden schon zwei längere Unterbrechungen von Ebay 2014 publik. 2013 führte ein fehlerhaftes Backup dazu, dass die Börse von New York 3 Stunden lang nicht funktionsfähig war – das hatte dann wohl auch weitreichende Konsequenzen.

Und wie sieht es mit den grossen, neuen Cloud-Diensten von Anbietern wie Amazon, Apple, Google oder Microsoft aus, die eine Verfügbarkeit ihrer Dienste von 99,99 Prozent und mehr versprechen? Die müssten es doch im Griff haben, meint man. Tatsache ist, dass sie alle schon von öffentlich gewordenen Ausfällen betroffen waren, deren Ursachen mit gescheiterten Updates, Schalttagen und mit Blitzeinschlägen erklärt wurden.

Wo Ausfallsicherheit ein Muss ist
Unternehmen gehören zur «Risikogruppe», wenn Mitarbeiter, Kunden, Lieferanten und Partner jederzeit auf die Unternehmens-IT zugreifen müssen, wenn autonome Produktionssysteme nicht vom Menschen gesteuert werden oder logistische Abläufe automatisch ineinandergreifen müssen. Kurz gesagt: Je kritischer und vernetzter die Systeme sind, umso mehr sollte man um ihre Ausfallsicherheit und Verfügbarkeit besorgt sein.

Gewisse Unterbrechungen und Ausfälle können für ein Unternehmen Konsequenzen haben, die von harmlos bis vernichtend reichen. Man ist also gut beraten, wenn man sich vor einer Absicherung genau vor Augen hält, welche Anwendungen und Prozesse wie geschäftskritisch sind und was deren direkten und indirekten Folgen bei einer Unterbrechung beziehungsweise bei einem Ausfall sein könnten. Die Hauptgründe für Betriebsstörungen sind allgemein und hinlänglich bekannt und haben im Grundsatz damit zu tun, dass vor allem dort Risiken bestehen, wo nicht nach «Best Practices» gearbeitet wird, respektive keine entsprechende Vorkehrungen getroffen wurden (siehe Kasten «Die 13 Hauptgründe für Ausfälle/Störungen»).

Hat ein Unternehmen seine Risiken definiert, bewertet und priorisiert, kann es seinen Systemen einer der drei Hochverfügbarkeitsstufen (siehe Kasten «Die 3 Stufen der Hochverfügbarkeit») zuweisen und erst im letzten Schritt die technische Lösung ermitteln, die den Anforderungen entspricht und ins Budget passt.

Vom Konzept bis zur fertigen Lösung
Natürlich gibt es kein allgemeingültiges Konzept, das für alle Anforderungen Anwendung findet. Entscheidend bei der individuellen Konzeptfindung ist eine strukturierte Herangehensweise, die nicht ein einzelnes Problem entschärft, sondern sich insgesamt mit der Geschäftslogik und der vorhandenen Organisation auseinandersetzt. Der Wunsch nach Zero Downtime, der 100-prozentigen Ausfallsicherheit, steht in der Regel begrenzten IT-Budgets gegenüber. Die Herausforderung besteht grundsätzlich darin, alle möglichen Ausfall- und Störungsursachen zu eliminieren und Redundanzen der kritischen Systeme aufzubauen. Letzteres ist vergleichbar mit der Sicherheit in einem Flugzeug, wo Ersatzkomponenten bei einem Ausfall den Einsatz übernehmen oder parallel arbeitende Komponente, die die zusätzliche Belastung im Fehlerfall übernehmen.

Cluster, DNS und IP Round Robin
Die konzeptionellen Ansätze ergeben sich aus der jeweiligen Stufe der Hochverfügbarkeit. Für die normale Hochverfügbarkeit von 99,9 Prozent ist Clustering ein bewährtes Konzept, bei dem Anwendungen wie Datenbanken auf zwei Clustern laufen und bei Ausfall eines Knotens der zweite Cluster übernimmt.

Wenn ein Unternehmen seine Geschäfte hauptsächlich über E-Mail abwickelt, dann muss nicht nur das System selbst, sondern auch die Konsistenz der Daten sichergestellt werden. Eine normale oder sogar eine unterbrechungsfreie Hochverfügbarkeit lässt sich über das Domain Name System (DNS) mit IP Round Robin realisieren.

Nutzerbasiertes Routing und Reverse Proxy
Wenn ein Unternehmen seine Geschäfte zu 100 Prozent über ein Webportal abwickelt, dann ist sicherlich ein Zero-Downtime-Konzept für die entsprechenden Applikationsserver sinnvoll, dass mit nutzerbasiertem Routing und Reverse Proxy sichergestellt werden kann.

Clustering mit Load Balancing
Wenn eine Unterbrechung oder ein Ausfall katastrophale Folgen hätte, dann müssen sich Systeme permanent synchronisieren, damit beim Ausfall eines Systems ein anderes auf dem gleichen Informationsstand ist und eine Anfrage im aktuellen Status übernehmen kann. Mit geclusterten, aktiven und passiven Servern mit vorgeschalteten Load Balancern kann Zero Downtime und Hochverfügbarkeit erzielt werden.

Die 13 Hauptgründe für Ausfälle/Störungen
Eine angesehene Studie besagt, dass vor allem dort Risiken bestehen, wo nicht nach «Best Practices» gearbeitet wird, respektive keine entsprechende Vorkehrungen getroffen wurden (nach Wichtigkeit sortiert):

1. Überwachung  relevanter Komponente
2. Bedarf und Beschaffung
3. Betrieb
4. Vermeidung von Netzwerkfehlern
5. Vermeidung von internen Applikationsfehlern
6. Vermeidung von fehlerhaften externen  Services
7. Physikalische Umgebung
8. Netzwerk-Redundanz
9. Technische Lösung von Backup
10. Prozesslösung von Backup
11. Physikalischer Standort
12. Infrastruktur-Redundanz
13. Storage-Architektur-Redundanz

Die 3 Stufen der Hochverfügbarkeit

1. Manuell
Ein Restart erfolgt verzögert, da er manuell angestossen werden muss. Eine Unterbrechung des laufenden Betriebs ist spürbar, eine Geschäftsschädigung könnte vorliegen.

2. Normal
Ein Restart erfolgt sofort und automatisch. Eine Unterbrechung ist kurz spürbar, aber nicht geschäftsschädigend.

3. Unterbrechungsfrei (Zero Downtime):
Das System wurde unterbrechungsfrei von einem anderen übernommen. Eine Unterbrechung ist nicht spürbar.

Häufig verwendete Fachbegriff kurz erklärt

Clustering
Verbund von mindestens zwei Systemen, in dem bei einem Ausfall des einen das andere dessen Aufgaben übernimmt.

Failover
Ungeplante Wechsel zwischen zwei oder mehreren Netzwerkdiensten bei einem einseitigen Ausfall.

Forwarding
Entscheidungsprozess eines einzelnen Netzknotens, über welchen seiner Nachbarn er eine vorliegende Nachricht weiterleiten soll.

High Availability (HA):
Fähigkeit eines Systems, trotz Ausfall einer seiner Komponenten mit einer hohen Wahrscheinlichkeit (oft 99,99 Prozent oder besser) den Betrieb zu gewährleisten. Die Verfügbarkeit wird als Verhältnis aus ungeplanter (fehlerbedingter) Stillstandszeit (= Ausfallzeit) und gesamter Produktionszeit eines Systems bemessen.

Load Balancing:
Mittels Lastverteilung werden umfangreiche Berechnungen oder grosse Mengen von Anfragen auf mehrere parallel arbeitende Systeme verteilt.

RAID:
Organisation mehrerer physischer Festplatten eines Computers zu einem logischen Laufwerk, das eine höhere Datenverfügbarkeit bei Ausfall einzelner Festplatten und/oder einen grösseren Datendurchsatz erlaubt als ein einzelnes physisches Laufwerk.

Reverse Proxy:
Eine Kommunikationsschnittstelle in einem Netzwerk, die Ressourcen für einen Client von einem oder mehreren Servern holt.

DNS IP Round Robin:
Lastverteilung für Netzwerkdienste auf Basis des Domain Name Systems.

Routing:
Weg eines Nachrichtenstroms durch das Netzwerk.

Service Level Agreements (SLA):
Dienstleistungsvereinbarung zur Betriebsgewährleistung.


Newsletter

Mit unseren Newsletter sind Sie
jederzeit bestens informiert.