ABO-STORAGE
ABO-STORAGE

Erasure Coding vs. RAID

Schon seit einigen Jahren wird RAID, eine der Technologien zum Datenschutz auf der Ebene von Festplatten, für tot erklärt. Als Alternativen werden zunehmend Erasure Coding und Replikation ins Spiel gebracht. Und in der zukünftigen Welt von software-defined Storage (SDS) kommt es dann auf die gute alte (Speicher-)Hardware fast überhaupt nicht mehr an, wird oft behauptet.


Von Hartmut Wiehr (*)

Das ursprüngliche Dokument zu RAID wurde 1988 von den Autoren Patterson, Gibson und Katz veröffentlicht. Die verschiedenen Varianten von RAID (Redundant Array of Independent Disks) gehen von einer redundanten Gruppe von Festplatten oder Solid State Drives aus, die zusammen einen logischen (oder virtuellen) Platten-Pool bilden, der für höhere Performance sorgt. Parity Data werden nach bestimmten mathematischen Regeln zur Sicherung der gesamten Daten einer Platte mehrfach (redundant) auf die übrigen RAID-Komponenten verteilt. Eine oder mehrere beschädigte Platten und ihre Daten lassen sich so komplett wiederherstellen.

RAID-Systeme gelten als schnell, aber auch als komplex und teuer. Insbesondere wenn grosse Festplatten verwendet werden, kann eine Datenwiederherstellung lange dauern, was sich in der Regel nicht mit den Business-Anforderungen eines Unternehmens verträgt. Und sie sind nicht mit einer Datensicherung gleichzusetzen, da ganze Plattensysteme bei Fehlern oder Katastrophen in einem Rechenzentrum physikalisch zerstört sein können. Methoden wie konventionelles Disaster Recovery über mehrere Rechenzentren hinweg sind eine Lösung, aber aufwendig zu bedienen und teuer – sie lohnen sich in der Regel nur für sehr grosse Unternehmen. Klassisches Backup und Archivierung ergänzen ebenfalls den nur bedingten Datenschutz durch RAID-Methoden.

Erasure Coding (auch als Reed-Solomon-Coding bezeichnet) ist ein mit RAID verwandter mathematischer Ansatz, bei dem die Parity-Daten ebenfalls auf Disk- oder auf Object-Niveau aufgespalten und auf Platten, Blöcke oder Objekte verteilt werden. Die Anzahl der mathematischen Methoden der Datenaufteilung ist grösser als bei RAID-Systemen (näheres hier).

Während bei RAID angestrebt wird, mindestens den Ausfall von zwei Platteneinheiten zu überleben, spricht man bei Erasure Coding von vier oder mehr Systemen, die theoretisch gleichzeitig oder kurz nacheinander ausfallen könnten, ohne dass Daten verloren gehen. Als Nachteil von Erasure Coding werden die CPU-Belastung bei der Parity-Berechnung und die erhöhten Latenzen in einer Cluster-Umgebung angesehen, was die Lese- und Schreibprozesse des ganzen Systems beeinträchtigt.

Als Alternative zu RAID-Systemen und zu Erasure Coding wird von Start-ups wie Caringo oder Hedvig Replikation angeboten: Während der Schreibprozesse werden die Datenblöcke in mehrere Teile aufgebrochen und auf zwei oder mehr andere Speicherplätze verteilt. Der Compute-Overhead ist geringer, während man mindestens den doppelten Speicherplatz gegenüber der ursprünglichen Kapazität benötigt – angesichts der fallenden Preise für Speichermedien ein kalkulierbarer Faktor.

(*) Hartmut Wiehr lebt und arbeitet als IT-Journalist und Buchautor in München und Reggio Emilia (Italien).


Newsletter

Mit unseren Newsletter sind Sie
jederzeit bestens informiert.