Die Frage stellt sich mir momentan ernsthaft… Eigentlich sollte ein RAID5 die Daten gut aufbewahren und wöchentliche Festplattentests sowie SMART-Monitoring Sektorenfehler und Ähnliches früh genug entdecken – eigentlich. Eine kurze Mail am Freitag deutete es bereits an: Eine der Platten hat sich mit Totalschaden abgeschaltet – Elektronikfehler. Etwas ärgerlich – die betroffene Platte (Samsung HD501LJ, 500GB) hatte ich erst Ende des letzten Jahres gekauft – meine bisherigen Platten des Herstellers hielten immer so ca. 2 Jahre Dauerbetrieb durch. Das System lief naürlich wie erwartet „degraded“ weiter. Nun gut, also Deckel auf und die bereitliegende Ersatzplatte eingebaut – resync. Einige Stunden später dann schlechte Laune vor meinem Bildschirm: Einige Programme reagierten nicht mehr. Ein Blick auf den Server bestätigen die Vermutung: Eine weitere Platte hat sich mit Sektorenfehlern aus dem RAID entfernt, womit nicht genug Festplatten für den weiteren Betrieb vorhanden waren und sich alles abschaltete. Hmpf. OK, Rescuesystem geladen, das RAID mit den vorhandenen Platten notdürftig zusammengeflickt und die Daten erst mal Roh auf die (für das RAID ja nicht relevante) Ersatzfestplatte kopiert. Am nächsten Morgen wäre der Server fast aus dem Fenster geflogen – ein Glück, dass er ein paar Kilo zu viel hat um ihr alleine weit zu tragen – nun waren alle übrigen Platten des RAIDs offline – WTF. Etwa doch der SATA-Controller eine Macke? Oder gabs ein Problem mit der Stromversorgung der Platten? OK, das Ding muss online, ich muss mich abreagieren, also die Festplatten samt Controller an einen anderen PC und siehe da – mit 2 Netzteilen und einem Turm aus Platten neben dem Mainboard konnte ich alle Daten auf die Ersatzfestplatte rüberheben. Immerhin in Sicherheit. Inzwischen habe ich die wichtigsten Daten (Routerdaten und Profile) auf das Systemraid des Servers (3xSCSI RAID1) geschoben (warum zum Henker kann ich NFS-Mountpoints nicht neu exporten -.-) und kann zumindest etwas arbeiten. Nächste Woche werde ich mir dann neue Platten besorgen und die bisherigen RAID-Platten Stück für Stück manuell prüfen und ggf. ersetzen. Den Controller werde ich wohl drin lassen – im aktuellen Rechner hat er keine Probleme gemacht und Ersatz wäre etwas kostspielig – anständige PCI-SATA-Controller mit 4 Ports kosten leider ein paar Hunderter.
hmm die samsung platten haben scheinbar irgendwas. Meine hd401lj war nach zwei monaten hops 🙁
Naja, WesternDigital ist schlimmer – da hats bei mir keine Platte ohne Sektorenfehler über 6 Monate geschafft. Samsung ist anscheinend Glückssache – 2 Platten hielten <6Monate, 5 andere sind jetzt seit über 2 Jahren in Betrieb. Ich hab mir jetzt mal Hitachi geholt – mal schauen wie die sich schlagen, auf jeden Fall wirbt der Hersteller explizit mit der Eigenschaft, dass die Platte 24/7-Betrieb durchhalten soll.
Hmmm meine WD Raptor mit 10k rpm schlägt sich seit einem Jahr im Dauereinsatz wunderprechtig 😉
Naja, Raptor ist auch eine etwas andere Klasse – da gibt WD einiges an Garantie drauf (5Jahre Garantie, 1,2millionen Stunden MBTF), allerdings find ich die für meine Zwecke etwas übertrieben – vorallem dürften die 10k auf die Temperatur gehen und da hab ich nicht so viel Luft nach oben. Was interessantes hab ich noch gefunden: Seagate geht wohl bei der Berechnung der Lebenszeit von „acht Stunden pro Tag und fünf Mal die Woche“ aus (Tecchannel) – etwas weniger als die Freigabe für Dauerbetrieb, die Hitachi gibt. Die Platten werde ich wohl besser nicht testen 😉