Vor etwa zwei Wochen wurde ich mitten in der Nacht aus dem Schlaf gerissen: Ein grelles Pipen beendete um 4 Uhr Morgens die Regenerationsphase. Erster Gedanke: Welcher Idiot ruft nachts um die Uhrzeit an… Der Idiot war mein Überwachungssystem. Mein Rootserver hatte sich soeben verabschiedet. Nach ganzen 197d 18h 15m und 11s Dauerlauf im S4Y-Rechenzentrum. Der Reboot übers Webinterface brachte keinen erfolg, und da die Techniker erst am 7:00h erreichbar sind konnte ich nicht viel machen. Also nachdem der Support den Server neu gestartet hatte wieder die Dateisysteme auf Vordermann gebracht und neu gestartet – alles OK fürs erste, aber wodurch dieser Hänger? In den Logfiles war nichts zu finden und zu der fraglichen Zeit lief auch nichts besonderes – lediglich das normale Backup. In den darauf folgenden Tagen kam es dann erneut zu Ausfällen. Da diese auch nicht durch einen anderen Kernel behoben werden konnten lag ein Hardwarefehler nahe. Also schnell über das Onlinesystem eine Störungsmeldung geschrieben – die Antwort einige Stunden danach:
[…] der Webresetter des Servers war defekt und musste getauscht werden[…]
schön und gut, das erklärt warum der Webreset nicht funktionierte, aber das beeinträchtigt doch das System normalerweise nicht. Auf die Frage, ob bei Reboot irgendwelche Fehlermeldungen kamen wurde ich dann auf das Rettungssystem verwiesen.
[…]Sie finden in unserem Rescuesystem mehrere Tools, mit dennen derlei Probleme analysiert werden könnne. Ich würde auf den RAM tippen und empfehle daher, den Server im Rescuemodus zu starten und das Programm „memtest86“ für 1-2 Stunden laufen zu lassen.[…]
Ein gut gemeinter Tipp – hätte ich wohl auch gemacht – aber dummerweise lässt sich memtest86 nur starten, wenn man auch den den Rechner könnte (sprich: Serielle Konsole). Da mir nur SSH zur Verfügung steht fällt dieser Test damit weg. Nachdem Heute der Server dann wieder durch einen größeren Kopiervorgang wieder einmal hängen blieb und ich ohnehin ins Rettungssystem musste bot sich der Zeitpunkt an einige andere Tests zu machen. Ergebnis: LAN-Karte spinnt, RAM spinnt. Wie meldet man das schnell dem Support? Richtig: Über die Hotline. 0900irgendwas – auch Samstags für schlappe 1,86 Euro/min. 3 Minuten Warteschleife, 4 Minuten Warteschleife, dann ein kurzes Knacken und……besetzt. Ahhhja. Bei jedem weiteren Versuch nurnoch der Hinweis, dass die Leitungen überlastet wären und man es später erneut versuchen sollte. Fairerweise ist jedoch zu erwähnen, dass diese „Besetztorgie“ bei frühreren Anrufen nicht auftrat. Nunja, das Onlinesystem nimmt ja auch Antworten entgegen, also Ergebnisse gepostet. Kurz darauf: Server schon wieder weg. Kein Reboot, kein Rettungssystem – garnichts. Nach ca. 1 Stunde dann wieder Ping – und folgende Email:
Sehr geehrter Kunde,
leider mussten unsere Techniker Vorort feststellen, dass Ihr System schwerwiegende Hardwarefehler aufweist.
Aus diesen Grund wurde bei Ihrem System die komplette Hardware mit ausnähme des Datenträgers getauscht.
den Rechtschreibfehler übersehen wir mal freundlicherweise 😉
Jetzt – nach 2 Wochen – dann endlich ein Anhaltspunkt und eine Aktion. Ohne Diskussion sogar. Obs etwas gebracht hat wird sich in den nächsten Tagen dann zeigen.
Fazit: Auch wenn die Reaktion etwas länger gedauert hat könnte sich so mancher Anbieter davon ein Stückchen abschneiden. Z.b. gewisse (inzwischen insolvente) Webhoster, welche ihren Shared-Hosting-Kunden Reparaturen am Hauptsystem in Rechnung stellen.