kaputtes /boot

Heute sollte ich einen Server reparieren, der nach einem Stromausfall nicht mehr bootet. Gestern kam die Kiste nur bis zum Grub-Promt, kein Grub-Menü. Heute morgen bootete sch schon viel weiter: Grub-Menü, Kernel, initrd und dann kam “run fsck manually” für /boot auf /dev/sda1. Weil wir das root-passwort gerade nicht zur Hand hatten, haben wir diesen fsck von Knoppix aus gemacht. Es fand viele Fehler und ich musste oft Return drücken um der Reperatur zuzustimmen. /boot und auch die anderen 2 Partitionen befanden sich in einem Hardware RAID5: 3 SATA Platten an einem 3ware Controller. Die Root Partion und Swap waren LVs in einer LVM Volume Group und unbeschädigt. Nach dem manuellen fsck von /boot bootet die Kiste wieder ohne Fehler. Schön. Oder nicht ? Es bleiben halt ein paar Fragen offen: Wie hat sich Grub über nacht “selbst repariert” ? und: Warum ist /boot überhaupt kaputt gegangen obwohl dort doch nur einmal kurz beim booten lesend zugegriffen wird? Zu Frage 1 vermute ich, dass der RAID-Controller Fehler entdeckt & behoben hat, was möglicherweise ein paar Minuten dauert. Vielleicht wurde er bei seiner Arbeit auch durch Menschen gestört, die mehrfach den Server aus- & einschalteten. Vielleicht war /boot schon vor dem Stromausfall kaputt – man merkt es aber erst beim nächsten boot. Abschliessen kann man wohl sagen: RAID hilft nicht gegen Stromausfall. Wer sich so einen schönen Server leistet, sollte nicht bei der USV(UPS) sparen!

Leave a Reply