Grosse RAIDs (8 TiB+)

  • Der letzte Thread über RAID ist uuuuralt und mich interessiert eure Meinung, Vorgehensweise, wie es bei euch aussieht, usw. Dies ist ein allgemeiner Diskussionsthread über grosse RAIDs und NICHT über den Sinn und Unsinn von viel Speicherplatz oder über den Datenbestand der User!


    Zuerst einmal gibts ja diese URE von 10^14 bei Consumer-HDDs und 10^15 bei RE-Platten. D.h. es soll statistisch bei Consumer-Platten alle 12.5TB ein Lesefehler auftreten, der bei RAID5 durch die "single Parity" (?) dazu führen soll, dass ne Datei korrupt wird oder ein Rebuild abgebrochen werden kann? Hab darüber gelesen, dass es das geben soll, aber noch nicht, dass es schon passiert ist. Was meint ihr dazu? Genau deswegen hab ich meine beiden 10TB RAID5 (6x2) zu zwei 10TB RAID6 (7x2) gemacht, um die doppelte Parity zu haben, da beim Rebuild ja insgesamt 10 TB Umsatz gemacht werden?


    Ich hab von paar Tweakern gehört, die auch grosse RAIDs haben, aber alle benützen afaik RAID5?


    Ausserdem: was für Platten setzt ihr ein? Zurzeit verwende ich nur Hitachi Deskstar 7K2000 2TB in meinen RAIDs. Früher auch grüne WD20EADS und Seagate Barracuda 7200.11 mit 1.5TB. Hatte noch nicht den Schritt zu einem neuen Controller und Platten mit Advanced Sectors (4K) gewagt. Habe nur meinen 3ware 9650SE-16ML im Einsatz. Welche Controller habt ihr?

    2006: "Aber wenn die Lehrer mal abgesehen fragt man sich, wo sie die Physik gelassen haben.. Und Knochen und so haben sie grad auch nicht.." ©Yarrow
    2007: "moonie ist keine Frau. moonie ist eine Gamerin!" ©Lord of Darkness
    2008: "Wer bedroh ich den, ...... und wens so wer, dan sicher mit recht!" ©SmallX2
    2009: "wir sollten die Bildschirme unter den Tisch stellen, da es nicht soviel Platz hat" ©Tobi_Wan @ t2w LAN
    2010: "Hör doch auf ständig rumzutrollen!" ©Tulpe (JackCarter)
    2011: "Bleibt aber immer noch die Frage, wo das ganze Backupen? (Zu Snipa Guck)" ©Tobi_Wan
    2012: "Eigentlich wollte ich Aromat auf eure Vermicelles tun, wusste aber nicht, ob ihr Alkohol mögt" ©Tobi_Wan
    2013: "ich bin kein armer Schlucker." ©Tulpe (JackCarter)
    2014: "dr Aschi wo ds Intranet programmiert het ... unds Internet" ©RAYDEN
    2015: "Dieses Forum hat 2 Suchmöglichkeiten: [SUCHEN] und Snipa" ©ReDiculum
    2016: "Trump wird ein hervorragender Präsident werden :)" ©1984

    Einmal editiert, zuletzt von Snipa ()

  • Betreffend URE... je weniger ich darüber weiss, desto besser kann ich nachts schlafen. Ist ignorant, aber manchmal will ich es einfach nicht besser wissen, da die Abhilfe meistens teurer als die momentane Lösung ist ;)
    Mein RAID5 habe ich erst nur aus einem Grund erstellt: Viele Festplatten unter einem Laufwerksbuchstaben (in XP-Zeiten konnte man noch keine Ordner einbinden, und das ist auch nur eine hässliche Bastellösung). Mittlerweile bin ich ganz froh um die guten Transferraten, da ich nebenberuflich/hobbymässig mit grossen Foto- (>1GB TIFFs) und Videodateien (FullHD) arbeite.
    Der Griff zum Hardwarecontroller rechtfertigte ich früher mit weniger CPU-Last (da hatte man ja noch nicht 12 Kerne), heute, mal abgesehen von der Performance, ist es einfach super praktisch bei einem Mainboardwechsel; da nichts gemacht werden muss ausser den Treiber zu installieren.
    Ich war bis jetzt in zwei Fällen sehr froh um meine Paritätsplatte, als jeweils eine Festplatte verreckt ist. RAID6 kommt rein aus platztechnischen Gründen gerade nicht in Frage. In meinem Case habe ich Platz für 8 Platten, und der Controller (übrigens 3ware 9650SE-LP8) bietet auch nicht mehr Ports. Beides ist voll ausgenutzt mit 8x 2TB Samsung F3 (5400rpm) Platten. LSI bietet anscheinend Treiber/Firmware mit 4K-Unterstützung, so dass einem Update auf 8x4TB oder 8x5TB bis Ende Jahr nichts im Weg stehen sollte, ausser die Anschaffungskosten der Festplatten. Dadurch dass ich noch viele andere teure Hobbies habe, liegt ein Festplattenwechsel nur alle 2-3 Jahre drin, und ist mangels Auslagerungsplatten jeweils mit hohem Zeitaufwand verbunden. Soll heissen: 1 Platte raus, grössere rein, Rebuild. Repeat... Volume vergrössern. Done. Externe Platten nutze ich nicht.

    TOWER i7 3930K | 7970 3GB | 32GB | GA-X79A-UD5 | 250GB Vertex 3 | Lian-Li V1200B-Plus | Eizo 24" | cooled w/ H2O
    FILER A6 5400K | 8GB | 120GB EVO Basic | RAID5 w/ 22TB usable | Lian Li PC-Q25
    NBOOK Lenovo ThinkPad W530 | i7-3720QM | Quadro K2000M | 24GB | 500GB OCZ Vector 180 | 15" WUXGA
    CINE Yamaha A-S1000+CD-S1000 | Marantz SR-6003 | Focal Chorus 725+706V, Cobalt SR 800 | Nubert nuLine CS-72+AW-560 | Panasonic TX-P65ST50J
    photosmusicinsta

    2 Mal editiert, zuletzt von stim0r0l ()

  • Dafür gibt es ja bei den meisten HW-Raid Controllern (vll. bei allen??) background data scrubbing/ patrol read/ etc.
    Dabei wird die Parität laufend geprüft. Sollte als so ein URE auftauchen wird der innerhalb ein paar Stunden/Tage repariert. Das Problem beim Raid-5 ohne scrubbing ist, dass ein solcher URE unentdeckt bleiben kann, und dann wenn eine Platte ausfällt und die Parität auf einer anderen Platte ist defekt, kann beim rebuilden dann natürlich der entsprechende Sektor nicht mehr wiederhergestellt werden.


    Ich hab bei meinem LSI die entsprechende Funktion einfach auf der Standardeinstellung belassen (Medium) man kann die Funktion auch auf Off, Low oder High stellen.
    Ich weiss das Intel und Dell diese Funktionalität auch bieten.


    Bei 3ware 9000er Controllern heisst die Funktion Verify
    Ihr könnt Auto-Verify einschalten und dann einen Zeitplan dafür festlegen.


    Wikipedia dazu:

    Zitat

    Background scrubbing can be used to detect and recover from UREs (which are latent and invisibly compensated for dynamically by the RAID array) as a background process, by reconstruction from the redundant RAID data and then re-writing and re-mapping to a new sector; and so reduce the risk of double-failures to the RAID system.

  • Von dem, was ruffy erzählt, hab ich kA, aber Verify kenn ich. Machts 2-4 mal pro Monat (kommt drauf an, ob die Kiste läuft, wenn ein Termin ansteht).


    Mit dem URE-Problem meinte ich eigentlich die Zeit, wo ein R5 degraded ist und nen Rebuild braucht. Dann hilft keine Parity mehr, Datenkorruption zu verhindern, oder? Deshalb hab ich auf R6 umgerüstet, damit während dem Rebuild immer noch Parity vorhanden ist.

    2006: "Aber wenn die Lehrer mal abgesehen fragt man sich, wo sie die Physik gelassen haben.. Und Knochen und so haben sie grad auch nicht.." ©Yarrow
    2007: "moonie ist keine Frau. moonie ist eine Gamerin!" ©Lord of Darkness
    2008: "Wer bedroh ich den, ...... und wens so wer, dan sicher mit recht!" ©SmallX2
    2009: "wir sollten die Bildschirme unter den Tisch stellen, da es nicht soviel Platz hat" ©Tobi_Wan @ t2w LAN
    2010: "Hör doch auf ständig rumzutrollen!" ©Tulpe (JackCarter)
    2011: "Bleibt aber immer noch die Frage, wo das ganze Backupen? (Zu Snipa Guck)" ©Tobi_Wan
    2012: "Eigentlich wollte ich Aromat auf eure Vermicelles tun, wusste aber nicht, ob ihr Alkohol mögt" ©Tobi_Wan
    2013: "ich bin kein armer Schlucker." ©Tulpe (JackCarter)
    2014: "dr Aschi wo ds Intranet programmiert het ... unds Internet" ©RAYDEN
    2015: "Dieses Forum hat 2 Suchmöglichkeiten: [SUCHEN] und Snipa" ©ReDiculum
    2016: "Trump wird ein hervorragender Präsident werden :)" ©1984

  • Ja das ist Verify, und ja, wenn während des rebuilds ein UBE auftritt dann hast du den Salat, die Wahrscheinlichkeit, dass aber einfach während des Rebuilds eine 2. Platte aussteigt ist glaube ich grösser als 1:10^14.
    Ohne Verify hast du noch das Problem, dass die Parity schon korrupt sein kann bevor eine Platte aussteigt, ein Rebuild ist dann unmöglich.
    Das Problem hat man mit nem grossen SW-Raid, dann sinds eben nicht nur die 24h beim Rebuild wo ein UBE auftreten kann sondern auch noch die vergangenen x Monate.

  • Die Chance ist aber nicht, 1:10^14 , sondern viel, viel höher.
    Aber je nach Platte erwartet man einen URE nur alle 10^15 Bit (Problem verkleinert).


    Raid schützt halt nicht vor Ausfall.


    Bei stim0r0 macht Raid ja Sinn wegen der Performance:


    Zitat

    Betreffend URE... je weniger ich darüber weiss, desto besser kann ich nachts schlafen. Ist ignorant, aber manchmal will ich es einfach nicht besser wissen, da die Abhilfe meistens teurer als die momentane Lösung ist


    Ein Raid ohne Backup ist einfach ein grösseres Risiko für totalen Datenverlust als einzelne Platten.



    Es ist aber wohl ein pychologisches Problem:


    Scenario A
    1: To lose CHF 50 (unconditionally): 36%
    2: To lose CHF 100, with a probability of 0.5: 64%

    Scenario B
    1: To win CHF 50 (unconditionally): 72%
    2: To win CHF 100, with a probability of 0.5: 28%


    Scenario C
    You have to choose one of two options:


    1: Don‘t install ActiveX control from unknown source,
    which is required to view a web page you are
    interested in
    2: Install ActiveX control from unknown source to view
    this web page, and take a chance that something
    bad happens


    This scenario is equivalent to Scenario A.



    Das kann man gut auf Raid übertragen. Geheult wird halt immer erst, wenn etwas passiert.



    Was ich immer wieder gerne anfüge:


    Zitat

    On the last point: in a corridor conversation at FAST ’10 I was told that at a large HPC installation they found that with drives from the same manufacturing lot that 1 drive failure made a 2nd 10x more likely – while a 2nd made a 3rd 100x more likely. Not clear how manufacturing or environmental issues – or interaction between the 2 – led to the result. YMMV.