タグ付けされた質問 「drive-failure」

10
ハードドライブに書き込む方法は?
Googleはハードドライブの障害について非常に徹底的な調査を行い、ハードドライブの大部分は、使用率が最初の3か月以内に障害になることを発見しました。 私の同僚と私は、すべての新しいハードドライブにバーンインプロセスを実装して、テストされていない新しいドライブで時間を無駄にすることから心痛を軽減できると考えています。しかし、バーンインプロセスを実装する前に、より経験のある他の人からいくつかの洞察を得たいと思います。 使用を開始する前にハードドライブに書き込むことはどれくらい重要ですか? バーンインプロセスをどのように実装しますか? ハードドライブでどれくらいの時間書き込みますか? ドライブの書き込みに使用するソフトウェアは何ですか? バーンインプロセスにはどのくらいのストレスがかかりますか? 編集:ビジネスの性質上、RAIDはほとんどの場合使用できません。全国に頻繁に郵送される単一のドライブに依存する必要があります。できるだけ早くドライブをバックアップしますが、データをバックアップする機会を得る前に、あちこちで障害が発生します。 更新 私の会社はしばらくの間バーンインプロセスを実装しており、非常に有用であることが証明されています。在庫のあるすべての新しいドライブをすぐに焼き付けて、保証の期限が切れる前や新しいコンピューターシステムにインストールする前に多くのエラーを見つけることができます。また、ドライブが不良になったことを確認することも有用であることが証明されています。コンピューターのいずれかでエラーが発生し始め、ハードドライブが主な疑いがある場合、そのドライブでバーンインプロセスを再実行し、エラーを調べて、RMAプロセスを開始するか投げる前にドライブが実際に問題であることを確認しますゴミ箱に入れて。 バーンインプロセスは簡単です。多くのSATAポートを備えた指定されたUbuntuシステムがあり、各ドライブで4回のパスで読み取り/書き込みモードでbadblocksを実行します。簡単にするために、「すべてのドライブからデータが削除されます」という警告を出力し、システムドライブを除くすべてのドライブで不良ブロックを実行するスクリプトを作成しました。

5
平均故障間隔— SSD
この SSD の平均故障間隔(MTBF)は時間としてリストされます。1,500,000 それは多くの時間です。1,500,000時間はおおよそ170数年です。この特定のSSDの発明は戦後の戦争であるため、MTBFが何であるかをどのようにして知るのでしょうか? 私にとって意味のあるいくつかのオプション: Neweggにはタイプミスがあります 平均故障間隔の定義は、私が思うにそうではない 彼らはMTBFが何であるかを推定するために、ある種の統計的外挿を使用しています 質問: SSD / HDDの平均故障間隔(MTFB)はどのように取得されますか?

6
同様の障害時間の可能性を減らすために、新しいRAID 1ペアの1つのディスクを「実行」する必要がありますか?
2つの新しい4TBハードドライブのRAID1アレイをセットアップしています。 以前にどこかで聞いたことがありますが、新しいハードドライブのRAID1アレイを同時に購入すると、同じような時点で障害が発生する可能性が高くなります。 そのため、短時間で両方が故障する可能性を減らすために、ハードドライブの1つを一定期間(数週間程度)単独で使用することを検討しています。(未使用のドライブはドロワーで切断されたままになります) これは合理的なアプローチのように見えますか、それとも単に時間を無駄にしているだけですか?

6
RAID 5構成でドライブ障害から回復する方法は?
今朝、データベースサーバーでドライブに障害が発生しました。ドライブアレイ(3台のディスク)は、RAID 5構成でセットアップされています。 ドライブの交換を待つ間、回復戦略の準備を進めています。ユーザーは非常にゆっくりですが、システムでの作業を続けています(理由が分からないのですか??)。 新しいドライブをどのようにインストールしますか?このドライブのデータはパリティから自動的に再構築されますか、それとも別のプロセスに従う必要がありますか? 編集: これはハードウェアRAIDコントローラーです。(これまでの回答に感謝、感謝)

4
正確にUREとは何ですか?
最近RAID5とRAID6を検討してきましたが、URE5の評価とドライブのサイズの増加により、RAID5の安全性が低下していることがわかりました。基本的に、私が見つけたコンテンツのほとんどは、RAID5では、ディスク障害が発生した場合、アレイの残りが12TBであれば、UREを満たし、データを失う可能性がほぼ100%あると述べています。 12TBの数値は、ディスクが1つのUREに到達するために読み取られた10 ^ 14ビットで評価されるという事実に基づいています。 まあ、私はここに到達しないものがあります。読み取りは、セクターに向かうヘッドによって行われます。読み取りが失敗する原因は、ヘッドが死ぬか、セクターが死ぬことです。また、読み取りが他の何らかの理由で機能しないこともあります(振動により頭が跳ねるなど)。だから、3つの状況すべてに対処させてください: 読み取りが機能しない:それは回復不能ではありませんか?再試行できます。 頭は死にます。これは確かに回復できませんが、それはまた、大皿全体(または少なくとも側面)が読めないことを意味します。 セクターは死にます:完全に回復不能ですが、ここではUREで4TBディスクが10 ^ 14と評価され、UREで8TBが10 ^ 14と評価されている理由がわかりません。 8TB(おそらく新しい技術)は、4TBの半分の信頼性です。これは意味がありません。 ご覧のとおり、私が特定した3つの障害ポイントから、意味のあるものはありません。それでは、正確にUREとは何ですか、具体的にはどういうことですか? それを私に説明できる人はいますか? 編集1 最初の回答の波の後、その理由はセクターが失敗しているようです。良いことは、ファームウェア、RAIDコントローラー、およびOS +ファイルシステムに、それを早期に検出し、セクターを再割り当てする手順があることです。 さて、私はUREが何であるかを知っています(実際、名前はまったく自明です:))。 私は未だに根本的な原因とそれらが与える安定した評価に困惑しています。 故障したセクターは外部ソース(宇宙波)に起因すると考える人もいますが、それからUREレートが年齢ではなく読み取り回数に基づいていることに驚かされます。さらに、私は間違っているかもしれませんが、これはファンタジーに近いと思います。 ディスクの摩耗に関係するもう1つの理由があり、密度が高いほど磁区が弱くなるという指摘もあります。しかし、ここでうまく説明されているように、新しいディスクは、ほぼ同じプラッター(および同じ密度)をHDDシャーシに入れることで、さまざまなサイズが得られます。セクターは同じであり、すべてが非常に同じ信頼性を持っている必要があります。したがって、大きいディスクは小さいディスクよりも高いレーティングを持っている必要があります。セクターの読み取りは少なくなります。しかし、それは単に、より高い技術によるゲインが高密度による損失によって相殺されるために、より新しい技術を備えた新しいディスクが古いディスクよりも良い評価を得ない理由を説明するでしょう。

2
UNC SMARTエラーは深刻ですか?行動する必要がありますか?
300G Western Digital Raptorを持っていますが、最近UNC SMARTが表示され、経験のある人なら誰でも交換してWDの保証フォームを取得する必要があると思いますか? smartctl -aの詳細は次のとおりです。 smartctl 5.41 2011-06-09 r3365 [FreeBSD 8.2-RELEASE-p6 amd64] (local build) Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net === START OF INFORMATION SECTION === Model Family: Western Digital VelociRaptor Device Model: WDC WD3000HLFS-01G6U0 Serial Number: WD-WXD0C79C8807 LU WWN Device Id: 5 0014ee 0ac3cfaf0 Firmware Version: …

1
ESXiでディスクに障害が発生しているかどうか、またはこれらのエラーの意味を確認するにはどうすればよいですか?
VMware ESXi v4.1.0 348481を実行しているサーバーがあります。このサーバーには、ハードウェアRAID10とSATAバックアップドライブがあります。RAID10データストアにプライマリブートvmdkがあり、SATAバックアップドライブのデータストアに600 GBのvmdkがあるVMを実行しています。VMは、FreeBSDカーネルでDebian linuxを実行し、バックアップドライブにZFSを使用します。 編集:ドライブはVMに直接接続されていません。これはVMwareデータストアとして使用され、VMはSATAドライブのデータストアにvmdkを持っています。データストアがいっぱいではありません(65%のみがいっぱいです) SSHを使用してサーバーにログインしたところ、昨夜のバックアップがハングしているzfs listかzpool list、両方がハングしていることがわかりました。そのため、ESXiで仮想コンソールを開いたところ、残念でした。 (da1:mpt0:0:1:0): READ(10). CDC: 28 0 19 97 3a 50 0 0 2d 0 (da1:mpt0:0:1:0): CAM status: SCSI Status Error (da1:mpt0:0:1:0): SCSI status: Check Condition (da1:mpt0:0:1:0): SCSI sense: MEDIUM ERROR info:4862ec asc:11,4 (Unrecovered read error - auto reallocate failed) (da1:mpt0:0:1:0): READ(10). …

4
ハードドライブの読み取りエラー...停止しますか?
私の話は非常に単純に始まります。Arch Linuxを実行する軽量サーバーがあり、そのほとんどのデータを2つのSATAドライブで構成されるRAID-1に保存しています。約4ヶ月間問題なく動作していました。その後、突然、ドライブの1つで読み取りエラーが発生し始めました。常に、メッセージは次のようになりました。 Apr 18 00:20:15 hope kernel: [307085.582035] ata5.01: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0 Apr 18 00:20:15 hope kernel: [307085.582040] ata5.01: failed command: READ DMA EXT Apr 18 00:20:15 hope kernel: [307085.582048] ata5.01: cmd 25/00:08:08:6a:34/00:00:27:00:00/f0 tag 0 dma 4096 in Apr 18 00:20:15 hope kernel: [307085.582050] …

3
ハードドライブが故障するのはなぜですか?
ハードドライブの障害が発生する理由に非常に興味があります。輸送や輸送の過程での扱いが悪いためだと言う人もいれば、熱や長時間の激しい使用によるものだと言う人もいますが、ほこりが原因だと言う人もいます。 ハードドライブ障害の最も可能性の高い答えと原因は何ですか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.