サーバー管理者 hardware-raid

8

ハードウェアSATA RAID-10アレイ内の単一のディスクが、アレイ全体をきしむように停止させるにはどうすればよいですか？

前奏曲：私はコードサルであり、私の小さな会社のシステム管理者としての任務をますます受けています。私のコードは私たちの製品であり、ますます私たちはSaaSと同じアプリを提供しています。約18か月前、私はサーバーをプレミアムホスティング中心のベンダーからティアIVデータセンターのベアボーンラックプッシャーに移動しました。（文字通り、通りの向こう側。）このことは、ネットワーキング、ストレージ、監視など、はるかに多くのことを行っています。大きな動きの一環として、ホスティング会社からリースされた直接接続ストレージを置き換えるために、SuperMicroシャーシ、3ware RAIDカード、Ubuntu 10.04、20個のSATAディスク、DRBDおよびに基づいて9TB 2ノードNASを構築しました。すべての愛情を込めて3件のブログの記事に記載されます：アップの構築＆新9TB SATA RAID10 NFSv4のNASをテスト：パートI、パートIIとパートIIIを。また、Cacit監視システムもセットアップします。最近、SMART値など、より多くのデータポイントを追加しています。私はせずに、このすべてを行っていることができなかった素晴らしい boffins で ServerFaultの。楽しくて教育的な経験でした。私の上司は幸せです（$$$のバケットを節約しました）、顧客は幸せです（ストレージコストは下がっています）、私は幸せです（楽しい、楽しい、楽しい）。昨日まで。停止および回復：昼食後しばらくして、オンデマンドストリーミングメディアCMSであるアプリケーションからパフォーマンスの低迷のレポートを取得し始めました。ほぼ同時期に、Cacti監視システムが猛烈な電子メールを送信しました。より重要なアラートの1つは、iostat待機のグラフでした。パフォーマンスが非常に低下したため、Pingdomは「サーバーダウン」通知を送信し始めました。全体的な負荷は中程度で、トラフィックの急増はありませんでした。 NASのNFSクライアントであるアプリケーションサーバーにログオンした後、ほとんどすべてが非常に断続的で非常に長いIO待機時間を経験していることを確認しました。そして、プライマリNASノード自体にホップすると、問題のアレイのファイルシステムをナビゲートしようとしたときに同じ遅延が明らかになりました。フェイルオーバーの時間、それはうまくいきました。20分以内に、すべてが完全にバックアップおよび実行されることが確認されました。死後：すべてのシステム障害の後、事後分析を実行して障害の原因を特定します。私が最初にしたことは、sshを箱に戻し、ログのレビューを開始することでした。完全にオフラインでした。データセンターへの旅行の時間。ハードウェアのリセット、バックアップ、実行。で/var/syslog私はこの怖い見た目のエントリを見つけました： Nov 15 06:49:44 umbilo smartd[2827]: Device: /dev/twa0 [3ware_disk_00], 6 Currently unreadable (pending) sectors Nov 15 06:49:44 umbilo smartd[2827]: Device: /dev/twa0 [3ware_disk_07], SMART Prefailure Attribute: 1 Raw_Read_Error_Rate …

103 performance hard-drive hardware-raid sata sas

6

RAID 0が冗長ではないのにRAIDとして分類されるのはなぜですか？

私はかなり長年ITで働いてきたので、RAIDアレイとは何か、RAID 0とは何か、RAID 1、5、6、10、50、60などを知っていますが、最近では何かが思い浮かびました職場での会話; RAIDが独立した（または安価な）ディスクの冗長アレイを表す場合、RAID 0はストライプアレイではなくRAIDとして分類されるのはなぜですか？ 1つのアレイ上の複数のディスクにデータをストライプ化しても冗長性はまったくありませんが、なぜRAIDアレイとして分類されるのですか？冗長性が実際に開始されるのは確かに、最小数はRAID 1（ミラーリング）でなければなりませんか？

32 raid software-raid hardware-raid raid0

6

ハードウェアRAIDを使用したZFSベストプラクティス

サーバーグレードのハードウェアを自由に使用できる場合、ハードウェアベースのRAID1などの上でZFSを実行することをお勧めしますか？ハードウェアベースのRAIDをオフにしてmirror、raidz zpool代わりにZFSを実行する必要がありますか？ハードウェアRAID機能をオフにすると、ハードウェアRAIDベースのSATA2およびSASコントローラーは、非ハードウェアRAIDコントローラーよりも読み取りおよび書き込みエラーを隠しやすくなりますか？カスタマイズ不可能なサーバーに関しては、ハードウェアRAIDコントローラーが実質的にコスト中立である（または、事前に構築されたサーバー製品のコストを下げる状況がある場合、その存在によりホスティング会社が補完的なIPMIを提供する可能性が向上するため）アクセス）、それはまったく避けるべきですか？しかし、それは求められるべきですか？

30 zfs hardware-raid sas sata hardware

3

Linux-実世界のハードウェアRAIDコントローラーのチューニング（scsiおよびcciss）

私が管理するLinuxシステムのほとんどは、ハードウェアRAIDコントローラー（主にHP Smartアレイ）を備えています。それらはすべてRHELまたはCentOSを実行しています。 SASディスク（Smartアレイ、Perc、LSIなど）とバッテリーバックアップまたはフラッシュバックアップキャッシュを備えたハードウェアRAIDコントローラーを組み込んだセットアップのパフォーマンスを最適化するのに役立つ実世界の調整可能パラメータを探しています。RAID 1 + 0および複数のスピンドル（4+ディスク）を想定します。低遅延および金融取引アプリケーション用のLinuxネットワーク設定の調整にはかなりの時間を費やしています。ただし、これらのオプションの多くは十分に文書化されています（送信/受信バッファーの変更、TCPウィンドウ設定の変更など）。エンジニアはストレージ側で何をしていますか？歴史的に、私はI / Oスケジューリングエレベータに変更を加えてきました。最近、アプリケーション内のパフォーマンスを改善するためにdeadlineとnoopスケジューラを選択しました。RHELバージョンが進歩するにつれて、SCSIおよびCCISSブロックデバイスのコンパイル済みデフォルトも変更されていることにも気付きました。これは、時間の経過とともに推奨されるストレージサブシステム設定に影響を与えてきました。ただし、明確な推奨事項を確認してからしばらく経ちました。そして、OSのデフォルトが最適ではないことを知っています。たとえば、128kbのデフォルトの先読みバッファは、サーバークラスのハードウェアでの展開には非常に小さいようです。次の記事では、ブロックキューの先読みキャッシュとnr_requestsの値を変更した場合のパフォーマンスへの影響について説明します。 http://zackreed.me/articles/54-hp-smart-array-p410-controller-tuning http://www.overclock.net/t/515068/tuning-a-hp-smart-array-p400-with -linux-why-tuning-really-matters http://yoshinorimatsunobu.blogspot.com/2009/04/linux-io-scheduler-queue-size-and.html たとえば、HP SmartアレイRAIDコントローラーの推奨される変更は次のとおりです。 echo "noop" > /sys/block/cciss\!c0d0/queue/scheduler blockdev --setra 65536 /dev/cciss/c0d0 echo 512 > /sys/block/cciss\!c0d0/queue/nr_requests echo 2048 > /sys/block/cciss\!c0d0/queue/read_ahead_kb ストレージパフォーマンスを改善するために、他に何を確実に調整できますか？生産シナリオでsysctlおよびsysfsオプションを具体的に探しています。

29 storage hp hardware-raid performance-tuning hp-smart-array

5

BBWC：理論上は良い考えですが、データを保存したことはありますか？

私はBBWC（バッテリーバックアップ式書き込みキャッシュ）の目的に精通しています。以前は、UPSが良好であってもサーバーで使用していました。保護を提供しない明らかな障害があります。それが実際に実際の利益をもたらすかどうかを理解したいのですが。（注：BBWCを使用しており、クラッシュ/障害が発生した人々からの応答、およびBBWCが回復に役立ったかどうかを特に探しています）更新ここでのフィードバックの後、私はBBWCが価値を付加するかどうかについてますます懐疑的になりました。データの完全性について自信を持たせるために、ファイルシステムは、データが不揮発性ストレージ（必ずしもディスクではない-私が戻ってくるポイント）にコミットされたときを知っている必要があります。データがディスクにコミットされた時期について多くのディスクが存在することに注意してください（http://brad.livejournal.com/2116715.html）。ディスク上のキャッシュを無効にするとディスクがより正直になると想定するのは妥当と思われますが、これが当てはまるという保証もありません。 BBWCのバッファは通常非常に大きいため、バリアはディスクにより多くのデータをコミットする必要があるため、書き込みの遅延が発生します。一般的なアドバイスは、不揮発性ライトバックキャッシュを使用する場合はバリアを無効にすることです（そして、ディスクキャッシュ）。ただし、これは書き込み操作の整合性を損なうように見えます-不揮発性ストレージにより多くのデータが保持されているからといって、それがより一貫性があるということにはなりません。実際、論理的なトランザクション間の境界がなければ、一貫性を確保する機会は他の方法よりも少ないようです。データが（ディスクにコミットされるのではなく）不揮発性ストレージに入る時点でBBWCがバリアを認識した場合、パフォーマンスを低下させることなくデータ整合性要件を満たしているように見えます-バリアを有効にする必要があることを意味します。ただし、これらのデバイスは通常、物理デバイスへのデータのフラッシュと一貫した動作を示し（バリアを使用すると大幅に遅くなります）、バリアを無効にするための広範なアドバイスを示すため、このように動作することはできません。何故なの？ OSのI / Oが一連のストリームとしてモデル化されている場合、書き込みキャッシュがOSによって管理されている場合、書き込みバリアのブロッキング効果を最小限に抑えるスコープがあります-このレベルでは論理トランザクション（単一のストリーム）コミットする必要があります。一方、トランザクションを構成するデータのビットがわからないBBWCでは、キャッシュ全体をディスクにコミットする必要があります。カーネル/ファイルシステムが実際にこれを実際に実装するかどうかは、現時点で投資しようと思っているよりもはるかに多くの努力を必要とします。コミットされたことと突然の電源喪失をfibsに伝えるディスクの組み合わせは、間違いなく破損につながります。また、ジャーナリングまたはログ構造化ファイルシステムでは、停止後に完全なfsckを実行しないため、破損は言うまでもありませんそれを修復しようとしました。故障モードに関しては、私の経験では、主電源の喪失（UPSと管理されたシャットダウンで簡単に軽減できる）が原因で、ほとんどの突然の停電が発生します。間違ったケーブルをラックから引き出すと、データセンターの品質が低下します（ラベル付けとケーブル管理）。UPSによって防止されない突然の電力損失イベントにはいくつかのタイプがあります-PSUまたはVRMの障害は、障害のあるBBWCが障害の場合にデータの整合性を提供しますが、そのようなイベントはどれくらい一般的ですか？ここでの回答の不足から判断して非常にまれです。確かに、スタック内のフォールトトレランスを高くすると、BBWCよりもかなり高価になりますが、サーバーをクラスターとして実装すると、パフォーマンスと可用性に関して他にも多くの利点があります。突然の電力損失の影響を軽減する別の方法は、SANを実装することです。AoEはこれを実用的な提案にします（iSCSIにはあまり意味がありません）が、やはりコストが高くなります。

26 storage hardware-raid disaster-recovery bbwc

7

CentOS 6でDell PERC H710 RAIDコントローラーの背後にあるハードディスクの状態を監視する方法は？

Raid 5セットアップを備えたRaid ControllerカードをCentOS 6使用して実行しているDellサーバーがありPERC H710、Raid Controllerの背後にあるハードディスクの障害/動作ステータスを監視したい。次に、bashスクリプトを使用して、ハードディスクの状態を監視し、何か問題が発生した場合にアラートメールを送信できるようにします。 CentOS / Red Hat / Linux用のLSI MegaRAID SASコマンドツール（LSI MegaRAID SAS Linuxツールについて）は、PERC H710をsmartctlサポートしておらず、サポートもしていません。デルのWebサイトに基づいてCentOS、このサーバーはサポートされていません（NX3200 PowerVault）。ハードディスクを監視するためのLinuxプログラムをダウンロードできませんでした。 [root@server ~]# lspci | grep RAID 03:00.0 RAID bus controller: LSI Logic / Symbios Logic MegaRAID SAS 2208 [Thunderbolt] (rev 05) [root@server ~]# smartctl -a /dev/sda smartctl 5.43 2012-06-30 …

26 centos raid storage hardware-raid dell-perc

4

RAIDコントローラーはHDDプラッターの回転を同期しますか？

私は新しいストレージソリューションの市場にいます。同僚の一人がさまざまな仕様を調査している間に、一部のRAIDコントローラーはHDDの回転をすべてのドライブのセクター/ブロック0のパスを読み取りヘッドの下に同時に同期させることができると述べました。オンラインで検索しましたが、この主張を証明/反証する情報を見つけることができませんでした。

23 raid hard-drive hardware-raid

4

LSI CacheCade SSDストレージ階層化はどの程度効果的ですか？

LSIはCacheCadeストレージ階層化テクノロジーを提供します。これにより、SSDデバイスを読み取りおよび書き込みキャッシュとして使用して、従来のRAIDアレイを増強できます。他のベンダーも同様のテクノロジーを採用しています。HP SmartArrayコントローラーにはSmartCacheがあります。AdaptecにはMaxCacheがあります... 多くのソフトウェアベースのアクセラレーションツール（sTec EnhanceIO、Velobit、FusionIO ioTurbine、Intel CAS、Facebook flashcache？）は言うまでもありません。 ZFSのバックグラウンドから来て、さまざまなタイプのSSDを使用して、読み取りキャッシュ（L2ARC）および書き込みキャッシュ（ZIL）の義務を処理します。それぞれのワークロードには異なる特性が必要です。書き込みキャッシュの低遅延と耐久性。読み取り用の大容量。 CacheCade SSDは書き込みおよび読み取りキャッシュに使用できるため、RAIDコントローラーのオンボードNVRAMはどのような目的で使用されますか？書き込みキャッシュとして使用する場合、書き込み耐久性に関してCacheCade SSDにはどのような危険がありますか？民生用SSDの使用が推奨されるようです。書き込みはSSDに直接送られますか、それとも最初にコントローラーのキャッシュにヒットしますか？読み取りキャッシュアルゴリズムはどの程度インテリジェントですか？ZFS ARCとL2ARCの機能を理解しています。CacheCade階層化プロセスに関する洞察はありますか？ CacheCadeセットアップの有効性を監視するためのメトリクスは何ですか？キャッシュのヒット率または割合を監視する方法はありますか？それが本当に機能しているかどうかはどうすればわかりますか？ LSIソリューションに関する意見やフィードバックに興味があります。警告がありますか？ヒント？

22 storage cache hardware-raid lsi

8

RAID-5：2つのディスクが同時に故障しましたか？

5台のSeagate Barracuda 3 TB SATAディスクを含むRAID-5アレイを備えた、CentOSを実行するDell PowerEdge T410サーバーがあります。昨日、システムがクラッシュしました（どのくらい正確かわからないし、ログもありません）。 RAIDコントローラBIOSを起動すると、5つのディスクのうち、ディスク1が「欠落」、ディスク3が「劣化」とラベル付けされていることがわかりました。ディスク3を強制的にバックアップし、ディスク1を（同じサイズの）新しいハードドライブに交換しました。BIOSはこれを検出し、ディスク1の再構築を開始しました-ただし、％1でスタックしました。回転の進行状況インジケーターは一晩中動きませんでした。完全に冷凍。ここで私のオプションは何ですか？プロのデータ復旧サービスを使用する以外に、再構築を試みる方法はありますか？そのように2つのハードドライブが同時に故障する可能性はありますか過度に偶然のようです。ディスク1が故障し、その結果ディスク3が「同期がとれなくなった」可能性はありますか？その場合、「同期」に戻すために使用できるユーティリティはありますか？

21 raid storage hardware-raid raid5 data-recovery

6

同様の障害時間の可能性を減らすために、新しいRAID 1ペアの1つのディスクを「実行」する必要がありますか？

2つの新しい4TBハードドライブのRAID1アレイをセットアップしています。以前にどこかで聞いたことがありますが、新しいハードドライブのRAID1アレイを同時に購入すると、同じような時点で障害が発生する可能性が高くなります。そのため、短時間で両方が故障する可能性を減らすために、ハードドライブの1つを一定期間（数週間程度）単独で使用することを検討しています。（未使用のドライブはドロワーで切断されたままになります）これは合理的なアプローチのように見えますか、それとも単に時間を無駄にしているだけですか？

19 raid hardware-raid raid1 drive-failure

5

HBAカードとRAIDカードの違いは何ですか？

HBAとRAIDの違いを知っていると思いました。私の考えでは、HBAはメインマザーボード/ CPUからオフロードされ、単にJBODです...通常、外部SASポートがありますが、RAIDカードはHBAと同じ仕事をしますが、すてきなRAIDレベルと場合によってはバッテリーバックアップ+その他を追加します利点。製品のLSI Webサイトを見ると、RAIDに組み込まれたHBAカード（LSI SAS 9211-8iホストバスアダプターなど）があることがわかります。だから...明らかに私は間違っています！ HBAカードとRAIDカードの違いは何ですか？

17 raid storage hardware hardware-raid hba

4

ローエンドハードウェアRAIDとソフトウェアRAID [非公開]

閉まっている。この質問はトピック外です。現在、回答を受け付けていません。この質問を改善したいですか？質問を更新することがありますので、話題のサーバー障害のため。去年閉鎖されました。古いPCでローエンドの6TB RAID 1アーカイブを構築したい。 MB: Intel d2500hn 64bit CPU: Intel Atom D2500 RAM: 4GB DDR3 533 MHz PSU: Chinese 500W NO GPU 1x Ethernet 1Gbps 2x SATA2 ports 1x PCI port 4x USB 2.0 LinuxでRAID1アーカイブを構築したい（CentOS 7と思うので、必要なものをすべてインストールする、ownCloudなどと思う）、ホームローカルネットワークで使用します。 10〜20ドルのRAID PCIコントローラーまたはソフトウェアRAIDのどちらが良いですか？ソフトウェアRAIDの方が優れている場合、CentOSではどちらを選択すればよいですか？外部USBにシステムを配置し、コネクタで2つのディスクを使用する方が良いでしょうか、それともシステムを1つのディスクに配置してからRAIDを作成する必要がありますか？ 3ディスクRAID 5を実行する場合、ハードウェアRAID PCIまたは単にPCI SATAコネクタを選択する必要がありますか？

16 raid centos7 software-raid hardware-raid raid1

3

RAIDパフォーマンスが突然低下する

最近、データベースクエリの実行に通常よりはるかに時間がかかっていることに気付きました。調査の結果、ディスクの読み取りが非常に遅くなっているようです。 RAIDコントローラーがBBUで再学習サイクルを開始し、ライトスルーに切り替えることにより、過去に同様の問題が発生しました。今回はそうではないようです。私はbonnie++数日間で数回走りました。結果は次のとおりです。 22-82 M / sの読み取りはかなりひどいようです。ddrawデバイスに対して数分間実行すると、15.8 MB / sから225 MB / sの読み取りが表示されます（以下の更新を参照）。iotopIOを競合する他のプロセスを示していないため、読み取り速度がそれほど変動する理由はわかりません。 RAIDカードは、XFSファイルシステム（RAID1で構成された2つのSSD上のOS）を備えたRAID10の12個のSASドライブ（15k、300GB）を備えたMegaRAID SAS 9280です。SMARTアラートは表示されず、アレイは劣化していないようです。私も実行xfs_checkしましたが、XFSの一貫性の問題はないようです。ここでの次の調査手順は何ですか？サーバーの仕様 Ubuntu 12.04.5 LTS 128GB RAM Intel(R) Xeon(R) CPU E5-2643 0 @ 3.30GHz の出力xfs_repair -n： Phase 1 - find and verify superblock... Phase 2 - using internal log - scan filesystem freespace …

16 raid performance hardware-raid megaraid

5

Linux内部からハードウェアRAID情報を検出できますか？

Linuxの内部にいるとき、次の情報を取得できますlsblk（出力から関連のないドライブが削除されます）。 NAME MAJ:MIN RM SIZE RO TYPE MOUNTPOINT sda 8:0 0 298G 0 disk sdb 8:16 0 2.7T 0 disk サーバーからドライブを手動で引き出すと、次のドライブを物理的に使用していることがわかります。 0 Seagate 320GB 1 Seagate 320GB 2 Hitachi 1TB 3 Hitachi 1TB 4 Hitachi 1TB 5 Hitachi 1TB 6 [empty] 7 [empty] サーバーの物理ストレージはLinuxの利用可能なスペースよりも多いため、これは明らかに何らかのRAIDシステムを使用していることを意味します。少しの計算で、どのタイプのRAIDシステムが使用されているのかをよく理解できます。 Linuxの内部からハードウェアRAIDを使用しているかどうかを検出し、サーバーの電源を切ったり、ドライブを物理的に引き出したりせずに、それに関するすべての情報（RAIDの種類、利用可能なドライブなど）を把握する方法はありますか？ラベルを読んでいますか？この情報をLinuxの内部から収集できますか、それともハードウェアRAIDのポイントが、基盤となるシステムをオペレーティングシステムから「見えない」ようにしますか？

15 linux raid hard-drive hardware hardware-raid

3

ハードウェアRAIDコントローラーキャッシュバッテリー障害の頻度/寿命？

私は、AdaptecおよびLSI MegaRAIDハードウェアRAIDコントローラーを装備した多くのSupermicroサーバーを含む環境にいます。これらのコントローラーには、バッテリバックアップ式キャッシュモジュールが含まれており、書き込みパフォーマンスを向上させ、転送中のデータを保護します。頻繁にサポートされる問題は、RAIDコントローラーのバッテリー障害です。これにより、アレイがライトバックモードからライトスルーモードに移行します。システムの書き込み速度が低下すると、明らかにパフォーマンスが低下します。これは、システムの電源を切ってバッテリーを交換するためのダウンタイムウィンドウが確立されるまで続きます。これは私たちにとって非常に日常的な操作です。数千台の物理サーバーでほぼ毎週 ...充電サイクルなしで交換できるように、交換用バッテリーを準備するための充電ステーションも設置されています。おそらく、HP ProLiantサーバーとSmartアレイRAIDコントローラーの長い歴史に甘やかされていますが、HPシステムのバッテリー寿命は通常4〜6年でした。最終的には、2009年頃にRAIDバッテリーの使用を廃止しました。スーパーキャパシタでバックアップされたメモリモジュール（フラッシュバックアップ式書き込みキャッシュ、またはFBWC）に置き換えられました。 AdaptecおよびLSIコントローラーのバッテリー障害は、 12か月未満稼働しているシステムで時々発生するのを見るので、これは他の環境で一般的かどうか疑問に思います。これが一般的な場合、他の大規模なサーバー環境はこれをどのように処理しますか？ RAIDバッテリーの交換を処理するためのヒントやコツはありますか？役立つ構成パラメーターはありますか？これは、環境内の運用に対してどれほど破壊的ですか？シャーシの冷却と温度の低下が要因になる可能性がありますか？私たちは何か間違ったことをしていますか？ Dell PERCコントローラは、LSIによって作成されています。Dell環境では、同じ短いバッテリ寿命が発生しますか？ 1年以上使用できる新世代バッテリーの概要を示すLSI製品資料。 HP ProLiant DL585 G2サーバーは、1000日以上の稼働時間とRAIDバッテリーを搭載しています... # uptime 05:38:08 up 1031 days, 44 min, 31 users, load average: 0.49, 0.64, 0.99 # hpacucli Cache Board Present: True Cache Status: OK Accelerator Ratio: 50% Read …

14 hardware cache hardware-raid battery

タグ付けされた質問 「hardware-raid」

タグ付けされた質問「hardware-raid」