dd:最適なブロックサイズを計算する方法は?[閉まっている]


122

実行時に最適なブロックサイズをどのように計算しますddか?私はそれを少し調べましたが、これがどのように達成されるかを示唆するものは何も見つかりませんでした。

ブロックサイズが大きいほど速くなるという印象を受けていますdd...これは本当ですか?

dd4GB DDR3 1333mhz RAMを搭載したIntel Core i3を実行しているボックスで7200rpmで動作する2台の同一の500GB日立HDDを使用するので、使用するブロックサイズを調べようとしています。(私はフラッシュドライブからUbuntu 10.10 x86を起動し、それから実行します。)


macOSに@ tdg5回答を採用-macos_dd_ibs_test.shおよびmacos_dd_obs_test.sh
ミクセル

1
最良の答えはdd、ファイルの転送中に機能を提供して最適なブロックサイズを見つけることです
Boris

これがトピックからマークされ、スーパーユーザーに移行されなかったのはなぜですか?
user267092

回答:


95

最適なブロックサイズは、オペレーティングシステム(およびそのバージョン)、および関連するさまざまなハードウェアバスとディスクを含むさまざまな要因によって異なります。いくつかのUnixライクなシステム(Linuxおよび少なくともいくつかのBSDのフレーバーを含む)は、カーネルが最適なブロックサイズであると考えるものを提供するのst_blksizeメンバーを定義しますstruct stat

#include <sys/stat.h>
#include <stdio.h>

int main(void)
{
    struct stat stats;

    if (!stat("/", &stats))
    {
        printf("%u\n", stats.st_blksize);
    }
}

最良の方法は、実験することです。さまざまなブロックサイズと時間でギガバイトをコピーします。(各実行前にカーネルバッファキャッシュをクリアすることを忘れないでください:) echo 3 > /proc/sys/vm/drop_caches

ただし、経験則として、十分な大きさのブロックサイズで十分な結果が得られることがわかりましたdd。たとえば、64 KiBと1 KiBの違いは、4 KiBと64 KiBの違いと比べるとわずかです。(確かに、そうしたのは久しぶりです。今ではデフォルトでメビバイトを使用するかdd、サイズを選択するだけです。)


11
これを答えとして受け入れなかったことを本当に申し訳ありません...ありがとう!
eckza

キャッシュを削除することを忘れないことについての優れた点。これは私の測定をめちゃくちゃにしていた!(マイナーな問題ですが、アンダースコア付きの「drop_caches」です。編集内容は少なくとも6文字である必要があります... :()
Tom

73

他の人が言ったように、普遍的に正しいブロックサイズはありません。1つの状況または1つのハードウェアに最適なものは、別の状況ではひどく非効率的です。また、ディスクの状態によっては、「最適」なものとは異なるブロックサイズを使用することが望ましい場合があります。

最新のハードウェアで非常に信頼できることの1つは、デフォルトのブロックサイズである512バイトは、より最適な代替よりも桁違いに遅い傾向があることです。疑わしいときは、64Kがかなり確かな現代のデフォルトであることがわかりました。通常、64Kは最適なブロックサイズではありませんが、私の経験では、デフォルトよりもはるかに効率的です。64Kにも確かなパフォーマンスのかなり確かな歴史があります。2002年頃のEug-Lugメーリングリストから、64Kのブロックサイズを推奨するメッセージをここで見つけることができます:http : //www.mail-archive.com/eug- lug@efn.org/msg12073.html

最適な出力ブロックサイズを決定するために、デフォルトの512バイトから最大64Mまでのさまざまなブロックサイズの範囲でddを使用した128Mテストファイルの書き込みをテストする次のスクリプトを作成しました。注意してください。このスクリプトは内部的にddを使用しているため、注意して使用してください。

dd_obs_test.sh:

#!/bin/bash

# Since we're dealing with dd, abort if any errors occur
set -e

TEST_FILE=${1:-dd_obs_testfile}
TEST_FILE_EXISTS=0
if [ -e "$TEST_FILE" ]; then TEST_FILE_EXISTS=1; fi
TEST_FILE_SIZE=134217728

if [ $EUID -ne 0 ]; then
  echo "NOTE: Kernel cache will not be cleared between tests without sudo. This will likely cause inaccurate results." 1>&2
fi

# Header
PRINTF_FORMAT="%8s : %s\n"
printf "$PRINTF_FORMAT" 'block size' 'transfer rate'

# Block sizes of 512b 1K 2K 4K 8K 16K 32K 64K 128K 256K 512K 1M 2M 4M 8M 16M 32M 64M
for BLOCK_SIZE in 512 1024 2048 4096 8192 16384 32768 65536 131072 262144 524288 1048576 2097152 4194304 8388608 16777216 33554432 67108864
do
  # Calculate number of segments required to copy
  COUNT=$(($TEST_FILE_SIZE / $BLOCK_SIZE))

  if [ $COUNT -le 0 ]; then
    echo "Block size of $BLOCK_SIZE estimated to require $COUNT blocks, aborting further tests."
    break
  fi

  # Clear kernel cache to ensure more accurate test
  [ $EUID -eq 0 ] && [ -e /proc/sys/vm/drop_caches ] && echo 3 > /proc/sys/vm/drop_caches

  # Create a test file with the specified block size
  DD_RESULT=$(dd if=/dev/zero of=$TEST_FILE bs=$BLOCK_SIZE count=$COUNT conv=fsync 2>&1 1>/dev/null)

  # Extract the transfer rate from dd's STDERR output
  TRANSFER_RATE=$(echo $DD_RESULT | \grep --only-matching -E '[0-9.]+ ([MGk]?B|bytes)/s(ec)?')

  # Clean up the test file if we created one
  if [ $TEST_FILE_EXISTS -ne 0 ]; then rm $TEST_FILE; fi

  # Output the result
  printf "$PRINTF_FORMAT" "$BLOCK_SIZE" "$TRANSFER_RATE"
done

GitHubで表示

私はこのスクリプトをDebian(Ubuntu)システムとOSX Yosemiteでのみテストしたので、他のUnixフレーバーで動作させるには、多少の調整が必要になるでしょう。

デフォルトでは、コマンドは現在のディレクトリにdd_obs_testfileという名前のテストファイルを作成します。または、スクリプト名の後にパスを指定して、カスタムテストファイルへのパスを指定することもできます。

$ ./dd_obs_test.sh /path/to/disk/test_file

スクリプトの出力は、テストされたブロックサイズとそれぞれの転送速度のリストです。

$ ./dd_obs_test.sh
block size : transfer rate
       512 : 11.3 MB/s
      1024 : 22.1 MB/s
      2048 : 42.3 MB/s
      4096 : 75.2 MB/s
      8192 : 90.7 MB/s
     16384 : 101 MB/s
     32768 : 104 MB/s
     65536 : 108 MB/s
    131072 : 113 MB/s
    262144 : 112 MB/s
    524288 : 133 MB/s
   1048576 : 125 MB/s
   2097152 : 113 MB/s
   4194304 : 106 MB/s
   8388608 : 107 MB/s
  16777216 : 110 MB/s
  33554432 : 119 MB/s
  67108864 : 134 MB/s

(注:転送速度の単位はOSによって異なります)

最適な読み取りブロックサイズをテストするには、ほぼ同じプロセスを使用できますが、/ dev / zeroから読み取ってディスクに書き込む代わりに、ディスクから読み取って/ dev / nullに書き込みます。これを行うスクリプトは次のようになります。

dd_ibs_test.sh:

#!/bin/bash

# Since we're dealing with dd, abort if any errors occur
set -e

TEST_FILE=${1:-dd_ibs_testfile}
if [ -e "$TEST_FILE" ]; then TEST_FILE_EXISTS=$?; fi
TEST_FILE_SIZE=134217728

# Exit if file exists
if [ -e $TEST_FILE ]; then
  echo "Test file $TEST_FILE exists, aborting."
  exit 1
fi
TEST_FILE_EXISTS=1

if [ $EUID -ne 0 ]; then
  echo "NOTE: Kernel cache will not be cleared between tests without sudo. This will likely cause inaccurate results." 1>&2
fi

# Create test file
echo 'Generating test file...'
BLOCK_SIZE=65536
COUNT=$(($TEST_FILE_SIZE / $BLOCK_SIZE))
dd if=/dev/urandom of=$TEST_FILE bs=$BLOCK_SIZE count=$COUNT conv=fsync > /dev/null 2>&1

# Header
PRINTF_FORMAT="%8s : %s\n"
printf "$PRINTF_FORMAT" 'block size' 'transfer rate'

# Block sizes of 512b 1K 2K 4K 8K 16K 32K 64K 128K 256K 512K 1M 2M 4M 8M 16M 32M 64M
for BLOCK_SIZE in 512 1024 2048 4096 8192 16384 32768 65536 131072 262144 524288 1048576 2097152 4194304 8388608 16777216 33554432 67108864
do
  # Clear kernel cache to ensure more accurate test
  [ $EUID -eq 0 ] && [ -e /proc/sys/vm/drop_caches ] && echo 3 > /proc/sys/vm/drop_caches

  # Read test file out to /dev/null with specified block size
  DD_RESULT=$(dd if=$TEST_FILE of=/dev/null bs=$BLOCK_SIZE 2>&1 1>/dev/null)

  # Extract transfer rate
  TRANSFER_RATE=$(echo $DD_RESULT | \grep --only-matching -E '[0-9.]+ ([MGk]?B|bytes)/s(ec)?')

  printf "$PRINTF_FORMAT" "$BLOCK_SIZE" "$TRANSFER_RATE"
done

# Clean up the test file if we created one
if [ $TEST_FILE_EXISTS -ne 0 ]; then rm $TEST_FILE; fi

GitHubで表示

この場合の重要な違いは、テストファイルがスクリプトによって書き込まれるファイルであることです。このコマンドを既存のファイルに指定しないでください。既存のファイルはゼロで上書きされます。

私の特定のハードウェアでは、128KがHDDで最も最適な入力ブロックサイズであり、32KがSSDで最も最適であることがわかりました。

この答えは私の発見のほとんどをカバーしていますが、私はそれについてブログ投稿を書いたほど十分にこの状況に遭遇しました:http : //blog.tdg5.com/tuning-dd-block-size/詳細を見つけることができますそこで行ったテストで。


1
512G SSDを搭載した2015 rMBPで、読み取りパフォーマンスをテストする2番目のスクリプトを実行しました。最適なブロックサイズは8388608:3.582 GBバイト/秒でした。
Quinn Comendant 2016年

1
修正:読み取りパフォーマンスをテストする2番目のスクリプトを、512GB SSDを搭載した2015 rMBPで実行しました。最適なブロックサイズは524288(5.754 GB /秒)でした。2番目に良いブロックサイズは131072(5.133 GB /秒)でした。(最後のコメントの値を生成する際に結果を誤ってソートしました。)
Quinn Comendant

for dd_obs_test.sh conv=fsyncはmacOSでは機能せず、削除できます。
rynop

私の経験では、より大きなブロックサイズをベンチマークするには、正確にするためにより大きなサンプルが必要です(数秒。128MBのファイルで作成できると思いますが、よくわかりません)。なぜだかわかりません。
ロルフ

2
おい!なんて素晴らしい答えでしょう。それは、金鉱山を見つけ、大量の土を掘り、それを処理して、私が欲しかったGOLD NUGGETを見つけるようなものです。64Kありがとうございました。
SDsolar 2017年

10

最適なブロックサイズが8 MB(ディスクキャッシュと同じですか?)であることがわかりました。圧縮されたイメージを作成する前に、ディスクの空の領域をワイプ(たとえば、洗浄)する必要がありました。私が使用した:

cd /media/DiskToWash/
dd if=/dev/zero of=zero bs=8M; rm zero

4Kから100Mまでの値を試してみました。

しばらくddを実行させた後、それを強制終了し(Ctlr + C)、出力を読み取ります。

36+0 records in
36+0 records out
301989888 bytes (302 MB) copied, 15.8341 s, 19.1 MB/s

ddは入力/出力レート(この場合は19.1MB / s)を表示するので、選択した値のパフォーマンスが前の値よりも良いか悪いかは簡単にわかります。

私のスコア:

bs=   I/O rate
---------------
4K    13.5 MB/s
64K   18.3 MB/s
8M    19.1 MB/s <--- winner!
10M   19.0 MB/s
20M   18.6 MB/s
100M  18.6 MB/s   

注:ディスクキャッシュ/バッファーのサイズを確認するには、次のコマンドを使用できます。 sudo hdparm -i /dev/sda


4
各テストを1回だけ実行しましたか?≥64Kからわかるかもしれないことは、バッファーがすでにいっぱいであり、その違いがランダムな分散であるということです。
Mads Y

大きな値がシステムのボトルネックになる可能性があると聞いたことがあります。その人は大きなファイルを扱っていました。これについてもっと聞けたらいいな。
トッドパートリッジ2017年

1
私の経験もまた8M、打ち負かすのが難しいことを示唆しています。
Sridhar Sarnobat

面白い。これはL3キャッシュサイズに関係があると思いますか?L3キャッシュよりも大きいブロックサイズが遅くなるかどうか疑問に思っています。
SurpriseDog

3

これは完全にシステムに依存しています。最適なソリューションを見つけるために実験する必要があります。から始めてみてくださいbs=8388608。(日立のHDDには8MBのキャッシュがあるようです。)


5
多くのddバージョンは省略形を受け入れます。つまりbs=8M、GNU / Linuxまたはbs=8mBSDで
pascal

4
笑、あなたが言うつもりだと思っていた "最初から始めてbs=8388608、すべてのステップでデクリメントする"
lindhe

1
  • パフォーマンスを向上させるには、RAMが対応できる最大のブロックサイズを使用します(OSへのI / O呼び出しが少なくなります)。
  • 精度とデータ回復を向上させるには、ブロックサイズを入力のネイティブセクターサイズに設定します

ddはconv = noerror、syncオプションを使用してデータをコピーするため、発生したエラーにより、ブロックの残りの部分がゼロバイトに置き換えられます。ブロックサイズが大きいほどコピーが速くなりますが、エラーが発生するたびに、残りのブロックは無視されます。

ソース


1
書き込みエラーがある場合は、メディアを交換する必要があります。ブロックサイズは変更しないでください...
unfa
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.