「hello 00000001」から「hello 10000000」(名前ごとに14バイト)という名前の1,000 万(空の)ファイルでこのメソッド(およびその他すべて)をテストしました。
更新:メソッドにクアッドコアの実行を 含めました'find |xargs'
(まだ「sed」はありません。単にecho> / dev / null)。
# Step 1. Build an array for 10 million files
# * RAM usage approx: 1.5 GiB
# * Elapsed Time: 2 min 29 sec
names=( hello\ * )
# Step 2. Process the array.
# * Elapsed Time: 7 min 43 sec
for (( ix=0, cnt=${#names[@]} ; ix<$cnt; ix++ )) ; do echo "${names[ix]}" >/dev/null ; done
上記のテストデータに対して実行された場合、提供された回答がどのように運ばれたかの概要を以下に示します。これらの結果には、基本的なオーバーヘッドのみが含まれます。すなわち、「sed」は呼び出されませんでした。sedプロセスはほぼ確実に最も時間がかかりますが、私は、むき出しのメソッドがどのように比較されるかを見るのは面白いと思いました。
'find |xargs'
シングルコアを使用するデニスの方法はbash array
、no sed
実行時の方法よりも* 4時間21分**時間がかかりました...ただし、「find」によって提供されるマルチコアの利点は、sedが呼び出されたときに示される時間差を上回るはずです。ファイルを処理しています...
| Time | RAM GiB | Per loop action(s). / The command line. / Notes
-----------+---------+---------+-----------------------------------------------------
Dennis | 271 min | 1.7 GiB | * echo FILENAME >/dev/null
Williamson cores: 1x2.66 MHz | $ time find -name 'hello *' -print0 | xargs -0 -I {} echo >/dev/null {}
| Note: I'm very surprised at how long this took to run the 10 million file gauntlet
| It started processing almost immediately (because of xargs I suppose),
| but it runs **significantly slower** than the only other working answer
| (again, probably because of xargs) , but if the multi-core feature works
| and I would think that it does, then it could make up the defecit in a 'sed' run.
| 76 min | 1.7 GiB | * echo FILENAME >/dev/null
cores: 4x2.66 MHz | $ time find -name 'hello *' -print0 | xargs -0 -I {} -P 0 echo >/dev/null {}
|
-----------+---------+---------+-----------------------------------------------------
fred.bear | 10m 12s | 1.5 GiB | * echo FILENAME >/dev/null
| $ time names=( hello\ * ) ; time for (( ix=0, cnt=${#names[@]} ; ix<$cnt; ix++ )) ; do echo "${names[ix]}" >/dev/null ; done
-----------+---------+---------+-----------------------------------------------------
l0b0 | ?@#!!# | 1.7 GiB | * echo FILENAME >/dev/null
| $ time while IFS= read -rd $'\0' path ; do echo "$path" >/dev/null ; done < <( find "$HOME/junkd" -type f -print0 )
| Note: It started processing filenames after 7 minutes.. at this point it
| started lots of disk thrashing. 'find' was using a lot of memory,
| but in its basic form, there was no obvious advantage...
| I pulled the plug after 20 minutes.. (my poor disk drive :(
-----------+---------+---------+-----------------------------------------------------
intuited | ?@#!!# | | * print line (to see when it actually starts processing, but it never got there!)
| $ ls -f hello * | xargs python -c '
| import fileinput
| for line in fileinput.input(inplace=True):
| print line '
| Note: It failed at 11 min and approx 0.9 Gib
| ERROR message: bash: /bin/ls: Argument list too long
-----------+---------+---------+-----------------------------------------------------
Reuben L. | ?@#!!# | | * One var assignment per file
| $ ls | while read file; do x="$file" ; done
| Note: It bombed out after 6min 44sec and approx 0.8 GiB
| ERROR message: ls: memory exhausted
-----------+---------+---------+-----------------------------------------------------
sed
各ファイルの呼び出しを回避できれば、より高速になります。に一連のファイルを開いたり、編集したり、保存したり、閉じたりする方法があるかどうかはわかりませんsed
。速度が重要な場合は、perlまたはpythonなどの別のプログラムを使用することをお勧めします。