巨大なテキストファイルから20行目から45行目を抽出するための良い方法は何でしょうか。もちろん非インタラクティブに!
巨大なテキストファイルから20行目から45行目を抽出するための良い方法は何でしょうか。もちろん非インタラクティブに!
回答:
あなたは試すことができます:
cat textfile | head -n 45 | tail -n 26
または
cat textfile | awk "20 <= NR && NR <= 45"
更新:
Mahomedalidが指摘したように、これcat
は必要ではなく、少し冗長ですが、それはきれいで読みやすいコマンドを作成します。
場合はcat
、あなたを気にしない、より良いsollutionは次のようになります。
<textfile awk "20 <= NR && NR <= 45"
,
範囲演算子を示すことでした。
これは回答ではありませんが、コメントとして投稿することはできません。
これを行う別の(非常に高速な)方法が、mikeserv によってここに提案されました:
{ head -n 19 >/dev/null; head -n 26; } <infile
ここと同じテストファイルと同じ手順を使用して、いくつかのベンチマークを示します(行1000020-1000045を抽出しています)。
mikeserv:
{ head -n 1000019 >/dev/null; head -n 26; } <iplist
real 0m0.059s
ステファン:
head iplist -n 1000045 | tail -n 26
real 0m0.054s
これらは断然最速のソリューションであり、違いはごくわずかです(シングルパスの場合)(異なる範囲を試してみました:数行、数百万行など)。
ただし、パイプなしで実行すると、次のように複数の範囲のラインを同様の方法でシークする必要があるアプリケーションに大きな利点がもたらされる可能性があります。
for pass in 0 1 2 3 4 5 6 7 8 9
do printf "pass#$pass:\t"
head -n99 >&3; head -n1
done <<1000LINES 3>/dev/null
$(seq 1000)
1000LINES
...印刷する...
pass#0: 100
pass#1: 200
pass#2: 300
pass#3: 400
pass#4: 500
pass#5: 600
pass#6: 700
pass#7: 800
pass#8: 900
pass#9: 1000
...そして、一度だけファイルを読み取ります。
他sed
/ awk
/ perl
ソリューションは、ファイル全体を読んで、これは巨大なファイルについてですから、彼らは非常に効率的ではないです。指定した範囲の最後の行の後に、いくつかの代替案exit
またはq
uitを投入しました。
ステファン:
awk "1000020 <= NR && NR <= 1000045" iplist
real 0m2.448s
対
awk "NR >= 1000020;NR==1000045{exit}" iplist
real 0m0.243s
dkagedal(sed
):
sed -n 1000020,1000045p iplist
real 0m0.947s
対
sed '1,1000019d;1000045q' iplist
real 0m0.143s
スティーブンD:
perl -ne 'print if 1000020..1000045' iplist
real 0m2.041s
対
perl -ne 'print if $. >= 1000020; exit if $. >= 1000045;' iplist
real 0m0.369s
awk NR==1000020,NR==1000045 textfile
あなたのシステムに。
sedとawkはすでに使用されているので、以下にperlソリューションを示します。
perl -nle "print if ($. > 19 && $. < 46)" < textfile
または、コメントで指摘されているように:
perl -ne 'print if 20..45' textfile
perl -ne'print if 20..45' textfile
awk NR==20,NR==45 textfile
も動作し、簡単に読みます。