ファイルの最長の行


198

ファイルの最も長い行の長さを見つける簡単な方法を探しています。理想的には、スクリプトではなく、単純なbashシェルコマンドになります。

回答:


270

wc(GNU coreutils)7.4の使用:

wc -L filename

与える:

101 filename

56
-c -l -m -wオプションのみがPOSIXであることに注意してください。-LGNUismです。
イェンス

4
の結果は-Lロケールに依存することにも注意してください。一部の文字(バイトおよびマルチバイトの両方の意味で)は、まったくカウントされない場合もあります。
Walter Tross 14

7
OS X:wc: illegal option -- L usage: wc [-clmw] [file ...]
Hugo

12
OS X:Homebrewを使用し、GNU Word Countにgwcを使用します。gwc
kaycoder

3
@xaxxon gwccoreutils式に含まれ、すべてのGNU coreutilsをgプレフィックス付きでインストールします。
gsnedders 2017

100
awk '{print length, $0}' Input_file |sort -nr|head -1

参考:ファイル内の最も長い行を見つける


12
なぜ余分な猫コマンド?ファイル名をawkの引数として直接指定するだけです。
Thomas Padron-McCarthy

18
@トーマス。パイプとして表現する方が、ファイルをオプションとして指定するよりも一般的です。私の場合、データベースクエリからパイプ処理された出力を使用します。
Andrew Prock、

1
これは、POSIX(まあ、OS Xで動作します)
MKである

5
@MK。ただし、このアプローチは行数がO(n * log(n))ですが、RamonのアプローチはO(n)です。
jub0bs 2015

2
大きなファイルを並べ替えると、完了するのに数時間かかり、ギガバイト、場合によっては入力ファイルのサイズによってはテラバイトの一時領域を消費することがあります。最長の長さとそれに関連するレコードを保管し、END{}ブロックから印刷することを検討してください。
Luv2code

67
awk '{ if (length($0) > max) {max = length($0); maxline = $0} } END { print maxline }'  YOURFILE 

3
awk '{ if (length($0) > max) max = length($0) } END { print max }' YOURFILE
ke20 2013

5
awk 'length>max{max=length}END{print max}' file
Chris Seymour

8
この回答は、ファイルの長さではなく、ファイルの最も長い行のテキストを示します。タイトルだけを見てこのページに来た人には便利だと思うので、長さを問われるのでそのままにしておきます。
Ramon

3
簡単には... WCを使用して、カウントを取得するawk '{ if (length($0) > max) {max = length($0); maxline = $0} } END { print maxline }' YOURFILE | wc -c
ニック・

1
これがどのように機能するかを説明していただけませんか?
Lnux 2017年

23

楽しさと教育を目的とした純粋なPOSIXシェルソリューション。猫を無用に使用せず、外部コマンドに分岐しません。ファイル名を最初の引数とします:

#!/bin/sh

MAX=0 IFS=
while read -r line; do
  if [ ${#line} -gt $MAX ]; then MAX=${#line}; fi
done < "$1"
printf "$MAX\n"

6
(catを介して)std inから読み取ることができないと、実際にはこのユーティリティの機能が低下し、機能が向上しません。
Andrew Prock、2011

4
まあ、OPは明示的に「ファイル」と言っており、< "$1"これがないとstdinから簡単に読み取ることができます。$#引数の数によっては、それをテストすることで両方を実行することもできます。この世界では、役に立たない猫は必要ありません。初心者は最初からそれに応じて教えられるべきです。
イェンス

7
これはより高く評価されるべきです、それはユーザーが求めたものです。関数を最も長く追加(){MAX = 0 IFS = while read -r line; if [$ {#line} -gt $ MAX]; 次にMAX = $ {#line}; fi done echo $ MAX} to your .bashrc and you run runlongest < /usr/share/dict/words
skierpage

13
wc -L < filename

与える

101

1
ありがとう、私はwcファイル名を出力しないようにする方法を探していました:)
Peter.O

11
perl -ne 'print length()."  line $.  $_"' myfile | sort -nr | head -n 1

最長の行の長さ、行番号、内容を出力します

perl -ne 'print length()."  line $.  $_"' myfile | sort -n

行番号と長さを含むすべての行のソートされたリストを印刷します

.連結演算子である-それは(長さの後にここで使用される)
$.現在の行番号は
$_現在のラインであります


ファイルをソートする必要があります。中程度のサイズのファイルでもパフォーマンスはひどく、大きなファイルでは機能しません。wc -Lこれまでに見た中で最善の解決策です。
Tagar

ソース(British National Corpus)として550MBの6,000,000行のテキストファイルを使用した場合、perlソリューションは12秒wc -Lかかりましたが、3秒かかりました
Chris Koknat

wc -L数のレコードを数えるだけです-このQは最長の行を見つけようとしていました-まったく同じではないため、これは正確な比較ではありません。
Tagar

6

上記の例で重要な見落とし点。

次の2つの例は、展開されたタブを数えます

  wc -L  <"${SourceFile}" 
# or
  expand --tabs=8 "${SourceFile}" | awk '{ if (length($0) > max) {max = length($0)} } END { print max }'

次の2つは、展開されていないタブをカウントします。

  expand --tabs=1 "${SourceFile}" | wc -L 
# or
  awk '{ if (length($0) > max) {max = length($0)} } END { print max }' "${SourceFile}"

そう

              Expanded    nonexpanded
$'nn\tnn'       10            5

5

すべての回答が最も長い行の行番号を与えていないように見えます。次のコマンドは行番号とおおよその長さを与えることができます:

$ cat -n test.txt | awk '{print "longest_line_number: " $1 " length_with_line_number: " length}' | sort -k4 -nr | head -3
longest_line_number: 3 length_with_line_number: 13
longest_line_number: 4 length_with_line_number: 12
longest_line_number: 2 length_with_line_number: 11

行きます。それは私の不愉快に長いコメントを見つけます。ありがとう、相棒。
フィリップ

これをさらに一歩進めて猫を排除することができます。awk '{print length}' test.txt | sort -rn | head -1。実際の行のコンテンツも必要な場合 awk '{print length,$0}' test.txt | sort -k1 -rn| head -1
kakoma

3

Perlの場合:

perl -ne 'print ($l = $_) if (length > length($l));' filename | tail -1

これは行だけを印刷し、長さも印刷しません。



2

楽しみのために、Powershellのバージョンを以下に示します。

cat filename.txt | sort length | select -last 1

そして、ちょうど長さを取得するには:

(cat filename.txt | sort length | select -last 1).Length

4
では、Powershellプログラマーでさえ、役に立たない猫を使わなければならないのですか
イェンス

1
@Jensわかりませんが、PowershellのcatはGet-Contentの単なるエイリアスであり、その動作はコンテキストとプロバイダーに依存します。
エディグローブ

sortfilename.txtを引数として取ることができますか?その場合、sort length filename.txt | select -last 1パイプとデータをコピーするだけのプロセスを回避するため、猫は役に立たない。
Jens

傍注として、正確にはPowershellとは何ですか?powershellユーティリティがWindowsマシンに使用されていると思いましたか?
フランクリン2012年

4
@Jens、データはファイル名ではなくストリームから頻繁に取得されます。これは、標準のUNIXツールイディオムです。
Andrew Prock

2

私はUnix環境で、数GBのgzip圧縮されたファイルを使用しています。レコード長2052の2 GB gzip圧縮ファイルを使用して、次のコマンドをテストしました。

  1. zcat <gzipped file> | wc -L

そして

  1. zcat <gzipped file> | awk '{print length}' | sort -u

時代は平均していた

  1. 117秒

  2. 109秒

約10回実行した後のスクリプトを次に示します。

START=$(date +%s) ## time of start

zcat $1 |  wc -L

END=$(date +%s) ## time of end
DIFF=$(( $END - $START ))
echo "It took $DIFF seconds"

START=$(date +%s) ## time of start

zcat $1 |  awk '{print length}' | sort -u

END=$(date +%s) ## time of end
DIFF=$(( $END - $START ))
echo "It took $DIFF seconds"

これが有効な比較であるかどうかはわかりませんawkが、wcバージョンが最初に実行されているバージョンのディスクブロックキャッシュのメリットを享受している(そしてディスクキャッシュをシードする)と心配になります。この引数を固定するには、10回の実行で最初に呼び出される人の順序をランダム化する必要があります。
Canonical Chris

1

テーマのバリエーション。

これは、ファイルで見つかった最も長い行の長さを持つすべての行を表示し、ソースに表示される順序を維持します。

FILE=myfile grep `tr -c "\n" "." < $FILE | sort | tail -1` $FILE

だからmyfile

x
mn
xyz
123
abc

あげる

xyz
123
abc

0

MacOSを使用していてこのエラーが発生している場合: wc: illegal option -- LGNU sipmlyをインストールする必要はありません。

ファイルの最長行の文字数を取得するだけで、OS X runを使用している場合:

awk '{print length}' "$file_name" | sort -rn | head -1

このようなもの;

echo "The longest line in the file $file_name has $(awk '{print length}' "$file_name" | sort -rn | head -1) characters"

出力:

The longest line in the file my_file has 117 characters

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.