テキストファイルから単語だけを抽出する


1

テキストファイルを取得し、空白と句読点を取り除き、1行につき1単語だけを残すUnixコマンドとは何ですか?

回答:


7

これは、これを行うシェルコマンドのstackoverflowで既に回答されています

別の方法として、この記事のstackoverflowで概説されているように、vimを使用してこれを行うことできます。

シェルの使用方法に関するランプオンによって与えられたトップの答え:


以下を使用できますgrep

  • -E '\w+' 単語を検索する
  • -o 一致する行の部分のみを印刷します
猫の温度
いくつかの例では、「怠brownな犬を飛び越えた素早い茶色のキツネ」を使用しています。
「Lorem ipsum dolor sit amet、consectetur adipiscing elit」ではなく
たとえばテキスト。
#単語が繰り返されるかどうか気にしない場合 
%grep -o -E '\ w +' temp
一部
例
つかいます
の
速い
褐色
狐
ジャンプした
以上
その
怠zyな
犬
むしろ
より
ロレム
イプサム
悲しみ
座る
アメット
consectetur
アジサイ
エリート
にとって
例
テキスト

大文字小文字を無視して、各単語を1回だけ印刷したい場合は、次を使用できます。 sort

  • -u 各単語を一度だけ出力します
  • -fsort単語を比較するときに大文字小文字を無視するように指示します
#各単語を1回だけ必要とする場合 
%grep -o -E '\ w +' temp | sort -u -f
アジサイ
アメット
褐色
consectetur
犬
悲しみ
エリート
例
例
にとって
狐
イプサム
ジャンプした
怠zyな
ロレム
以上
速い
むしろ
座る
一部
テキスト
より
の
つかいます

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.