私は、互いにn個(例えば、1を超え、5未満)の単語内にある2つ(またはそれ以上)の単語を見つける正規表現検索をまとめることを試みています。目的は散文のテキストを検索し、お互いに近い単語の不要な繰り返しを見つけることです。
例:次のテキストでは、検索で "package:"が識別されるはずです。
郵便配達員は荷物を配達したが、荷物は重かった。
難しいのは、2つの単語が どれか 2つの言葉 同じ 二つの単語。一緒に仕事をする方法を見つけようとしてい *
または +
(私は正規表現にはかなり慣れていませんが)、もちろん、ワイルドカードはすべての単語にマッチします。のような検索構造はありますか $1 within n of $1
それは正規表現に変換されますか?
tr -s '[[:punct:][:space:]]' '\n' < file
ファイルを単語に分割します。 stackoverflow.com/questions/15501652/… )、そしてそれを介してパイプsort -u
。次に、スクリプトを使用して、出力から各単語/項目を上記の正規表現に繰り返し、返されるすべての結果を出力します。True
。明日これを試してみます。それを処理するスクリプトやプラグインを書くのはかなり簡単なはずです。