次のコマンドを使用して、16進コード0900(अの代わり)から097F(वの代わり)の文字セット範囲をgrepします。अとofの代わりに16進コードを使用するにはどうすればよいですか?
bzcat archive.bz2 | grep -v '<[अ-व]*\s' | tr '[:punct:][:blank:][:digit:]' '\n' | uniq | grep -o '^[अ-व]*$' | sort -f | uniq -c | sort -nr | head -50000 | awk '{print "<w f=\""$1"\">"$2"</w>"}' > hindi.xml
次の出力が得られます。
<w f="399651">और</w>
<w f="264423">एक</w>
<w f="213707">पर</w>
<w f="74728">कर</w>
<w f="44281">तक</w>
<w f="35125">कई</w>
<w f="26628">द</w>
<w f="23981">इन</w>
<w f="22861">जब</w>
...
上記のコマンドでअとinsteadの代わりに16進コードを使用したいだけです。
16進コードの使用がまったく不可能な場合、文字セット( 'hexadecimal-व')に16進コードの代わりにUnicodeを使用できますか?
Ubuntu 10.04を使用しています
-v
、一致を逆にします。質問テキストから、あなたが望むものではないようです。