ツイートを含むテキストファイルがあり、ツイートで単語が言及された回数をカウントする必要があります。たとえば、ファイルには次のものが含まれます。
Apple iPhone X is going to worth a fortune
The iPhone X is Apple's latest flagship iPhone. How will it pit against it's competitors?
そして、ファイル内でiPhoneという単語が何回言及されているかを数えたいとします。だからここに私が試したものがあります。
cut -f 1 Tweet_Data | grep -i "iPhone" | wc -l
確かに機能しますが、私はunixの 'wc'コマンドについて混乱しています。私は次のようなものを試してみると違いは何ですか:
cut -f 1 Tweet_Data | grep -c "iPhone"
代わりに-cが使用されますか?これらの両方は、ツイートでいっぱいの大きなファイルで異なる結果をもたらし、私はそれがどのように機能するかについて混乱しています。発生をカウントする正しい方法はどれですか?
cut -f1
タブに基づいてカットしていますが、ここではあまり効果がありません。それwc -l
は本当にあなたに正しい数を与えていると確信していますか?ここには2が表示されますが、「iPhone」のインスタンスを3つカウントします。