答えは非常に簡単です。TF-IDFは、いくつかの監視された方法と組み合わせると、単純な用語頻度よりも優れた結果を達成できます。
標準的な例は、コサイン類似度をドキュメント間の類似度の測定として使用しています。ドキュメントのTF-IDFベクトル表現間の角度のコサインを取ることにより、TF単独よりも高い精度で関連する類似ドキュメントを正常に取得できます。
これは、IDFが一般的な単語に与えられる重みを減らし、ドキュメント内の一般的でない単語を強調表示するためです。ほとんどのニュース記事はダチョウに関するものではないため、「ダチョウ」を含むニュース記事は珍しいものであり、類似のドキュメントを見つけようとするときにそれを知りたいと思います。
しかし、標準の教師付きML手法を使用したテキストの分類の場合、コーパス内のドキュメントの頻度によるダウンウェイトが必要なのはなぜですか?学習者自身が各単語/単語の組み合わせに割り当てる重要性を決定しませんか?
バツyバツyy)、それから私たちは自分自身で、そして私たちの貧しい、過労のコンピューターでタスクをはるかに簡単にしました!これは分野の過小評価されているコンポーネントだと思います-人々はドメインに依存しないため、アルゴリズムの研究と検討に多くの時間を費やしていますが、データと解決しようとしている問題についてより多くを知ることは、データコレクションまたはデータ表現が改善され、タスクが非常に簡単になりました。また、非常に簡単なので、洗練された洗練されたモデルは不要です。
多数のリソースがここにありますが、便宜上複製しています。
K.スパークジョーンズ。「用語の特異性の統計的解釈と検索におけるその応用」。Journal of Documentation、28(1)。1972。
G.サルトン、エドワードフォックス、ウーハリーウー。「拡張ブール情報検索」。ACMの通信、26(11)。1983。
G.サルトンとMJマクギル。「最新の情報検索の紹介」。1983
G.サルトンとC.バックリー。「自動テキスト検索における用語の重み付けアプローチ」。情報処理および管理、24(5)。1988年。
H.ウー、R。ルク、K。ウォン、K。クォーク。「TF-IDF用語の重みを関連性の決定を行うものとして解釈する」。情報システム上のACMトランザクション、26(3)。2008年。