テキスト分類のための単語の袋:TFIDFの代わりに単語の頻度を使用しないのはなぜですか?


24

テキスト分類の一般的なアプローチは、「単語の袋」から分類器をトレーニングすることです。ユーザーは分類するテキストを取得し、各オブジェクト内の単語の頻度をカウントします。その後、結果のマトリックスを管理可能なサイズに維持するために何らかのトリミングを行います。

多くの場合、ユーザーはTFIDFを使用して特徴ベクトルを構築します。言い換えれば、上記のテキストの頻度は、コーパス内の単語の頻度によって低くされています。TFIDFが、たとえば、人間のアナリストに表示するために、特定のドキュメントの「最も顕著な」単語を選択するのに役立つのはなぜでしょう。しかし、標準の教師付きML手法を使用したテキストの分類の場合、コーパス内のドキュメントの頻度によるダウンウェイトが必要なのはなぜですか?学習者自身が各単語/単語の組み合わせに割り当てる重要性を決定しませんか?もしあれば、IDFがどのような価値を追加するかについてのあなたの考えに感謝します。

回答:


29

答えは非常に簡単です。TF-IDFは、いくつかの監視された方法と組み合わせると、単純な用語頻度よりも優れた結果を達成できます。

標準的な例は、コサイン類似度をドキュメント間の類似度の測定として使用しています。ドキュメントのTF-IDFベクトル表現間の角度のコサインを取ることにより、TF単独よりも高い精度で関連する類似ドキュメントを正常に取得できます。

これは、IDFが一般的な単語に与えられる重みを減らし、ドキュメント内の一般的でない単語を強調表示するためです。ほとんどのニュース記事はダチョウに関するものではないため、「ダチョウ」を含むニュース記事は珍しいものであり、類似のドキュメントを見つけようとするときにそれを知りたいと思います。

しかし、標準の教師付きML手法を使用したテキストの分類の場合、コーパス内のドキュメントの頻度によるダウンウェイトが必要なのはなぜですか?学習者自身が各単語/単語の組み合わせに割り当てる重要性を決定しませんか?

バツyバツyy)、それから私たちは自分自身で、そして私たちの貧しい、過労のコンピューターでタスクをはるかに簡単にしました!これは分野の過小評価されているコンポーネントだと思います-人々はドメインに依存しないため、アルゴリズムの研究と検討に多くの時間を費やしていますが、データと解決しようとしている問題についてより多くを知ることは、データコレクションまたはデータ表現が改善され、タスクが非常に簡単になりました。また、非常に簡単なので、洗練された洗練されたモデルは不要です。

多数のリソースがここにありますが、便宜上複製しています。

  • K.スパークジョーンズ。「用語の特異性の統計的解釈と検索におけるその応用」。Journal of Documentation、28(1)。1972。

  • G.サルトン、エドワードフォックス、ウーハリーウー。「拡張ブール情報検索」。ACMの通信、26(11)。1983。

  • G.サルトンとMJマクギル。「最新の情報検索の紹介」。1983

  • G.サルトンとC.バックリー。「自動テキスト検索における用語の重み付けアプローチ」。情報処理および管理、24(5)。1988年。

  • H.ウー、R。ルク、K。ウォン、K。クォーク。「TF-IDF用語の重みを関連性の決定を行うものとして解釈する」。情報システム上のACMトランザクション、26(3)。2008年。


@ user777のメモをありがとう!感謝します。私はそれらの記事を見ています。TFだけでなくTFIDFから優先的に恩恵を受けると予想される一般的なアルゴリズムのクラスはありますか?
shf8888

@ shf8888優れている一般的なクラスがあるかどうかはわかりません。それが可能だ!私が知る限り、NLPタスクに取り組んでいる人の最初の反射は、より複雑なモデルに進む前に、TFおよびTF-IDFをベースラインメソッドとして試すことです。このようにして、ますます複雑化するモデルを使用することによって費やされる労力の増加に対して購入するパフォーマンスの量を定量化できます。
Sycoraxが復活モニカ言う

どうもありがとう!まあ、「経験的にTFIDFはいくつかのアルゴリズムでTFよりも高いパフォーマンスを提供できる」という答えは(私の1つの文章の要約に異議を唱えない場合)私の観点からは間違いなく良いです。参照していただきありがとうございます。
shf8888

2

通常、コーパスには、ラベル付きドキュメントよりも多くのドキュメントを含めることができます。つまり、コーパス全体を使用すると、IDFをより正確かつ完全に計算できます。

次に、これまでに手に入れたコーパスがすべてラベル付けされているか、ラベル付けされたサブセットが「十分に大きい」場合を考えます。この場合、学習アルゴリズムはそれほど学習する必要がないため、TfIDFを使用する場合、トレーニングに必要な反復回数はおそらく少なくなります。

最後に、この同じ場合、tfのみを提供することも、tfとidfを別々に提供することもできます(またはtfidfを含めることもできます)。たとえば、洗練されたカーネル機能を使用する場合、これにより、より良い結果が得られる可能性があると思います。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.