ランダムフォレストでのtf-idfとtfの違い


8

私は、分類子としてランダムフォレストを使用したテキスト分類問題と、バッグオブワードアプローチに取り組んでいます。私は、ランダムフォレスト(scikitに存在するもの)の基本的な実装を使用しています。これは、分割ごとに1つの変数にバイナリ条件を作成します。これを考えると、単純なtf(項頻度)機能の使用に違いがありますか?各単語には、ドキュメント内の出現回数を表す関連する重み、またはtf-idf(用語の頻度*逆のドキュメントの頻度)があり、用語の頻度には、ドキュメントの総数間の比率を表す値も乗算されます。および単語を含むドキュメントの数)?

私の意見では、これらの2つのアプローチの間に違いはないはずです。違いは各機能のスケーリング係数だけなのでですが、分割は単一の機能のレベルで行われるため、違いはないはずです。

私の推論は正しいですか?


小さなサンプルセットで両方のアプローチをテストして、違いがあるかどうかを確認してみませんか?
Charlie Greenbacker 14

回答:


7

決定木(およびランダムフォレスト)は、入力フィーチャの単調変換の影響を受けません。

同じ係数を掛けることは単調変換であるため、ランダムフォレストの場合、実際には違いはないと想定します。

ただし、最終的にはこのプロパティを持たない他の分類子を使用することを検討する可能性があるため、TF * IDF全体を使用することには意味があります。


1
私の推論が正しいかどうかを調べようとしていたので、あなたの助けに感謝して、ランダムフォレストを使い続けます!
papafe 2014
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.