私は、分類子としてランダムフォレストを使用したテキスト分類問題と、バッグオブワードアプローチに取り組んでいます。私は、ランダムフォレスト(scikitに存在するもの)の基本的な実装を使用しています。これは、分割ごとに1つの変数にバイナリ条件を作成します。これを考えると、単純なtf(項頻度)機能の使用に違いがありますか?各単語には、ドキュメント内の出現回数を表す関連する重み、またはtf-idf(用語の頻度*逆のドキュメントの頻度)があり、用語の頻度には、ドキュメントの総数間の比率を表す値も乗算されます。および単語を含むドキュメントの数)?
私の意見では、これらの2つのアプローチの間に違いはないはずです。違いは各機能のスケーリング係数だけなのでですが、分割は単一の機能のレベルで行われるため、違いはないはずです。
私の推論は正しいですか?
小さなサンプルセットで両方のアプローチをテストして、違いがあるかどうかを確認してみませんか?
—
Charlie Greenbacker 14