SKLearnの他の機能でのTF-IDFの使用


8

テキスト分析を他の機能と組み合わせる最良/正しい方法は何ですか?たとえば、一部のテキストだけでなく他の機能/カテゴリも含まれるデータセットがあります。SKlearnのTF-IDFベクトライザーは、テキストデータをスパース行列に変換します。たとえば、これらのスパース行列をNaive Bayes分類器で直接使用できます。しかし、他の機能も考慮に入れる方法は何ですか?テキストのtf-idf表現を分解し、機能とテキストを1つのDataFrameに結合する必要がありますか?または、たとえば、疎行列を別の列として保持できますか?これを行う正しい方法は何ですか?

回答:



3

通常、可能であれば、多くのメモリを節約できるので、できるだけ長く行列をスパースに保つことをお勧めします。それが結局スパース行列がある理由です、そうでなければ、なぜ面倒なのですか?したがって、分類器で密な入力を使用する必要がある場合でも、TFIDF機能をスパースとして維持し、他の機能をスパース形式で追加することができます。次に、マトリックスを密にします。

これを行うには、scipy.sparse.hstackを使用できます。2つのスパース行列を列ごとに組み合わせます。scipy.sparse.vstackも存在します。そしてもちろん、scipyには非スパースバージョンのscipy.hstackとscipy.vstackもあります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.