データサイエンス tfidf

2

テキストドキュメントのコーパスを各ドキュメントの単語ベクトルに変換しています。私が使用してこれを試してみたTfidfVectorizerとHashingVectorizerを a HashingVectorizerはIDFaのようにスコアを考慮しないことを理解してTfidfVectorizerいます。こことここでHashingVectorizer説明されているように、私がまだaを使用している理由は、巨大なデータセットを処理する際の柔軟性です。（私の元のデータセットには3000万のドキュメントがあります）現在、私は45339のドキュメントのサンプルを使用しているので、aを使用することTfidfVectorizerもできます。同じ45339ドキュメントでこれら2つのベクトライザーを使用すると、取得する行列が異なります。 hashing = HashingVectorizer() with LSM('corpus.db')) as corpus: hashing_matrix = hashing.fit_transform(corpus) print(hashing_matrix.shape) ハッシュマトリックスの形状（45339、1048576） tfidf = TfidfVectorizer() with LSM('corpus.db')) as corpus: tfidf_matrix = tfidf.fit_transform(corpus) print(tfidf_matrix.shape) tfidfマトリックス形状（45339、663307） a HashingVectorizerとaの違いTfidfVectorizer、およびこれらの行列のサイズが異なる理由、特に語句/用語の数がよくわかります。

11 nlp scikit-learn text-mining tfidf

2

TF-IDFによるWord2Vec埋め込み

（たとえば、gensimを使用して）word2vecモデルをトレーニングするときは、単語/文のリストを指定します。しかし、たとえばTF-IDFを使用して計算された単語の重みを指定する方法はないようです。ワードベクトルの埋め込みに関連するTF-IDFウェイトを乗算する通常の方法はありますか？あるいは、word2vecはこれらを何らかの形で有機的に利用できますか？

11 machine-learning nlp word2vec language-model tfidf

2

SKLearnの他の機能でのTF-IDFの使用

テキスト分析を他の機能と組み合わせる最良/正しい方法は何ですか？たとえば、一部のテキストだけでなく他の機能/カテゴリも含まれるデータセットがあります。SKlearnのTF-IDFベクトライザーは、テキストデータをスパース行列に変換します。たとえば、これらのスパース行列をNaive Bayes分類器で直接使用できます。しかし、他の機能も考慮に入れる方法は何ですか？テキストのtf-idf表現を分解し、機能とテキストを1つのDataFrameに結合する必要がありますか？または、たとえば、疎行列を別の列として保持できますか？これを行う正しい方法は何ですか？

8 python scikit-learn pandas tfidf

タグ付けされた質問 「tfidf」

タグ付けされた質問「tfidf」