多様なテキストデータの処理


7

私は現在、単一の単語からテキストの全ページまで、ドキュメントの長さの範囲が広いデータセットを使用しています。さらに、文法構造と句読点の使用は、文書によって大きく異なります。目標は、これらのドキュメントを約10〜15のカテゴリのいずれかに分類することです。現在、タスクにはリッジ回帰とロジスティック回帰を使用しており、リッジのアルファ値にはCVを使用しています。特徴ベクトルはtf-idf ngramです。

最近、長いドキュメントは分類される可能性がはるかに低いことに気付きました。なぜこれが当てはまるのでしょうか。また、この種の変動をどのように「正規化」できるのでしょうか。より一般的な質問として、一般的にどのようにして多様なデータセットを処理しますか?ドキュメントは、ドキュメントの長さ、句読点の使用、文法の厳密さなどのメトリックに基づいてグループ化され、さまざまな分類子を通じてフィードされますか?


この分析の目標を定義することで、質問を明確にできますか?10〜15のカテゴリの性質は何ですか?これらのカテゴリはアプリオリに定義したものですか、それともデータ自体によって提案されたクラスタですか?あなたの質問は、データ分析方法(たとえば、判別分析、分類)ではなく、優れたデータエンコード/変換プロセスの選択に集中しているようです。
MrMeritology 2014年

1
ドキュメントの範囲が単一の単語からテキストの全ページであり、任意のカテゴリでドキュメントの長さ/タイプの任意の組み合わせを目指す場合は、Bag of Wordsなどの非常に単純なエンコード方法を使用する必要があります。より複雑なもの(たとえば、文法スタイル)は、その範囲全体に拡張されません。
MrMeritology 2014年

回答:


5

ドキュメント分類に回帰フレームワークをどのように適用しているかはわかりません。私が問題に取り組む方法は、SVMなどの標準的な識別分類アプローチを適用することです。

識別的分類アプローチでは、データポイント(この場合はドキュメント)間の類似性または逆距離の概念が重要です。幸い、ドキュメントの場合、ペアワイズ類似性を定義する標準的な方法があります。これは、ドキュメントの長さの正規化を利用してさまざまなドキュメントの長さを考慮に入れる、標準のコサイン類似度測定です。

したがって、実際には、コサイン類似度では、ドキュメントの長さで正規化された相対項の重みを使用するため、ドキュメントの長さの多様性は類似度の計算で大きな問題になりません。

また、用語の重みにidfを適用するときは注意が必要です。ドキュメントの数がそれほど多くない場合、idfメジャーは統計的に不正確になる可能性があるため、用語の重みにノイズが追加されます。ストップワードや句読点を無視することも標準的な方法です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.