テキストマイニングアプリケーションでの1つの簡単なアプローチは、ヒューリスティックを使用して、ドキュメントのコンパクトなスパース表現としてベクトルを作成することです。i d fはコーパス全体を必要とするため、コーパス全体が事前に知られているバッチ設定ではこれは問題ありません。
ここで、は用語、dはドキュメント、Dはドキュメントコーパス、T(図示せず)は辞書です。
ただし、通常、新しいドキュメントは時間の経過とともに受信されます。1つのオプションは、既存の使用して維持することである新規文書の特定の数が受信されるまで、再計算それ。ただし、これはかなり非効率的です。すべてのデータが事前に確認された場合に、(ほぼ)値に収束する増分更新スキームを知っている人はいますか?または、代わりに、同じ概念をキャプチャしますが、増分的に計算できる別のメジャーがありますか?
また、時間の経過とともにが適切な指標であるかどうかという関連する質問もあります。idfはコーパスの単語頻度の概念を取り込むため、さまざまな単語の頻度が時間の経過とともに変化するため、コーパス内の古いドキュメント(たとえば、私のコーパスには100年を超えるジャーナル記事が含まれる)が考えられます。この場合、実際にはスライディングウィンドウi d fを使用して、新しいドキュメントが入ったときに古いドキュメントを破棄する方が賢明な場合があります。おそらく、人はまた、以前のすべて格納することができ、私D 、F、新しいものが計算されるベクトルを、そして私たちが言う1920年から1930年からの文書を検索したい場合は、その後、我々は使用することができ、私のD Fをその日付範囲のドキュメントから計算されます。このアプローチは意味がありますか?
編集:辞書は別の関連する問題があります。時が経つにつれ、以前にはなかった新しい辞書用語が登場するでしょう。T | 成長する必要があるため、i d fベクトルの長さ。古いi d fベクトルにゼロが追加される可能性があるため、これは問題にならないようです。