私は、この国のローカルニュースWebサイトをクロールし、犯罪指数と政治的不安定性指数を構築するこのサイドプロジェクトを持っています。プロジェクトの情報検索の部分についてはすでに説明しました。私の計画は次のとおりです。
- 監視なしのトピック抽出。
- ほぼ重複した検出。
- 監視された分類とインシデントレベル(犯罪/政治-高/中/低)。
pythonとsklearnを使用し、それらのタスクに使用できるアルゴリズムを既に研究しています。2.ストーリーの関連性の要因を与えることができると思います。ストーリーやトピックについてより多くの新聞が発行すればするほど、その日により関連するようになります。
私の次のステップは、私が持っている機能に基づいて、月ごと、週ごと、日ごとのインデックス(全国および都市ごと)を構築することです。つまり、昨年の主要な不安定事件の指標は、今年の指標よりも低い可能性があります。また、固定スケール0-100を使用するかどうか。
後で、これに基づいてインシデントを予測できるようにしたいと思います。たとえば、過去数週間の一連のイベントが重大なインシデントにつながっているかどうかです。しかし、今のところは、分類を機能させ、インデックスモデルを構築することに満足しています。
論文へのポインタ、関連する読み物、または考えをいただければ幸いです。ありがとう。
PD:質問がここに属さない場合は申し訳ありません。
更新:まだ「作成」していませんが、最近、ニュースアーカイブを使用してイベントを予測するシステムで作業している科学者グループに関するニュースがあり、関連する論文「マイニングthe Web to Predict Future Events」(PDF )。