ニュース記事に基づいて犯罪指数と政治的不安定性指数を構築したい


17

私は、この国のローカルニュースWebサイトをクロールし、犯罪指数と政治的不安定性指数を構築するこのサイドプロジェクトを持っています。プロジェクトの情報検索の部分についてはすでに説明しました。私の計画は次のとおりです。

  • 監視なしのトピック抽出。
  • ほぼ重複した検出。
  • 監視された分類とインシデントレベル(犯罪/政治-高/中/低)。

pythonとsklearnを使用し、それらのタスクに使用できるアルゴリズムを既に研究しています。2.ストーリーの関連性の要因を与えることができると思います。ストーリーやトピックについてより多くの新聞が発行すればするほど、その日により関連するようになります。

私の次のステップは、私が持っている機能に基づいて、月ごと、週ごと、日ごとのインデックス(全国および都市ごと)を構築することです。つまり、昨年の主要な不安定事件の指標は、今年の指標よりも低い可能性があります。また、固定スケール0-100を使用するかどうか。

後で、これに基づいてインシデントを予測できるようにしたいと思います。たとえば、過去数週間の一連のイベントが重大なインシデントにつながっているかどうかです。しかし、今のところは、分類を機能させ、インデックスモデルを構築することに満足しています。

論文へのポインタ、関連する読み物、または考えをいただければ幸いです。ありがとう。

PD:質問がここに属さない場合は申し訳ありません。

更新:まだ「作成」していませんが、最近、ニュースアーカイブ使用してイベントを予測するシステムで作業している科学者グループに関するニュースがあり、関連する論文「マイニングthe Web to Predict Future Events」(PDF )。


技術的な部分(ツール)については、O'Reileyの優れた開始点として2冊の本をお勧めします:Collective Intelligence(Pythonコードを使用)、Machine Learning(Rコードを使用)... 次のステップはManning Webサイトかもしれません...方法論の部分については、LinkedInのセマンティックWebグループをお勧めします。
ラドゥマリウスフロリン

この質問にとても似ています。最新情報をお届けします!!
エントロピー

回答:


1

GINIスコアのバリエーションを検討してください。

これは正規化され、その出力の範囲は0〜1です。

編集:

GINIが「クール」または少なくとも潜在的に適切である理由:

これは不平等または不平等の尺度です。これは、無限およびランダムネットワークを含む、スケールフリーネットワークの不均一性を特徴付けるスケールフリーの尺度として使用されます。特定のデータ分割の分割力の尺度であるため、CARTツリーの構築に役立ちます。

その範囲のため:

  • 丸め誤差が少なくなります。1.0から遠く離れた範囲では、数値の問題が発生する傾向があります。
  • それは人間が読むことができ、より人間がアクセスしやすいものです。人間は、数十億個のオブジェクトよりも具体的なオブジェクトの把握を持っています。

正規化されているため:

  • スコアの比較には意味があります。ある国の0.9は、他の国の0.9と同じレベルの相対的不均一性を意味します。
  • これは、完全な均一性のためにローレンツ曲線に対して正規化されているため、値はローレンツ曲線に対する関心のある値の分布の関係の関連指標です。

参照:


4
@EngrStudentサイトへようこそ。GINI係数についてもう少しお話しいただけますか?また、なぜそれが正しい答えなのでしょうか?あなたはここに新しくて貢献し始めているので、サイトに関する多くの情報を含むFAQを読むことをお勧めします。
GUNG -復活モニカ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.