計量経済学のためのテキストマイニング/自然言語処理ツールの使用

この質問がここで完全に適切かどうかはわかりませんが、適切でない場合は削除してください。

私は経済学の大学院生です。社会保険の問題を調査するプロジェクトの場合、適格性の評価を扱う多数の行政訴訟（> 20万件）にアクセスできます。これらのレポートは、個別の管理情報にリンクされている可能性があります。これらのレポートから、定量分析に使用できる情報を抽出したいと思います。理想的には、grep/ awkなどを使用した単純なキーワード/正規表現検索以上のものです。

このための自然言語処理はどの程度役に立ちますか？他の有用なテキストマイニングアプローチは何ですか？私が理解しているところによると、これは大きなフィールドであり、コーパスとして使用するにはレポートの一部を変換する必要があると考えられます。文献や方法に慣れるために、少し時間をかける価値はありますか？それは役に立ちますか？同様のことが以前に行われましたか？報酬の点でそれは価値がありますか？すなわち、経済学の実証的研究のためにNLPを使用して潜在的に有用な情報を抽出できますか？

一部のレポートを読んで準備するために誰かを雇うための資金が存在する可能性があります。これはより大きなプロジェクトであり、より多くの資金を申請する可能性があります。必要に応じて、トピックの詳細を提供できます。複雑になる可能性の1つは、言語が英語ではなくドイツ語であることです。

資格に関しては、私は主に計量経済学の訓練を受けており、Hastieらのレベルでの計算統計についてある程度の知識があります。本。私はPython、R、Stataを知っており、おそらくMatlabにすぐに慣れるでしょう。ライブラリを考えると、Pythonがこれに最適なツールであると思います。これに関連する場合、定性的な方法のトレーニングはまったくありませんが、私が連絡をとることができる人を知っています。

私はこれに関する任意の入力を喜んでいます。つまり、これが潜在的に有用かどうか、もしそうなら、どこから読み始めるべきか、そしてどのツールに特に焦点を当てるべきか、です。

— 不細工
ソース

LASSO、最小角度回帰、ロジスティック分析は、関連する可能性のあるいくつかのツールです。私の博士課程で同様の問題にどのように取り組んだかを確認してください。論文ここと経済学のNLPツールについての私のブログの記事ここに。これでどこかに行ったら、あなたの進捗状況や遭遇したかもしれない課題について聞くのは素晴らしいことです。

— gradstudent 2015年

データから抽出したい情報を定義することは、あなたにとって有益だと思います。単純なキーワード/正規表現検索は、実際には非常に有益な場合があります。私は保険会社で働いており、この種のテキストマイニングをかなり頻繁に使用しています。それは間違いなくナイーブであり、完全に不完全ですが、私たちが一般的に関心を持っていることには比較的良い出発点（または近似）です。

しかし、私の要点として、選択した方法が適切かどうかを判断するために、データから何を抽出するかを正確に定義することをお勧めします。私の意見では、それが最も難しい部分です。

すべての文字列内で一意の単語を見つけ、上位1000語程度の頻度で検索するのは興味深いかもしれません。これは（RAM /プロセッサによっては）計算コストがかかる可能性がありますが、注目に値するかもしれません。データについてあまり知識がなくてもデータを探索していた場合は、ここから始めます（他の人が異なるビューを提供している場合があります）。

お役に立てば幸いです。

— フランシスコアルセオ
ソース

ありがとう、私は間違いなくこのようなものから始めることを考えていました。私の質問はあいまいですが、他の方法でどのような情報を抽出できるかにもっと興味があります。特定のコンテキストを知らなくてもこれに答えることができるかどうかはわかりません。

— ilprincipe 2013年

私は、データに関連する仕事/職業では常に課題だと思います。私はおそらくあなたのデータのいくつかを調べることをお勧めします。データまたは保険イベントについての説明を持つ変数がある場合は、数十を読んでください-データの感触をつかんでください。私たちがやろうとしているのは、データの基本的なプロセスをモデル化し、データを知る必要があるという素晴らしい仕事を実際に行うことです。

— フランシスコアルセオ2013年