この質問がここで完全に適切かどうかはわかりませんが、適切でない場合は削除してください。
私は経済学の大学院生です。社会保険の問題を調査するプロジェクトの場合、適格性の評価を扱う多数の行政訴訟(> 20万件)にアクセスできます。これらのレポートは、個別の管理情報にリンクされている可能性があります。これらのレポートから、定量分析に使用できる情報を抽出したいと思います。理想的には、grep
/ awk
などを使用した単純なキーワード/正規表現検索以上のものです。
このための自然言語処理はどの程度役に立ちますか?他の有用なテキストマイニングアプローチは何ですか?私が理解しているところによると、これは大きなフィールドであり、コーパスとして使用するにはレポートの一部を変換する必要があると考えられます。文献や方法に慣れるために、少し時間をかける価値はありますか?それは役に立ちますか?同様のことが以前に行われましたか?報酬の点でそれは価値がありますか?すなわち、経済学の実証的研究のためにNLPを使用して潜在的に有用な情報を抽出できますか?
一部のレポートを読んで準備するために誰かを雇うための資金が存在する可能性があります。これはより大きなプロジェクトであり、より多くの資金を申請する可能性があります。必要に応じて、トピックの詳細を提供できます。複雑になる可能性の1つは、言語が英語ではなくドイツ語であることです。
資格に関しては、私は主に計量経済学の訓練を受けており、Hastieらのレベルでの計算統計についてある程度の知識があります。本。私はPython、R、Stataを知っており、おそらくMatlabにすぐに慣れるでしょう。ライブラリを考えると、Pythonがこれに最適なツールであると思います。これに関連する場合、定性的な方法のトレーニングはまったくありませんが、私が連絡をとることができる人を知っています。
私はこれに関する任意の入力を喜んでいます。つまり、これが潜在的に有用かどうか、もしそうなら、どこから読み始めるべきか、そしてどのツールに特に焦点を当てるべきか、です。