tm
友達がUCINETでテキストコーパスを探索し、テキストクラウド、2モードネットワークグラフ、および単一値分解(Stataを使用したグラフィックス付き)を示したドラフトペーパーを読んだ後、3日間手を出しました。Mac OS Xでは、Snowball(ステミング)やRgraphviz(グラフ)などのライブラリの背後にあるJavaに問題があります。
誰かのポイントアウトは可能性がないパッケージ -私が見てきましたtm
、wordfish
そしてwordscores
、そしてNLTKについて知っている-しかし、研究は、コードで可能な場合は、テキスト形式のデータに、首尾よく使用しているtm
か、何か他のものは、議会の議論や法的文書などのデータを分析するために?私はこの問題について多くを見つけることができず、さらに学ぶべきコードが少ないようです。
私自身のプロジェクトは2か月の議会討論であり、これらの変数はCSVファイルで通知されます:議会セッション、スピーカー、議会グループ、口頭介入のテキスト。講演者間、特に「治安の話」と「市民の自由」の話など、まれな用語とあまり珍しくない用語の使用における議会グループ間の相違を探しています。