Rを使用したテキストマイニングの例（tmパッケージ）

14

tm友達がUCINETでテキストコーパスを探索し、テキストクラウド、2モードネットワークグラフ、および単一値分解（Stataを使用したグラフィックス付き）を示したドラフトペーパーを読んだ後、3日間手を出しました。Mac OS Xでは、Snowball（ステミング）やRgraphviz（グラフ）などのライブラリの背後にあるJavaに問題があります。

誰かのポイントアウトは可能性がないパッケージ -私が見てきましたtm、wordfishそしてwordscores、そしてNLTKについて知っている-しかし、研究は、コードで可能な場合は、テキスト形式のデータに、首尾よく使用しているtmか、何か他のものは、議会の議論や法的文書などのデータを分析するために？私はこの問題について多くを見つけることができず、さらに学ぶべきコードが少ないようです。

私自身のプロジェクトは2か月の議会討論であり、これらの変数はCSVファイルで通知されます：議会セッション、スピーカー、議会グループ、口頭介入のテキスト。講演者間、特に「治安の話」と「市民の自由」の話など、まれな用語とあまり珍しくない用語の使用における議会グループ間の相違を探しています。

r text-mining

— 神父
ソース

1

stackoverflow.com/questions/4070483/text-retrieval-using-r

7

tmの著者であるオーストリアのIngo Feinererによる博士論文は、英語で書かれています。このドキュメントの7〜10章には、tmパッケージのアプリケーションが含まれており、複雑さが増しています。

http://epub.wu.ac.at/1923/

第7章では、R-devel 2006メーリングリストを分析してtmのアプリケーションを紹介します。第8章は、ビジネスから消費者向け電子商取引へのテキストマイニングの適用を示しています。第9章は、会費と税金に関するオーストリアの最高行政裁判所管轄権を調査するためのtmの適用です。[...]。第10章では、Wizard of Ozデータセットのスタイルと作者属性のアプリケーションを示します。

文書全体をカバーして読んでください。ただし、ドキュメントは2008年に作成されており、その後、いくつかのAPIの変更が行われていることに注意してください。たとえば、博士論文では、にtmMap()名前が変更された関数に言及していtm_map()ます。そのため、コード例はそのままでは機能せず、カットアンドペーストを使用して試すことはできません。

に行くこともできます

http://tm.r-forge.r-project.org/users.html

「既存のtmアプリケーションについて新しいユーザーに知らせるために、このサイトはtmユーザーとそのコメントの（不完全なアルファベット順の）リストを提供することを目的としています。既知のユーザーは、企業の研究機関から個人に及びます。」

そのページで「wrote a paper」というフレーズを検索すると、多くのリンクが見つかります。「歌の歌詞のトピックの自動検出」という論文の1つだけを読みました。とても面白くて面白い。

— ノブ
ソース

Feinererの論文は、これまで私を最も助けてくれた文書だと思います。ありがとう！

— 神父

5

開始するのに適した場所は、次のようなWebサイトの出版物のリストですtm。

Rのテキストマイニングインフラストラクチャhttp://www.jstatsoft.org/v25/i05

これらの各出版物の最後にある参考文献リストには、成功したアプリケーションが含まれてtmいます。特に参照の参照に従う場合は、多数あります。

たとえば、関連する可能性があるものを次に示します。

ファイナーI、ホーニックK（2007）。「最高行政裁判所の管轄区域のテキストマイニング」。 Klassikation eV、3月7日{2007年9月9日、ドイツ、フライブルク）、「Classification、Data Analysis、およびKnowledge Organizationの研究」。スプリンガー出版。

幸運を。

— 男
ソース

参照していただきありがとうございます。ただし、これらの出版物の詳細レベルは不十分です。私は、ファイナーの論文を読んtmで、自分の目的をどのように操作するかについて十分な詳細を得る必要がありました。それでも、どうもありがとう:)

— Fr.