「テキスト」と「データ」の間の統計的相関の自動化


8

特定の企業の製品やパフォーマンスに関するプレスリリース、ブログ投稿、レビューなどに関するテキストデータを収集しています。

具体的には、そのような「テキスト」コンテンツの特定のタイプソースと、会社の銘柄記号の市場評価との間に相関関係があるかどうかを確認したいと考えています。

このような明らかな相関関係は、人間の心でかなり早く見つけることができますが、それはスケーラブルではありません。このような異種ソースの分析を自動化するにはどうすればよいですか?


「テキスト」コンテンツのタイプとはどういう意味ですか?
亜美

いくつかのサンプルデータを見せてもらえますか?

@Srikant Vadali-サンプルデータは、プレスリリース、ニュース記事などです。テキストデータは自由形式で、RSSフィードなどから取得される可能性があります。特定の会社の市場データは、私が分析/関連付けたいものです。そのため、Blogger Billが今後のVMware機能のリリースについての記事を書いており、VMWが10%跳ね上がります。(単純化しました、知っています)
ウォーレン

回答:


5

私の生徒はこれをクラスプロジェクトとして行っています。いくつかのチームは精度が70%sに達し、かなり小さいサンプルで悪くありません。

次のようなデータがあるとします。

Return Symbol News Text
-4%  DELL   Centegra and Dell Services recognized with Outsourcing Center's...
7%   MSFT   Rising Service Revenues Benefit VMWare
1%   CSCO   Cisco Systems (CSCO) Receives 5 Star Strong Buy Rating From S&P
4%   GOOG   Summary Box: Google eyes more government deals
7%   AAPL   Sohu says 2nd-quarter net income rises 10 percent on higher...

テキストに基づいて収益を予測したいとします。

これはテキストマイニングと呼ばれます。

最終的には、次のような巨大なマトリックスを作成します。

Return Centegra Rising Services Recognized...
-4%    0.23     0      0.11     0.34
7%     0        0.1    0.23     0
...

これには、一意の単語ごとに1列、各リターンごとに1行、および各単語の加重スコアがあります。多くの場合、スコアはTFIDFスコア、またはドキュメント内の単語の相対頻度です。

次に、回帰を実行して、どの単語がリターンを予測できるかを予測できるかどうかを確認します。おそらく最初にPCAを使用する必要があります。

著書:予測テキストマイニングの基礎、Weiss

ソフトウェア:RapidMiner with Text Plugin or R

また、Google Scholarで検索を行って、詳細を確認する必要があります。

あなたは私の一連のテキストマイニングビデオをここで見ることができます


それは本当に有望なスタートのように見えます:)
ウォーレン

1

上記のように、一連の記事と応答が必要です。彼らへのニューラルネット。RapidMinerはこれを可能にしますが、このサイズの回帰を可能にする他の多くのツールがあります。理想的には、応答変数は一貫している(つまり、1時間後に正確に変化した%、または1日後に正確に変化した%など)。

また、ある種のフィルタリングや分類をトレーニング変数、つまり記事内の単語に適用することもできます。これは、いくつかの単語(前置詞、代名詞など)をフィルタリングするのと同じくらい簡単な場合もあれば、構文を使用して回帰に含める単語を選択するような複雑な場合もあります。フィルタリングを行うと、結果にバイアスがかかる可能性があることに注意してください。

アリゾナ大学の何人かの人々はすでにこれを行うシステムを作りました-彼らの論文はここのacmにあり、あなたはそれが興味深いかもしれません。http://www.computer.org/portal/web/csdl/doi/10.1109/MC.2010.2(大学などにいない場合は、アクセスするにはサブスクリプションが必要です)。参照は、正しい方向にあなたを向けるのにも役立ちます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.