特定の企業の製品やパフォーマンスに関するプレスリリース、ブログ投稿、レビューなどに関するテキストデータを収集しています。
具体的には、そのような「テキスト」コンテンツの特定のタイプやソースと、会社の銘柄記号の市場評価との間に相関関係があるかどうかを確認したいと考えています。
このような明らかな相関関係は、人間の心でかなり早く見つけることができますが、それはスケーラブルではありません。このような異種ソースの分析を自動化するにはどうすればよいですか?
特定の企業の製品やパフォーマンスに関するプレスリリース、ブログ投稿、レビューなどに関するテキストデータを収集しています。
具体的には、そのような「テキスト」コンテンツの特定のタイプやソースと、会社の銘柄記号の市場評価との間に相関関係があるかどうかを確認したいと考えています。
このような明らかな相関関係は、人間の心でかなり早く見つけることができますが、それはスケーラブルではありません。このような異種ソースの分析を自動化するにはどうすればよいですか?
回答:
私の生徒はこれをクラスプロジェクトとして行っています。いくつかのチームは精度が70%sに達し、かなり小さいサンプルで悪くありません。
次のようなデータがあるとします。
Return Symbol News Text
-4% DELL Centegra and Dell Services recognized with Outsourcing Center's...
7% MSFT Rising Service Revenues Benefit VMWare
1% CSCO Cisco Systems (CSCO) Receives 5 Star Strong Buy Rating From S&P
4% GOOG Summary Box: Google eyes more government deals
7% AAPL Sohu says 2nd-quarter net income rises 10 percent on higher...
テキストに基づいて収益を予測したいとします。
これはテキストマイニングと呼ばれます。
最終的には、次のような巨大なマトリックスを作成します。
Return Centegra Rising Services Recognized...
-4% 0.23 0 0.11 0.34
7% 0 0.1 0.23 0
...
これには、一意の単語ごとに1列、各リターンごとに1行、および各単語の加重スコアがあります。多くの場合、スコアはTFIDFスコア、またはドキュメント内の単語の相対頻度です。
次に、回帰を実行して、どの単語がリターンを予測できるかを予測できるかどうかを確認します。おそらく最初にPCAを使用する必要があります。
著書:予測テキストマイニングの基礎、Weiss
ソフトウェア:RapidMiner with Text Plugin or R
また、Google Scholarで検索を行って、詳細を確認する必要があります。
上記のように、一連の記事と応答が必要です。彼らへのニューラルネット。RapidMinerはこれを可能にしますが、このサイズの回帰を可能にする他の多くのツールがあります。理想的には、応答変数は一貫している(つまり、1時間後に正確に変化した%、または1日後に正確に変化した%など)。
また、ある種のフィルタリングや分類をトレーニング変数、つまり記事内の単語に適用することもできます。これは、いくつかの単語(前置詞、代名詞など)をフィルタリングするのと同じくらい簡単な場合もあれば、構文を使用して回帰に含める単語を選択するような複雑な場合もあります。フィルタリングを行うと、結果にバイアスがかかる可能性があることに注意してください。
アリゾナ大学の何人かの人々はすでにこれを行うシステムを作りました-彼らの論文はここのacmにあり、あなたはそれが興味深いかもしれません。http://www.computer.org/portal/web/csdl/doi/10.1109/MC.2010.2(大学などにいない場合は、アクセスするにはサブスクリプションが必要です)。参照は、正しい方向にあなたを向けるのにも役立ちます。