これが最近のGoogle相関クエリです:http : //www.google.com/trends/correlate/search?e= internet+usage&t
=weekly#
そのリンクの検索ボックスを見るとわかるように、「インターネットの使用」と入力すると、残りはGoogleが行いました。クエリ「データマイニング」との「相関」として0.9298の値を示しています。しかし、Googleホワイトペーパー[PDF]の2ページ目を読むと、次のように書かれています。
The objective of Google Correlate is to surface the queries in the database whose spatial or temporal pattern is most highly correlated with a target pattern. Google Correlate employs a novel approximate nearest neighbor (ANN) algorithm over millions of candidate queries in an online search tree to produce results similar to the batch-based approach employed by Google Flu Trends but in a fraction of a second. For additional details, please see the Methods section below....
したがって、私の質問は、
Googleは通常のピアソンまたはスピアマンの相関関係を使用してこのようなものを見つけているのか、それとも他の何かを使用しているのですか?もしそうなら、あなたは一般的なテクニックを説明できますか?
==================
また、プロットでは、「インターネットの使用」(および「データマイニング」)の検索が夏の数か月中に減少し、クリスマスの前後に急降下していることに注意してください。子供たちと彼らの宿題はこれと関係があると思います。
3
チュートリアルで報告されているこれらのピアソン相関係数だけではありませんか?(セクション相関クエリ)
—
chl
@chl:その通りです。よくある質問をクリックしましたが、ホワイトペーパーに見逃されました。したがって、彼らは時系列の相関を使用しています(時系列の変化ではありません)。これは、リターンではなく株価の相関関係を計算するようなものです。それは少し意外です。
—
bill_080 2011年
@chl:あなたの答えは少し明白ですが、それはまだ答えであり、受け入れられるようにそうすべきです。
—
naught101 2012年
@ bill_080 2つのシステム間でデータが異なる理由についてGoogleからの応答はありますか?私は実際にあなたの観察に関連した説明を求めてこの質問を見つけました
—
チャンドラー
@chandler:グーグルは決して電子メールに答えなかった。しばらくの間、TrendとCorrelateの両方を試しましたが、どちらも期待したほど役に立たなかったので、次に進みました。
—
bill_080