Googleの相関ではどの方法が使用されますか?


8

これが最近のGoogle相関クエリです:http : //www.google.com/trends/correlate/search?e= internet+usage&t
=weekly#

そのリンクの検索ボックスを見るとわかるように、「インターネットの使用」と入力すると、残りはGoogleが行いました。クエリ「データマイニング」との「相関」として0.9298の値を示しています。しかし、Googleホワイトペーパー[PDF]の2ページ目を読むと、次のように書かれています。

The objective of Google Correlate is to surface the queries in
the database whose spatial or temporal pattern is most highly correlated
with a target pattern. Google Correlate employs a novel approximate nearest
neighbor (ANN) algorithm over millions of candidate queries in an online
search tree to produce results similar to the batch-based approach employed
by Google Flu Trends but in a fraction of a second. For additional details,
please see the Methods section below....

したがって、私の質問は、
Googleは通常のピアソンまたはスピアマンの相関関係を使用してこのようなものを見つけているのか、それとも他の何かを使用しているのですか?もしそうなら、あなたは一般的なテクニックを説明できますか?

==================

また、プロットでは、「インターネットの使用」(および「データマイニング」)の検索が夏の数か月中に減少し、クリスマスの前後に急降下していることに注意してください。子供たちと彼らの宿題はこれと関係があると思います。


3
チュートリアルで報告されているこれらのピアソン相関係数だけではありませんか?(セクション相関クエリ
chl

2
@chl:その通りです。よくある質問をクリックしましたが、ホワイトペーパーに見逃されました。したがって、彼らは時系列の相関を使用しています(時系列の変化ではありません)。これは、リターンではなく株価の相関関係を計算するようなものです。それは少し意外です。
bill_080 2011年

3
@chl:あなたの答えは少し明白ですが、それはまだ答えであり、受け入れられるようにそうすべきです。
naught101 2012年

1
@ bill_080 2つのシステム間でデータが異なる理由についてGoogleからの応答はありますか?私は実際にあなたの観察に関連した説明を求めてこの質問を見つけました
チャンドラー

1
@chandler:グーグルは決して電子メールに答えなかった。しばらくの間、TrendとCorrelateの両方を試しましたが、どちらも期待したほど役に立たなかったので、次に進みました。
bill_080

回答:


7

chlが指摘しているように、Google Correlateチュートリアルでは、Google Correlateがピアソンの積率相関係数を使用すると述べています。

Googleは一部のアプリケーションでR使用してますが、これがどの言語で実装されているかについては触れていません。そのため、私はそれを推測します。


このスレッドを埋めてくれてありがとう。(あなたのpingにもかかわらず、私はそれを完全に忘れていました:
chl
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.