統計的直観/データセンス


20

私は2年生の学部生で数学を学んでおり、数学の能力と統計の能力の違いについて、教授の一人とかなり話していました。彼が提起した重要な違いの1つは「データセンス」であり、これは私が非公式に「常識抑制」と呼ぶ一連の範囲内で動作しながら技術的能力の組み合わせとして説明した。多くの理論。これは私が話していた例であり、Gowersのブログに掲載されました。

英国のいくつかの地域で、警察は交通事故が発生した場所に関する統計を収集し、事故のブラックスポットを特定し、そこにスピードカメラを設置し、さらに統計を収集しました。これらのブラックスポットでの事故の数は、スピードカメラが設置された後に減少する明確な傾向がありました。これは、スピードカメラが交通安全を改善することを最終的に示していますか?

交渉ゲームでランダム化された戦略について議論したのと同じ人は、基本的にこの質問に対する答えをすでに知っていました。極端なケースを選択した場合、実験を再度実行すると極端なケースが少なくなると予想されるため、彼はノーと言いました。言うことはこれ以上ないので、私はこの質問からすぐに進むことにしました。しかし、私は自分が持っていた計画について人々に話しました。それは偽のテレパシー実験を行うことでした。私は彼らに20回のコイン投げの結果を推測させ、テレパシーでそれらにビームを当てようとします。それから、私は3人の最高のパフォーマーと3人の最悪のプレイヤーを選択し、コインをもう一度投げます。パフォーマンスが改善されることが期待され、テレパシーとは何の関係もないことを人々は簡単に見ることができました。

私が尋ねているのは、この「データセンス」について、主題に関する出版物が存在する場合、または他のユーザーがこのスキルを開発するのに役立つとわかった場合の詳細を知る方法です。この質問を明確にする必要がある場合は申し訳ありません。もしそうなら、質問を投稿してください!ありがとう。


統計嘘をつく方法は、開始するのに最適な場所です。
MånsT

Drunkard's Walkは、統計をアクセスしやすい常識の枠組みに配置します。
マーカスモリセイ

回答:


10

最初に、数学を軽視すべきではないと言うでしょう。これは統計理論の開発における重要なツールであり、統計的方法は理論によって正当化されます。理論はまた、何が間違っているか、どの技術がより良いかもしれないか(例えば、より効率的)を教えてくれます。ですから、良い統計学者になるには、数学的知識と思考が重要です(ほぼ必要です)。しかし、それは間違いなく十分ではありません。コメントで参照されている本は良いと思います。他の人にあげましょう。

データの意味を理解する:探索的データ分析とデータマイニングの実践ガイド

データの意味を理解するII:データの視覚化、高度なデータマイニング手法、およびアプリケーションの実践ガイド

統計的思考:ビジネスパフォーマンスの改善

ビジネスと産業における統計の役割

統計のキャリア:数字を超えて

ハーンとスニーの本は、特に貴重で興味深いものです。これらは数学のスキルと実務経験を持つ有名な産業統計学者だからです。


7
リンクと解説をありがとう。[manuscript title](uri) リンクマークダウンを使用することで一般的に回答を改善できると思います。長い一日を経て、長いハイパーリンクのある答えに出くわすと、無意識のうちに不快感を覚えることがあり、残念ながら読者を他の良い答えに偏らせる可能性があります。
-jthetzel

@jthetzelリンクのURLを置き換える名前を付ける方が良い理由がわかります。時間があれば、それを習得します。簡単だと思います。しかし、私は3つまたは4つのリンクを与えました。リンクをクリックして、それが何であるかを見るのにほとんど時間はかかりません。ですから、なぜこれほど多くのコミュニティメンバーが大したことをしているのか、私にはよくわかりません。
マイケルR.チャーニック

6

あなたが言及した例では、核となる問題は因果推論です。因果推論を開始するのに適した場所は、Andrew Gelmanによるこのトリプルブックレビューと、そこでレビューされた本です。因果推論について学ぶことに加えて、探索的データ分析、説明、予測の価値について学ぶ必要があります。

出版された作品、ブログ、セミナー、および個人的な会話において、社会科学者が互いの研究を批判するのを聞いて、私は信じられないほどの量を学びました-学ぶ方法はたくさんあります。このサイトとAndrew Gelmanのブログをフォローしてください。

もちろん、データセンスが必要な場合は、実際のデータを操作する練習が必要です。一般的なデータセンスのスキルはありますが、問題領域に固有のデータセンス、またはさらに具体的には特定のデータセットに固有のデータセンスもあります。


5

素敵な無料のリソースはChance News Wikiです。実際の例から引き出された多くの例と、人々がデータと統計を解釈する方法の良い点と悪い点の議論があります。多くの場合、ディスカッションの質問もあります(視覚の動機の一部は、統計の教師に実世界の例を与えて、学生と議論することです)。


5

素晴らしい質問のために+1!(そして、これまでのすべての回答者に+1。)

データセンスのようなものは非常に多いと思いますが、神秘的なものはないと思います。私が使用するであろう類推は、運転することです。あなたが道を運転しているとき、あなたは他の車で何が起こっているかを知っているだけです。たとえば、あなたの横にいるあなたの前の男が、方向指示器を使用していないにもかかわらず、方向転換するはずの道路標識を探していることを知っています。低速で慎重すぎるドライバーを自動的に特定し、さまざまな状況でどのように反応するかを予測します。できるだけ早く走りたいだけのティーンエイジャーを見つけることができます。あなたはすべての車が何をしているかの認識ベースの感覚を持っています。これはデータセンスとまったく同じです。たくさんの経験から来ています経験の。理論を十分に理解している場合は、実際のデータセットで遊ぶ必要があります。DASLのようなサイトを探索することに興味があるかもしれません。ただし、1つの条件は、データセットのロード、テストの実行、およびp値の取得の経験を得るだけではないということです。データを探索し、おそらく異なる方法でプロットし、いくつかのモデルに適合させ、何が起こっているのかを考える必要があります。(ここでEDAは一般的なスレッドであることに注意してください。)

このプロセスに関するおそらく非自明の事実の1つは、データセンスを特定のトピック領域にローカライズできることです。たとえば、実験データやANOVAを使用して多くの経験を積むことができますが、時系列データや生存データを見ると何が起こっているのかを必ずしも十分に感じることはできません。

私が非常に役立つと思ったもう1つの戦略を追加しましょう。少し(統計的な)プログラミングを学ぶのは時間の価値があると思います。ひどく上手である必要はありません(「コミカルに非効率的な」コードを書くことで知られています)。ただし、いくつかの基本的な手続き型コードを記述できたら(でR)、をシミュレートできます。非常に単純なシミュレーションでさえ、どれだけ助けになれるかを強調しすぎるのは難しいでしょう。これを使用できることの1つは、研究の過程で、探索できるいくつかのプロパティについて読むときです。たとえば、ロジットモデルまたはプロビットモデルがデータセットに適しているかどうかを経験的に判断するのが難しいことを(抽象的に)知っている場合、この単純なシミュレーションをコーディングできます。アイデアをより完全に理解するために彼らと遊んでください。また、これは経験を提供しますが、わずかに異なるタイプであり、データセンスの開発にも役立ちます。


+1シミュレーションから学習することの価値を強調するため。
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.