回答:
Persi Diaconisから聞いたこれに対する簡単な答えは次のとおりです。確率と統計によって考慮される問題は互いに逆です。確率論では、ランダム変数によってモデル化されたランダム性または不確実性を持ついくつかの基礎となるプロセスを検討し、何が起こるかを理解します。統計では、発生した何かを観察し、それらの観察を説明する基本的なプロセスを把握しようとします。
私は赤と緑のゼリー豆の瓶の例が好きです。
確率論者はそれぞれの割合を知ることから始め、赤いジェリービーンを描く確率を尋ねます。統計学者は、瓶からサンプリングすることにより、赤いジェリービーンズの割合を推測します。
統計は単に確率の逆数であると単純に言うのは誤解を招きます。はい、統計的質問は逆確率の質問ですが、それらは不適切な逆問題であり、これはそれらがどのように扱われるかという点で大きな違いをもたらします。
確率は純粋な数学の分岐です-公理的推論を使用して確率の質問を提起および解決できるため、確率の質問には1つの正しい答えがあります。
統計モデルは、確率モデルを使用して確率質問に変換できます。データを生成するメカニズムについて一定の仮定を行うと、確率論を使用して統計的な質問に答えることができます。ただし、これらの確率モデルの適切な定式化とチェックは、これらのモデルを使用した問題のその後の分析と同じくらい重要であり、さらに重要です。
統計は2つの部分で構成されていると言えます。最初の部分は、問題の確率モデルを定式化して評価する方法の問題です。この努力は「科学の哲学」の領域内にあります。2番目の部分は、特定のモデルが仮定された後に回答を取得する問題です。統計のこの部分は、実際に応用確率理論の問題であり、実際には、かなりの数の数値分析も含まれています。
Steve SkiennaのCalculated Betsでこれが気に入っています(詳細についてはリンクを参照してください)。
要約すると、確率論は特定の理想世界の結果を見つけることを可能にし、統計理論は私たちの世界が理想である範囲を測定することを可能にします。
確率は純粋な科学(数学)であり、統計はデータに関するものです。確率は統計のある種の基礎を形成し、基本的なアイデアを提供するため、それらは接続されています。
直観的生物統計学の表3.1は、この質問に以下の図で回答しています。すべての矢印は確率のために右を指し、統計のために左を指すことに注意してください。
確率
一般--->特定
人口--->サンプル
モデル--->データ
統計
一般<---特定
人口<---サンプル
モデル<---データ
確率は不確実性の定量化に関するものであり、統計は実際の世界で観察される関心のある尺度(たとえば、なぜ所得レベルが変動するのか)の変動を説明するものです。
いくつかの観察可能な要因(たとえば、収入の例では性別、教育レベル、年齢など)を使用して、変動を説明します。ただし、収入に影響を与える可能性のあるすべての要因を考慮することはできないため、説明のつかない変動はランダムエラー(不確実性の定量化が行われる場所)に任せます。
「変動=観測可能な要因の影響+ランダムエラーの影響」と見なすため、観測する変動に対するランダムエラーの影響を説明するために、確率によって提供されるツールが必要です。
以下に例を示します。
不確実性の定量化
例1:6面のサイコロを振る。1を取得する確率はどのくらいですか?
例2:米国から無作為に選択された成人の年収が40,000ドル未満である確率はどのくらいですか?
バリエーションの説明
例1:人の年収が異なることを観察します。人の収入の変動を説明する要因は何ですか?
明らかに、すべての要因を説明することはできません。したがって、私たちは人の収入をいくつかの観察可能な要因(例えば、教育レベル、性別、年齢など)に起因し、残りの変動は不確実性(または統計の言語:ランダムエラー)に任せます。
例2:洗剤を購入するほとんどの時間にタイドを選択する消費者もいれば、洗剤ブランドxyzを選択する消費者もいます。選択のバリエーションを説明するものは何ですか?選択肢の変動は、価格、ブランド名などのいくつかの観察可能な要因に起因し、説明できない変動はランダムエラー(または不確実性)に任せます。
確率の研究、まあ、どのような可能性のあるイベントです。確率が直感的にわかります。
統計は、データの研究です:データを表示(グラフなどのツールを使用)、要約(平均や標準偏差などを使用)、データが描画された世界についての結論に到達(データに線を合わせるなど)、および-これが重要です-結論についてどれだけ確信できるかを定量化します。
結論についてどれだけ確信できるかを定量化するには、確率を使用する必要があります。あなたが住んでいる地域と私が住んでいる地域の降雨量に関する昨年のデータがあるとしましょう。昨年、あなたが住んでいる場所では週に平均1/4インチ、私が住んでいる場所では3/8インチの雨が降りました。私の地域の降雨量は、あなたが住んでいる場所よりも平均で50%多いと言えますか?それほど速くない、Sparky。それは偶然かもしれません。多分、私が住んでいる昨年、たまたま雨が降っただけかもしれません。確率を使用して、私の家はあなたの家よりも50%機嫌が悪いという結論にどれだけ自信があるかを見積もることができます。
したがって、基本的に、確率は統計理論の数学的基礎であると言えます。
確率理論では、何らかの方法でランダム変数X1、X2、...が与えられ、それらの特性を調べます。つまり、確率P {X1 \ in B1}を計算し、X1、X2、...の収束を調べます。 。
数学的統計では、ランダム変数Xのn個の実現と分布Dのセットが与えられます。問題は、我々が観察したデータを生成する可能性が最も高いDからの分布の中から見つけることです。
確率では、分布は既知であり、事前に知ることができます。既知の確率分布関数(または類似の関数)から開始し、そこからサンプリングします。
統計では、分布は事前に不明です。知らないかもしれません。そのデータに関する帰無仮説を棄却できるかどうかを知るために、そのデータに確率理論を適用できるようにするために、観測データの背後にある確率分布について仮定が立てられます。
現実世界に確率のようなものがあるのか、それが私たちの数学的想像の理想的なものであるのか、そしてすべての観察は統計的なものに過ぎないのかについての哲学的な議論があります。
統計は、不確実性に直面した場合の真実の追求です。確率は、不確実性を定量化できるツールです。
(私は別のより長い答えを提供しましたが、それは「あなたの祖母にそれをどのように説明しますか?」
サベージのテキストFoundations of Statisticsは、Google Scholarで12000回以上引用されています。[3] 次のことを伝えます。
統計はどういうわけか確率に依存することは満場一致で合意されています。しかし、確率とは何か、それが統計とどのように関係しているかについては、バベルの塔以来このような完全な不一致とコミュニケーションの崩壊はめったにありませんでした。間違いなく、意見の相違の多くは単なる用語であり、十分に鋭い分析の下では消えてしまうでしょう。
https://en.wikipedia.org/wiki/Foundations_of_statistics
したがって、確率論が統計の基礎であるという点についてはほとんど議論されていません。それ以外はすべて公平なゲームです。
しかし、答えを出してより実用的で実用的なものにしようとすると...
ただし、確率理論には、ほとんどが数学的に重要であり、統計に直接関連しないものが多く含まれています。さらに、統計の多くのトピックは確率論とは無関係です。
https://en.wikipedia.org/wiki/Probability_and_statistics
上記はすべてを網羅したものではなく、権威のあるものでもありませんが、有用だと思います。
一般的に、次のようなものを見るのに役立ちました...
離散数学>>確率理論>>統計
それぞれが次の基盤で平均して頻繁に使用されています。それは、次の基盤を研究する方法に大きな共通点があるということです。
PS。帰納的統計と演Statistics的統計があるので、違いはそこにありません。
多くの人々と数学者は、「統計は確率の逆数である」と言っていますが、特にそうではありません。これら2つのアプローチ方法や解決方法は完全に異なりますが、相互接続されています。
私は友人のジョン・D・クックを紹介したいと思います。
「赤と緑のゼリー豆の瓶の例が好きです。
確率論者は、それぞれの割合を知ることから始め、赤いゼリービーンを描く確率を見つけることができます。統計学者は、瓶からサンプリングすることにより、赤いジェリービーンズの割合を推測します。」
今、瓶からサンプリングすることによって得られた小豆の割合は、瓶から小豆を引き出す確率を見つけるために確率論者によって使用されます
この例を考えてください---- >>>
試験では、学生の30%が物理学に失敗し、25%が数学に失敗し、12%が物理学と数学の両方に失敗しました。生徒が数学で失敗したことがわかっている場合、生徒は物理的に失敗した確率をランダムに選択します。
上記の合計は確率の問題ですが、注意深く見ると、合計に統計データが提供されていることがわかります
30%の学生は物理学に失敗し、25% "" "数学 '' 'これらは、パーセンテージを計算すると基本的に頻度です。したがって、確率を見つけるのに役立つ統計データが提供されます。
確率と統計は非常に相互に関連しているか、確率が統計に大きく依存していると言えます
「統計」という用語は、JC Maxwellの記事Molecules(Nature 8、1873、pp。437–441)で美しく説明されています。関連する一節を引用させてください。
セクションFの作業メンバーが国勢調査報告書、または経済社会科学の数値データを含むその他の文書を入手したら、まず、年齢、所得税、教育、宗教的信念、または刑事上の有罪判決。個人の数は多すぎて、それぞれの履歴を個別に追跡することができないため、人間の制限内で労働を減らすために、少数の人工グループに注意を集中します。各グループのさまざまな個人の数であり、各個人のさまざまな状態ではなく、彼らが働く主な基準です。
もちろん、これは人間の本性を研究する唯一の方法ではありません。個々の男性の行動を観察し、それを以前の性格と現在の状況が最良の既存の理論に従って私たちに期待させる行動と比較するかもしれません。この方法を実践する人は、天文学者が実際の位置を受け取った要素から推定されるものと比較することで惑星の要素を修正するのとほぼ同じ方法で、人間の自然の要素に関する知識を向上させるよう努めます。したがって、保護者や学長、歴史家、政治家による人間性の研究は、登録官やタブレーター、そして数字に信頼を置く政治家によって行われた研究とは区別されるべきです。1つは歴史的と呼ばれ、もう1つは統計的方法と呼ばれます。
力学の方程式は、物質に適用される歴史的方法の法則を完全に表現しますが、これらの方程式の適用は、すべてのデータの完全な知識を意味します。しかし、実験の対象となる物質の最小部分は、数百万の分子で構成されており、それらの分子のどれもが私たちにとって個々に気付くものではありません。したがって、これらの分子の実際の動きを確認することはできないため、厳密な歴史的方法を放棄し、分子の大きなグループを扱う統計的方法を採用する必要があります。
彼は、統計的手法のこの説明を他のいくつかの作品で提供しています。たとえば、「調査の統計的手法では、システムの動作中は追跡しませんが、特定のフェーズに注意を向け、システムがそのフェーズにあるかどうか、またフェーズに入ったときを確認しますそしてそれが去るとき」(Trans。Cambridge Philos。Soc。12、1879、pp。547–570)。
「確率」についてのマックスウェルの別の美しい文章があります(1850年のキャンベル宛ての手紙から、ジェームズ・クラークの生涯でマックスウェルに転載、p。143)。
ロジックの実際の科学は現在、特定の、不可能な、または完全に疑わしいものにのみ精通しており、どれも(幸いなことに)推論する必要はありません。したがって、この世界の真の論理は確率の計算であり、確率の大きさを考慮します(これは、合理的な人間の心の中にあるべきです)。
だから私たちは言うことができます:
– 統計では、「少数の人工グループに注意を集中させる」または量です。一種の目録や国勢調査を行っています。
– 確率では、いくつかのイベントまたは量に関する不確実性を計算しています。
この2つは明確であり、一方を他方なしで実行できます。
たとえば、国の人口全体の完全な人口調査を行い、年齢、性別などの特定のグループに属する正確な人数をカウントする場合、統計を行っています。私たちが見つけた数値は正確で既知であるため、不確実性(確率)は関係しません。
一方、誰かが通りで私たちの前を通り過ぎていくのを想像してください。この場合、不確実であり、確率を使用しますが、何らかの国勢調査やカタログを作成していないため、統計は含まれていません。
ただし、この2つは同時に発生することもあります。人口の完全な国勢調査を行うことができない場合、特定の年齢/性別グループに何人いるかを推測する必要があります。したがって、統計を行う際に確率を使用しています。逆に、人々の年齢に関する正確な統計データを考慮することができ、そのようなデータから、私たちの前を通過する人々についてのより良い推測を試みてください。したがって、確率を決定する際に統計を使用しています。