タグ付けされた質問 「intuition」

統計についての概念的または非数学的な理解を求める質問。

9
多重共線性が線形回帰の問題である理由を直感的に説明できますか?
wikiでは、多重共線性が線形回帰の問題である場合に発生する問題について説明しています。基本的な問題は、多重共線性により不安定なパラメーター推定が発生し、従属変数に対する独立変数の影響を評価することが非常に困難になることです。 私は問題の背後にある技術的な理由を理解しています(を逆変換できない、条件が悪いなど)。X ′ Xバツ′バツX′XX' Xバツ′バツX′XX' X 線形回帰のコンテキストで多重共線性が問題となる理由について、幾何学的またはおそらく他の簡単に理解できる形式の説明はありますか?

8
最適なラインは、良いフィットのようには見えません。どうして?
このExcelグラフをご覧ください。 「常識的な」最適なラインは、ポイントの中心を真っ直ぐに通るほぼ垂直の線に見えます(手作業で赤で編集)。ただし、Excelによって決定された線形トレンドラインは、示されている黒い斜めのラインです。 Excelが(人間の目には)間違っているように見える何かを生成したのはなぜですか? もう少し直感的に見える最適な線(赤い線など)を作成するにはどうすればよいですか? 更新1.データとグラフを含むExcelスプレッドシートは、サンプルデータ、PastebinのCSVで入手できます 。type1およびtype2回帰手法はExcel関数として利用できますか? 更新2。このデータは、風と共に漂流している間にサーマルで登るパラグライダーを表します。最後の目的は、風の強さと方向が高さによってどのように変化するかを調べることです。私はエンジニアであり、数学者や統計学者ではないので、これらの回答の情報は、私が研究するためのより多くの分野を与えてくれました。

10
「分散」を直感的に理解する
分散の概念を誰かに説明する最もクリーンで簡単な方法は何ですか?それは直感的に何を意味しますか?子供にこれを説明する場合、どうすればいいでしょうか? 特に、分散をリスクに関連付ける場合、明確に表現するのが難しいという概念です。私はそれを数学的に理解し、そのように説明することもできます。しかし、現実世界の現象を説明するとき、分散を理解するにはどうすればよいのでしょうか。いわば「現実世界」での分散性の適用可能性です。 乱数を使用して株への投資をシミュレートしているとしましょう(サイコロを転がすか、Excelシートを使用するかは重要ではありません)。ランダム変数の各インスタンスをリターンの「何らかの変化」に関連付けることにより、「投資収益率」が得られます。例えば。: 1を振るということは、投資の1 ドルあたり0.8の変化、5は1 ドルあたり1.1の変化などを意味します。 このシミュレーションを約50回(または20または100)実行すると、いくつかの値と投資の最終値が得られます。それでは、上記のデータセットから「分散」を計算する場合、実際には何がわかりますか?「見る」もの-分散が1.7654または0.88765または5.2342であることが判明した場合、これはどういう意味ですか?この投資について何を観察しましたか?私はどんな結論を引き出すことができますか-素人の言葉で。 標準偏差の質問も自由に追加してください!私は理解するのが「簡単」だと感じていますが、それを「直感的に」明確にするのに役立つ何かが大歓迎です!



18
統計インタビューの質問
私は、最も基本的なものからより高度なものまで、いくつかの統計(および確率)インタビューの質問を探しています。回答は必要ありません(ただし、このサイトの特定の質問へのリンクは問題ありません)。

4
確率分布の「モーメント」についての「モーメント」とは何ですか?
モーメントとは何か、それらを計算する方法、およびモーメント生成関数を使用して高次のモーメントを取得する方法を知っています。はい、私は数学を知っています。 統計知識を仕事のために潤滑する必要があるので、私はこの質問をするのもいいと思った-大学に戻って、教授は答えを知らなかった、または単に質問を無視するだろう(正直に) 。 この場合、「モーメント」という言葉はどういう意味ですか?なぜこの単語の選択ですか?それは私には直観的に聞こえません(または大学でそのように聞いたことはありません:)それについて考えると、私は「慣性のモーメント」での使用にも等しく興味があります;)今のところそれに焦点を合わせません。 それで、分布の「瞬間」とは何を意味し、何をしようとしているのか、なぜその言葉なのか!:)なぜ誰かが瞬間を気にするのですか?この瞬間、私はその瞬間についてそうでないと感じています;) PS:はい、おそらく分散について同様の質問をしたことがありますが、「本を見て調べて」という直観的な理解を大切にします:)


13
連続して10頭あると、次のトスが尻尾になる可能性が高くなりますか?
私は、次が真であると仮定します。公正なコインを想定し、コインを投げながら、行の10頭を得ることが次のコイントスが尾であることの可能性を高めるません関係なく、周りに翻弄される確率および/または統計的な専門用語のどのような量、 (しゃれを許しなさい)。 そうであると仮定して、私の質問はこれです:私は一体どうやって誰かを説得するのですか? 彼らは賢くて教育を受けていますが、私はこれに関して正しいと思うかもしれないとは考えないように決心しているようです(議論)。

2
収縮が働くのはなぜですか?
モデル選択の問題を解決するために、いくつかの方法(LASSO、リッジ回帰など)が予測変数の係数をゼロに縮小します。これが予測能力を向上させる理由の直感的な説明を探しています。変数の実際の効果が実際に非常に大きかった場合、パラメーターを縮小しても予測が悪化しないのはなぜですか?

5
PCAが(距離を伴う)幾何学的問題から(固有ベクトルを伴う)線形代数問題にどのように変化するかについての直感的な説明は何ですか?
私は(のような様々なチュートリアルや質問など、PCAについて多く、読んだ本1、この1、この1、およびこれを)。 PCAが最適化しようとしている幾何学的問題は、私には明らかです。PCAは、再構成(投影)エラーを最小化することで最初の主成分を見つけようとし、同時に投影データの分散を最大化します。 最初にそれを読んだとき、私はすぐに線形回帰のようなものを考えました。必要に応じて、勾配降下法を使用して解決できます。 しかし、その後、線形代数を使用して固有ベクトルと固有値を見つけることで最適化問題が解決されることを読んだとき、私の心は吹き飛ばされました。私は、この線形代数の使用がどのように作用するかを単純に理解していません。 だから私の質問は次のとおりです。PCAはどのようにして幾何学的最適化問題から線形代数問題に変わるのでしょうか?誰かが直感的な説明を提供できますか? 私のような答えを捜しているわけではない、この1と言い、「あなたはPCAの数学の問題を解決するとき、それは共分散行列の固有値と固有ベクトルを見つけることと等価なってしまいます。」固有ベクトルが主成分となる理由と、固有ベクトルが投影されるデータの分散となる理由を説明してください ちなみに、私はソフトウェアエンジニアであり、数学者ではありません。 注:上記の図は、このPCAチュートリアルから取られて変更されています。

3
SVDの背後にある直感とは何ですか?
特異値分解(SVD)について読みました。ほとんどすべての教科書では、指定された仕様で行列を3つの行列に分解することが言及されています。 しかし、そのような形式でマトリックスを分割する背後にある直観は何ですか?次元削減のためのPCAおよびその他のアルゴリズムは、アルゴリズムに優れた視覚化特性があるという意味で直感的ですが、SVDではそうではありません。

4
XとXYのランダム変数間の相関係数が0.7になる傾向があるのはなぜですか
ダグラス・アルトマンが285ページで書いている医学研究のための実践統計から取られた: ... XとYの2つの数量について、XはXYと相関します。実際、XとYが乱数のサンプルであっても、XとXYの相関関係は0.7であると予想されます。 私はRでこれを試しましたが、そうであるようです: x <- rnorm(1000000, 10, 2) y <- rnorm(1000000, 10, 2) cor(x, x-y) xu <- sample(1:100, size = 1000000, replace = T) yu <- sample(1:100, size = 1000000, replace = T) cor(xu, xu-yu) 何故ですか?この背後にある理論は何ですか?


5
Kullback-Leibler(KL)発散に関する直観
モデル分布関数がデータの理論的/真の分布とどれだけ異なるかということから、KL発散の背後にある直感について学びました。私が読んでいるソースは、これらの2つの分布間の「距離」の直感的な理解が役立つと言い続けていますが、2つの分布PPPとQQQではKL発散はPPPとQQQ対称ではないため、文字通り解釈すべきではありません。 私は最後の声明を理解する方法がわかりません、またはこれは「距離」の直感が壊れるところですか? シンプルだが洞察に満ちた例に感謝します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.