タグ付けされた質問 「intuition」

統計についての概念的または非数学的な理解を求める質問。

1
サブジェクト(デュアル)スペースでのPCAの幾何学的理解
私は、主成分分析(PCA)がサブジェクト(デュアル)スペースでどのように機能するかを直感的に理解しようとしています。 2つの変数と、およびデータポイント(データ行列はあり、中心にあると想定される)を含む2Dデータセットを考えます。PCAの通常の表現は、点を考慮し、共分散行列を書き留め、その固有ベクトルと固有値を見つけることです。最初のPCは最大分散の方向などに対応します。これは共分散行列です。赤い線は、それぞれの固有値の平方根でスケーリングされた固有ベクトルを示しています。x1x1x_1x2x2x_2nnnXX\mathbf Xn×2n×2n\times 2nnnR2R2\mathbb R^22×22×22\times 2C=(4222)C=(4222)\mathbf C = \left(\begin{array}{cc}4&2\\2&2\end{array}\right) \hskip 1in 次に、デュアルスペース(機械学習で使用される用語)とも呼ばれる、対象空間(@ttnphnsからこの用語を学びました)で何が起こるかを考えます。これは、2つの変数のサンプル( 2列)が2つのベクトルおよび形成する次元空間です。各可変ベクトルの長さの2乗はその分散に等しく、2つのベクトル間の角度のコサインはそれらの間の相関に等しくなります。ちなみに、この表現は重回帰の処理において非常に標準的です。私の例では、対象空間は次のようになります(2つの変数ベクトルにまたがる2D平面のみを表示しています)。X x 1 x 2nnnXX\mathbf Xx1x1\mathbf x_1x2x2\mathbf x_2 \hskip 1in 2つの変数の線形結合である主成分は、同じ平面で2つのベクトルおよびします。私の質問は、そのようなプロットで元の変数ベクトルを使用して主成分変数ベクトルを形成する方法の幾何学的な理解/直感は何ですか?と与えられた場合、を生成する幾何学的な手順は何ですか?p 2 x 1 x 2 p 1p1p1\mathbf p_1p2p2\mathbf p_2x1x1\mathbf x_1x2x2\mathbf x_2p1p1\mathbf p_1 以下は私の現在の部分的な理解です。 まず、標準的な方法で主成分/軸を計算し、同じ図にプロットします。 \hskip 1in また、は、(青いベクトル)と上の投影の距離の二乗の合計が最小になるように選択されていることに注意できます。これらの距離は再構成エラーであり、黒い破線で示されています。同様に、は、両方の投影の長さの2乗の合計を最大化します。これは、を完全に指定し、もちろん、プライマリ空間での同様の説明に完全に類似しています(主成分分析、固有ベクトル、固有値の理解に対する私の回答のアニメーションを参照)。こちらの@ttnphnsの回答の最初の部分もご覧ください。x i p 1 p 1 p 1p1p1\mathbf p_1xixi\mathbf x_ip1p1\mathbf p_1p1p1\mathbf …

5
直観(幾何学的またはその他)
分散の基本的なアイデンティティを考えてみましょう: Var(X)===E[(X−E[X])2]...E[X2]−(E[X])2Var(X)=E[(X−E[X])2]=...=E[X2]−(E[X])2 \begin{eqnarray} Var(X) &=& E[(X - E[X])^2]\\ &=& ...\\ &=& E[X^2] - (E[X])^2 \end{eqnarray} これは、中心モーメントを非中心モーメントに定義する単純な代数的操作です。 他のコンテキストでを簡単に操作できます。また、最初に平均を計算し、次に分散を計算するために、2回のパスではなく、データの1回のパスで分散を計算できます。Var(X)Var(X)Var(X) しかし、それはどういう意味ですか?平均についての広がりを0についての広がりに関連付ける直接的な幾何学的直観はありませんは1次元の集合であるため、平均の周りの広がりを、原点の広がりと正方形の平方との差としてどのように見ますか平均?XXX このアイデンティティへの洞察を与える良い線形代数解釈または物理的解釈または他のものはありますか?

2
独立成分分析の意味を理解する
主成分分析の意味を理解するという質問を見て、楽しんでいますが、今では独立成分分析にも同じ質問があります。ICAを理解する直感的な方法について包括的な質問をしたいのですか? 理解したいです。目的を知りたい。私はそれを感じたいです。私は強く信じています: あなたはそれをあなたの祖母に説明できない限り、あなたは本当に何かを理解していません。 - アルバート・アインシュタイン まあ、私はこの概念を素人やおばあちゃんに説明することはできません ICAを選ぶ理由 このコンセプトの必要性は何ですか? これを素人にどのように説明しますか?
18 intuition  ica 

2
t-SNEと比較した、UMAPの動作の直観的な説明
分子生物学の博士号を持っています。私の研究は最近、高次元のデータ分析を伴うようになりました。t-SNEがどのように機能するかはわかりましたが(YouTubeのStatQuestビデオのおかげです)、UMAPを思い巡らすことはできません(UMAPクリエーターの話をオンラインで聞いていましたが、簡単に理解できませんでした)。私はそれを説明する元の論文に戻りましたが、それは私にとってはあまりにも多くの数学でした。 誰かが問題についていくつかの光を当てることができますか?上記のリンクされたStatQuestビデオと同様に、私は直観的な説明を探しています。

3
準最尤推定(QMLE)の背後にあるアイデアと直感
質問:準最尤推定(QMLE、擬似最尤推定、PMLEとも呼ばれます)の背後にある考え方と直感は何ですか?実際の誤差分布が想定誤差分布と一致しない場合、推定器が機能する理由は何ですか? QMLE のWikipediaサイトは素晴らしい(簡潔で、直感的、要点)ですが、もっと直感的で詳細な、おそらくはイラストを使用することもできます。他の参考文献は大歓迎です。(私はQMLE上に材料を探してかなりの数の計量経済学の教科書の上に行くのを覚えて、そして私の驚きに、QMLEは、1つまたはそれらの2で覆われていた、例えばWooldridge 「クロスセクションとパネルデータの計量経済分析」第13章(2010)セクション11、ページ502-517。)

2
クラスタリング—クラインバーグの不可能性定理の裏にある直観
Kleinberg(2002)によるクラスタリングの難しさを探るこの興味深い分析に関するブログ投稿を書くことを考えています。クラインバーグは、クラスタリング関数の3つの一見直感的な設計を概説し、そのような関数が存在しないことを証明しています。3つの基準のうち2つを満足させる多くのクラスタリングアルゴリズムがあります。ただし、3つすべてを同時に満たす機能はありません。 簡潔かつ非公式に、彼が概説する3つの要求事項は次のとおりです。 Scale-Invariance:すべての方向にすべてが均等に引き伸ばされるようにデータを変換する場合、クラスタリング結果は変わらないはずです。 一貫性:クラスター間の距離が増加するように、および/またはクラスター内の距離が減少するようにデータをストレッチする場合、クラスタリングの結果は変わらないはずです。 豊富さ:クラスタリング機能は、理論的には、データポイントの任意のパーティション/クラスタリングを生成できる必要があります(2つのポイント間のペアワイズ距離がわからない場合) 質問: (1)これらの3つの基準間の矛盾を示すことができる、直感的で幾何学的な絵はありますか? (2)これは、論文の技術的な詳細を指します。質問のこの部分を理解するには、上記のリンクを読む必要があります。 論文では、定理3.1の証明は、私がいくつかの点で従うのが少し難しいです。私は、こだわっている:「してみましょう。クラスタリング機能も満たす一貫性私たちはどんなパーティションのためと主張しているΓ ∈ レンジ(F )、正の実数が存在する&lt; bのペアよう(、bが)ですΓ -強制する。」fffΓ∈Range(f)Γ∈Range(f)\Gamma \in \text{Range}(f)a&lt;ba&lt;ba < b(a,b)(a,b)(a, b)ΓΓ\Gamma 私はこれがどうなるかわかりません... 反例の下のパーティションではありませんか(つまり、クラスター間の最小距離はクラスター内の最大距離よりも大きい)?a&gt;ba&gt;ba > b 編集:これは明らかに反例ではなく、私は自分自身を混乱させていました(回答を参照)。 その他の論文: Ackerman&Ben-David(2009)。クラスタリング品質の尺度:クラスタリングの公理のワーキングセット 「一貫性」公理に関するいくつかの問題を指摘する

2
サンプルのCDFが均一に分布している理由
ここで、cdfを使用した連続分布からのサンプルが与えられ、対応するサンプルが標準的な均一分布に従うことを読みました。X1,X2,...,XnX1,X2,...,Xn X_1,X_2,...,X_n FXFX F_X Ui=FX(Xi)Ui=FX(Xi) U_i = F_X(X_i) Pythonの定性シミュレーションを使用してこれを検証しましたが、関係を簡単に検証できました。 import matplotlib.pyplot as plt import scipy.stats xs = scipy.stats.norm.rvs(5, 2, 10000) fig, axes = plt.subplots(1, 2, figsize=(9, 3)) axes[0].hist(xs, bins=50) axes[0].set_title("Samples") axes[1].hist( scipy.stats.norm.cdf(xs, 5, 2), bins=50 ) axes[1].set_title("CDF(samples)") 結果は次のプロットになります。 これがなぜ起こるのか理解できません。私はそれがCDFの定義とPDFとの関係に関係していると思いますが、何かが欠けています... 誰かが私にその主題に関するいくつかの読書を教えてくれたり、私が主題に関するいくつかの直観をつかむのを手伝ってくれたりしていただければ幸いです。 編集:CDFは次のようになります。
17 pdf  uniform  cdf  intuition 

2
どのような(対称)分布について、サンプルはサンプル中央値よりも効率的な推定量を意味しますか?
サンプルの中央値は、外れ値を無視するため、サンプル平均よりも中心傾向のより堅牢な尺度であるという信念のもとで努力しました。したがって、(別の質問への回答で)正規分布から引き出されたサンプルの場合、サンプル平均の分散がサンプル中央値の分散よりも小さいこと(少なくともが大きい)を知って驚いた。nnn 私は数学的にこれが本当である理由を理解しています。他の分布の平均ではなく、中央値をいつ使用するかについての直感に役立つ「哲学的」な見方はありますか? 特定の分布に関する質問にすばやく答えるのに役立つ数学的なツールはありますか?

3
ハザード率の背後にある直感
ハザード率の定義として役立つ方程式について混乱しています。ハザードレートが何であるかはわかりますが、方程式がその直観をどのように表現しているかはわかりません。 が時間間隔での誰かの死の時点を表すランダム変数である場合。次に、危険率は次のとおりです。xバツx[0,T][0、T][0,T] h(x)=f(x)1−F(x)h(バツ)=f(バツ)1−F(バツ)h(x)=\frac{f(x)}{1-F(x)} ここで、時点まで死の確率を表し、時点まで生存した確率を表し、 及びは、ポイントでの死亡の確率です。F(x)F(バツ)F(x)x∈[0,T]バツ∈[0、T]x\in[0,T] 1−F(x)1−F(バツ)1-F(x)x∈[0,T]バツ∈[0、T]x\in[0,T]f(x)f(バツ)f(x)xバツx を生存率で除算すると、次のにおける瞬間的な死の確率の直感をどのように説明できますか?ハザード率の計算を簡単にするだけではいけませんか?f(x)f(バツ)f(x)Δt△t\Delta tf(x)f(バツ)f(x)

2
標準偏差がNの平方和のsqrtとしてではなく、分散のsqrtとして定義されるのはなぜですか?
今日、私は統計の入門クラスを教え、学生が質問を思いついた。ここで、「なぜ標準偏差はN上の平方和の平方ではなく分散の平方として定義されるのか」と言い換える。 母分散を定義します:σ2=1N∑(xi−μ)2σ2=1N∑(xi−μ)2\sigma^2=\frac{1}{N}\sum{(x_i-\mu)^2} 標準偏差:。σ=σ2−−√=1N√∑(xi−μ)2−−−−−−−−−−√σ=σ2=1N∑(xi−μ)2\sigma=\sqrt{\sigma^2}=\frac{1}{\sqrt{N}}\sqrt{\sum{(x_i-\mu)^2}} 与えられる解釈は、母平均から母集団の単位の平均偏差を与えるということです。σσ\sigmaXXX ただし、sdの定義では、平方和のを除算します。学生が提起する問題は、なぜ二乗和の面積をで割らないのかということです。したがって、競合する式になります:学生は、この式はように除算する場合よりも、平均からの「平均」偏差のように見えると主張しました。N−−√N\sqrt{N}NNNσnew=1N∑(xi−μ)2−−−−−−−−−−√.σnew=1N∑(xi−μ)2.\sigma_{new}=\frac{1}{N}\sqrt{\sum{(x_i-\mu)^2}}.N−−√N\sqrt{N}σσ\sigma この質問は愚かではないと思いました。私は、sdが平均平方偏差である分散のsqrtとして定義されていると言うよりも先に進む学生に答えたいと思います。別の言い方をすれば、なぜ生徒は正しい式を使用し、自分の考えに従わないのですか? この質問は、ここで提供される古いスレッドと回答に関連しています。答えは3つの方向にあります。 σσ\sigmaは二乗平均平方根(RMS)偏差であり、平均からの「典型的な」偏差ではありません(つまり、)。したがって、定義が異なります。σnewσnew\sigma_{new} 数学的な特性があります。 さらに、sqrtは「ユニット」を元のスケールに戻します。ただし、これは場合でもあり、代わりにで除算されます。σnewσnew\sigma_{new}NNN ポイント1と2の両方は、RMSとしてsdを支持する引数ですが、使用に反対する引数はません。入門レベルの学生に平均からの平均RMS距離使用を説得する良い議論は何でしょうか?σnewσnew\sigma_{new}σσ\sigma

1
EM、直感的な説明はありますか?
EMプロシージャは、多少の黒魔術として、未経験者には現れます。監視されたデータを使用して、HMMのパラメーターを推定します(たとえば)。次に、前後にタグ付けされたデータをデコードし、データが多少ともタグ付けされているかのようにイベントを「カウント」します。なぜこれがモデルを改善するのですか?私は数学について何かを知っていますが、私はそれのある種の精神的な絵を望み続けます。

2
混合モデルのパラメーター推定に関する直観(分散パラメーターと条件付きモード)
ランダム効果(たとえば、被験者のBLUP /条件付きモード)は線形混合効果モデルのパラメーターではなく、推定された分散/共分散パラメーターから導出できることを何度も読みました。例えば、ラインホルト・クリーグル等。(2011)状態: 変量効果は、被験者の総平均RTからの偏差と被験者の固定効果パラメーターからの偏差です。これらは独立して、通常は0の平均これらのランダムな効果があることを認識することが重要であると一緒に配布されると仮定されているではない だけでその分散と共分散がある- LMMのパラメータ。[...] LMMパラメーターを被験者のデータと組み合わせて使用​​すると、被験者ごとにランダム効果の「予測」(条件付きモード)を生成できます。 誰かが実際にランダム効果を使用/推定せずにランダム効果の(共)分散パラメーターを推定する方法を直感的に説明できますか?

4
条件付き確率の直観をどのように開発しますか?
iTunesとYouTubeにあるハーバードの統計110:確率コースのビデオ講義で、この問題に遭遇しました。 ここに要約しようとしました: 標準のデッキからランダムな2枚のカードのハンドが与えられたとします。 少なくとも1つのエースがある場合、両方のカードがエースである確率はどのくらいですか? P(both aces|have ace)=P(both aces,have ace)P(have ace)P(both aces|have ace)=P(both aces,have ace)P(have ace) P(both\ aces | have\ ace) = \frac{P(both\ aces, have\ ace)}{P(have\ ace)} 両方のエースを持っている場合、少なくとも1つのエースを持っていることが暗示されるので、交差点はP(both aces)P(both aces)P(both\ aces) P(both aces|have ace)=P(both aces)P(have ace)P(both aces|have ace)=P(both aces)P(have ace) P(both\ aces | have\ ace) = \frac{P(both\ aces)}{P(have\ ace)} これはまさに P(both …

2
距離相関計算の理解
私の知る限り、距離相関は、2つの数値変数間に関係があるかどうかを確認するための堅牢で普遍的な方法です。たとえば、数字のペアのセットがある場合: (x1, y1) (x2, y2) ... (xn, yn) 距離相関を使用して、2つの変数(xおよびy)の間に(必ずしも線形ではない)関係があるかどうかを確認できます。また、xおよびyは、異なる次元のベクトルにすることができます。 距離相関の計算は比較的簡単です。まず、を使用して距離行列を計算します。次に、y iを使用して距離行列を計算します。x iとy iの数が同じであるため(ペアになっているため)、2つの距離行列は同じ次元になります。xiバツ私x_iyiy私y_ixiバツ私x_iyiy私y_i 現在、ペアリングできる距離がたくさんあります。たとえば(2,3)、最初の距離行列の要素(2,3)は、2番目の距離行列の要素とペアになります。したがって、距離のペアのセットがあり、それを使用して相関(距離間の相関)を計算できます。 2種類の距離が相関している場合、Xが近いと通常Yが近いことを意味します。たとえば、がx 13に近い場合、y 7はy 13に近い可能性が高いことを意味します。したがって、XとYは依存していると結論付けることができます。x7バツ7x_7x13バツ13x_{13}y7y7y_7y13y13y_{13} 理にかなっているように思えますが、理解できない2つの側面があります。 まず、距離相関を計算するために、2つの距離行列を直接使用しません。それらに二重センタリング手順を適用します(そのため、行(または列)のすべての要素の合計がゼロに等しくなります)。なぜそうする必要があるのか​​分かりません。このステップの背後にあるロジック(または直感)とは何ですか? 第二に、元の距離行列では、対角線上にゼロがあります。したがって、距離間の相関を計算すると、最初の行列の多くのゼロが2番目の行列の対応するゼロとペアになっているため、統計的に有意な相関があります。この問題はどのように解決されますか?

4
決定論的な世界でのチャンスの操作
Steven Pinkerの著書「Better Angels of Our Nature」で、彼は 確率は見通しの問題です。十分に近い範囲で見ると、個々のイベントには明確な原因があります。コインフリップでさえ、開始条件と物理法則から予測することができ、熟練した魔術師は、それらの法則を悪用して毎回頭を投げることができます。しかし、これらの多数のイベントの広角ビューをズームアウトすると、互いに打ち消し合ったり、同じ方向に整列したりする膨大な数の原因の合計が表示されます。物理学者であり哲学者でもあるアンリ・ポアンカレは、多数のちっぽけな原因が恐ろしい効果をもたらすか、私たちの通知を逃れる小さな原因が見逃すことのできない大きな効果を決定するかのいずれかで、決定論的な世界でチャンスの操作を見ると説明しました。組織的な暴力の場合、誰かが戦争を始めたいと思うかもしれません。彼は、来るかもしれないし、来ないかもしれない、都合の良い瞬間を待ちます。彼の敵は交戦するか撤退するかを決定します 弾丸が飛ぶ; 爆弾が破裂した。人は死ぬ。すべてのイベントは、神経科学と物理学および生理学の法則によって決定される場合があります。しかし、集計では、このマトリックスに含まれる多くの原因が極端な組み合わせにシャッフルされることがあります。(p。209) 私は太字の文に特に興味がありますが、文脈のために残りを与えます。私の質問:ポアンカレが説明した2つのプロセスを説明する統計的な方法はありますか?私の推測は次のとおりです。 1)「多数のちっぽけなことが原因で恐ろしい効果になります。」「多数の原因」と「追加」という音は、中心極限定理のように聞こえます。しかし、CLT(の古典的な定義)では、原因は決定論的効果ではなく、ランダム変数である必要があります。ここで、これらの決定論的効果を何らかのランダム変数として近似する標準的な方法はありますか? 2)「通知を逃れる小さな原因が、見逃せない大きな影響を決定します。」あなたはこれをある種の隠れマルコフモデルと考えることができるように思えます。しかし、HMMの(観測不可能な)状態遷移確率は、それだけの確率であり、定義上、再び決定論的ではありません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.