タグ付けされた質問 「intuition」

統計についての概念的または非数学的な理解を求める質問。

11
プロットと線形代数を使用せずに単純な線形回帰を実行できますか?
私は完全に盲目で、プログラミングの経験があります。 私がやろうとしているのは、機械学習を学ぶことです。これを行うには、まず線形回帰について学ぶ必要があります。この主題について私が見つけているインターネット上のすべての説明は、最初にデータをプロットします。グラフやプロットに依存しない線形回帰の実用的な説明を探しています。 単純な線形回帰の目的についての私の理解は次のとおりです。 単純な線形回帰は、一度与えれXば、の最も近い推定値を提供する式を見つけようとしていますY。 したがって、私が理解しているように、予測変数(たとえば、平方フィートの家の面積)を独立変数(価格)と比較する必要があります。私の例では、おそらくその地域から家の価格を計算するための最良の式を取得する非視覚的な方法を作成できます。たとえば、近所の1000軒の住宅の面積と価格を取得し、価格をその面積に分割するとしますか?結果(少なくとも私の住んでいるイランでは)は非常にわずかな変動しかありません。したがって、おそらく次のようなものが得られます。 Price = 2333 Rials * Area of the house もちろん、データセット内の1000の家すべてを調べ、上記の式に面積を入れ、推定値を実際の価格と比較し、結果を2乗する必要があります(分散が互いに相殺されないようにするためです)そして、数字を取得2333し、エラーを減らすためにをいじり続けます。 もちろん、これはブルートフォースオプションであり、おそらくエラーを計算して最適なオプションに到達するまでに時間がかかりますが、私が言っていることはわかりますか?グラフ、線、プロット上の点、または既存のデータに線を当てはめる最良の方法については何も言いませんでした。 では、なぜ散布図と線形代数が必要なのでしょうか?非視覚的な方法はありませんか? 最初に、私は自分の仮定に正しいですか?そうでない場合は、修正したいと思います。しかし、私がそうであるかどうかにかかわらず、線形代数をいじることなく式を思いつく方法はありますか? 説明とともに例を得ることができれば、それを本当に感謝します。そうすれば、テキストと一緒にそれを理解できます。

3
条件付きガウス分布の背後にある直感とは何ですか?
と仮定します。その後の条件付き分布と仮定多変量通常、平均して分布しています。X∼N2(μ,Σ)X∼N2(μ,Σ)\mathbf{X} \sim N_{2}(\mathbf{\mu}, \mathbf{\Sigma})X1X1X_1X2=x2X2=x2X_2 = x_2 E[P(X1|X2=x2)]=μ1+σ12σ22(x2−μ2)E[P(X1|X2=x2)]=μ1+σ12σ22(x2−μ2) E[P(X_1 | X_2 = x_2)] = \mu_1+\frac{\sigma_{12}}{\sigma_{22}}(x_2-\mu_2) および分散:Var[P(X1|X2=x2)]=σ11−σ212σ22Var[P(X1|X2=x2)]=σ11−σ122σ22{\rm Var}[P(X_1 | X_2 = x_2)] = \sigma_{11}-\frac{\sigma_{12}^{2}}{\sigma_{22}} より多くの情報があるため、分散が減少することは理にかなっています。しかし、平均式の背後にある直感は何ですか?と間の共分散は、条件付き平均にどのように影響しますか?X1X1X_1X2X2X_2

2
スタインのパラドックスが次元のみ適用される理由の背後にある直観
スタインの例は、平均および分散をもつ正規分布変数の最尤推定値は場合に許容できないことを示しています(平方損失関数の下)。きちんとした証拠については、大規模推論の最初の章を参照してください: Bradley Effronによる推定、テスト、および予測のための経験的ベイズ法。μ 1、... 、μ nは 1 のn ≥ 3nnnμ1,…,μnμ1,…,μn\mu_1,\ldots,\mu_n111n≥3n≥3n\ge 3 、最も注目すべきは(これは非常に最初に私には驚くべきことであったが、1は、標準的な推定値は許容できないことを期待するかもしれない理由の背後にあるいくつかの直感があった場合、その後、 n。Steinの元の論文で概説されているように、以下にリンクされています)。x∼N(μ,1)x∼N(μ,1)x \sim \mathcal N(\mu,1)E∥x∥2≈∥μ∥2+nE‖x‖2≈‖μ‖2+n\mathbb{E}\|x\|^2\approx \|\mu\|^2+n 私の質問はむしろ:nnn次元空間(n≥3n≥3n\ge 3)のどの特性がR2R2\mathbb{R}^2欠けており、それがSteinの例を容易にしているのか?可能な答えは、nnn球の曲率、またはまったく異なるものです。 つまり、\ mathbb {R} ^ 2で MLEが許容されるのはなぜR2R2\mathbb{R}^2ですか? 編集1: @mpiktasへの応答では、1.30から1.31に続く懸念: Eμ(∥z−μ^∥2)=Eμ(S(N−2S)2)=Eμ((N−2)2S).Eμ(‖z−μ^‖2)=Eμ(S(N−2S)2)=Eμ((N−2)2S).E_\mu\left(\|z-\hat{\mu}\|^2\right)=E_\mu\left(S\left(\frac{N-2}{S}\right)^2\right)=E_\mu\left(\frac{(N-2)^2}{S}\right). μi^=(1−N−2S)ziμi^=(1−N−2S)zi\hat{\mu_i} = \left(1-\frac{N-2}{S}\right)z_iようEμ(∂μi^∂zi)=Eμ(1−N−2S+2z2iS2).Eμ(∂μi^∂zi)=Eμ(1−N−2S+2zi2S2).E_\mu\left(\frac{\partial\hat{\mu_i}}{\partial z_i} \right)=E_\mu\left( 1-\frac{N-2}{S}+2\frac{z_i^2}{S^2}\right).したがって、次のものがあります。 2∑i=1NEμ(∂μi^∂zi)=2N−2Eμ(N(N−2)S)+4Eμ((N−2)S)=2N−Eμ2(N−2)2S.2∑i=1NEμ(∂μi^∂zi)=2N−2Eμ(N(N−2)S)+4Eμ((N−2)S)=2N−Eμ2(N−2)2S.2\sum_{i=1}^N E_\mu\left(\frac{\partial\hat{\mu_i}}{\partial z_i} \right)=2N-2E_\mu\left(\frac{N(N-2)}{S}\right)+4E_\mu\left(\frac{(N-2)}{S}\right)\\=2N-E_\mu\frac{2(N-2)^2}{S}. 編集2:この論文では、スタインは、MLEがN = 2に対して許容されることを証明していN=2N=2N=2ます。


13
モンティホールの問題-私たちの直観はどこで失敗しますか?
ウィキペディアから: ゲームショーに参加していて、3つのドアを選択できるとします。1つのドアの後ろは車です。他の山羊の後ろに。1番と言うドアを選び、ドアの後ろに何があるかを知っているホストが、ヤギがいる3番と言う別のドアを開きます。彼はあなたに、「2番のドアを選びたいですか?」と言います。あなたの選択を切り替えることはあなたにとって有利ですか? もちろん、答えはイエスです-しかし、それは信じられないほど非直感的です。ほとんどの人は、私たちが頭をかきむしにつながる確率について、どのような誤解を持っていますか?直観をよりよく訓練するために、このパズルからどのような一般的な規則を取り除くことができますか?

3
変換された変数の密度の直感的な説明?
仮定 PDFとランダム変数である。次に、確率変数の確率密度関数はXXXfX(x)fX(x)f_X(x)Y=X2Y=X2Y=X^2 fY(y)={12y√(fX(y√)+fX(−y√))0y≥0y<0fY(y)={12y(fX(y)+fX(−y))y≥00y<0f_Y(y)=\begin{cases}\frac{1}{2\sqrt{y}}\left(f_X(\sqrt{y})+f_X(-\sqrt{y})\right) & y \ge 0 \\ 0 & y \lt 0\end{cases} この背後にある計算を理解しています。しかし、私は微積分を知らない人にそれを説明する方法を考えています。特に、因子が前面に現れる理由を説明しようとしています。私はそれに刺します:1y√1y\frac{1}{\sqrt{y}} 仮定ガウス分布を有します。pdfのほぼすべての重みは、値と間ですただし、 0〜9にマップされます。そのため、のpdfの重い重みは、への変換の値のより広い範囲にわたって拡張されています。したがって、が真のpdfであるためには、余剰重量を乗数因子だけ小さくする必要がありますXXX−3−3-33.3.3.YYYXXXYYYfY(y)fY(y)f_Y(y)1y√1y\frac{1}{\sqrt{y}} それはどのように聞こえますか? 誰かが自分自身のより良い説明を提供したり、文書や教科書のいずれかへのリンクを提供できれば、とても感謝しています。この変数変換の例は、いくつかのイントロ数学的確率/統計の本にあります。しかし、私はそれで直感的な説明を見つけることはありません:(

6
「離れて説明する」ことが直感的な意味をなすのはなぜですか?
私は最近、「説明する距離」と呼ばれる確率論的推論の原理について学び、それに対する直観をつかもうとしています。 シナリオを設定しましょう。してみましょう地震が発生しているイベントです。イベント を、ジョリーグリーンの巨人が町を散策しているイベントとします。してみましょう地面が揺れていることをイベントで。ましょう。ご覧のとおり、またはいずれかがを引き起こす可能性があります。AAABBBCCCA⊥⊥BA⊥⊥BA \perp\!\!\!\perp BAAABBBCCC 「explain away」推論を使用しますが発生した場合、またはいずれかが増加しますが、が発生した理由を説明する別の理由は必要ないため、他は減少します。しかし、私の現在の直感では、両方のことを私に語っおよびあれば増加すべきあるために発生、それは可能性が高い原因のいずれかのことを行い発生した発生しました。CCCP(A)P(A)P(A)P(B)P(B)P(B)CCCP(A)P(A)P(A)P(B)P(B)P(B)CCCCCCCCC 私の現在の直観と説明するという考えをどのように調和させるのですか?とが条件付きで依存していることを正当化するために、説明を離れて使用するにはどうすればよいですか?AAABBBCCC

4
ここでない中心極限定理(CLT)でから来ますか?
以下のような中央限定定理の非常に単純なバージョン これはLindeberg–Lévy CLTです。左側にがある理由がわかりません。そして、リアプノフCLTはと言い が、なぜない?やなど、これらの要因について教えてください。定理でそれらをどのように取得しますか?n−−√((1n∑i=1nXi)−μ) →d N(0,σ2)n((1n∑i=1nXi)−μ) →d N(0,σ2) \sqrt{n}\bigg(\bigg(\frac{1}{n}\sum_{i=1}^n X_i\bigg) - \mu\bigg)\ \xrightarrow{d}\ \mathcal{N}(0,\;\sigma^2) n−−√n\sqrt{n}1sn∑i=1n(Xi−μi) →d N(0,1)1sn∑i=1n(Xi−μi) →d N(0,1) \frac{1}{s_n} \sum_{i=1}^{n} (X_i - \mu_i) \ \xrightarrow{d}\ \mathcal{N}(0,\;1) sn−−√sn\sqrt{s_n}n−−√n\sqrt{n}1sn1sn\frac{1}{s_n}

2
人工の地球温暖化の証拠は「ゴールドスタンダード」に当たります:彼らはどうやってこれをしましたか?
25.02.2019からのロイターの記事にあるこのメッセージは、現在すべてのニュースに掲載されています。 人工の地球温暖化の証拠は「ゴールドスタンダード」に当たります [科学者]は、人間の活動が地球の表面の熱を高めているという自信が「5シグマ」レベルに達したと言いました。温暖化なし。 これは、この記事「気候変動科学における3つの重要なイベントの記念日を祝う」を参照していると思います。これには、下図に示すプロットが含まれています無料の画像はこちらにあります)。同じ研究グループの別の記事は、より独創的な情報源と思われますが、ここにあります(ただし、ではなく1%の有意性を使用しています)。5つのσ5σ5\sigma このプロットは、リモートセンシングシステム、衛星応用研究センター、アラバマ大学ハンツビルの3つの異なる研究グループの測定値を示しています。 プロットは、トレンドの長さの関数として、信号対ノイズ比の3つの上昇曲線を表示します。 だから、何とか科学者は地球温暖化の人為的な信号を測定している(または気候変動を?)でレベル、明らかにいくつかある証拠の科学的な標準。5つのσ5σ5\sigma 私にとって、このようなグラフは抽象度が高く、多くの疑問を提起します、そして一般的に「どうやってこれをしたのですか?」という疑問について疑問に思います。。この実験を単純な単語に(しかし、それほど抽象的ではない)説明し、レベルの意味をどのように説明しますか?††^{\dagger} 5σ5つのσ5σ5\sigma 私は気候について議論したくないので、ここでこの質問をします。代わりに、統計コンテンツに関する回答、特にを使用/主張しているこのようなステートメントの意味を明確にするために答えを求めています。5つのσ5σ5 \sigma ††^\dagger帰無仮説とは何ですか?人為的な信号を得るために、彼らはどのように実験を設定しましたか?信号のエフェクトサイズは?それは単なる小さな信号であり、ノイズが減少しているため、または信号が増加しているため、今これを測定するだけです 5シグマのしきい値(独立、ランダム効果など)の交差を決定する統計モデルを作成するために、どのような仮定が行われますか?異なる研究グループの3つの曲線が異なるのはなぜですか、異なるノイズがあるのか​​、異なる信号があるのですか?後者の場合、確率と外部妥当性の解釈に関してそれはどういう意味ですか?


13
条件付き確率の式の背後にある直感は何ですか?
以下のための式の条件付き確率のことを考慮起こっが起こったである:B P (AAA\text{A}BB\text{B}P(A | B)=P(A∩B)P(B).P(A | B)=P(A∩B)P(B). P\left(\text{A}~\middle|~\text{B}\right)=\frac{P\left(\text{A} \cap \text{B}\right)}{P\left(\text{B}\right)}. 私の教科書は、ベン図の観点からこの背後にある直感を説明しています。 ことを考える発生したこと、のための唯一の方法イベントがの交差点に入ることで発生するためであると。A A BBB\text{B}AA\text{A}AA\text{A}BB\text{B} その場合には、確率ではないだろう単にの確率に等しくなる交差点ため、それがイベントが発生する唯一の方法ですか?私は何が欠けていますか? A BP(A|B)P(A|B)P\left(\text{A} \middle| \text{B}\right)AA\text{A}BB\text{B}

1
GAMのテンソル製品の相互作用の背後にある直観(RのMGCVパッケージ)
一般化された加法モデルは 、たとえばモデル です。関数は滑らかで、推定されます。通常、罰せられたスプラインによって。MGCVはRのパッケージであり、著者(Simon Wood)はRの例を含む彼のパッケージに関する本を書いています。ルパート等 (2003)同じもののより単純なバージョンについて、はるかにアクセスしやすい本を書いてください。 y=α+f1(x1)+f2(x2)+eiy=α+f1(x1)+f2(x2)+ei y = \alpha + f_1(x_1) + f_2(x_2) + e_i 私の質問は、これらの種類のモデル内の相互作用についてです。次のようなことをしたい場合: OLS土地にいた場合(は単なるベータです) 、解釈に問題はありません。ペナルティスプラインを介して推定する場合、加算コンテキストでの解釈にも問題はありません。 y=α+f1(x1)+f2(x2)+f3(x1×x2)+eiy=α+f1(x1)+f2(x2)+f3(x1×x2)+ei y = \alpha + f_1(x_1) + f_2(x_2) + f_3(x_1\times x_2) + e_i ffff^3f^3\hat{f}_3 ただし、GAMのMGCVパッケージには、「テンソル積平滑化」と呼ばれるものがあります。私は「テンソル製品」をグーグルで検索し、見つけた説明を読もうとするとすぐに目が輝いた。私は十分に頭が良くないか、数学があまりうまく説明されていないか、またはその両方です。 コーディングの代わりに normal = gam(y~s(x1)+s(x2)+s(x1*x2)) テンソル製品は同じ(?) what = gam(y~te(x1,x2)) 私がする時 plot(what) または vis.gam(what) 本当にクールな出力が得られます。しかし、私はブラックボックス内で何が起こっているのte()か、また前述のクールな出力をどのように解釈するのか分かりません。先日、セミナーを開催しているという悪夢に見舞われました。みんなにクールなグラフを見せて、それが何を意味するのかと尋ねましたが、知りませんでした。それから私は服を着ていないことを発見しました。 ここのボンネットの下で何が起こっているのかについて少しのメカニズムと直感を与えることで、誰も私と後世の両方を助けることができますか?理想的には、通常の加法相互作用の場合とテンソルの場合の違いについて少し言ってください。数学に進む前に、すべてを簡単な英語で言うことのボーナスポイント。

3
フィッシャー情報とはどのような情報ですか?
ランダム変数ます。場合は trueパラメータだった、尤度関数を最大化し、ゼロに等しい派生する必要があります。これが最尤推定量の背後にある基本原則です。バツ〜F(x | θ )バツ〜f(バツ|θ)X \sim f(x|\theta)θ0θ0\theta_0 私が理解するように、フィッシャー情報は次のように定義されます 私(θ )= E [ (∂∂θf(X| θ))2]私(θ)=E[(∂∂θf(バツ|θ))2]I(\theta) = \Bbb E \Bigg[\left(\frac{\partial}{\partial \theta}f(X|\theta)\right)^2\Bigg ] したがって、が真のパラメーターである場合、です。しかし、が真のパラメーターでない場合、フィッシャーの情報が多くなります。θ0θ0\theta_0私(θ )= 0私(θ)=0I(\theta) = 0θ0θ0\theta_0 私の質問 フィッシャー情報は、特定のMLEの「エラー」を測定しますか?言い換えると、ポジティブなフィッシャー情報の存在は、私のMLEが理想的ではないことを意味しないのでしょうか? 「情報」のこの定義は、シャノンが使用する定義とどのように異なりますか?なぜそれを情報と呼ぶのですか?

2
帰無仮説の下での線形回帰での分布は何ですか?ときになぜモードがゼロにならないのですか?
帰無仮説下での線形単変量多重回帰における決定係数、またはR 2乗の分布は何ですか?R2R2R^2H0:β=0H0:β=0H_0:\beta=0 予測子の数とサンプルのどのように依存しますか?この分布のモードに閉形式の表現はありますか?kkkn&gt;kn&gt;kn>k 特に、単純な回帰(1つの予測子)の場合、この分布のモードはゼロになりますが、重回帰の場合、モードはゼロ以外の正の値になります。もしこれが本当なら、この「相転移」の直感的な説明はありますか?xxx 更新 @Alecosが以下に示すように、および場合、分布は実際にゼロでピークに達し、場合、ゼロではありません。この相転移には幾何学的な見方が必要だと感じています。OLSの幾何学的ビューを考えてみましょう:はベクトルで、は次元の部分空間を定義します。OLSはこの部分空間にを投影することになり、はとその投影間の角度の二乗余弦です。k=2k=2k=2k=3k=3k=3k&gt;3k&gt;3k>3yy\mathbf yRnRn\mathbb R^nXX\mathbf Xkkkyy\mathbf yR2R2R^2Yyy\mathbf yy^y^\hat{\mathbf y} @Alecosの答えから、すべてのベクトルがランダムである場合、この角度の確率分布はおよびでピークになりますが、他の値モードを持つことになりますのため。なぜ?!90∘90∘90^\circk=2k=2k=2k=3k=3k=3&lt;90∘&lt;90∘<90^\circk&gt;3k&gt;3k>3 更新2:私は@Alecosの回答を受け入れていますが、ここでいくつかの重要な洞察を逃していると感じています。もし誰かがこの現象について他の(幾何学的であるか否かを問わず)それを「明白」にするだろうと提案した場合、私は喜んで賞金を提供します。

5
分布の収束と確率の収束の直感的な説明
確率が収束する確率変数と分布が収束する確率変数の直感的な違いは何ですか? 私は数多くの定義と数学の方程式を読みましたが、それは本当に助けにはなりません。(覚えておいてください、私は計量経済学を勉強している大学生です。) ランダム変数はどのようにして単一の数値に収束しますが、分布にも収束しますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.