タグ付けされた質問 「intuition」

統計についての概念的または非数学的な理解を求める質問。

1
直感(幾何学的またはその他)
で、別の割賦確率のアイデンティティのための直感の、基本的アイデンティティ考慮する全分散の法則を Var(X)=E[Var(X|Y)]+Var(E[X|Y])Var(X)=E[Var(X|Y)]+Var(E[X|Y]) \begin{eqnarray} \rm{Var}(X) &=&\rm{E}[\rm{Var}(X|Y)] + \rm{Var}(E[X|Y]) \end{eqnarray} これは、モーメントの定義を総和に、またはウィキペディアのリンクのように、EとVarを操作して、単純で代数的に操作することです。 しかし、このアイデンティティ、それが何を意味するのか私にはわかりません。おそらく、別の変数を使用して1つの変数の分散を計算して助けることができると思いますが、物事を単純化したり、物事を扱いやすくしたりするようには見えません。 wikiページは言う 最初の要素はプロセス分散の期待値(EVPV)と呼ばれ、2番目の要素は仮想平均の分散(VHM)と呼ばれます これは名前を読み上げるのと同じくらい啓発的です。 では、それはどういう意味ですか?2つの部分について直感はありますか?直感が必要ですか?Y ] ] = E [ X ]は最初ですか?幾何学的な直感はいいかもしれませんが、簡潔な説明、小さな代数も非常に役立ちます。E[E[X|Y]]=E[X]E[E[X|Y]]=E[X]E[E[X|Y]] = E[X] このアイデンティティへの洞察を与える良い線形代数解釈または物理的解釈またはその他はありますか?


1
直感的に理解する
私はこのフォーラムでこの質問と素晴らしい受け入れられた答えを見ました。次に、が共分散を正規化する理由を直感的に理解しようとするきっかけがありました。SxSySxSyS_xS_y COV(X,Y)SxSy∈[−1,1]COV⁡(X,Y)SxSy∈[−1,1]\frac{\operatorname{COV}(X,Y)}{S_xS_y} \in [-1,1] S_xS_xが\ operatorname {COV}(X、X)を1にSxSxSxSxS_xS_x正規化する理由を理解できれば役立つと思います。もちろん、私は定義上それらが等しいことを理解しています。しかし、私の質問は基本的にこれです:受け入れられた回答の用語を使用して、なぜプロットの赤の合計は正確にS_xS_x = \ operatorname {VAR}(X)です(より正確には、私が理解している限り、合計を言うことです)n ^ 2によって分割された四角形の\ operatorname {VAR}(X)である必要があります)。つまり、10個の観測値のサンプルを取得する場合、45個の長方形よりも、定義を使用しながら、10個の値のみの平均を見つける必要があります。COV(X,X)COV⁡(X,X)\operatorname{COV}(X,X)111SxSx=VAR(X)SxSx=VAR⁡(X)S_xS_x = \operatorname{VAR}(X)n2n2n^2VAR(X)VAR⁡(X)\operatorname{VAR}(X)101010454545101010

1
ニューラルネットワークの内部動作の幾何学的直観を理解するにはどうすればよいですか?
私は最近ANNの背後にある理論を研究しており、非線形マルチクラス分類の能力の背後にある「魔法」を理解したいと思いました。これにより、この近似がどのようにして達成されるかを幾何学的に説明するこのウェブサイトに私を導きました。 ここに私がそれを(3Dで)理解した方法があります。非表示のレイヤーは、次のような3Dステップ関数(またはタワー関数)を出力すると考えることができます。 著者は、そのような複数のタワーを使用して、任意の関数を近似することができると述べています。次に例を示します。 これは理にかなっているようですが、著者の構成は、概念の背後にある直感を提供するようにかなり工夫されています。 しかし、任意のANNが与えられた場合、これをどのように正確に検証できますか?これが私が知りたい/理解したいことです: 私の知る限り、近似は滑らかな近似ですが、この「直感」は離散近似を提供するようですが、それは正しいですか? 塔の数は隠れ層の数に基づいているようです-上記の塔は2つの隠れ層の結果として作成されています。これを(3Dの例で)1つの非表示レイヤーだけで確認するにはどうすればよいですか? タワーは、いくつかの重みがゼロに強制されて作成されますが、これまでに試してみた一部のANNがこれに該当することはありません。それは本当にタワー機能でしょうか?4から辺でほぼ円に近いものは何ですか?(著者はそれが事実であると言いますが、それを自己学習として残します)。んんn ANNを単一の非表示レイヤーで近似できる任意の3D関数の3Dでのこの近似機能を本当に理解したいと思います。この近似が多次元の直感を定式化するためにどのように見えるかを確認したいですか? これが私が助けることができると私が考えていることです: ような任意の3D関数を取ります。f(x1、x2)= x21+ x22+ 3f(バツ1、バツ2)=バツ12+バツ22+3f(x_1,x_2) = x^2_1 + x^2_2 + 3 のトレーニングセットを生成します。たとえば、1000データポイントの多くのポイントが、曲線の上と下のいくつかにあります。曲線上のものは「陽性クラス」としてマークされ(1)、「陰性クラス」としてマークされないもの(0)(x1、x2)(バツ1、バツ2)(x_1,x_2) このデータをANNに送り、1つの隠れ層(約2〜6個のニューロン)で近似を視覚化します。 この構成は正しいですか?これはうまくいくでしょうか?これを行うにはどうすればよいですか?私はこれを自分で実装するための逆伝播にまだ熟達しておらず、この点についてより明確で方向性を模索しています。これを示す既存の例が理想的です。


4
中心極限定理の証明
中/高セキュリティの刑務所にいる囚人に基本的な(非常に)統計を教えており、中心極限定理を実証したいと思います。教室にはホワイトボード以外のリソースはありません。紙と筆記用具しか持てません。簡単なデモについて何か提案はありますか?

2
実世界でのMA(q)モデル入力とは何ですか?
AR(p)モデルを理解しています。その入力はモデル化される時系列です。MA(q)モデルについて読むとき、私は完全に行き詰まっています。その入力は、しばしば定式化されているため、イノベーションまたはランダムショックです。 問題は、(完全な)時系列のモデルがないイノベーションコンポーネントを取得する方法が想像できないことです(つまり、ε = Xo b s e r v e d− XP E R Fe c tε=Xobserved−Xperfect\varepsilon=X_{\rm observed}-X_{\rm perfect}、そしてそれはおそらく間違っています)。さらに、この革新的なコンポーネントをサンプルで取得できる場合、長期予測(個別の追加時系列コンポーネントとしてのモデル誤差項)を実行するときにどのように取得できますか?

1
PACFプロットの簡単な説明
同僚にいくつかのACFおよびPACFプロットを提示しています。プロットを解釈する方法と、プロットがどのように見えるかに基づいてpとqを決定する方法を説明できますが、PACFプロットが実際に何を意味するのかを簡単に直感的に説明することはできません。 私はここで説明を読みましたが、少し長い風に感じています:https : //people.duke.edu/~rnau/411arim3.htm

2
無相関+共同正規性=独立。どうして?直感と力学
とは無相関であるが独立していないという事実によって単純に例示されているように、無相関である2つの変数は必ずしも独立しているとは限りません。ただし、相関関係がなく、共に正規分布している2つの変数は、独立していることが保証されています。これが真実である理由を誰かが直感的に説明できますか?2つの変数の結合正規性は、2つの変数間のゼロ相関の知識に正確に何を追加しますか?これにより、これらの2つの変数は独立している必要があると結論付けることができますか?バツXXバツ2X2X^2

2
逆伝播の背後にある直感の明確化
私は、日常生活で使用している機械学習アルゴリズムの計算とメカニズムを理解するために、少し時間をかけています。 CS231nコースのバックプロパゲーションに関する文献を研究しているので、研究を続ける前にチェーンルールを正しく理解していることを確認したいと思います。 私がシグモイド関数を持っているとしましょう: σ(x)=11+e−xσ(x)=11+e−x\sigma(x) = \frac{1}{1+e^{-x}} この場合、x=w0x0+w1x1+w2x=w0x0+w1x1+w2x=w0x0+w1x1+w2 この関数を計算グラフとして書くことができます(今のところ色付きの値は無視しています): 我々は、グループシグモイドの勾配を計算するためのモジュール化ノード缶単一の導出にその入力を:w.r.t.w.r.t.w.r.t. dσ(x)dx=(1−σ(x))σ(x)dσ(x)dx=(1−σ(x))σ(x)\frac{d\sigma(x)}{d x}=(1 - \sigma(x))\sigma(x) 最初に、前方伝搬を実行して、各ユニットの出力を取得します。 w = [2,-3,-3] x = [-1, -2] # Compute the forward pass product = [w[0]*x[0]+w[1]*x[1]+w[2]] activation = 1 / 1 + math.exp(-product) 活性化の勾配を計算するには、上記の式を使用できます。 grad_product = (1 - activation) * activation 私が混乱しているかもしれない、または少なくとも直感的ではないと感じる場所では、xおよびの勾配を計算していwます: grad_x = [w[0] * activation …

2
ベイジアン階層モデルでは、交換可能性が保持されない場合、何が問題になりますか?
多くの教科書では、古典的なノーマル-ノーマルモデルなどのベイジアンモデルが提示されると、試験は交換可能でなければならないというある種の簡単な言及があります。なぜこれが必要なのか、交換可能性が保持されない場合は何がうまくいかないのでしょうか。誰かが簡潔な答えを持っていますか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.