タグ付けされた質問 「iid」

iidは、独立して同一に配布されていることの頭字語です。多くの統計的手法では、データがiidであると想定しています。つまり、各観測は同じ分布に由来し、他の観測から独立しています。

5
統計的学習におけるiid仮定の重要性について
統計的学習では、暗黙的または明示的に、トレーニングセットD = { X、y }は、同じ結合分布P(X、X、)から独立して描画されるN個の入力/応答タプル(X i、y i)で構成されると常に仮定しますy )とD={X,y}D={X,y}\mathcal{D} = \{ \bf {X}, \bf{y} \}NNN(Xi,yi)(Xi,yi)({\bf{X}}_i,y_i) P(X,y)P(X,y)\mathbb{P}({\bf{X}},y) p(X,y)=p(y|X)p(X)p(X,y)=p(y|X)p(X) p({\bf{X}},y) = p( y \vert {\bf{X}}) p({\bf{X}}) およびp(y|X)p(y|X)p( y \vert {\bf{X}})特定の学習アルゴリズムを介して取得しようとしている関係。数学的には、このiidの仮定は次のように記述します。 (Xi,yi)∼P(X,y),∀i=1,...,N(Xi,yi) independent of (Xj,yj),∀i≠j∈{1,...,N}(Xi,yi)∼P(X,y),∀i=1,...,N(Xi,yi) independent of (Xj,yj),∀i≠j∈{1,...,N}\begin{gather} ({\bf{X}}_i,y_i) \sim \mathbb{P}({\bf{X}},y), \forall i=1,...,N \\ ({\bf{X}}_i,y_i) \text{ independent of } ({\bf{X}}_j,y_j), \forall i \ne j …

3
Brain-teaser:均一な[0,1]分布から引き出されたときに単調に増加しているiidシーケンスの予想される長さは何ですか?
これは、ここで報告されている定量アナリストの立場に対するインタビューの質問です。均一な分布から描画し、描画がiidであると仮定すると、単調に増加する分布の予想される長さは何ですか?つまり、現在の描画が前の描画以下である場合、描画を停止します。[0,1][0,1][0,1] 最初の数個を取得しました: \ Pr (\ text {length} = 2)= \ int_0 ^ 1 \ int_ {x_1} ^ 1 \ int_0 ^ {x_2} \ mathrm {d} x_3 \、\ mathrm {d} x_2 \、\ mathrm {d} x_1 = 1/3 \ Pr(\ text {length} = 3)= \ int_0 ^ 1 \ int_ {x_1} ^ …

1
依存観測のPCAのプロパティ
通常、ケースがiidであると想定されるデータの次元削減手法としてPCAを使用します 質問:依存する非iidデータにPCAを適用する際の典型的なニュアンスは何ですか?iidデータを保持するPCAの優れた/有用なプロパティは、侵害された(または完全に失われた)ものですか? たとえば、データは多変量時系列である場合があり、その場合、自己相関または自己回帰条件付き不均一分散(ARCH)が予想されます。 時系列データにPCAを適用する上でいくつかの関連の質問は、前に依頼されている例えば1、2、3、4、私は(個々のポイントに多くの拡大を必要とせずに)、より一般的かつ総合的な答えを探しています。 編集: @ttnphnsが指摘したように、PCA 自体は推論分析ではありません。ただし、PCAの一般化パフォーマンス、つまり、サンプルPCAの母集団の対応に注目することができます。例えば、Nadler(2008)に書かれているとおり: 与えられたデータが(一般的に未知の)分布からの有限でランダムなサンプルであると仮定すると、興味深い理論的および実用的な問題は、有限データから計算されたサンプルPCA結果と基礎となる母集団モデルの結果の間の関係です。 参照: ナズラー、ボアズ。「主成分分析の有限サンプル近似結果:行列摂動アプローチ。」 統計学年報(2008):2791-2817。

2
ロジスティック回帰にiidの仮定はありますか?
ロジスティック回帰の応答変数にiidの仮定はありますか? たとえば、データポイントがあるとします。応答は、ベルヌーイ分布から来ているようです。したがって、異なるパラメーター持つベルヌーイ分布を持つ必要があります。100010001000YiYiY_ipi=logit(β0+β1xi)pi=logit(β0+β1xi)p_i=\text{logit}(\beta_0+\beta_1 x_i)100010001000ppp したがって、それらは「独立」していますが、「同一」ではありません。 私は正しいですか? PS。「機械学習」の文献からロジスティック回帰を学びました。そこでは、目的関数を最適化し、仮定についてあまり語ることなく、データのテストに適しているかどうかを確認します。 私の質問は、この投稿で始まりました。一般化線形モデルのリンク関数の理解ここで、統計的仮定の詳細を調べます。

4
「ランダムサンプル」と「iidランダム変数」は同義語ですか。
「ランダムサンプル」と「iidランダム変数」の意味を理解するのに苦労しています。私はいくつかの情報源から意味を見つけようとしましたが、ますます混乱しました。私がここに投稿したのは、私が試し、知ったものです: Degrootの確率と統計によると: ランダムサンプル/ iid /サンプルサイズ:pfまたはpdfいずれかで表すことができる実線上の特定の確率分布を考慮します。これは、と言われての確率変数、これらのランダム変数が独立しており、それぞれの周辺のpfまたはpdfが場合、この分布からランダムサンプルを形成します。このようなランダム変数は、独立しており、同じように分布していると言われています。略してiidランダム変数の数nをサンプルサイズと呼びます。nはX 1、。。。、X n ffffnnnX1,...,XnX1,...,XnX_1 , . . . , X_nfff しかし、私が言っている他の統計書の1つ: ランダムサンプリングでは、母集団内のすべてのユニットが選択される確率(確率)が等しくなることを保証します。 したがって、iidはランダムサンプルを構成する要素であり、ランダムサンプルを取得する手順はランダムサンプリングであると感じています。私は正しいですか? PS:私はこのトピックについて非常に混乱しているので、私は精巧な返事を感謝します。ありがとう。

2
IIDサンプリングのテスト
サンプリングがIID(独立および同一分散)であることをどのようにテストまたはチェックしますか?ガウス分布および同一分布を意味するのではなく、単にIIDであることに注意してください。 そして、思い浮かぶのは、サンプルを同じサイズの2つのサブサンプルに繰り返し分割し、Kolmogorov-Smirnov検定を実行して、p値の分布が均一であることを確認することです。 そのアプローチに関するコメント、および提案を歓迎します。 バウンティを開始した後の明確化: 非時系列データに適用できる一般的なテストを探しています。



1
iid確率変数の期待値
私は理解できないこの派生に出くわしました:が平均と分散母集団から取られたサイズnのランダムサンプルである場合、X1,X2,...,XnX1,X2,...,XnX_1, X_2, ..., X_nμμ\muσ2σ2\sigma^2 X¯=(X1+X2+...+Xn)/nX¯=(X1+X2+...+Xn)/n\bar{X} = (X_1 + X_2 + ... + X_n)/n E(X¯)=E(X1+X2+...+Xn)/n=(1/n)(E(X1)+E(X2)+...+E(Xn))E(X¯)=E(X1+X2+...+Xn)/n=(1/n)(E(X1)+E(X2)+...+E(Xn))E(\bar{X}) = E(X_1 + X_2 + ... + X_n)/n = (1/n)(E(X_1) + E(X_2) + ... + E(X_n)) E(X¯)=(1/n)(μ+μ+...n times)=μE(X¯)=(1/n)(μ+μ+...n times)=μE(\bar{X}) = (1/n)(\mu + \mu + ...n ~\text{times}) = \mu これは私が迷っているところです。使用される引数はです。これらは同じように分布しているためです。実際にはそうではありません。サンプルあり、ランダムに2つの数値を置き換えて選択し、この手順を10回繰り返すと、10個のサンプルが得られます:(5、4) (2、5)(1、2)(4、1)(4、6)(2、4)(6、1)(2、4)(3、1)(5、1)。これは、2つのランダム変数ます。ここで、の期待値を取得すると、E(Xi)=μE(Xi)=μE(X_i) = \muS={1,2,3,4,5,6}S={1,2,3,4,5,6}S=\{1,2,3,4,5,6\}X1,X2X1,X2X_1, X_2X1X1X_1 E(X1)=1.(1/10)+2.(3/10)+3.(1/10)+4.(2/10)+5.(2/10)+6.(1/10)=34/10=3.4E(X1)=1.(1/10)+2.(3/10)+3.(1/10)+4.(2/10)+5.(2/10)+6.(1/10)=34/10=3.4E(X_1) = 1.(1/10) …

4
仮定
タイトルのとおり。仮定のPDFに連続しiid確率変数であり、F。そのイベントを考えるX 1 ≤ X 2 ... ≤ X N - 1 > X N、N ≥ 2従って、Nはシーケンスが最初に低下した場合です。次に、E [ N ]の値は何ですか?バツ1、X2、… 、XんX1,X2,…,XnX_1, X_2, \dotsc, X_nfffバツ1≤ X2... ≤ XN− 1> XNX1≤X2…≤XN−1>XNX_1 \leq X_2 \dotsc \leq X_{N-1} > X_NN≥ 2N≥2N \geq 2NNNE[ N]E[N]E[N] 最初にを評価しようとしました。私は P [ N = 2 ]P[ N= i ]P[N=i]P[N = …

2
2つのrvの差の均一PDF
2つのiid rvの差のPDFを長方形のように見えるようにすることは可能ですか(たとえば、rvが均一な分布から取得された場合に得られる三角形の代わりに)。 つまり、jkのPDF f(ある分布から取られた2つのiid rvについて)がすべて-1 <x <1に対してf(x)= 0.5を持つことは可能ですか? 最小値が-1で最大値が1であることを除いて、jとkを取得する分布に制限はありません。 いくつかの実験の後、これは不可能かもしれないと思っています。

1
テストするかどうかの背後にある理論
仮定 Xi∼i.i.d.N(μ,σ2)Xi∼i.i.d.N(μ,σ2)X_i \stackrel{\mbox{i.i.d.}}{\sim} \mathcal{N} (\mu, \sigma^2)、 どこ σ2σ2\sigma^2知られている。このデータを使用して、μ∈Qμ∈Q\mu \in \mathbb{Q}、つまり、平均かどうか μμ\mu 有理数です。 ノイズが多すぎるため、これを実行できないことは直感的に明らかです。どのようなテストでもタイプIIのエラー率になると思いますβ=0β=0\beta = 0 タイプIのエラー率 α=1α=1\alpha = 1またはその逆。しかし、私はこの仮説検定問題について理論的な説明をする方法を理解していません。この問題は、テストが「難しい」場合を示すより一般的なフレームワークにどのように当てはまりますか?

3
2つのiid正常値の最小値と最大値の分散
しましょう XXX そして YYY イードになる 〜NO r個のM L (0 、1 )〜Norメートルal(0、1)\sim Normal(0,1) しましょう A = m a x (X、Y)あ=メートルaバツ(バツ、Y)A=max(X,Y) そして B = m i n (X、Y)B=メートル私ん(バツ、Y)B=min(X,Y) なに Va r (A )Var(あ)Var(A) そして Va r (B )Var(B)Var(B)? シミュレーションから、 Va r (A )= Va r (B )Var(あ)=Var(B)Var(A)=Var(B) 約0.70。 これを分析的に取得するにはどうすればよいですか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.