統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

1
サンドイッチ推定器の直観
ウィキペディアとRサンドイッチパッケージビネットは、OLS係数の標準誤差をサポートする仮定とサンドイッチ推定量の数学的背景に関する優れた情報を提供します。おそらく、最初の段階で標準のOLS係数の分散推定を完全に理解していないためと思われますが、残差の不均一分散の問題にどのように対処するのかはまだわかりません。 サンドイッチ推定器の背後にある直感は何ですか?

2
手動で実装されたEMアルゴリズム
私は手動でEMアルゴリズムを実装してからの結果と比較したいnormalmixEMのmixtoolsパッケージ。もちろん、両方が同じ結果につながる場合、私は幸せです。主な参考文献は、Geoffrey McLachlan(2000)、Finite Mixture Modelsです。 2つのガウス分布の混合密度があり、一般的な形式では、対数尤度は(McLachlanページ48)で与えられます。 ログLc(Ψ )= ∑i = 1g∑j = 1nz私はj{ ログπ私+ ログf私(y私; θ私)} 。log⁡Lc(Ψ)=∑i=1g∑j=1nzij{log⁡πi+log⁡fi(yi;θi)}. \log L_c(\Psi) = \sum_{i=1}^g \sum_{j=1}^n z_{ij}\{\log \pi_i + \log f_i(y_i;\theta_i)\}. である観察からあった場合は、番目のそうでなければ、コンポーネント密度。正規分布の密度です。ので、混合物の割合である観察最初ガウス分布からのものであることは、確率であり、観察第ガウス分布からのものであることを、確率です。z私はjzijz_{ij}111私ii0000f私fif_iππ\piπ1π1\pi_1π2π2\pi_2 Eのステップは、今条件付き期待値の計算です。 Q (Ψ ; Ψ(0 ))= EΨ (0 ){ ログLc(| Ψ )| y} 。Q(Ψ;Ψ(0))=EΨ(0){log⁡Lc(|Ψ)|y}. Q(\Psi;\Psi^{(0)}) = E_{\Psi(0)}\{\log L_c(|\Psi)|y\}. 結果(49ページ)へのいくつかの派生の後、リードします: τ私(yj; Ψ(k ))= π(k …

3
フィッシャーメトリックと相対エントロピーの関係
誰かがフィッシャー情報メトリックと相対エントロピー(またはKL発散)の間の次の関係を純粋に数学的な厳密な方法で証明できますか? D(p(⋅,a+da)∥p(⋅,a))=12gi,jdaidaj+(O(∥da∥3)D(p(⋅,a+da)∥p(⋅,a))=12gi,jdaidaj+(O(‖da‖3)D( p(\cdot , a+da) \parallel p(\cdot,a) ) =\frac{1}{2} g_{i,j} \, da^i \, da^j + (O( \|da\|^3) ここでa=(a1,…,an),da=(da1,…,dan)a=(a1,…,an),da=(da1,…,dan)a=(a^1,\dots, a^n), da=(da^1,\dots,da^n)、gi,j=∫∂i(logp(x;a))∂j(logp(x;a)) p(x;a) dxgi,j=∫∂i(log⁡p(x;a))∂j(log⁡p(x;a)) p(x;a) dxg_{i,j}=\int \partial_i (\log p(x;a)) \partial_j(\log p(x;a))~ p(x;a)~dxgi,jdaidaj:=∑i,jgi,jdaidajgi,jdaidaj:=∑i,jgi,jdaidajg_{i,j} \, da^i \, da^j := \sum_{i,j}g_{i,j} \, da^i \, da^j(x; a)〜dxおよびg_ {i、j} \、da ^ i \、da ^ j:= \ sum_ …

2
自然のどこかに法線曲線の形を見ることができますか?
自然界のいくつかの現象が正規分布を持っているかどうかは知りたくありませんが、例えば、Galtonボックスで見られるように、どこかで正規曲線の形状を見ることができるかどうかは知りたくありません。ウィキペディアのこの図を参照してください。 自然では、多くの数学的な形状や曲線が直接見られることに注意してください。たとえば、カタツムリには黄金平均や対数らせんがあります。 最初の素朴な答えは、スキューのない丘がしばしば正規分布に「適合する」かどうかです:-)。

5
期待の最大化アルゴリズムの動機
この質問は、相互検証で回答できるため、Mathematics Stack Exchangeから移行されました。 6年前に移行され ました。 EMアルゴリズムアプローチでは、Jensenの不等式を使用して、に到達しlogp(x|θ)≥∫logp(z,x|θ)p(z|x,θ(k))dz−∫logp(z|x,θ)p(z|x,θ(k))dzlog⁡p(x|θ)≥∫log⁡p(z,x|θ)p(z|x,θ(k))dz−∫log⁡p(z|x,θ)p(z|x,θ(k))dz\log p(x|\theta) \geq \int \log p(z,x|\theta) p(z|x,\theta^{(k)}) dz - \int \log p(z|x,\theta) p(z|x,\theta^{(k)})dz そして、を定義しますθ(k+1)θ(k+1)\theta^{(k+1)}θ(k+1)=argmaxθ∫logp(z,x|θ)p(z|x,θ(k))dzθ(k+1)=arg⁡maxθ∫log⁡p(z,x|θ)p(z|x,θ(k))dz\theta^{(k+1)}=\arg \max_{\theta}\int \log p(z,x|\theta) p(z|x,\theta^{(k)}) dz 私がEMを読むことはすべてそれを単純に落としますが、EMアルゴリズムが自然に発生する理由の説明がないためにいつも不安を感じています。通常、尤度は乗算ではなく加算を処理するために処理されが、の定義でのの出現は私にはやる気がありません。他の単調関数ではなくを考慮する必要があるのはなぜですか?さまざまな理由から、期待値の最大化の背後にある「意味」または「動機」には、情報理論と十分な統計の観点から何らかの説明があると思われます。そのような説明があれば、単なる抽象的なアルゴリズムよりもはるかに満足のいくものになります。loglog\logloglog\logθ(k+1)θ(k+1)\theta^{(k+1)}loglog\log

3
線形分離性のテスト
高次元で2クラスデータセットの線形分離性をテストする方法はありますか?私の特徴ベクトルの長さは40です。 ロジスティック回帰実験を常に実行し、ヒット率と誤警報率を決定して、2つのクラスが線形に分離可能かどうかを判断できることはわかっていますが、それを行うための標準的な手順が既に存在するかどうかを知ることは有益です。

1
libsvm「反復の最大数に達する」警告および相互検証
次数2の多項式カーネルでC-SVCモードでlibsvmを使用しており、複数のSVMをトレーニングする必要があります。各トレーニングセットには、10個の機能と5000個のベクトルがあります。トレーニング中に、トレーニングするほとんどのSVMでこの警告が表示されます。 WARNING: reaching max number of iterations optimization finished, #iter = 10000000 誰かがこの警告が何を意味するのか、おそらく、それを回避する方法を説明してもらえますか? また、ガンマとC(正則化)の最適な選択を決定するために、モデルに相互検証を適用したいと思います。私の計画は、これらの10個の値のすべての組み合わせを試すことです:0.00001、0.0001、0.001、0.01、0.1、1、10、100、1000、10000の両方のパラメーターで、交差検証中にどの組み合わせが最高の精度をもたらすかを確認します。これで十分ですか?この間隔でより多くの値を使用する必要がありますか、それともより広い間隔を選択する必要がありますか?

4
正常なrvの尖度と歪度を増加させる変換
私は、観測値が正規分布しているという事実に依存するアルゴリズムに取り組んでおり、この仮定に対するアルゴリズムの堅牢性を経験的にテストしたいと思います。YYY これを行うために、の正規性を徐々に破壊する一連の変換を探していました。たとえば、が正常である場合、歪度および尖度になり、両方を漸進的に増加させる変換シーケンスを見つけると便利です。Y Y = 0 = 3T1()、… 、Tn()T1(),…,Tn()T_1(), \dots, T_n()YYYYYY= 0=0= 0= 3=3= 3 私のアイデアは、通常およそ分散されたデータをシミュレートし、そのアルゴリズムをテストすることでした。変換された各データセットT 1(Y )、… 、T n(y )のテストアルゴリズムよりも、出力がどの程度変化しているかを確認します。YYYT1(Y),…,Tn(y)T1(Y),…,Tn(y)T_1(Y), \dots, T_n(y) シミュレートされたの分布を制御していないことに注意してください。そのため、正規化を一般化する分布(歪んだ一般化誤差分布など)を使用してシミュレーションできません。YYY

1
ランクが相関している場合にのみ、ランダム変数は相関していますか?
は有限の2次モーメントを持つ連続ランダム変数であると仮定します。スピアマンの順位相関係数ρ_sの母集団バージョンは、確率積分変換F_X(X)およびF_Y(Y)のピアソンの積モーメント係数ρとして定義できます。ここで、F_X、F_YはXおよびYの累積分布関数です。ρ S F X(X )F Y(Y )F X、F Y X Yバツ、Yバツ、YX,Yρsρsρ_sFバツ(X)Fバツ(バツ)F_X(X)FY(Y)FY(Y)F_Y(Y)Fバツ、FYFバツ、FYF_X,F_YバツバツXYYY ρs(X、Y)= ρ(F(X)、F(Y))ρs(バツ、Y)=ρ(F(バツ)、F(Y))ρ_s(X,Y)=ρ(F(X),F(Y))。 私は一般的にそれを結論付けることができるのだろうか ρ(X、Y)≠ 0 ↔ ρ(F(X),F(Y))≠ 0ρ(バツ、Y)≠0↔ρ(F(バツ)、F(Y))≠0ρ(X,Y)≠0↔ρ(F(X),F(Y))≠0? すなわち、ランク間に線形相関がある場合にのみ線形相関がありますか? 更新:コメントには2つの例が示されています。 ρ(Fバツ(X)、FY(Y))= 0 → ρ (X、Y)= 0ρ(Fバツ(バツ)、FY(Y))=0→ρ(バツ、Y)=0\rho(F_X(X),F_Y(Y))=0\rightarrow \rho(X,Y) = 0 バツバツXとYYY分布が同じであっても、一般には当てはまりません。したがって、質問は次のように再定式化する必要があります。 ρ(X、Y)= 0 → ρ (Fバツ(X)、FY(Y))ρ(バツ、Y)=0→ρ(Fバツ(バツ)、FY(Y))\rho(X,Y) = 0 \rightarrow \rho(F_X(X),F_Y(Y))? バツバツXとYYYが同じ分布を持っている場合、これがtrue / falseであるかどうかも非常に興味深いです。 (注:バツバツXとYYYが正の象限依存、つまりδ(x、y)= Fバツ、Y(x 、y)− Fバツ(x )FY(y)> 0δ(バツ、y)=Fバツ、Y(バツ、y)−Fバツ(バツ)FY(y)>0δ(x,y)=F_{X,Y}(x,y)−F_X(x)F_Y(y)>0場合、Hoeffdingの共分散式Co v …

4
連続データをモデル化するときにポアソン分布はどのように機能し、情報の損失につながりますか?
同僚は、学位論文のいくつかの生物学的データを、いくつかの厄介な異分散性で分析しています(下図)。彼女は混合モデルで分析していますが、まだ残差に問題があります。 応答変数をログ変換すると、物事がクリーンアップされ、この質問へのフィードバックに基づいて、これは適切なアプローチのようです。ただし、元々、混合モデルで変換された変数を使用することには問題があると考えていました。Littell&Milliken(2006)SAS for Mixed Modelsで、カウントデータを変換し、通常の線形混合モデルで分析することが不適切である理由を指摘していたステートメントを誤って解釈していたことがわかりました(完全な引用は以下) 。 残差も改善したアプローチは、ポアソン分布の一般化線形モデルを使用することでした。ポアソン分布は連続データのモデリングに使用でき(たとえば、この投稿で説明されているように)、statsパッケージで許可されますが、モデルが適合するときに何が起こっているのかわかりません。 基本的な計算がどのように行われているのかを理解するために、私の質問は次のとおりです:ポアソン分布を連続データに適合させると、1)データは最も近い整数に丸められますか?2)これは情報の損失をもたらします3)連続データにポアソンモデルを使用するのが適切な場合はいつですか? Littel&Milliken 2006、pg 529 "[count]データの変換は逆効果になる可能性があります。たとえば、変換はランダムなモデル効果の分布やモデルの線形性を歪める可能性があります。結果として、変換されたデータを使用した混合モデルからの推論は非常に疑わしい。」

1
ランダムフォレストツリーに剪定が不要なのはなぜですか?
ブライマンは、木は剪定せずに成長していると言います。どうして?ランダムフォレストのツリーが剪定されないのは確かな理由があるに違いないということです。一方、過剰なフィッティングを避けるために、単一の決定木を切り取ることが非常に重要であると考えられています。この理由で読むことができる文献はありますか?もちろん、ツリーは相関していないかもしれませんが、それでも過剰適合の可能性があります。

2
ピアソンの相関係数は、正規性の違反に対してどの程度堅牢ですか?
特定の種類の変数のデータは、特定の集団で測定した場合、非正常になる傾向があります(たとえば、大うつ病性障害の人々の集団のうつ病のレベル)。ピアソンが正規性を仮定しているとすると、非正規性の条件下での検定統計量はどの程度堅牢ですか? 相関係数が必要な変数がいくつかありますが、これらの変数のいくつかのZスキューはp <.001で重要です(比較的小さなサンプルの場合)。私はいくつかの変換を試みましたが、分布の改善はせいぜいわずかです。 ノンパラメトリック分析に固執する必要がありますか?相関だけでなく、他のタイプの分析も同様ですか?

3
応答が4番目のルートによって変換されたときの回帰係数の解釈方法
1/4異分散の結果として、応答変数に4番目のルート()べき乗変換を使用しています。しかし、現在、回帰係数の解釈方法がわかりません。 逆変換するときに係数を4乗する必要があると思います(以下の回帰出力を参照)。すべての変数は数百万ドル単位ですが、数十億ドル単位の変化を知りたいと思います。 他の独立変数を一定に保ちながら、平均して10億ドルの手数料の変更は32、コレクションの変更(または32,000ドル)につながります。私は0.000075223 * 1000(数十億に達するために)取り^ 4 = 0.000032ます。ここで、この数に100万または10億を掛けますか(従属変数の元の単位は100万単位です)? lm(formula = (Collections^(1/4)) ~ Fees + DIR) Estimate Std. Error t value Pr(>|t|) (Intercept) 2.094573355 0.112292375 18.653 0.0000000000000151 Fees **0.000075223 **0.000008411 8.943 0.0000000131878713 DIR 0.000022279 0.000004107 5.425 0.0000221138881913


3
ju審員の基本統計
私はju審員として召喚されました。私はいくつかのju審裁判への統計の関連性を意識しています。たとえば、「基本レート」の概念とその確率計算への応用は、時々-おそらく常に-関連します。 私の状況にある人は、どの統計トピックを有効に勉強できますか? 私は「ハードサイエンス」の学位を持っているため、統計的な知識は限られていますが、私のスキルは錆びています。私はフルタイムで働いており、ju審員の職務に就く時間はあまりありません。そのため、基本的な概念、単純な問題解決スキル、および関連する問題への適用(およびもちろんこれらの概念と方法の制限)に焦点を当てるのが適切です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.