統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

5
対応のあるt検定と非対応のt検定
20匹のマウスがあると仮定します。何らかの方法でマウスをペアリングし、10ペアを取得します。この質問の目的のために、それはランダムなペアリングであるかもしれません、または、同じ性別、同じ性別、同じ体重のマウスをペアリングしようとするような賢明なペアリングであるかもしれません、または、それは可能な限り等しくない重量のマウスをペアにしようとしています。次に、乱数を使用して、各ペアの1匹のマウスをコントロールグループに割り当て、もう1匹のマウスを治療対象グループに割り当てます。私は今、実験を行い、治療対象のマウスのみを治療しますが、それ以外の点では、今行った準備にはまったく注意を払いません。 結果を分析する場合、ペアになっていないt検定またはペアになったt検定を使用できます。もしあれば、どのように答えは異なりますか?(私は基本的に、推定する必要のある統計的パラメーターの体系的な違いに興味があります。) 私がこれを尋ねる理由は、最近私が関与した論文が、ペアになっていないt検定ではなくペアになったt検定を使用しているとして生物学者によって批判されたためです。もちろん、実際の実験では、状況は私がスケッチした状況ほど極端ではなく、私の意見では、ペアリングの正当な理由がありました。しかし、生物学者は同意しませんでした。 私がスケッチした状況では、ペアリングが不適切であっても、ペアリングされていないテストではなくペアリングされたt検定を使用して、統計的有意性を誤って改善する(p値を下げる)ことは不可能だと思われます。ただし、マウスのペアが不適切な場合、統計的有意性が悪化する可能性があります。これは正解?

2
複数の代入後に事後平均と信頼できる間隔をプールするにはどうすればよいですか?
複数の補完を使用して、いくつかの完成したデータセットを取得しました。 完成した各データセットでベイズ法を使用して、パラメーターの事後分布を取得しました(ランダム効果)。 このパラメーターの結果を結合/プールするにはどうすればよいですか? より多くのコンテキスト: 私のモデルは、学校に集まっている個々の生徒(生徒ごとに1つの観察)の意味で階層的です。欠損データの予測子の1つとしてMICEデータに複数の代入(R を使用)を行いschool、データ階層を代入に組み込むことを試みました。 完成した各データセットに単純なランダム勾配モデルを適合させました(MCMCglmmRで使用)。結果はバイナリです。 ランダムスロープ分散の事後密度は、次のように見えるという意味で「適切に動作する」ことがわかりました。 このランダム効果のために、各帰属データセットから事後平均と信頼区間をどのように結合/プールできますか? Update1: 私がこれまでに理解していることから、ルービンのルールを事後平均に適用して、多重補完事後平均を与えることができます。これを行うのに問題はありますか?しかし、95%の信頼できる間隔をどのように組み合わせることができるかわかりません。また、代入ごとに実際の事後密度サンプルがあるので、どうにかしてこれらを結合できますか? Update2: コメントでの@cyanの提案に従って、複数の代入からの完全な各データセットから取得した事後分布のサンプルを単純に結合するというアイデアに非常に似ています。ただし、これを行うための理論的な正当性を知りたいです。

4
ベータ回帰で0,1値を処理する
[0,1]にいくつかのデータがあり、ベータ回帰で分析したいと思います。もちろん、0,1値に対応するために何かをする必要があります。モデルに合わせてデータを変更するのは嫌いです。また、この場合、0が非常に小さい正の値であると考える必要があると考えているため、ゼロと1のインフレが良い考えだとは思いません(しかし、どの値が適切であるかを正確に言いたくありません。 .001や.999などの小さな値を選択し、ベータの累積distを使用してモデルに適合させることになると思います。したがって、観測y_iの場合、対数尤度LL_iは if y_i < .001 LL+=log(cumd_beta(.001)) else if y_i>.999 LL+=log(1.0-cum_beta(.999)) else LL+=log(beta_density(y_i)) このモデルで私が気に入っているのは、ベータ回帰モデルが有効な場合、このモデルも有効ですが、極値に対する感度が少し削除されることです。しかし、これは非常に自然なアプローチであるように思えるので、なぜ文献に明白な参照が見つからないのか疑問に思います。だから私の質問は、データを変更するのではなく、なぜモデルを変更しないのですか。データを変更すると結果にバイアスがかかります(元のモデルが有効であるという仮定に基づいて)が、極値をビニングしてモデルを変更しても結果にバイアスはかかりません。 おそらく私が見落としている問題がありますか?

6
「完全ベイジアン」対「ベイジアン」
私はベイジアン統計について学んでおり、私はしばしば記事を読みました 「ベイジアンアプローチを採用しています」 または類似のもの。私も気づきましたが、それほど頻繁ではありません。 「完全にベイジアンのアプローチを採用しています」 (私の強調)。実用的または理論的な意味でこれらのアプローチの間に違いはありますか?FWIW、私はMCMCglmmそれが関連する場合にRでパッケージを使用しています。
20 bayesian 

3
Rのrollapply PCAで「ジャンピー」ロードが発生しています。修正できますか?
28種類の通貨の10年間の毎日の返品データがあります。最初の主成分を抽出したいのですが、10年全体でPCAを運用するのではなく、通貨の振る舞いが進化するため、2年の期間をロール適用したいと思います。しかし、大きな問題があります。つまり、princomp()関数とprcomp()関数の両方が、隣接するPCA分析で正の負荷から負の負荷にジャンプすることが多いということです(1日間隔)。EUR通貨のローディングチャートをご覧ください: 明らかに、隣接する負荷が正から負にジャンプするため、これを使用することはできません。したがって、それらを使用するシリーズはエラーになります。次に、EUR通貨ローディングの絶対値を見てみましょう。 もちろん、トップチャートから負荷が負から正に、そして時々戻ることがわかるため、これを使用できないという問題があります。これは、保持する必要がある特性です。 この問題を回避する方法はありますか?隣接するPCAで固有ベクトルの向きを常に同じにすることができますか? ところで、この問題はFactoMineR PCA()関数でも発生します。rollapplyのコードは次のとおりです。 rollapply(retmat, windowl, function(x) summary(princomp(x))$loadings[, 1], by.column = FALSE, align = "right") -> princomproll
20 r  pca 

6
非ガウスデータのPCA
PCAについて簡単な質問がいくつかあります。 PCA は、データセットがガウスであると想定していますか? 本質的に非線形データにPCAを適用するとどうなりますか? データセットが与えられた場合、プロセスはまず平均正規化を行い、分散を1に設定し、SVDを取得し、ランクを下げ、最後にデータセットを新しいランクを下げた新しいスペースにマッピングします。新しい空間では、各次元は最大分散の「方向」に対応します。 しかし、新しい空間でのそのデータセットの相関は常にゼロですか、それとも本質的にガウスのデータにのみ当てはまりますか? 「A」と「B」の2つのデータセットがあり、「A」がガウス分布からランダムにサンプリングされたポイントに対応し、「B」が別の分布(ポアソンなど)からランダムにサンプリングされたポイントに対応するとします。 PCA(A)とPCA(B)はどのように比較されますか? 新しい空間内の点を調べることにより、PCA(A)がガウスからサンプリングされた点に対応し、PCA(B)がポアソンからサンプリングされた点に対応することをどのように判断できますか? 「A」のポイントの相関は0ですか? 「B」の点の相関も0ですか? さらに重要なことは、私は「正しい」質問をしているのですか? 相関関係を調べる必要がありますか、それとも考慮すべき別のメトリックがありますか?
20 pca  svd 

1
均一な和分布の正規近似の誤差
正規分布を近似するための単純な方法の1つは、中央限界定理に基づいて、に均一に分布したおそらく IIDランダム変数を加算し、次にリセンタして再スケーリングすることです。(補足:Box-Muller変換など、より正確な方法があります。)IID確率変数の合計は、均一合計分布またはIrwin-Hall分布として知られています。[ 0 、1 ]100100100[ 0 、1 ][0,1][0,1]うん(0 、1 )U(0,1)U(0,1) 正規分布によって均一な和分布を近似する際の誤差はどれくらいですか? このタイプの質問がIIDランダム変数の合計を近似するために出てくるときはいつでも、人々(私を含む)はベリーエッセンの定理を持ち出します。 | Fn(X )- Φ (X )| ≤ Cρσ3n−−√|Fn(x)−Φ(x)|≤Cρσ3n|F_n(x) - \Phi(x)| \le \frac{C \rho}{\sigma^3 \sqrt n} ここで、は IIDランダム変数の再スケーリングされた合計の累積分布関数、は絶対3次中心モーメント、は標準偏差で、はまたはことができる絶対定数です。のn ρ E | (X − E X )3 | σ C 1 1 / 2FnFnF_nnnnρρ\rhoE| (X− Eバツ)3|E|(X−EX)3|E|(X-EX)^3|σσ\sigmaCCC1111 / 21/21/2 これは不十分です。Berry-Esseenの推定は、離散的な二項分布で最もシャープに近く、対称二項分布では最大誤差がであるように思われます。最大のエラーは最大のジャンプで発生します。ただし、均一な合計分布にはジャンプがありません。000 数値テストは、エラーがよりも急速に縮小することを示唆しています。c …

2
時系列の与えられたパワーとクロススペクトル密度のシミュレーション
共分散行列(それらのパワースペクトル密度(PSD)およびクロスパワースペクトル密度(CSD))を考えると、一連の定常色付き時系列の生成に問題があります。 2つの時系列と与えられると、yI(t)yI(t)y_{I}(t)yJ(t)yJ(t)y_{J}(t)ような多くの広く利用可能なルーチンを使用して、パワースペクトル密度(PSD)およびクロススペクトル密度(CSD)を推定できることを知っていますMatlabなどの関数psd()とcsd()関数。PSDとCSDは共分散行列を構成します C(f)=(PII(f)PJI(f)PIJ(f)PJJ(f)),C(f)=(PII(f)PIJ(f)PJI(f)PJJ(f)), \mathbf{C}(f) = \left( \begin{array}{cc} P_{II}(f) & P_{IJ}(f)\\ P_{JI}(f) & P_{JJ}(f) \end{array} \right)\;, これは一般に周波数fff関数です。 逆にしたい場合はどうなりますか? 共分散行列が与えられた場合、yI(t)yI(t)y_{I}(t)とyJ(t)yJ(t)y_{J}(t)実現をどのように生成しますか? 背景理論を含めるか、これを行う既存のツールを指摘してください(Pythonのすべてが素晴らしいでしょう)。 私の試み 以下は、私が試したものと、私が気づいた問題の説明です。少し長い間読んでおり、誤用された用語が含まれている場合は申し訳ありません。間違っていることが指摘できる場合、それは非常に役立ちます。しかし、私の質問は上記の太字のものです。 PSDとCSDは、時系列のフーリエ変換の積の期待値(またはアンサンブル平均)として記述できます。したがって、共分散行列は次のように記述できます C(f)=2τ⟨Y†(f)Y(f)⟩,C(f)=2τ⟨Y†(f)Y(f)⟩, \mathbf{C}(f) = \frac{2}{\tau} \langle \mathbf{Y}^{\dagger}(f) \mathbf{Y}(f) \rangle \;, ここで、 Y(f)=(y~I(f)y~J(f)).Y(f)=(y~I(f)y~J(f)). \mathbf{Y}(f) = \left( \begin{array}{cc} \tilde{y}_{I}(f) & \tilde{y}_{J}(f) \end{array} \right) \;. 共分散行列はエルミート行列であり、ゼロまたは正の実固有値を持ちます。だから、に分解することができる C(f)= X(f)λ12(f)私λ12(f)X†(f)、C(f)=バツ(f)λ12(f)私λ12(f)バツ†(f)、 \mathbf{C}(f) = \mathbf{X}(f) \boldsymbol\lambda^{\frac{1}{2}}(f) …

1
ロジスティック回帰の予測間隔の計算
ロジスティック回帰推定の予測間隔を生成する方法を理解したいと思います。 コレットのモデリングバイナリデータのモデリング、第2版p.98-99 の手順に従うことをお勧めしました。この手順を実装してRと比較した後predict.glm、この本は予測区間ではなく信頼区間を計算する手順を示していると思います。 Collettからの手順の実装を、と比較してpredict.glm以下に示します。 知りたいのですが、ここから信頼区間ではなく予測区間を作成する方法を教えてください。 #Derived from Collett 'Modelling Binary Data' 2nd Edition p.98-99 #Need reproducible "random" numbers. seed <- 67 num.students <- 1000 which.student <- 1 #Generate data frame with made-up data from students: set.seed(seed) #reset seed v1 <- rbinom(num.students,1,0.7) v2 <- rnorm(length(v1),0.7,0.3) v3 <- rpois(length(v1),1) #Create df representing …

2
ハイパーパラメーターを推定するためのクロス検証と経験的ベイズ
階層モデル与えられた場合、モデルに適合する2段階のプロセスが必要です。最初に、少数のハイパーパラメーターθを修正してから、残りのパラメーターBayでベイジアン推論を行います。ハイパーパラメーターを修正するために、2つのオプションを検討しています。p (x | ϕ 、θ )p(x|ϕ,θ)p(x|\phi,\theta)θθ\thetaϕϕ\phi 使用経験的ベイズ(EB)と周辺尤度の最大化(高次元のパラメータを含むモデルの残りの部分を統合します)。p (すべてのデータ| θ )p(all data|θ)p(\mbox{all data}|\theta) k- fold cross validation などの相互検証(CV)手法を使用して、尤度p (テストデータ| トレーニングデータ、θ )を最大化するθを選択します。kkkθθ\thetap (テストデータ| トレーニングデータ、θ )p(テストデータ|トレーニングデータ、θ)p(\mbox{test data}|\mbox{training data}, \theta) EBの利点は、すべてのデータを一度に使用できることです。一方、CVの場合、(可能性として)モデル尤度を複数回計算し、を検索する必要があります。EBとCVのパフォーマンスは多くの場合同等であり(*)、多くの場合、EBは推定が高速です。θθ\theta 質問:2つをリンクする理論的基盤はありますか(たとえば、EBとCVは大きなデータの制限で同じです)。または、EBを経験的リスクなどの一般化可能性の基準にリンクしていますか?誰かが良い参考資料を指すことができますか? (*)例として、ここにマーフィーの機械学習、セクション7.6.4からの図があります。そこで彼は、リッジ回帰については両方の手順が非常に類似した結果をもたらすと言います。 マーフィーはまた、CVに対する経験的ベイズの基本的な実際的な利点(「証拠手順」と呼びます)は、が多数のハイパーパラメーターで構成される場合(たとえば、自動関連性決定またはARDのように、各機能の個別のペナルティ)であると言います。そこでは、CVを使用することはまったくできません。θθ\theta

2
2つの分布間のHellinger距離の不偏推定量はありますか?
密度分布から分布観察する設定では、密度別の分布、すなわち 距離の不偏推定量(基づく)があるのだろうかX1,…,XnX1,…,XnX_1,\ldots,X_nX 、I 、F 0 H(F 、F 0)= { 1 - ∫ X √fffXiXiX_if0f0f_0H(f,f0)={1−∫Xf(x)f0(x)−−−−−−−−√dx}1/2.H(f,f0)={1−∫Xf(x)f0(x)dx}1/2. \mathfrak{H}(f,f_0) = \left\{ 1 - \int_\mathcal{X} \sqrt{f(x)f_0(x)} \text{d}x \right\}^{1/2}\,.

4
p値を互いに比較することはどのような意味がありますか?
私には2つの集団(男性と女性)があり、それぞれにサンプルが含まれています。サンプルごとに、AとBの2つのプロパティがあります(1年生の成績平均とSATスコア)。私はAとBに別々にt検定を使用しました:両方とも2つのグループの間に大きな違いがありました。P = 0.008とし、B 、P = 0.002。100010001000p = 0.008p=0.008p=0.008p = 0.002p=0.002p=0.002 プロパティBはプロパティAよりも差別的(より重要)であると主張しても大丈夫ですか?それとも、t検定は、はいまたはいいえ(有意または有意でない)尺度であるだけですか? 更新:ここのコメントおよびウィキペディアで読んだことによると、答えは無意味なp値を下げて効果サイズを報告する必要があると思います。何かご意見は?

2
ベイズの信頼できる区間手順の決定理論的正当化とは何ですか?
(これを書いた理由を見るには、この質問に対する私の答えの下にあるコメントをチェックしてください。) タイプIIIエラーと統計的決定理論 間違った質問に正しい答えを与えることは、タイプIIIエラーと呼ばれることもあります。統計的決定理論は、不確実性の下での意思決定の形式化です。タイプIIIエラーの回避に役立つ概念的なフレームワークを提供します。フレームワークの重要な要素は損失関数と呼ばれます。これには2つの引数があります。1つ目は(関連するサブセットの)世界の真の状態です(たとえば、パラメーター推定問題では、真のパラメーター値θθ\theta)。2番目は、可能なアクションのセットの要素です(たとえば、パラメーター推定問題では、推定θ^)θ^)\hat{\theta})。出力は、世界のあらゆる可能な真の状態に関するあらゆる可能なアクションに関連する損失をモデル化します。たとえば、パラメータ推定問題では、いくつかのよく知られている損失関数は次のとおりです。 絶対誤差損失L(θ,θ^)=|θ−θ^|L(θ,θ^)=|θ−θ^|L(\theta, \hat{\theta}) = |\theta - \hat{\theta}| 二乗誤差損失L(θ,θ^)=(θ−θ^)2L(θ,θ^)=(θ−θ^)2L(\theta, \hat{\theta}) = (\theta - \hat{\theta})^2 Hal VarianのLINEX損失L(θ,θ^;k)=exp(k(θ−θ^))−k(θ−θ^)−1, k≠0L(θ,θ^;k)=exp⁡(k(θ−θ^))−k(θ−θ^)−1, k≠0L(\theta, \hat{\theta}; k) = \exp(k(\theta - \hat{\theta})) - k(\theta - \hat{\theta}) - 1,\text{ } k \ne0 答えを調べて質問を見つける 正しい損失関数の定式化に焦点を合わせ、決定論的アプローチの残りの部分を進めることで、タイプIIIのエラーを回避しようとする場合があります(ここでは詳しく説明しません)。簡単なことではありません。結局のところ、統計学者は、こうしたアプローチから派生していなくても、うまく機能する多くの手法と方法を十分に備えています。しかし、最終結果は、統計学者の大多数が統計的決定理論を知らず、気にしないということであり、見逃していると思います。それらの統計学者にとって、タイプIIIエラーを回避するという点で統計的決定理論が有益であると考える理由は、提案されたデータ分析手順を求めるフレームワークを提供するためだと主張します。プロシージャはどの損失関数(もしあれば)に最適に対処しますか?つまり、どのような意思決定状況において、正確に、それが最良の答えを提供しますか? 事後予想損失 ベイジアンの観点からは、損失関数だけが必要です。私たちはかなり決定理論の残りの部分をスキップすることができます-ほとんどの定義により、行うための最善のことは、損失を最小限事後期待している、あること、行動見つけるaaaその最小化L~(a)=∫ΘL(θ,a)p(θ|D)dθL~(a)=∫ΘL(θ,a)p(θ|D)dθ\tilde{L}(a) = \int_{\Theta}L(\theta, a)p(\theta|D)d\theta。 ?具体的には、ワルドの- (非ベイズ視点まあ用として、それはfrequentist決定理論の定理である完全なクラス定理こと- 最適なアクションが常にすることになりますベイズ事後予想損失を最小限に抑えるに関していくつか)(おそらく不適切この結果の難しさは、それが存在する定理が使用する前にどのガイダンスについても与えないことであるが、それは私たちがどの質問であるかを正確に把握するために「反転」できる手順のクラスを実に制限する特に、非ベイジアン手順を逆変換する最初のステップは、どのベイジアン手順を複製または近似するか(ある場合)を把握することです。) ねえ、シアン、これはQ&Aサイトだよね? 最後に統計的な質問に私をもたらします。ベイジアン統計では、単変量パラメーターの間隔推定値を提供する場合、2つの一般的な信頼できる間隔手順は、分位に基づく信頼できる間隔と最高事後密度の信頼できる間隔です。これらの手順の背後にある損失関数は何ですか?

1
変数内の分散とペアワイズ距離の間のリンク
、我々は2つの変数を(同じサンプルサイズ)があればということを証明してくださいとと分散でよりも大きい、その後、差の2乗和内のデータポイント間の(ユークリッド距離の二乗すなわち)もより大きく、内のそれ。Y X YXXXYYYXXXYYYYXXXYYY

6
変数のスケールを0-100に変更する
PCA手法を使用して、ソーシャルキャピタルインデックスを作成しました。このインデックスは、正と負の両方の値で構成されます。このインデックスを0〜100のスケールに変換/変換して、解釈しやすくしたいと思います。最も簡単な方法を教えてください。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.