統計とビッグデータ

2

コンテキストとして：非常に大きなデータセットを使用する場合、予測変数と応答変数の関係、または予測変数間の関係を「知っている」合成データセットを作成できるかどうかを尋ねられることがあります。何年もの間、私は一時的な合成データセット（それらはアドホックな方法で作成されたように見える）、または研究者の提案したモデリング手法に特に有利と思われるより構造化されたデータセットのいずれかに遭遇するようです。私は合成データセットを作成するための標準的な方法を見ていると思います。ブートストラップのリサンプリングは、合成データセットを作成するための1つの一般的な方法ですが、アプリオリの構造を知っているという条件を満たしていません。さらに、ブートストラップサンプルを他のサンプルと交換するには、データを生成する方法ではなく、データを交換する必要があります。パラメトリック分布をデータに適合させるか、十分に近いパラメーター化モデルを見つけることができる場合、これは合成データセットを生成できる1つの例です。他にどのような方法がありますか？特に高次元データ、スパースデータ、および時系列データに興味があります。高次元データの場合、関心のある構造（共分散構造、線形モデル、木など）を生成できるメソッドを探します。時系列データの場合、FFT、ARモデル、またはその他のさまざまなフィルタリングモデルまたは予測モデルを介した分布から開始するようです。スパースデータの場合、スパースパターンを再現すると便利なようです。これらは表面をひっかくだけだと思います-これらはヒューリスティックであり、正式な慣行ではありません。実践者に知られるべき合成データを生成するための参照またはリソースはありますか？注1：この質問は、特定の時系列モデルのようなデータを生成する方法に関する文献を扱っていることを理解しています。ここでの違いは、特に既知の構造（私の質問）を示すためのプラクティスと、既存のデータセットとの類似性/忠実度です。私の場合、既知の構造と同じくらい類似性を持つ必要はありませんが、類似性は非類似性よりもはるかに優先されます。モデルが有望であるエキゾチックな合成データセットは、現実的なシミュレーションよりも好ましくありません。注2：合成データに関するWikipediaのエントリは、RubinやFienbergなどの著名人がこの問題に対処していることを指摘していますが、ベストプラクティスに関する参照は見つかりませんでした。たとえば、応用統計学（AOS）やこれらの雑誌や他の雑誌のレビュー作品で何が通用するかを知ることは興味深いでしょう。簡単で気まぐれな言葉で言えば、「（容認可能）調理済み」と「調理しすぎ」の間のしきい値はどこにあるのかと尋ねることができますか？注3：質問には影響しませんが、使用シナリオは、さまざまな大規模で高次元のデータセットのモデリングであり、そこでは、研究の課題はデータの構造を（人間と機械の両方で;-)学ぶことです。単変量、二変量、およびその他の低次元のシナリオとは異なり、構造は容易に推測されません。構造の理解を深めるために、モデリングメソッドとデータの相互作用を確認するために（たとえば、パラメーターの安定性を調べるために）、同様のプロパティを持つデータセットを生成できることが重要です。それにもかかわらず、低次元の合成データに関する古いガイドは、より高次元のデータセットに拡張または適合させることができる出発点になる可能性があります。

26 modeling reproducible-research synthetic-data

7

ランダム効果因子のグループの最小推奨数は何ですか？

R（lme4）で混合モデルを使用して、いくつかの反復測定データを分析しています。応答変数（糞の繊維含有量）と3つの固定効果（体重など）があります。私の研究には参加者が6人しかいませんが、各参加者に対して16回の反復測定があります（ただし、2回の反復は12回のみです）。被験者は、異なる「治療」で異なる組み合わせの食物を与えられたトカゲです。私の質問は、サブジェクトIDをランダム効果として使用できますか？これは、被験者のランダムにサンプリングされた性質と被験者間の観察が被験者間の観察より密接に相関するという事実を考慮するための、縦方向の混合効果モデルにおける通常の行動コースであることを知っています。ただし、サブジェクトIDをランダム効果として扱うには、この変数の平均と分散を推定する必要があります。被験者は6人（この因子の6つのレベル）のみであるため、これは平均と分散の正確な特性を得るのに十分ですか？この点に関して、各被験者について非常に多くの反復測定があるという事実は、この点で役立ちますか（それがどのように重要であるかわかりません）。最後に、サブジェクトIDをランダムエフェクトとして使用できない場合、固定エフェクトとしてサブジェクトIDを含めることで、繰り返し測定しているという事実を制御できますか？編集：私は、「できます」と言ったときに、サブジェクトIDをランダム効果として使用することを意味します。わずか2レベルの係数でモデルを適合できることは知っていますが、これは確実に防御できないでしょうか？被験者をランダムな効果として扱うことを考えるのは、どの時点で賢明になりますか？文献では、5〜6レベルが下限であるとアドバイスされているようです。ランダム効果の平均と分散の推定値は、15以上の因子レベルが存在するまではあまり正確ではないと思われます。

26 mixed-model sample-size

3

MANOVAと反復測定ANOVAの違いは？

ある要因（実験条件など）に対する反復測定ANOVAとMANOVAの違いは何ですか？特に、私が偶然見つけたあるウェブサイトは、MANOVAが、ANOVAが繰り返し測定するのと同じ球形度の仮定をしないことを示唆しました、それは本当ですか？もしそうなら、なぜ単にMANOVAを使用しないのですか？複数のDVで繰り返し測定ANOVAを実行しようとしていますが、適切なアプローチは何ですか？

26 anova repeated-measures manova sphericity

9

ロジスティック回帰ベースのモデルの精度を測定する

トレーニング済みのロジスティック回帰モデルをテストデータセットに適用しています。従属変数はバイナリ（ブール）です。テストデータセットの各サンプルに対して、ロジスティック回帰モデルを適用して、従属変数が真になる確率を生成します。次に、実際の値が真か偽かを記録します。線形回帰モデルのように、または調整済み数値を計算しようとしています。R 2R2R2R^2R2R2R^2 これにより、テストセット内の各サンプルの記録が得られます。 prob_value_is_true acutal_value .34 0 .45 1 .11 0 .84 0 .... .... モデルの精度をテストする方法を疑問に思っています。私の最初の試みは、分割表を使用して「prob_value_is_true> 0.80の場合、実際の値が真であると推測する」と言い、正しい分類と誤った分類の比率を測定することでした。しかし、私はそれが好きではありません。なぜなら、モデル全体およびすべてのprob_value_is_true値の精度ではなく、0.80を境界として評価しているように感じるからです。次に、例として、prob_value_is_trueの各離散値を見てみました。prob_value_is_true= 0.34のすべてのサンプルを見て、実際の値が真であるサンプルの％を測定しました（この場合、サンプルの％それは本当でした= 34％）。の各離散値での差を合計することにより、モデル精度スコアを作成できますprob_value_is_true。しかし、サンプルサイズは、特に極値（0％または100％に近づいている）にとって大きな懸念事項であり、実際の値の平均は正確ではないため、モデルの精度を測定するためにそれらを使用することは適切ではないようです。十分なサンプルサイズ（0-.25、.25-.50、.50-.75、.75-1.0）を確保するために巨大な範囲を作成しようとしましたが、実際の値のその％の「良さ」を測定する方法は私を困らせます。prob_value_is_true0.25から0.50の間にあるすべてのサンプルの平均acutal_valueが0.45であるとします。範囲内にあるので良いですか？37.5％（範囲の中心）に近くないので悪いですか？だから私は簡単な質問に思えるかもしれませんが、誰かがロジスティック回帰モデルの統計的確度を計算するためのリソースや方法を教えてくれることを望んでいます。

26 regression logistic r-squared

3

非常に小さなサンプルサイズ（n = 6など）で正規性をテストすることは意味がありますか？

サンプルサイズは6です。このような場合、Kolmogorov-Smirnov検定を使用して正規性を検定するのは理にかなっていますか？SPSSを使用しました。それぞれの取得に時間がかかるため、サンプルサイズは非常に小さくなっています。それが意味をなさない場合、テストするのに意味のある最小数はいくつのサンプルですか？注：ソースコードに関連するいくつかの実験を行いました。サンプルは、ソフトウェアのバージョン（バージョンA）でのコーディングに費やされた時間です。実際には、別のバージョンのソフトウェア（バージョンB）でのコーディングに費やされたサンプルサイズ6があります。コードバージョンAで費やされた時間がコードバージョンBで費やされた時間と異なるかどうかをテストするために、1サンプルt検定を使用して仮説テストを行いたいと思います（これは私のH1です）。1サンプルのt検定の前提条件は、テストするデータを正規分布する必要があることです。そのため、正常性をテストする必要があります。

26 hypothesis-testing normality-assumption kolmogorov-smirnov power

3

Rに適合した負の二項回帰のシータとは何ですか？

負の二項回帰に関する質問があります。次のコマンドがあるとします。 require(MASS) attach(cars) mod.NB<-glm.nb(dist~speed) summary(mod.NB) detach(cars) （carsはRで利用可能なデータセットであり、このモデルが理にかなっているかどうかはあまり気にしないことに注意してください。）私が知りたいのは、どのように変数を解釈できますかtheta（呼び出しの下部に返されますsummary）。これはネガビン分布の形状パラメーターですか？歪度の尺度として解釈することは可能ですか？

26 regression generalized-linear-model negative-binomial

2

分布には名前がありますか？

先日、この密度に出くわしました。誰かがこれに名前を付けましたか？ f（x ）= ログ（1 + x− 2）/ 2 πf（バツ）=ログ⁡（1+バツ−2）/2πf(x) = \log(1 + x^{-2}) / 2\pi 密度は原点で無限で、太い尾もあります。多くの観測値が小さいと予想される状況で、事前に分布として使用されるのを見ましたが、大きな値も予想されていました。

26 distributions probability

4

Yahoo FinanceからRに株価をインポートしますか？

「最終取引」株価をYahooファイナンスからRにインポートしたいと思います。（ほぼ）リアルタイムのデータを処理することを意図しています。解決策はありますか？有益なコメントをありがとうございます。

26 r

11

多変量解析に関する書籍の推奨事項

多変量解析に関する本を入手したいので、あなたの提案が必要です。無料の本はいつでも歓迎しますが、すばらしい非無料のMVA本について知っているなら、それを述べてください。

26 references multivariate-analysis

6

1300年に生まれた特定の人から子孫になる可能性はどのくらいですか？

言い換えれば、以下に基づいて、pとは何ですか？これを人類学や社会科学ではなく数学の問題にし、問題を単純化するために、兄弟と最初のいとこが交尾することはなく、常に同じから交配相手が選択されることを除いて、母集団全体で交配相手が等しい確率で選択されると仮定します世代。 n1n1n_1初期人口 ggg世代数。 cccカップルあたりの子供の平均数。（答えに必要な場合、すべてのカップルがまったく同じ数の子供を持っていると仮定します。） zzz子供がいない人、およびカップルの一部とみなされない人の割合。 n2n2n_2最終世代の人口。（またはいずれかを指定する必要があり、（私は）他を計算できると思います。）n2n2n_2zzz ppp最終世代の誰かが初期世代の特定の人の子孫である確率。もちろん、これらの変数は変更、省略、または追加できます。簡単にするために、とは時間とともに変化しないと仮定しています。私はこれが非常に大雑把な見積もりを取得することを理解していますが、それは出発点です。ccczzz パート2（さらなる研究の提案）：合致がグローバルに均一な確率で選択されていないことをどのように考えることができますか？実際には、仲間は同じ地理的領域、社会経済的背景、人種、および宗教的背景である可能性が高くなります。これの実際の確率を調査せずに、これらの要因の変数はどのように作用するのでしょうか？これはどれほど重要ですか？

26 probability stochastic-processes genetics

1

Rで、AICとBICがどの相互検証方法と同等であるかを経験的に実証するにはどうすればよいですか？

で質問他の場所でこのサイトには、いくつかの答えは、AICは（LOO）クロスバリデーションを-1を残し、BICはK倍クロスバリデーションと同等であることと等価であることを述べました。これをRで経験的に実証する方法はありますか。LOOとKフォールドに関連する技術が明確になり、AICとBICの値と同等であることが実証されますか。この点に関しては、十分にコメントされたコードが役立ちます。また、BICのデモでは、lme4パッケージを使用してください。サンプルデータセットについては、以下を参照してください... library(lme4) #for the BIC function generate.data <- function(seed) { set.seed(seed) #Set a seed so the results are consistent (I hope) a <- rnorm(60) #predictor b <- rnorm(60) #predictor c <- rnorm(60) #predictor y <- rnorm(60)*3.5+a+b #the outcome is really a function of predictor a and b but not predictor …

26 r aic cross-validation bic

4

RANSACが統計で最も広く使用されていないのはなぜですか？

コンピュータービジョンの分野から来て、私はRANSAC（ランダムサンプルコンセンサス）メソッドを使用して、多くの外れ値を持つデータにモデルを適合させてきました。ただし、統計学者によって使用されるのを見たことはなく、「統計的に健全な」方法とは見なされていないとの印象を受けていました。どうしてこんなことに？本質的にランダムであるため、分析が難しくなりますが、ブートストラップ方法も同様です。または、単に学術的なサイロが互いに話し合っていない場合ですか？

26 outliers bootstrap robust

7

コントラストコードを使用してRでType-III SS ANOVAを行う方法

-3、-1、1、3のコントラストで被験者間ANOVAを実行できるようにするRコードを提供してください。このような分析に適した平方和（SS）タイプに関して議論があることを理解しています。ただし、SASおよびSPSSで使用されるSSのデフォルトタイプ（タイプIII）は、私の地域の標準と考えられています。したがって、この分析の結果が、これらの統計プログラムによって生成されたものと完全に一致することを望みます。回答を受け入れるにはaov（）を直接呼び出す必要がありますが、他の回答は投票される可能性があります（特に理解/使用が容易な場合）。 sample.data <- data.frame(IV=rep(1:4,each=20),DV=rep(c(-3,-3,1,3),each=20)+rnorm(80)) 編集：私が要求しているコントラストは、単純な線形または多項式コントラストではなく、理論的予測、すなわちRosentalとRosnowによって議論されたコントラストのタイプによって導き出されたコントラストであることに注意してください。

26 r anova contrasts sums-of-squares

3

Rのpolr関数からの出力を理解する方法（順序付きロジスティック回帰）

私はRを初めて使い、ロジスティック回帰を注文しましたpolr。 polr（ロジスティックまたはプロビット回帰モデルを順序付けられた因子応答に適合させる）のヘルプページの下部にある「例」セクションには、 options(contrasts = c("contr.treatment", "contr.poly")) house.plr <- polr(Sat ~ Infl + Type + Cont, weights = Freq, data = housing) pr <- profile(house.plr) plot(pr) pairs(pr) どんな情報がpr含まれていますか？プロファイルのヘルプページは一般的なものであり、polrに関するガイダンスはありません。何がplot(pr)表示されていますか？6つのグラフが表示されます。ラベルはインジケータ変数です（順序値のインジケータである入力変数のように見えます）が、それぞれに数値のX軸があります。その場合、Y軸は「タウ」であり、これはまったく説明されていません。何がpairs(pr)表示されていますか？入力変数の各ペアのプロットのように見えますが、ここでもX軸またはY軸の説明はありません。モデルが適切に適合したかどうかをどのように理解できますか？ summary(house.plr)は、Residual Deviance 3479.149と3495.149のAIC（赤池情報量規準？）を示しています。いいですか？それらが相対的な尺度としてのみ有用な場合（つまり、別のモデルの適合と比較する場合）、優れた絶対尺度とは何ですか？残差はほぼカイ二乗分布ですか？元のデータまたは相互検証で「正しく予測された％」を使用できますか？それを行う最も簡単な方法は何ですか？ anovaこのモデルにどのように適用して解釈しますか？ドキュメントには、「predict、summary、vcov、anovaなど、標準のモデル適合関数のメソッドがあります」と書かれています。ただし、実行anova(house.plr)するとanova is not implemented for a single "polr" object 各係数のt値をどのように解釈しますか？一部のモデル近似とは異なり、ここにはP値はありません。これは多くの質問であることに気づきましたが、7つの異なる質問ではなく、1つのバンドル（「これをどのように使用しますか？」）として質問することは理にかなっています。どんな情報も感謝します。

26 r logistic

7

行列の列間の線形依存性のテスト

行列式がゼロのセキュリティリターンの相関行列があります。（サンプル相関行列と対応する共分散行列は理論的には正定でなければならないため、これは少し驚くべきことです。）私の仮説は、少なくとも1つの証券が他の証券に線形に依存しているということです。Rに線形依存関係の各列を順番にテストする関数がありますか？たとえば、1つのアプローチは、相関行列を一度に1つのセキュリティで構築し、各ステップで行列式を計算することです。行列式= 0の場合、他の証券の線形結合である証券を特定したため停止します。そのような行列の線形依存性を特定する他の技術が評価されます。

26 r correlation pca linear-model svd