統計とビッグデータ

2

2つのグループ間の違いをテストする方法は、データが正規分布していないことを意味しますか？

生物学的な詳細と実験をすべて削除し、目前の問題と統計的に行ったことを引用します。その権利があるかどうか、もしそうでない場合は、どうすればよいかを知りたい。データ（または私の説明）が十分に明確でない場合は、編集して説明を改善します。サイズおよび 2つのグループ/観測、XおよびYがあるとします。これら2つの観測値の平均が等しいかどうかを知りたいです。私の最初の質問は：Nバツ= 215Nバツ=215N_x=215Ny= 40Ny=40N_y=40 仮定が満たされている場合、ここでパラメトリック2サンプルt検定を使用することは適切ですか？私の理解から、サイズが小さいときに通常適用されるので、これを尋ねますか？ XとYの両方のヒストグラムをプロットしましたが、2標本t検定の仮定の1つである正規分布ではありませんでした。私の混乱は、それらを2つの母集団であると考え、それが正規分布を確認した理由です。しかし、その後、2つのサンプルのt検定を実行しようとしています... これは正しいですか？中心極限定理から、サンプリング（母集団のサイズに応じて繰り返しの有無を問わず）を複数回実行し、毎回サンプルの平均を計算すると、ほぼ正規分布になることがわかります。また、このランダム変数の平均は、母平均の適切な推定値になります。そこで、XとYの両方でこれを1000回行うことにし、サンプルを取得し、各サンプルの平均にランダム変数を割り当てました。プロットは非常に正規分布していました。XとYの平均は4.2と15.8（母集団±0.15と同じ）で、分散は0.95と12.11でした。これらは非常に異なるため（0.95と12.11）、分散が等しくないこれら2つの観測値（それぞれ1000データポイント）でt検定を実行しました。そして、帰無仮説は棄却されました。これはまったく理にかなっていますか？これは正しい/意味のあるアプローチですか、2サンプルのz検定で十分ですか、それともまったく間違っていますか？また、念のため（元のXとYで）ノンパラメトリックウィルコクソン検定を実行しましたが、帰無仮説も同様に説得力をもって拒否されました。私の以前の方法がまったく間違っていた場合、統計的な検出力を除いて、ノンパラメトリック検定を行うのが良いと思いますか？どちらの場合も、平均は大きく異なりました。ただし、どちらかまたは両方のアプローチに問題があるか、まったく間違っているかどうかを知りたい場合はどうすればよいですか？

19 hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem

4

実際には、混合効果モデルでランダム効果共分散行列はどのように計算されますか？

基本的に私が思っているのは、異なる共分散構造がどのように適用され、これらの行列内の値がどのように計算されるかです。lme（）などの関数を使用すると、どの構造が必要かを選択できますが、それらの推定方法を知りたいと思います。線形混合効果モデル考えます。Y=Xβ+Zu+ϵY=Xβ+Zu+ϵY=X\beta+Zu+\epsilon ここで、および。さらに：ε D 〜 N （0 、R ）u∼dN(0,D)u∼dN(0,D)u \stackrel{d}{\sim} N(0,D)ϵ∼dN(0,R)ϵ∼dN(0,R)\epsilon \stackrel{d}{\sim} N(0,R) Var(Y|X,Z,β,u)=RVar(Y|X,Z,β,u)=RVar(Y|X,Z,\beta,u)=R Var(Y|X,β)=Z′DZ+R=VVar(Y|X,β)=Z′DZ+R=VVar(Y|X,\beta)=Z'DZ+R=V 簡単にするために、ます。R=σ2InR=σ2InR=\sigma^2I_n 基本的に私の質問は、さまざまなパラメーター化のデータからどの程度正確に推定するかです。が対角（ランダム効果は独立）であるか、Dが完全にパラメーター化されている（現時点でより興味がある場合）か、他のさまざまなパラメーター化のいずれかであると仮定しますか？これらの簡単な推定量/方程式はありますか？（それは間違いなく繰り返し推定されるでしょう。）D DDDDDDDDDD 編集：書籍Variance Components（Searle、Casella、McCulloch 2006）から、私は何とか次のように光り輝くことができました。もしD=σ2uIqD=σu2IqD=\sigma^2_uI_q次のように、その後、分散コンポーネントが更新され、計算されます。 σ2(k+1)u=u^Tu^σ2(k)utrace(V−1ZTZ)σu2(k+1)=u^Tu^σu2(k)trace(V−1ZTZ)\sigma_u^{2(k+1)} = \frac{\hat{\textbf{u}}^T\hat{\textbf{u}}} {\sigma_u^{2(k)}\text{trace}(\textbf{V}^{-1}\textbf{Z}^T\textbf{Z})} σ2(k+1)e=Y′(Y−Xβ^(k)−Zu^(k))/nσe2(k+1)=Y′(Y−Xβ^(k)−Zu^(k))/n\sigma_e^{2(k+1)} = Y'(Y-X{\hat{\beta}}^{(k)}-{Z}\hat{{u}}^{(k)})/n ここで、β^(k)β^(k)\hat{\beta}^{(k)}およびu^(k)u^(k)\hat{{u}}^{(k)}はそれぞれkkk番目の更新です。 DDDがブロック対角または完全にパラメーター化されている場合の一般的な式はありますか？完全にパラメータ化されたケースでは、コレスキー分解を使用して、正定性と対称性を確保しています。

19 mixed-model random-effects-model covariance covariance-matrix

3

非正規分布サンプルの平均の信頼区間を計算するにはどうすればよいですか？

非正規分布サンプルの平均の信頼区間を計算するにはどうすればよいですか？ここではブートストラップ方式が一般的に使用されていることを理解していますが、他のオプションも受け入れています。ノンパラメトリックオプションを探していますが、パラメトリックソリューションが有効であることを誰かが私に納得させることができれば、それは問題ありません。サンプルサイズは400を超えています。誰かがRでサンプルを提供できれば、とてもありがたいです。

19 confidence-interval nonparametric bootstrap descriptive-statistics skewness

3

lm（）とrlm（）の違いは何ですか？

この質問は、相互検証で回答できるため、Stack Overflowから移行されました。 8年前に移行されました。ライブラリで「線形モデルのロバスト近似」rlm() 関数MASSを見つけました。この関数と標準線形回帰関数の違いを知りたいlm()です。誰かが簡単な説明をくれますか？

19 r regression

2

2つの被験者内因子について、Rのlme / lmerを使用した反復測定ANOVA

パッケージから使用lmeして、反復測定ANOVAのnlme結果を複製しようとしていますaov。これは、単一因子の反復測定実験と、被験者間因子と被験者内因子を1つずつ含む2因子実験で行いましたが、2因子を含む2因子実験ではうまくいきません。 -対象因子。以下に例を示します。AおよびBは固定効果因子でsubjectあり、変量効果因子です。 set.seed(1) d <- data.frame( Y = rnorm(48), subject = factor(rep(1:12, 4)), A = factor(rep(1:2, each=24)), B = factor(rep(rep(1:2, each=12), 2))) summary(aov(Y ~ A*B + Error(subject/(A*B)), data=d)) # Standard repeated measures ANOVA library(nlme) # Attempts: anova(lme(Y ~ A*B, data=d, random = ~ 1 | subject)) # not same …

19 r anova mixed-model repeated-measures lme4-nlme

4

チームスポーツごとに2人のプレーヤーで個々のプレーヤーの有効性を測定する

チームスコアのスプレッドシートがあります。最初のチームが10ポイント獲得。各チームには2人のプレーヤーがいます。プレーヤーは常に異なるチームメイトとプレイしますが、完全にランダムに選択されるわけではありません。個々のスコアは保持されません。基本的に、ビルとボブはアンディ、アリスは10-4、ジェイクとビルはジョーとジョン10-8を破りました... 利用可能なすべての試合データに基づいて、個々のプレーヤーのランキングを決定することは可能ですか？基本的に、各プレーヤーがポイントの点で、または他のプレーヤーと比較して各ゲームにどれだけ貢献しているかを確認するには？

19 ranking games bradley-terry-model

8

プロットの設計と作成に不可欠なルールは何ですか？

バックグラウンド：以前、クロス検証では、次の質問がありました。プロットを準備する際のベストプラクティスは何ですか？ 2つの数値変数をプロットするためのオンラインで利用可能な良いヒントは何ですか？それはによって示唆された@デビッドでこの質問へのコメントは我々が持っている必要があることをコミュニティのwikiとの質問の回答ごとに可視化ルールをコミュニティは上の投票ができること。質問データのグラフィカル表現の設計と作成に関する基本的なルールは何ですか？ルール回答ごとに1つのルール理想的な理由を簡単に説明してください。良いプラクティスと悪いプラクティスの例（コードと画像）を含む回答が望ましい。

19 data-visualization

5

調停分析は本質的に因果関係がありますか？

1つのIV、1つのDV、および1つのメディエーターを使用した単純なメディエーションモデルのテストに興味があります。Preacher and Hayes SPSSマクロによってテストされたように、間接的な効果は重要です。これは、メディエーターが関係を統計的に仲介するのに役立つことを示唆しています。調停について読むとき、「調停モデルは因果モデルであることに注意してください」などのことを読みました。- デビッド・ケニー。因果モデルとしてメディエーションモデルを使用することは確かに評価できます。実際、モデルが理論的に健全であれば、これは非常に有用であると考えることができます。しかし、私のモデルでは、メディエーター（不安障害の素因と考えられる特性）は、独立変数（不安障害の症状）によって引き起こされるものではありません。むしろ、メディエーターと独立変数は関連しており、独立変数と従属変数の間の関連は、IV-メディエーター-DV間の分散によって大きく説明できると思います。本質的に、IV-DV関係の以前のレポートは、IVによって引き起こされていない関連メディエーターによって説明できることを実証しようとしています。調停は、IV-Mediator-DV関係によってIV-DV関係を統計的に説明する方法を説明するため、この場合に役立ちます。私の問題は因果関係の問題です。レビューが戻ってきて、IVが実際に調停者を引き起こさないので、調停は適切でないと私たちに伝えることができますか（私は最初に議論したことはなかっただろう）。これは理にかなっていますか？この問題に関するフィードバックは大歓迎です！編集：私が言いたいのは、XがYを引き起こすためではなく、ZがYを（部分的に）引き起こし、XとZが高度に相関しているためです。少しわかりにくいですが、それだけです。この場合の因果関係は実際には問題ではなく、この原稿は因果関係についてそれほど重要ではありません。私は単に、XとYの間の分散がZとYの間の分散によって説明できることを実証しようとしています。したがって、基本的に、XはYからZまで間接的に相関します。

19 causality mediation

3

双方向モデルのクラスカルウォリス一方向検定に相当するものはありますか？

モデルがANOVAの仮定を満たさない場合（特に正規性）、一方向の場合、クラスカルワリスのノンパラメトリック検定が推奨されます。しかし、複数の要因がある場合はどうでしょうか？

19 anova nonparametric kruskal-wallis

1

多くのゼロ値を持つ時系列の分析

この問題は実際には火災検知に関するものですが、いくつかの放射性崩壊検知問題に非常に類似しています。観察されている現象は散発的であり、非常に多様です。したがって、時系列は、変数値によって中断されたゼロの長い文字列で構成されます。目的は、イベント（ゼロのブレーク）をキャプチャするだけでなく、イベント自体の定量的な特性評価です。ただし、センサーは限られているため、「現実」がゼロ以外であってもゼロを記録する場合があります。このため、センサーを比較するときにはゼロを含める必要があります。センサーBはセンサーAよりも感度が高い可能性がありますが、統計的に説明したいと思います。この分析では、「真実」はありませんが、センサーAとBから独立したセンサーCがあります。したがって、私の期待は、A / BとCのより良い一致が「真実」とのより良い一致を示すことです。（これは不安定に思えるかもしれませんが、あなたは私を信頼する必要があります-センサーに関する他の研究から知られていることに基づいて、私はここで確固たる地位にいます）。問題は、「時系列のより良い一致」を定量化する方法です。相関関係は明らかな選択ですが、これらすべてのゼロ（除外することはできません）の影響を受け、もちろん最大値の影響は不均衡になります。RMSEも計算できますが、ゼロに近い場合のセンサーの動作に対して強く重み付けされます。 Q1：時系列分析でゼロと結合される非ゼロ値に対数スケーリングを適用する最良の方法は何ですか？ Q2：このタイプの時系列分析に推奨できる「ベストプラクティス」は何ですか。ゼロ以外の値での動作が焦点ですが、ゼロの値が支配的であり、除外できません。

19 time-series correlation crostons-method intermittent-time-series

2

正しい開始値を持つnlsの特異勾配誤差

私は線+指数曲線をいくつかのデータに当てはめようとしています。最初に、人工データでこれを実行しようとしました。関数である：それが効果的に直線部を有する指数曲線、ならびに追加の水平シフトパラメータである（M）。ただし、Rの関数を使用すると、最初にデータを生成するために使用したのと同じパラメーターを使用しても、「初期パラメーター推定値での特異な勾配行列」エラーが発生します。y= A + B ⋅ R（x − m ）+ C ⋅ Xy=a+b⋅r（バツ−m）+c⋅バツy=a+b\cdot r^{(x-m)}+c\cdot xnls() さまざまなアルゴリズム、さまざまな開始値を試しoptim、残差平方和を最小化するために使用しようとしましたが、すべて役に立ちませんでした。私は、このために考えられる理由は、式のオーバーパラメータ化することができることを読んだが、私は（それがある？）それはないと思う誰もがこの問題のための提案を持っていますか？または、これは単なる厄介なモデルですか？短い例： #parameters used to generate the data reala=-3 realb=5 realc=0.5 realr=0.7 realm=1 x=1:11 #x values - I have 11 timepoint data #linear+exponential function y=reala + realb*realr^(x-realm) + realc*x #add a bit of noise …

19 r nonlinear-regression nls

1

K-meansクラスタリングでクラスターの数を定義する方法は？

最適なクラスター番号を決定する方法はありますか？または、異なる値を試してエラー率を確認して最適な値を決定する必要がありますか？

19 clustering unsupervised-learning

1

プロファイル尤度の欠点は何ですか？

パラメータのベクトルを考えてみましょうで、関心のパラメータ、および A迷惑パラメータ。θ 1 θ 2(θ1,θ2)(θ1,θ2)(\theta_1, \theta_2)θ1θ1\theta_1θ2θ2\theta_2 場合データから構築尤度さのために、プロファイル尤度として定義される;（_2 = L（\ theta_1、\帽子{\シータ}（X \ theta_1）L_P \ theta_1）; x）ここで、\ hat {\ theta} _2（\ theta_1）は\ theta_1の固定値に対する\ theta_2のMLEです。X θ 1 L P（θ 1 ; X ）= L （θ 1、θ 2（θ 1）; X ）、θ 2（θ 1）θ 2 θ 1L(θ1,θ2;x)L(θ1,θ2;x)L(\theta_1, \theta_2 ; x)xxxθ1θ1\theta_1LP(θ1;x)=L(θ1,θ^2(θ1);x)LP(θ1;x)=L(θ1,θ^2(θ1);x)L_P(\theta_1 ; x) = L(\theta_1, \hat{\theta}_2(\theta_1) …

19 maximum-likelihood likelihood profile-likelihood

4

重回帰方程式に入力できる独立変数の最大数

重回帰式に入力できる独立変数の数の制限は何ですか？結果変数への相対的な貢献の観点から検討したい10の予測変数があります。ボンフェローニ補正を使用して、複数の分析を調整する必要がありますか？

19 regression predictor importance bonferroni

1

離散パラメーターにはどのMCMCアルゴリズム/手法が使用されますか？

連続パラメータ、特に勾配ベースのメソッドの適合についてはかなり知っていますが、離散パラメータの適合についてはあまり知りません。離散パラメーターのフィッティングに一般的に使用されるMCMCアルゴリズム/手法は何ですか？かなり一般的でかなり強力なアルゴリズムはありますか？次元の呪いをうまく処理するアルゴリズムはありますか？たとえば、ハミルトニアンMCMCは一般的で強力で、拡張性が高いと言えます。任意の離散分布からのサンプリングは、連続分布からのサンプリングよりも難しいように見えますが、私は最新技術が何であるか興味があります。編集：JMSは私に詳細を要求しました。特定のアプリケーションを考えているわけではありませんが、私が想像しているいくつかの種類のモデルは次のとおりです。いくつかの種類の連続回帰モデル間のモデル選択。個別の単一の「モデル」パラメーターがあります各観測が「外れ値」になる可能性があり、はるかに分散した分布から引き出される連続モデル。これは混合モデルだと思います。多くのモデルには、連続パラメーターと離散パラメーターの両方が含まれると予想されます。

19 bayesian mcmc