統計とビッグデータ

2

私は、AdaBoost（または他のブースティングテクニック）が他の学習方法と比較して過剰適合になりやすいかどうかにかかわらず、さまざまな（一見）矛盾するステートメントを読みました。どちらかを信じる正当な理由はありますか？依存する場合、何に依存しますか？AdaBoostがオーバーフィットしにくい/多い傾向がある理由は何ですか？

20 machine-learning boosting

5

実験計画のブロックとは何ですか？

実験計画におけるブロックの概念について2つの質問があります。（1）ブロックと因子の違いは何ですか？（2）いくつかの本を読んでみましたが、はっきりしないことがあります。著者は、「ブロック要因」と他の要因の間に相互作用がないと常に仮定しているようです。

20 experiment-design interaction interpretation

1

2つの比率の比の信頼区間

2つの比率（例：コントロールレイアウトのリンクのクリックスルー率（CTR）と実験レイアウトのリンクのCTR）があり、これらの比率の比率について95％の信頼区間を計算したい。どうすればいいですか？デルタ方式を使用してこの比率の分散を計算できることは知っていますが、それ以外に何をすべきかはわかりません。信頼区間の中間点（観測された比率、または異なる予測比率）として何を使用する必要がありますか？また、この比率の周りの標準偏差をいくつ取る必要がありますか？デルタ方式の分散を使用する必要がありますか？（私は本当に分散を気にしません、単に信頼区間です。）ケース1 を使用して、Fiellerの定理を使用する必要があります（比率を行っているため、正規分布の要件を満たしていると思います）。ブートストラップサンプルを計算するだけですか？

20 confidence-interval

2

キャレットの再サンプリング方法

caretR のライブラリを使用して、さまざまなモデリング手順をテストしています。 trainControlオブジェクトは、1つの再サンプリング方法を指定することを可能にします。方法は、に記載されている文書のセクション2.3を含む：boot、boot632、cv、LOOCV、LGOCV、repeatedcvおよびoob。これらのいくつかは推測が容易ですが、これらの方法のすべてが明確に定義されているわけではありません。これらのリサンプリング方法に対応する手順は何ですか？

20 r resampling caret

3

機械学習モデルの組み合わせ

私は、データマイニング/機械学習/などの初心者です。複数のモデルと同じモデルの実行を組み合わせて予測を改善するいくつかの方法について読んでいます。いくつかの論文（理論やギリシャ文字では面白くて素晴らしいが、コードや実際の例は短い）を読んだときの印象は、次のようになるはずだということです。モデル（knn、RFなど）を取得し、0〜1の分類子のリストを取得します。私の質問は、これらの分類子の各リストをどのように組み合わせるかです。最終モデルに入る列の数が同じになるようにトレーニングセットで同じモデルを実行しますか、それとも他のトリックがありますか？提案/例にRコードが含まれていれば素晴らしいと思います。注：これは、トレーニングセットに100k行、テストセットに70k行、10列のデータセット用です。

20 r random-forest k-nearest-neighbour ensemble

2

有意性テストまたは相互検証？

相関変数を選択するための2つの一般的なアプローチは、有意性検定と相互検証です。それぞれがどのような問題を解決しようとしていますか？また、いつ他の問題よりも優先するのでしょうか？

20 cross-validation feature-selection

8

「研究ノート」ソフトウェアのアイデアは？

だから、これは奇妙なフィットですが、本当に私はどのサイトにも奇妙なフィットだと思うので、データを処理する仲間の中でここで試してみると思いました。私は生物学から疫学と生物統計学を学びましたが、その分野にはまだ間違いなくいくつかの習慣があります。それらの1つは、実験ノートを保持しています。これは、思考、決定、分析に関する考察などを文書化するのに役立ちます。すべてを1か所でコミットし、すべてをコミットするので、後で分析を振り返り、自分が何をしたかを知ることができます。しかし、それを21世紀に移行することは素晴らしいことです。特に、ラボノートブックシステムは1人で決定を文書化するには十分であるにもかかわらず、EDAからのプロット、特定のデータセットについて話し合うデータマネージャーからの電子メールなどを添付できると便利です。私はこれには多くの異なるビットの不浄な連合から自分のシステムをリギングすることが含まれると推測していますが、現在システムを使用している人はいますか？

20 references software eda

6

回帰モデルから用語を削除する場合

以下が理にかなっている場合、誰でもアドバイスできますか？ 4つの予測子を持つ通常の線形モデルを扱っています。最下位の用語を削除するかどうかは、2つの考えに基づいています。それはだ -値が0.05以上少ないです。私はこれらの線に沿ってそれをドロップすることに賛成しました：この用語の推定値に（例えば）この変数のサンプルデータの四分位範囲を掛けると、この用語を維持することがモデル全体に及ぼす臨床効果に何らかの意味を与えます。この数は非常に低く、臨床設定で変数を測定するときに変数が取ることができる典型的な日中の値の範囲にほぼ等しいため、臨床的に重要ではないと見なし、したがってより節約的なモデルを提供するためにドロップすることができますドロップすると、調整されたが少し減少します。R 2pppR2R2R^2

20 regression model-selection

4

パラメトリックおよびノンパラメトリックな統計的検定はありますか？

パラメトリックおよびノンパラメトリックな統計的検定はありますか？この質問はインタビューパネルによって尋ねられました。有効な質問ですか？

20 nonparametric terminology parametric

2

混合効果モデルの比較が可能（主にランダム効果）

私はRのlme4パッケージを使用して混合効果のモデリングを検討しています。主にlmerコマンドを使用しているので、その構文を使用するコードを通じて質問を投げかけます。一般的な簡単な質問があると思いますが、lmer同一のデータセットに基づく尤度比を使用して構築された2つのモデルを比較しても大丈夫ですか？その答えは「ノー」でなければならないと思いますが、間違っている可能性があります。ランダム効果を同じにする必要があるかどうかに関する矛盾する情報を読みましたが、ランダム効果のどのコンポーネントがそれを意味していますか？そのため、いくつかの例を紹介します。単語刺激を使用して繰り返し測定データからそれらを取得します。おそらく、Baayen（2008）のようなものが解釈に役立ちます。 2つの固定効果予測子があるモデルがあるとします。これらのモデルをAとB、およびいくつかのランダム効果と呼びます。単語とそれらを知覚する主題。次のようなモデルを作成できます。 m <- lmer( y ~ A + B + (1|words) + (1|subjects) ) （私は意図的に除外していることに注意してください、私はdata =常にREML = FALSE明確にするために私がいつも意味すると仮定します）さて、次のモデルのうち、上記の尤度比と比較しても問題ないモデルとそうでないモデルはどれですか？ m1 <- lmer( y ~ A + B + (A+B|words) + (1|subjects) ) m2 <- lmer( y ~ A + B + (1|subjects) ) m3 <- lmer( y ~ A …

20 r mixed-model lme4-nlme likelihood-ratio

4

「大きいp、小さいn」結果の概要

誰かが「Large 、Small n」の結果に関する調査論文を教えてくれますか？私は別の研究の文脈でどのようにこの問題はマニフェスト自体のに興味を持っています例えば回帰、分類、ホテリングテスト、など。pppnnn

20 regression classification multivariate-analysis

3

スペクトル密度のピークの有意性のテスト

スペクトル密度プロットを使用して、時系列の周期性を分析することがあります。通常、視覚的な検査によってプロットを分析し、周期性について結論を出そうとします。しかし、統計学者は、プロットのスパイクが統計的にホワイトノイズと異なるかどうかを確認するためのテストを開発しましたか？Rエキスパートは、スペクトル密度分析およびそのようなテストを行うためのパッケージを開発しましたか？誰かが助けることができれば素晴らしい。よろしく、 P。

20 r time-series hypothesis-testing

2

モーメントを使用して整数ストリームの近似値を計算しますか？

math.stackexchangeから移行されました。私は整数の長いストリームを処理していますが、多くのデータを保存せずにストリームのさまざまなパーセンタイルをおおよそ計算できるようにするために、しばらく追跡することを検討しています。数秒からパーセンタイルを計算する最も簡単な方法は何ですか。少量のデータのみを保存するより良いアプローチがありますか？

20 algorithms mathematical-statistics moments

6

単純な線形回帰出力の解釈

2つの変数の自然対数の単純な線形回帰を実行して、それらが相関しているかどうかを判断しました。私の出力はこれです： R^2 = 0.0893 slope = 0.851 p < 0.001 私は混乱しています。値を見ると、2つの変数は非常に近いため、相関していないと言え。ただし、回帰直線の勾配はほぼ（プロットではほぼ水平に見えますが）、p値は回帰が非常に有意であることを示しています。R2R2R^2000111 これは、2つの変数が高度に相関していることを意味していますか？その場合、値は何を示していますか？R2R2R^2 Durbin-Watson統計がソフトウェアでテストされ、帰無仮説（に等しい）を拒否しなかったことを追加する必要があります。これは変数間の独立性をテストしたと思います。この場合、変数は個々の鳥の測定値であるため、変数が依存していると予想されます。私は個人の身体状態を決定する公開された方法の一部としてこの回帰を行っているので、この方法で回帰を使用することは理にかなっていると思いました。しかし、これらのアウトプットを考えると、おそらくこれらの鳥にとって、この方法は適切ではないと考えています。これは合理的な結論に思えますか？1.3571.3571.357222222

20 regression r-squared

2

心理学の観察研究を分析するために構造方程式モデリングを使用するかどうか

統計コンサルティングの設定でこの問題が頻繁に発生していることに気付きました。あなたの考えを聞きたいと思いました。コンテキスト私は、次のような研究を行った研究生とよく話します。観察研究サンプルサイズは100、200、300などです。複数の心理的尺度が測定されている（たとえば、不安、抑うつ、性格、態度、他の臨床的尺度、おそらく知性など）研究者は関連する文献を読み、考えられる原因プロセスについていくつかの考えを持っています。多くの場合、前件、プロセス変数、および結果変数への変数の一般的な概念化があります。彼らはまた、構造方程式モデリングが、研究している一連の変数間の関係の全体的なモデルをテストするのにより適しているとよく耳にしました。質問どのような条件下で、構造方程式モデリングがそのような研究を分析するための適切な手法だと思いますか？構造方程式モデリングを推奨しない場合、どのような代替手法を推奨しますか？そのような場合に構造方程式モデリングを使用することを検討している研究者にどのようなアドバイスをしますか？

20 scales causality sem observational-study