統計とビッグデータ

2

Rの線形混合モデルに関する質問の前編として、および初心者/中級の統計愛好家の参考として共有するために、独立した「Q＆Aスタイル」として、単純な線形回帰の係数と予測値。この例は、Rの組み込みデータセットをmtcars使用しており、独立変数として機能する車両が消費するガロンあたりのマイル数として設定され、車の重量（連続変数）に対して回帰し、シリンダー数を相互作用のない3つのレベル（4、6、または8）の係数。編集：あなたがこの質問に興味があるなら、あなたは間違いなくCVの外のマシュー・ドゥルリーによるこの投稿で詳細で満足のいく答えを見つけるでしょう。

22 r regression linear-model lm

2

畳み込みニューラルネットワークハイパーパラメーターを選択するためのルール

フィルターの次元を選択し、ユニットをプールし、畳み込み層の数を決定するいくつかの系統的な方法をカバーする優れた論文はありますか？

22 neural-networks deep-learning conv-neural-network

2

縮退

ピアソン相関係数の人口値の2種類の推定量について、私の頭の中にいくつかの混乱がありました。 A. フィッシャー（1915）二変量正規母集団実証するためにあることを示したである負にバイアスの推定量ρバイアスだけ小さいサンプルサイズ（のために実際にかなりの量であることができるが、N < 30）。サンプルrは、ρよりも0に近いという意味でρを過小評価しています。（後者が0または± 1の場合を除き、rは不偏です。）ρのほぼ不偏の推定量がいくつか提案されています。rrrρρ\rhon<30n<30n<30rrrρρ\rho000ρρ\rho000±1±1\pm 1rrrρρ\rhoオルキンとプラット（1958）は修正しました。rrr runbiased=r[1+1−r22(n−3)]runbiased=r[1+1−r22(n−3)]r_\text{unbiased} = r \left [1+\frac{1-r^2}{2(n-3)} \right ] B.回帰では、は対応する母集団のR平方を過大評価していると言われています。または、単回帰で、それはつまり、R 2つの過大評価はρ 2。事実に基づいて、私はそれを言って、多くのテキストを見てきましたrがされ積極相対バイアスにρを絶対値を意味する、：rは遠くからである0よりρ（？その文が真です）。テキストは、サンプル値による標準偏差パラメーターの過大評価と同じ問題であると述べています。観測されたR 2を「調整」するための多くの式が存在しますR2R2R^2r2r2r^2ρ2ρ2\rho^2rrrρρ\rhorrr000ρρ\rhoR2R2R^2人口パラメータに近いWherryの（1931）は最もよく知られています（ただし、最良ではありません）。そのような調整されたr 2 adjのルートはshrunken rと呼ばれます：R2adjRadj2R_\text{adj}^2r2adjradj2r_\text{adj}^2 rrr rshrunk=±1−(1−r2)n−1n−2−−−−−−−−−−−−−−√rshrunk=±1−(1−r2)n−1n−2r_\text{shrunk} = \pm\sqrt{1-(1-r^2)\frac{n-1}{n-2}} 2つの異なる推定量が存在します。非常に異なる：最初のものはrを膨張させ、2番目はrを収縮させます。それらを調整する方法は？1つをどこで使用/報告し、もう1つを報告しますか？ρρ\rhorrrrrr 特に、「縮められた」推定量も（ほぼ）偏りのない「偏りのない」推定値であるが、異なるコンテキストでのみ-回帰の非対称コンテキストであるというのは事実でしょうか。というのは、OLS回帰では、片側（予測子）の値を固定値と見なし、サンプルからサンプルへのランダムエラーなしで対応するためですか？（そして、ここに追加するために、回帰は二変量正規性を必要としません。）

22 correlation pearson-r unbiased-estimator estimators point-estimation

1

適切なスコアリングルールの選択

適切なスコアリングルールに関するほとんどのリソースでは、ログ損失、ブライアースコア、または球形スコアリングなど、さまざまなスコアリングルールに言及しています。しかし、彼らはしばしばそれらの違いについて多くのガイダンスを与えません。（別紙A：ウィキペディア。）対数スコアを最大化するモデルを選択することは、最尤モデルを選択することに対応します。これは、対数スコアリングを使用するための良い議論のようです。ブライアースコアまたは球形スコアリング、または他のスコアリング規則について同様の正当化がありますか？なぜ誰かが対数スコアリングではなく、これらの1つを使用するのでしょうか？

22 machine-learning classification model-selection theory scoring-rules

1

次元数がである場合、データに対して

PCAでは、次元数がサンプル数よりも大きい（または等しい）場合、最大で非ゼロの固有ベクトルを持つことになります。つまり、次元間の共分散行列のランクはです。dddNNNN− 1N−1N-1d≥ Nd≥Nd\ge NN− 1N−1N-1 例：サンプルはベクトル化された画像で、寸法はですが、画像しかありません。d= 640 × 480 = 307200d=640×480=307200d = 640\times480 = 307\,200N= 10N=10N=10

22 pca dimensionality-reduction eigenvalues

2

「ランクを下げた回帰」とは何ですか？

私は統計学習の要素を読んでおり、セクション3.7「複数の結果の縮小と選択」が何であるかを理解できませんでした。RRR（Reduced-Rank Regression）について説明しており、前提は一般的な多変量線形モデルに関するものであり、係数は不明であり（推定される）、完全なランクを持たないことがわかっていることしか理解できません。私が理解しているのはそれだけです。残りの数学は私を超えています。著者が「見せることができる」と言うことさえ助けにならず、物事を演習として残します。誰かがここで何が起こっているのかを直感的に説明してもらえますか？この章では、おそらく新しい方法について説明していますか？または何？

22 regression multivariate-analysis dimensionality-reduction regularization reduced-rank-regression

4

分割表の最適な視覚化はどれですか？

統計的観点から、通常はカイ二乗検定で分析されている分割表を表示するのに最適なプロットはどれですか？覆い隠された棒グラフ、積み上げ棒グラフ、ヒートマップ、等高線プロット、ジッター散布図、複数線プロットなどですか？絶対値またはパーセンテージを表示する必要がありますか？編集：または@forecasterがコメントで示唆しているように、数値の表自体は単純なプロットであり、十分なはずです。

22 data-visualization contingency-tables

6

高度な回帰モデリングの例

GLMまたはOLSを使用して複雑な複数の非線形関係をモデル化するために必要な手順を示す、高度な線形回帰のケーススタディを探しています。基本的な学校の例を超えてリソースを見つけることは驚くほど困難です：私が読んだ本のほとんどは、1つの予測子のBoxCox、または最良の場合の自然なスプラインと組み合わせた応答のログ変換よりも先に進むことはありません。また、これまでに見てきたすべての例は、個別のモデル、多くの場合単一の予測モデルで各データ変換の問題に取り組みます。 BoxCoxまたはYeoJohnson変換とは何かを知っています。私が探しているのは、応答/関係が明確ではない、詳細で実際のケーススタディです。たとえば、応答は厳密に肯定的ではないため（logまたはBoxCoxは使用できません）、予測子は応答間で応答に対して非線形の関係を持ち、最尤データ変換は標準の0.33を暗示していないようです。または0.5指数。また、残差分散は一定ではない（決して変わらない）ため、応答も変換する必要があり、非標準のGLMファミリー回帰または応答変換の間で選択を行う必要があります。研究者は、おそらくデータの過剰適合を避けるための選択をします。編集これまでのところ、次のリソースを収集しました。回帰モデリング戦略、F。ハレル適用された計量経済時系列、W。エンダーズ R、G。Petrisを使用した動的線形モデル応用回帰分析、D。クラインバウム統計学習入門、G。ジェームズ/ D。ウィッテン私は最後の（ISLR）のみを読んでおり、非常に良いテキスト（私の時計では5つ星5つ）ですが、高度な回帰モデリングよりもMLを重視しています。また、CVには、リグレッションの難しいケースを提示するこの優れた投稿があります。

22 multiple-regression generalized-linear-model data-transformation splines nonlinear

2

特定のサンプル共分散行列を使用してデータを生成する

共分散行列与えられた場合、サンプルの共分散行列を持つようにデータを生成する方法は？Σ = Σ SΣsΣs\boldsymbol \Sigma_sΣ^= ΣsΣ^=Σs\hat{\boldsymbol \Sigma} = \boldsymbol \Sigma_s より一般的に：密度からデータを生成し、データパラメーターベクトル与えることに興味があります。これによりサンプルが生成され、そこから再び値推定できます。私が興味を持って中だと、逆の問題です：私たちは、パラメータのセットが指定されている場合はどうすれば、私たちはサンプルを生成したい、このような、その。X θ θ θ Sのx θ = θ Sf（x | θ ）f（バツ|θ） f(x \vert \boldsymbol\theta) バツバツxθθ\boldsymbol\thetaθ^θ^\boldsymbol{\hat\theta}θsθs\boldsymbol\theta_{s}バツバツxθ^= θsθ^=θs \boldsymbol{\hat\theta} = \boldsymbol\theta_{s} これは既知の問題ですか？そのような方法は便利ですか？アルゴリズムは利用可能ですか？

22 correlation sampling random-generation covariance-matrix

3

randomForestにランダム効果（または反復測定）を含めるにはどうすればよいですか

質問が意味を成すかどうかはわかりませんが、ランダムな効果を持つランダムフォレストを提案した論文のタイトルを見たと思います。これはRで可能ですか？

22 r random-forest random-effects-model

2

ウィルコクソンの順位和検定とウィルコクソンの符号付き順位検定の違い

Wilcoxon Rank-Sum Testと、ペアの観測値を使用したWilcoxon Signed-Rank Testの理論的な違いは何かと思っていました。Wilcoxon Rank-Sum Testは2つの異なるサンプルで異なる量の観測値を許可するのに対し、ペアのサンプルのSigned-Rankテストはそれを許可しませんが、どちらも同じようにテストするようです。Wilcoxon Rank-Sum Testを使用する必要がある場合と、ペアの観測値を使用してWilcoxon Signed-Rank Testを使用する必要がある場合、誰かがさらに背景/理論的な情報を提供できますか？

22 paired-data wilcoxon-signed-rank wilcoxon-mann-whitney

3

密度推定にベイズのアプローチはありますか

連続確率変数密度を推定することに興味があります。これを行う1つの方法は、カーネル密度推定を使用することです。XXX しかし今、私は次の線に沿ったベイジアンアプローチに興味があります。は最初に分布従うと信じています。を読み取ります。新しい測定値に基づいてを更新する方法はありますか？XXXFFFnnnXXXFFF 私は自分が矛盾しているように聞こえますが、もしのみを以前の分布として信じているなら、それ以外のデータを私に納得させるべきではありません。ただし、があり、私のデータポイントがます。見ると、明らかに以前のものに固執することはできませんが、どうすれば更新できますか？FFFFFFUnif[0,1]Unif[0,1]Unif[0,1](0.3,0.5,0.9,1.7)(0.3,0.5,0.9,1.7)(0.3, 0.5, 0.9, 1.7)1.71.71.7 更新：コメントの提案に基づいて、Dirichletプロセスの検討を開始しました。次の表記法を使用します。 G∼DP(α,H)θi|G∼Gxi|θi∼N(θi,σ2)G∼DP(α,H)θi|G∼Gxi|θi∼N(θi,σ2) G \sim DP(\alpha,H)\\ \theta_i | G \sim G\\ x_i | \theta_i \sim N(\theta_i,\sigma^2) この言語で私の元の問題を組み立てた後、私は次のことに興味があると思います：。これをどのように行うのですか？θn+1|x1,...,xnθn+1|x1,...,xn\theta_{n+1} | x_1,...,x_n でノートのセット（2ページ）、著者は一例た（ Urn Scheme）。これが関連するかどうかはわかりません。θn+1|θ1,...,θnθn+1|θ1,...,θn\theta_{n+1} | \theta_1,...,\theta_n 更新2：私も尋ねたい（メモを見た後）：DPのをどのように選択しますか？ランダムな選択のようです。さらに、DPの以前のをどのように選択しますか？事前として事前確率を使用する必要がありますか？H θ Hαα\alphaHHHθθ\thetaHHH

22 bayesian pdf nonparametric-bayes dirichlet-process

5

Casella＆Bergerの後に学ぶべきことは？

私は数学の基礎がほとんどない純粋な数学の大学院生です。昨年の秋以来、Casella＆Bergerの本の授業を受けており、この本の何百ページ（230+）の運動問題を終えました。今、私は10章にいます。ただし、統計学を専攻していないか、統計学者になることを計画していないため、データ分析を学習し続けるために定期的に時間を費やすことができるとは思いません。これまでの私の経験から、統計学者になるには、さまざまな分布（ワイブル、コーシー、、F ...）を含む多くの退屈な計算に耐える必要があることがわかりました。基本的な考え方はシンプルですが、実装（たとえば、仮説テストでのLRT）は、技術的な理由から依然として難しい場合があります。tttFFF 私の理解は正しいですか？より高度な資料をカバーするだけでなく、現実の生活でデータ分析が必要な場合に役立つ確率と統計を学習する方法はありますか？以前のように週に20時間費やす必要がありますか？≥≥\ge 数学を学ぶ上で王道はないと思いますが、多くの場合、実際のデータの分布が何であるかわからないため、分布のさまざまなファミリーに専念する目的は何ですか？？サンプルサイズが小さく、中心極限定理が適用されない場合、分布が不明な場合にサンプル平均と分散以外のデータを適切に分析するにはどうすればよいですか？私の学期は1か月で終了します。博士課程の研究に集中し始めた後、私の知識が消えてほしくありません。だから私は尋ねることにした。私はRを学んでおり、プログラミングのバックグラウンドがありますが、私のレベルはコードモンキーとほぼ同じです。

22 distributions references eda

5

1980年代からのすべての改善は、はるかに多くのデータとはるかに高速なコンピューターによるものであると主張するディープラーニングに関するこのスライドは、どの程度真実ですか？

私は講演を聞いていて、このスライドを見ました：本当ですか？

22 deep-learning deep-belief-networks

3

データが指数分布に適合するかどうかを確認するにはどうすればよいですか？

給与などのデータがRの連続指数分布からのものであるかどうかを確認するにはどうすればよいですか？これが私のサンプルのヒストグラムです。。どんな助けも大歓迎です！

22 r distributions goodness-of-fit exponential