統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

3
R-残りの用語で混乱
二乗平均平方根誤差 残差平方和 残留標準誤差 平均二乗誤差 テストエラー 私はこれらの用語を理解していたと思っていましたが、統計的な問題を多くすればするほど、私が自分自身を再考する場所を混乱させました。安心と具体的な例をお願いします 方程式はオンラインで簡単に見つけることができますが、これらの用語の「5のような説明」を得るのに苦労しています。 誰もがこのコードを下に取り、これらの用語のそれぞれをどのように計算するかを指摘できるなら、感謝します。Rコードは素晴らしいでしょう。 以下の例を使用します。 summary(lm(mpg~hp, data=mtcars)) 見つける方法をRコードで教えてください: rmse = ____ rss = ____ residual_standard_error = ______ # i know its there but need understanding mean_squared_error = _______ test_error = ________ これらの違い/類似点を5のように説明するためのボーナスポイント。例: rmse = squareroot(mss)

1
ダウンサンプリングはロジスティック回帰係数を変更しますか?
非常にまれな陽性クラスのデータセットがあり、陰性クラスをダウンサンプリングし、ロジスティック回帰を実行する場合、陽性クラスの有病率を変更したという事実を反映するように回帰係数を調整する必要がありますか? たとえば、Y、A、B、Cの4つの変数を持つデータセットがあるとします。Y、A、Bはバイナリで、Cは連続です。11,100個の観測値Y = 0および900 Y = 1の場合: set.seed(42) n <- 12000 r <- 1/12 A <- sample(0:1, n, replace=TRUE) B <- sample(0:1, n, replace=TRUE) C <- rnorm(n) Y <- ifelse(10 * A + 0.5 * B + 5 * C + rnorm(n)/10 > -5, 0, 1) A、B、Cが与えられた場合、Yを予測するためにロジスティック回帰を近似します。 dat1 <- data.frame(Y, …

2
Benjamini&Hochberg(1995)とBenjamini&Yekutieli(2001)の偽発見率手続きの実際の違いは何ですか?
私の統計プログラムは、Benjamini&Hochberg(1995)とBenjamini&Yekutieli(2001)の偽発見率(FDR)手順の両方を実装しています。私は後の論文を読むために最善を尽くしましたが、それは数学的にかなり濃厚であり、手順の違いを理解していると確信できません。統計プログラムの基礎となるコードから、それらは実際に異なり、後者にはFDRに関して言及した量qが含まれていますが、把握していません。 Benjamini&Yekutieli(2001)手順よりもBenjamini&Hochberg(1995)手順を好む理由はありますか?それらには異なる仮定がありますか?これらのアプローチの実際の違いは何ですか? ベンジャミニ、Y。、およびホッホバーグ、Y。(1995)。誤検出率の制御:複数のテストに対する実用的で強力なアプローチ。Journal of the Royal Statistical SocietyシリーズB、57、289–300。 Benjamini、Y。、およびYekutieli、D。(2001)。依存関係にある複数のテストでの誤検出率の制御。統計年報29、1165–1188。 以下のコメントで参照されている1999年の論文:Yekutieli、D.&Benjamini、Y.(1999)。相関テスト統計の複数のテスト手順を制御するリサンプリングベースの誤検出率。Journal of Statistical Planning and Inference、82(1)、171-196。

2
線形モデルの仮定を検証するための残差対適合値プロットの解釈
Rを使用したFarawayの線形モデル(2005年、59ページ)の次の図を検討してください。 最初のプロットは、残差と適合値が無相関であることを示しているようです。これらは、正規分布誤差のあるホモセダスティック線形モデルにあるはずです。したがって、2番目と3番目のプロットは、残差と近似値の間の依存関係を示しているように見えますが、異なるモデルを示唆しています。 しかし、Farawayが指摘しているように、なぜ2番目のプロットは異分散線形モデルを示唆し、3番目のプロットは非線形モデルを示唆しているのでしょうか? 2番目のプロットは、残差の絶対値が近似値と強く正の相関があることを示しているようですが、3番目のプロットではそのような傾向は明らかではありません。そのため、理論的に言えば、正規分布誤差を持つ不均一線形モデルである場合 Cor(e,y^)=⎡⎣⎢⎢1⋮1⋯⋱⋯1⋮1⎤⎦⎥⎥Cor(e,y^)=[1⋯1⋮⋱⋮1⋯1] \mbox{Cor}\left(\mathbf{e},\hat{\mathbf{y}}\right) = \left[\begin{array}{ccc}1 & \cdots & 1 \\ \vdots & \ddots & \vdots \\ 1 & \cdots & 1\end{array}\right] (左の式は残差と近似値の間の分散共分散行列です)、これは2番目と3番目のプロットがFarawayの解釈と一致する理由を説明します。 しかし、これは事実ですか?そうでない場合、2番目と3番目のプロットに対するFarawayの解釈は他にどのように正当化できますか?また、なぜ3番目のプロットが必ずしも非線形性を示しているのですか?線形である可能性はありますが、エラーが正規分布していないか、または正規分布しているがゼロを中心にしない可能性がありますか?


2
モデルの選択と相互検証:正しい方法
CrossValidatedには、モデルの選択と相互検証のトピックに関する多数のスレッドがあります。以下にいくつかを示します。 内部対外部の交差検証とモデル選択 DikranMarsupialの@ トップの答えに特徴選択とクロスバリデーション ただし、これらのスレッドに対する回答はかなり一般的であり、主にクロス検証とモデル選択の特定のアプローチに関する問題を強調しています。 ようなものを作るために、可能な限り具体的な、我々はRBFカーネルをSVMで作業していること、たとえば言う: 、及びそのフィーチャXとラベルyのデータセットがあり、それをしたいK(x,x′)=(γ|x−x′|)2K(x,x′)=(γ|x−x′|)2K(x, x' ) = (\gamma \, \vert x - x'\vert)^2 モデルの可能な限り最良の値を見つける(およびγγ\gammaCCC) データセットを使用してSVMをトレーニングします(最終展開用) 一般化誤差とこの誤差の周りの不確実性(分散)を推定する そうするために、私は個人的にグリッド検索を行います。例えば、とあらゆる可能な組み合わせを試し ます。簡単にするために、次の範囲を想定できます。CCCγγ\gamma C∈{10,100,1000}C∈{10,100,1000}C \in \{10, 100, 1000\} γ∈{0.1,0.2,0.5,1.0}γ∈{0.1,0.2,0.5,1.0}\gamma \in \{0.1, 0.2, 0.5, 1.0\} 具体的には、完全なデータセットを使用して、次のことを行います。 すべての(のためにCCC、γγ\gamma)のペア、私は、の繰り返し(例えば100回のランダム繰り返し)繰り返しんKKKクロスバリデーションを倍(例えばK=10K=10K=10)、私のデータセットに、すなわち私は上の私のSVM訓練K−1K−1K-1折り目をし、評価左の折り畳みにエラーがあり、すべてのKKK折り畳みを繰り返します。全体として、100 x 10 = 1000個のテストエラーを収集します。 そのような(CCC、γγ\gamma)ペアごとに、これらの1000個のテストエラー\ mu_M、\ sigma_Mの平均と分散を計算しμM,σMμM,σM\mu_M, \sigma_Mます。 次に、完全なデータセットで最終的なSVMをトレーニングするために使用する最適なモデル(最適なカーネルパラメーター)を選択します。私の理解では、最小誤差平均と分散 μMμM\mu_MおよびσMσM\sigma_Mを持つモデルを選択することが正しい選択であり、このモデルのμMμM\mu_MはσMσM\sigma_Mは、完全なデータセット。 しかし、上記のスレッドの回答を読んだ後、私はこの方法が配備および/またはそのエラー(一般化パフォーマンス)を推定するための最良のSVMを選択するためのこの方法は欠陥であり、選択するより良い方法があるという印象を受けています最高のSVMとそのエラーの報告。もしそうなら、彼らは何ですか?具体的な答えを探しています。 この問題に固執して、どのようにして具体的に最良のモデルを選択し、その一般化エラーを適切に推定できますか?

3
相関行列が正の半正である必要があるのはなぜですか?また、正の半正であるかどうかはどういう意味ですか?
私は、相関行列または共分散行列の正の半正特性の意味を研究しています。 私は上の情報を探しています 正の半正定性の定義; その重要な特性、実用的な意味; 負の決定要因を持つことの結果、多変量解析やシミュレーション結果への影響など。

3
従属変数の正規性=残差の正規性?
この問題はいつもitsい頭を抱えているようで、私は統計を自分自身で理解するために(そして正気!)首を切り落とそうとしています。 一般的な線形モデルの仮定(t検定、ANOVA、回帰など)には「正規性の仮定」が含まれますが、これが明確に記述されることはめったにありません。 私は、多くの場合、単に「正規性の仮定が」それぞれに適用されることを示す統計の教科書/マニュアル/などに遭遇グループ(すなわち、カテゴリX変数)、そして我々は我々が正常からの逸脱を調べる必要があり、各グループを。 質問: 仮定はY の値またはYの残差を参照していますか? 特定のグループでは、Y 値の強い非正規分布(たとえば、歪んだ)を持つことができますが、Y の残差のほぼ(または少なくともより正規の)分布ですか? 他の情報源は、仮定がモデルの残差に関するものであると説明しています(t検定/ ANOVAなどのグループがある場合)。これらの残差の正規性の逸脱を調べる必要があります(つまり、実行)。 以下のための残差の正規んモデルはのための残差の正規性を意味するものでグループを?言い換えれば、モデルの残差を調べるだけでよい(多くのテキストの指示に反する)。 これを状況に当てはめるために、この架空の例を考えてみましょう。 2つの母集団(X)間のツリーの高さ(Y)を比較します。 1つの母集団では、Yの分布は強く右に歪んでいます(つまり、ほとんどの木が短く、背が非常にわずかです)。 身長は、正規分布の母集団で全体的に高くなっています(「本当の」違いがある可能性を示唆しています)。 データの変換は、最初の母集団の分布を実質的に改善しません。 まず、根本的に異なる高さ分布が与えられたグループを比較することは有効ですか? ここで「正常性の仮定」にアプローチするにはどうすればよいですか?1つの母集団のリコールの高さは正規分布ではありません。両方の母集団の残差を個別に調べるか、モデルの残差を調べますか(t検定)? 返信で質問を番号で参照してください。経験により、人々は迷子になったり、簡単に追跡できたりすることがわかりました(特に私です!)。私は統計学者ではないことに注意してください。ただし、統計についてはかなり概念的な(つまり、技術的ではない!)理解があります。 PS、私はアーカイブを検索し、私の理解を強固にしていない次のスレッドを読みました。 ANOVA仮定の正規性/残差の正規分布 残差対標本データの正規性; t検定はどうですか? 正規性テストは「本質的に役に立たない」ですか? 正常性のテスト 分布の正規性の評価 残差が正規分布していることを確認するために、どのテストを使用しますか? Kolmogorov-Smirnov検定がパラメトリック検定の残差に対して重要であるが、歪度と尖度が正常に見える場合はどうすればよいですか?

3
複数の代入後の傾向スコアのマッチング
私はこの論文を参照します:Hayes JR、Groner JI。 「複数の代入および傾向スコアを使用して、外傷登録データからの損傷の重症度に対するカーシートおよびシートベルト使用の影響をテストします。」 J Pediatr Surg。2008 5月; 43(5):924-7。 この研究では、15の完全なデータセットを取得するために複数の代入が実行されました。次に、各データセットの傾向スコアが計算されました。次に、各観測単位について、完成した15個のデータセット(関連する傾向スコアを含む)の1つからレコードがランダムに選択され、傾向スコアマッチングによって分析される単一の最終データセットが作成されました。 私の質問は次のとおりです。これは、複数の代入に続く傾向スコアのマッチングを実行する有効な方法ですか?それを行う別の方法はありますか? コンテキスト:私の新しいプロジェクトでは、傾向スコアマッチングを使用して2つの治療法の効果を比較することを目指しています。欠損データがありMICEます。R のパッケージを使用して欠損値を代入twangし、傾向スコアのマッチングを行い、マッチングlme4したデータを分析します。 アップデート1: 異なるアプローチをとるこの論文を見つけました。Mitra、Robin and Reiter、Jerome P.(2011)反復シーケンシャル多重代入による欠落した共変量との傾向スコアのマッチング[Working Paper] この論文では、著者はすべての帰属データセットの傾向スコアを計算し、平均化によってそれらをプールします。これは、ポイント推定にルービンのルールを使用した多重帰属の精神に基づいていますが、傾向スコアには本当に適用可能ですか? これらの2つの異なるアプローチ、および/または他のアプローチについてのコメントをCVの誰かが提供できれば、本当に素晴らしいでしょう。

5
ニューラルネットワークトレーニングの逆伝播と遺伝的アルゴリズム
私は各方法の長所と短所を議論するいくつかの論文を読みました。GAが最適な解決策を見つけるのに何の改善ももたらさないと主張する人もいれば、それがより効果的であることを示す人もいます。文学では一般的にGAが好まれているようですが(ほとんどの場合、人々は必要な結果を得るために何らかの方法でそれを変更します)、ソフトウェアソリューションの大半は逆伝播のみを使用するように見えるのはなぜですか? どちらを使用するかについて、一般的な経験則はありますか?多分それはNNのタイプに依存するか、一般的に他のものよりも優れた最先端のソリューションが存在しますか? 可能であれば、一般的な答えを探しています。つまり、「NNが大きい場合、GAの方が良い」、または「GAは常に優れていますが、計算パフォーマンスの問題があります」などです。

3
ランダム効果が重要かどうかをテストするにはどうすればよいですか?
ランダム効果をいつ使用するか、いつ使用する必要がないかを理解しようとしています。私が経験した4つ以上のグループ/個人がいる場合は経験則だと言われました(15の個々のムース)。これらのムースのいくつかは、合計29回の試行で2回または3回実験されました。リスクの高い地域にいるときとそうでないときで行動が異なるかどうかを知りたい。だから、私は個人をランダム効果として設定すると思いました。しかし、私は今、彼らの反応に多くの変化がないので、個人を変量効果として含める必要はないと言われています。私が理解できないのは、個人をランダム効果として設定するときに、実際に何らかの原因があるかどうかをテストする方法です。たぶん最初の質問は:Individualが適切な説明変数であり、固定効果であるべきかどうかを判断するために、どのテスト/診断を行うことができますか-qqプロット?ヒストグラム?散布図?そして、私はそれらのパターンで何を探すでしょう。 ランダムな効果として個人なしでモデルを実行しましたが、http://glmm.wikidot.com/faqで次のように述べています: lmerモデルを対応するlm近似またはglmer / glmと比較しないでください。対数尤度は釣り合っていない(つまり、異なる加算項が含まれている) そして、ここでは、これは、ランダム効果のあるモデルとないモデルの比較ができないことを意味します。しかし、とにかくそれらを比較する必要があるか本当に知りません。 ランダム効果のモデルでは、出力を見て、REがどのような証拠または重要性を持っているかを確認しようとしました lmer(Velocity ~ D.CPC.min + FD.CPC + (1|ID), REML = FALSE, family = gaussian, data = tv) Linear mixed model fit by maximum likelihood Formula: Velocity ~ D.CPC.min + FD.CPC + (1 | ID) Data: tv AIC BIC logLik deviance REMLdev -13.92 -7.087 11.96 …


3
一般化線形モデルと一般化線形混合モデルの違い
混合GLMと非混合GLMの違いは何ですか?たとえば、SPSSでは、ユーザーがドロップダウンメニューを使用して次のいずれかに適合できます。 analyze-> generalized linear models-> generalized linear models & analyze-> mixed models-> generalized linear 欠損値の扱いは異なりますか? 私の従属変数はバイナリであり、いくつかのカテゴリ変数および連続独立変数があります。

5
CV / Bootstrapを使用して機械学習アルゴリズムをトレーニングすることでオーバーフィットできますか?
この質問は、決定的な答えを得るにはあまりにもオープンエンドかもしれませんが、そうでないことを願っています。 SVM、GBM、ランダムフォレストなどの機械学習アルゴリズムには、一般に、いくつかの経験則を超えて、各データセットに合わせて調整する必要があるいくつかの無料のパラメーターがあります。これは、一般的に、ある種の再サンプリング手法(ブートストラップ、CVなど)で行われ、最良の一般化エラーを与えるパラメーターのセットに適合します。 私の質問は、あなたがここにすぎ行くことができるのですか?人々はグリッド検索を行うことなどについて話しますが、なぜこれを最適化問題として扱い、可能な限り最良のパラメータセットにドリルダウンしないのですか?私はこのいくつかの仕組みについて尋ね、この質問が、それは多くの注目を集めていません。質問はひどく聞かれたかもしれませんが、おそらく質問自体は人々が一般にしない悪いアプローチを表しているのでしょうか? どのような私を気にすることは正則の欠如です。再サンプリングすると、このデータセットのGBMで成長するのに最適なツリーの数は647で、相互作用の深さは4ですが、これが新しいデータに当てはまることをどのように確認できますか(新しい母集団を仮定して) )トレーニングセットと同一ですか?「縮小」する合理的な価値がない場合(または、情報を提供する事前情報がない場合)、リサンプリングは私たちができる最善の方法のようです。私はこのことについて何も話を聞いていないので、何か足りないものがあるのではないかと思います。 明らかに、多くの反復を行ってモデルの予測力の最後のビットを絞り出すことに関連する大きな計算コストがあるため、これは明らかに、最適化とすべてのビットを行うための時間/うなりを持っている場合にあなたがすることですパフォーマンスの改善は貴重です。

4
データには2つの傾向があります。独立したトレンドラインを抽出する方法は?
特定の方法で順序付けられていないデータのセットがありますが、明確にプロットすると2つの明確な傾向があります。ここでは、2つのシリーズが明確に区別されているため、単純な線形回帰は適切ではありません。2つの独立した線形トレンドラインを取得する簡単な方法はありますか? 記録のために、私はPythonを使用しており、機械学習を含むプログラミングとデータ分析にかなり満足していますが、絶対に必要な場合はRに飛び乗ります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.