統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

1
LDA決定境界の計算とグラフ化
The Statistics Learning of Elementsの決定境界を持つLDA(線形判別分析)プロットを見ました。 データは低次元の部分空間に投影されることを理解しています。ただし、元の次元で決定境界を取得する方法を知りたいので、決定境界を低次元のサブスペースに投影できます(上の画像の黒い線のように)。 元の(より高い)次元の決定境界を計算するために使用できる式はありますか?はいの場合、この式にはどのような入力が必要ですか?

2
同じデータセットに対するPCAと探索的因子分析:相違点と類似点。因子モデルとPCA
同じデータセットに対して主成分分析(PCA)と探索的因子分析(EFA)を実行することが論理的に意味があるかどうかを知りたいです。専門家が明示的に推奨することを聞いたことがあります: 分析の目的が何であるかを理解し、データ分析にPCAまたはEFAを選択します。 1つの分析を行った後、他の分析を行う必要はありません。 私はこの2つの動機付けの違いを理解していますが、PCAとEFAが同時に提供する結果の解釈に何か問題があるのではないかと思っていましたか?

2
ブートストラップ-最初に外れ値を削除する必要がありますか?
新しい製品機能の分割テストを実行し、収益の増加が著しいかどうかを測定したいと考えています。私たちの観察結果は間違いなく正規分布ではありません(ほとんどのユーザーは使いません、そしてそうする人の中では、多くの小さな消費者といくつかの非常に大きな消費者に大きく偏っています)。 ブートストラップを使用して手段を比較し、データが正常に配信されないという問題を回避することにしました(サイド質問:これはブートストラップの合法的な使用ですか?) 私の質問は、ブートストラップを実行する前に、データセット(例:非常に大きな支出者)から外れ値を削除する必要がありますか、それとも問題ではありませんか?

1
分析的なヤコビアンが利用可能な場合、ヘッセ行列をで近似するか、ヤコビアンの有限差分で近似する方が良いでしょうか?
いくつかのモデルパラメーターを計算して、残差の2乗和を最小化し、誤差がガウス分布であると仮定するとします。私のモデルは分析的な微分を生成するため、オプティマイザーは有限差分を使用する必要がありません。適合が完了したら、適合パラメーターの標準誤差を計算します。 一般に、この状況では、エラー関数のヘッシアンは次のように共分散行列に関連付けられます: ここで、は残差の分散です。σ 2σ2H−1=Cσ2H−1=C \sigma^2 H^{-1} = C σ2σ2\sigma^2 誤差の分析的微分が利用できない場合、ヘッシアンを計算することは通常非実用的であるため、が適切な近似として採用されます。JTJJTJJ^TJ ただし、私の場合、分析Jを持っているので、有限差分JでHを計算するのは比較的安価です。 したがって、私の質問は次のとおりです:正確なJを使用してHを近似し、上記の近似を適用するか、Jを有限差分Jで近似する方が正確ですか?

3
ボックスプロットから歪度を評価する方法は?
このデータから作成された箱ひげ図を見て歪度を決定する方法: 340、300、520、340、320、290、260、330 ある本は、「下位の四分位数が上位の四分位数よりも中央値から遠い場合、分布は負に歪んでいます」と述べています。他のいくつかの情報源は、ほぼ同じことを言った。 Rを使用して箱ひげ図を作成しました。次のようなものです。 下の四分位数は上の四分位数よりも中央値から遠いので、それは負に歪んでいると思います。しかし、問題は、歪度を決定するために別の方法を使用する場合です。 平均(337.5)>中央値(325) これは、データが正に歪んでいることを示します。私は何か見落としてますか?

3
リッジ回帰とPCA回帰の関係
私はウェブ上のどこかでリッジ回帰(正則化)とPCA回帰の関係を読んだことを覚えています:ハイパーパラメーターで -regularized回帰を使用している場合、場合、回帰は最小の固有値を持つPC変数。ℓ 2 λℓ2ℓ2\ell_2ℓ2ℓ2\ell_2λλ\lambdaλ → 0λ→0\lambda \to 0 なぜこれが本当ですか? これは最適化手順と関係がありますか?単純に、私はそれがOLSと同等であると予想していました。 誰かがこれに関するリファレンスを持っていますか?

4
実際には、データが仮定を完全に満たしていない場合、人々はどのように分散分析を処理しますか?
これは厳密な統計問題ではありません。ANOVAの仮定に関するすべての教科書を読むことができます。実際の作業アナリストが仮定を完全に満たさないデータをどのように処理するかを考えています。私はこのサイトで多くの質問に答えを探しましたが、ANOVAを使用しないとき(抽象的で理想的な数学的コンテキストで)またはRで以下に説明するいくつかの方法を行う方法についての投稿を探し続けています。人々が実際にどのような決定を下し、なぜそれを決定しようとしているのか。 4つのグループのツリー(統計ツリーではなく実際のツリー)からグループ化されたデータの分析を実行しています。各ツリーには約35の属性のデータがあり、各属性を調べて、その属性でグループが大きく異なるかどうかを判断します。ただし、いくつかのケースでは、分散が等しくないため、ANOVAの仮定にわずかに違反します(Leveneのテストによると、alpha = .05を使用)。 私が見るように、私のオプションは次のとおりです。1.データをパワー変換し、Levene p-valを変更するかどうかを確認します。2.ウィルコクソンのようなノンパラメトリック検定を使用します(もしそうなら、どれですか?)。3.ボンフェローニのように、ANOVAの結果に対して何らかの修正を行います(実際にこのようなものが存在するかどうかはわかりませんか?)。最初の2つのオプションを試したところ、わずかに異なる結果が得られました。場合によっては、一方のアプローチが重要で、もう一方のアプローチは重要ではありません。私はp値の釣りのtrapに陥ることを恐れており、どのアプローチを使用するのかを正当化するのに役立つアドバイスを探しています。 また、平均と分散が相関しない限り(つまり、両者が一緒に増加する)ANOVAの場合、不均一分散性はそれほど大きな問題ではないことを示唆するものも読んでいます。そのようなパターン?もしそうなら、これのテストはありますか? 最後に、ピアレビューされたジャーナルへの掲載のためにこの分析を行っていることを付け加える必要があります。そのため、私が決めようとするアプローチはすべて、レビューアーと一緒に合格しなければなりません。だから、もし誰かが同様の公開された例へのリンクを提供できれば素晴らしいでしょう。

4
GEE:適切な作業相関構造の選択
私は、コホート研究を適切に分析するためにGEEを理解しようとする疫学者です(ログリンクでポアソン回帰を使用して、相対リスクを推定します)。「作業相関」についていくつかの質問がありますので、もっと知識のある人に明確にしてもらいたいです。 (1)同じ個人で測定を繰り返した場合、通常、交換可能な構造を想定するのが最も合理的ですか?(または、測定値が傾向を示す場合は自己回帰)?独立性についてはどうですか?同じ個人の測定値について独立性を仮定できるケースはありますか? (2)データを調べて適切な構造を評価する(合理的に単純な)方法はありますか? (3)独立構造を選択するとき、単純なポアソン回帰(R、関数glm()、およびgeeglm()パッケージを使用)を実行するときと同じポイント推定値(ただし標準誤差は低い)が得られることに気付きましたgeepack。なぜこうなった?GEEでは、母集団平均モデルを推定する(対象固有とは対照的に)ので、線形回帰の場合にのみ同じポイント推定値を取得する必要があることを理解しています。 (4)コホートが複数のロケーションサイトにある場合(ただし、個人ごとに1つの測定)、独立性または交換可能な作業相関を選択する必要がありますか?つまり、各サイトの個人はまだ互いに独立しているということですか?? したがって、たとえば、被験者固有のモデルの場合、サイトをランダム効果として指定します。しかし、GEEの場合、独立性と交換可能性は異なる推定値を与えるため、基礎となる仮定の点でどちらが優れているかはわかりません。 (5)GEEは、2レベルの階層的クラスタリング、つまり、個人ごとに繰り返し測定されるマルチサイトコホートを処理できますか?はいの場合geeglm()、第1レベル(サイト)が「独立」で、第2レベル(個人)が「交換可能」または「自己回帰」であると想定する場合、クラスタリング変数として何を指定し、作業相関を何に指定する必要がありますか? これらはかなりの数の質問であり、それらのいくつかはかなり基本的なものであると理解していますが、それでも私(および他の初心者?)が把握するのは非常に困難です。それで、どんな助けも大いにそして心から感謝します、そして、これを示すために、私は賞金を始めました。
19 gee 

1
キャレットと係数(glmnet)
キャレットを使用して、特定のデータセットの推論を行うことに興味があります。以下を行うことは可能ですか? キャレットでトレーニングしたglmnetモデルの係数を生成します。glmにあるとは思わないので、固有の機能選択のためにglmnetを使用したいと思いますか? ROCメトリック以外に、モデルの適合を評価するために利用できる別のメトリックはありますか?調整済み?R2R2R^2 この分析の目的は、予測ではなく、特定の変数の影響に関する推論を導き出すことです。キャレットパッケージは、これまでマトリックスを使用して簡単に操作できたため、気に入っています。
19 caret  glmnet 


2
ランダムフォレストは過剰適合ですか?
私はscikit-learnを使用してランダムフォレストで実験しており、トレーニングセットでは素晴らしい結果を得ていますが、テストセットでは比較的悪い結果が得られています... ここに私が解決しようとしている問題(ポーカーに触発された)があります:プレーヤーAのホールカード、プレーヤーBのホールカード、およびフロップ(3枚のカード)がある場合、どのプレーヤーが最高のハンドを持っていますか?数学的には、これは14個の入力(7枚のカード-それぞれに1つのランクと1つのスーツ)と1つの出力(0または1)です。 これまでの私の結果の一部を以下に示します。 Training set size: 600k, test set size: 120k, number of trees: 25 Success rate in training set: 99.975% Success rate in testing set: 90.05% Training set size: 400k, test set size: 80k, number of trees: 100 Success rate in training set: 100% Success rate in testing set: …

4
最良の予測子としての条件付き期待値の証明に関する問題
の証明に問題がある E(Y|X)∈argming(X)E[(Y−g(X))2]E(Y|X)∈arg⁡ming(X)E[(Y−g(X))2]E(Y|X) \in \arg \min_{g(X)} E\Big[\big(Y - g(X)\big)^2\Big] 期待と条件付き期待のより深い誤解を明らかにする可能性が非常に高い。 私が知っている証明は次のとおりです(この証明の別のバージョンはここにあります) ===argming(X)E[(Y−g(x))2]argming(X)E[(Y−E(Y|X)+E(Y|X)−g(X))2]argming(x)E[(Y−E(Y|X))2+2(Y−E(Y|X))(E(Y|X)−g(X))+(E(Y|X)−g(X))2]argming(x)E[2(Y−E(Y|X))(E(Y|X)−g(X))+(E(Y|X)−g(X))2]arg⁡ming(X)E[(Y−g(x))2]=arg⁡ming(X)E[(Y−E(Y|X)+E(Y|X)−g(X))2]=arg⁡ming(x)E[(Y−E(Y|X))2+2(Y−E(Y|X))(E(Y|X)−g(X))+(E(Y|X)−g(X))2]=arg⁡ming(x)E[2(Y−E(Y|X))(E(Y|X)−g(X))+(E(Y|X)−g(X))2]\begin{align*} &\arg \min_{g(X)} E\Big[\big(Y - g(x)\big)^2\Big]\\ = &\arg \min_{g(X)} E \Big[ \big(Y - E(Y|X) + E(Y|X) - g(X)\big)^2\Big]\\ =&\arg \min_{g(x)} E \Big[ \big(Y - E(Y|X)\big)^2 + 2 \big(Y - E(Y|X)\big) \big(E(Y|X) - g(X)\big) + \big(E(Y|X) - g(X)\big)^2\Big]\\ =&\arg \min_{g(x)} E …

1
Rの「マルチノム」のp値の取得(nnetパッケージ)
パッケージのmultinom関数を使用してp値を取得するにはどうすればよいですか?nnetR 結果変数として「病理スコア」(不在、軽度、重度)、および2つの主な効果で構成されるデータセットがあります。 ATB1;感染+ ATB2;感染+ ATB3)。 最初に、順序変数回帰モデルを適合させようとしました。これは、私の従属変数(順序)の特性を考えると、より適切と思われます。ただし、オッズの比例性の仮定は(グラフィック的に)大きく違反しているため、代わりにnnetパッケージを使用して多項モデルを使用する必要がありました。 最初に、ベースラインカテゴリとして使用する必要がある結果レベルを選択しました。 Data$Path <- relevel(Data$Path, ref = "Absent") 次に、独立変数のベースラインカテゴリを設定する必要がありました。 Data$Age <- relevel(Data$Age, ref = "Twenty") Data$Treat <- relevel(Data$Treat, ref="infected without ATB") モデル: test <- multinom(Path ~ Treat + Age, data = Data) # weights: 18 (10 variable) initial value 128.537638 iter 10 value 80.623608 final …

4
ベイジアン統計でパワー解析は必要ですか?
私は最近、ベイジアンの古典統計に関する見解を研究しています。ベイズ因子について読んだ後、この統計の観点で電力分析が必要かどうか疑問に思っていました。これを疑問に思う主な理由は、ベイズ因子が実際に尤度比であるように見えることです。25:1になったら、夜と呼べるように思えます。 私は遠いですか?さらに学ぶために私ができる他の読書はありますか?現在この本を読んでいます: WM BolstadによるBayesian Statisticsの紹介(Wiley-Interscience; 2nd ed。、2007)。

3
中心極限定理に大きなサンプルサイズが必要な分布の例
一部の書籍では、中心極限定理が適切に近似するために、サイズ30以上のサンプルサイズが必要であると述べてい。 X¯X¯\bar{X} これはすべてのディストリビューションに十分ではないことを知っています。 サンプルサイズが大きい場合(おそらく100、1000、またはそれ以上)でも、サンプル平均の分布がかなり歪んでいる分布の例をいくつか見たいと思います。 私は以前にそのような例を見たことがあることを知っていますが、どこにあるか思い出せず、見つけることができません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.