統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A



8
(信頼区間が利用可能な場合)仮説検定を教えて使用し続けるのはなぜですか?
なぜ区間推定器がある問題(自信、ブートストラップ、信頼性など)のために、仮説テスト(すべての難しい概念を含み、最も統計的な罪の1つ)を教え、使用し続けるのですか?学生に与えられる最良の説明(もしあれば)は何ですか?伝統だけ?ビューは大歓迎です。

12
グラフからデータを取得するために必要なソフトウェア[終了]
デカルト座標(標準の日常プロット)にプロットされたデータのイメージを取得し、グラフにプロットされたポイントの座標を抽出するソフトウェア(できれば無料、できればオープンソース)の経験がありますか? 本質的に、これはデータマイニングの問題であり、データの可視化の逆の問題です。

13
過去15年間の統計のブレークスルーは何ですか?
Friedman-Hastie-TibshiraniによるBoostingに関する統計の論文と、他の著者(フロイントとシャピレを含む)による同じ問題に関するコメントを今でも覚えています。当時、明らかにBoostingは多くの点でブレークスルーと見なされていました。計算的に実行可能なアンサンブルメソッドであり、優れた、しかし神秘的なパフォーマンスを備えています。ほぼ同時期に、SVMは成熟し、堅固な理論に裏打ちされたフレームワークを提供し、多くのバリアントとアプリケーションを備えています。 それは素晴らしい90年代でした。過去15年間に、多くの統計はクリーンで詳細な操作でしたが、本当に新しい見解はほとんどありませんでした。 そこで、2つの質問をします。 革命的/最終的な論文を見逃していませんか? そうでない場合、統計的推論の視点を変える可能性があると思われる新しいアプローチはありますか? ルール: 投稿ごとに1つの回答。 参照またはリンクを歓迎します。 PS:有望なブレークスルーの候補がいくつかあります。後で投稿します。



6
Rのどの置換テストの実装をt検定(ペアおよび非ペア)の代わりに使用しますか?
t検定を使用して分析した実験のデータがあります。従属変数は間隔スケーリングされ、データはペア化されていない(つまり、2つのグループ)か、ペアリングされています(つまり、被験者内)。例(被験者内): x1 <- c(99, 99.5, 65, 100, 99, 99.5, 99, 99.5, 99.5, 57, 100, 99.5, 99.5, 99, 99, 99.5, 89.5, 99.5, 100, 99.5) y1 <- c(99, 99.5, 99.5, 0, 50, 100, 99.5, 99.5, 0, 99.5, 99.5, 90, 80, 0, 99, 0, 74.5, 0, 100, 49.5) ただし、データは正常ではないため、あるレビューアがt検定以外の何かを使用するように依頼しました。ただし、簡単にわかるように、データは正規分布しているだけでなく、条件間で分布が等しくありません。 したがって、通常のノンパラメトリック検定であるMann-Whitney-U-Test(unpaired)およびWilcoxon Test(paired)は、条件間で均等に分布する必要があるため使用できません。したがって、いくつかのリサンプリングまたは置換テストが最適であると判断しました。 今、私はt検定の置換ベースの同等物のR実装、またはデータをどうするかについての他のアドバイスを探しています。 私にこれを行うことができるいくつかのRパッケージ(コイン、パーマ、exactRankTestなど)があることは知っていますが、どれを選ぶべきかわかりません。したがって、これらのテストを使用した経験のある人がキックスタートを提供できれば、それは非常にクールです。 …

5
計量経済学の「変量効果モデル」は、計量経済学以外の混合モデルとどの程度正確に関係していますか?
計量経済学の「ランダム効果モデル」は、計量経済学の外の「ランダムな切片を持つ混合モデル」に対応すると考えていましたが、今はわかりません。しますか? 計量経済学では、「固定効果」や「ランダム効果」などの用語を混合モデルに関する文献とは多少異なる方法で使用しているため、悪名高い混乱が生じています。私たちは、単純な状況について考えてみましょう直線的に依存してが、測定値の異なるグループで異なる切片での:xyyyxxx yit=βxit+ui+ϵit.yit=βxit+ui+ϵit.y_{it} = \beta x_{it} + u_i + \epsilon_{it}. ここで、各ユニット/グループは異なる時点観測されます。計量経済学者はそれを「パネルデータ」と呼びます。トンiiittt 混合モデルの用語では、を固定効果またはランダム効果(この場合はランダムインターセプト)として扱うことができます。固定として扱うことは、とをフィッティングして、平方誤差を最小化することを意味します(つまり、ダミーグループ変数を使用してOLS回帰を実行する)。それを我々はさらにその仮定として、ランダムな手段治療と合わせて最大尤度を使用しとの代わりに、各フィッティング独自にします。これは、推定値が平均値向かって縮小する「部分プーリング」効果にます。β uと I uのI〜N(U 0、σ 2 U)U 0 σ 2 U U I 、U I 、U 0uiuiu_iβ^β^\hat \betau^iu^i\hat u_iui∼N(u0,σ2u)ui∼N(u0,σu2)u_i\sim\mathcal N(u_0,\sigma^2_u)u0u0u_0σ2uσu2\sigma^2_uuiuiu_iu^iu^i\hat u_iu^0u^0\hat u_0 R formula when treating group as fixed: y ~ x + group R formula when treating group …

8
特定の平均値や標準偏差など、特定の制約を満たすデータをシミュレートする方法は?
この質問は、メタ分析に関する私の質問に基づいています。しかし、既存の公開されたデータセットを正確に反映するデータセットを作成したいコンテキストを教えるのにも役立つと思います。 特定の分布からランダムデータを生成する方法を知っています。たとえば、次のような研究の結果について読んだ場合: 平均102 5.2の標準偏差、および サンプルサイズは72です。 rnormR を使用して同様のデータを生成できます。たとえば、 set.seed(1234) x <- rnorm(n=72, mean=102, sd=5.2) もちろん、平均とSDはそれぞれ102と5.2に正確には等しくありません。 round(c(n=length(x), mean=mean(x), sd=sd(x)), 2) ## n mean sd ## 72.00 100.58 5.25 一般的に、一連の制約を満たすデータをシミュレートする方法に興味があります。上記の場合、制約はサンプルサイズ、平均、標準偏差です。他の場合には、追加の制約があるかもしれません。例えば、 データまたは基になる変数の最小値と最大値がわかっている場合があります。 変数は整数値のみ、または非負の値のみをとることがわかっている場合があります。 データには、相互相関が既知の複数の変数が含まれる場合があります。 ご質問 一般に、一連の制約を正確に満たすデータをどのようにシミュレートできますか? これについて書かれた記事はありますか?Rにこれを行うプログラムはありますか? 例のために、特定の平均値とsdを持つように変数をどのようにシミュレートできますか?

2
収縮が働くのはなぜですか?
モデル選択の問題を解決するために、いくつかの方法(LASSO、リッジ回帰など)が予測変数の係数をゼロに縮小します。これが予測能力を向上させる理由の直感的な説明を探しています。変数の実際の効果が実際に非常に大きかった場合、パラメーターを縮小しても予測が悪化しないのはなぜですか?

2
変数選択のより決定的な議論
バックグラウンド 私は医学の臨床研究を行っており、いくつかの統計コースを受講しています。私は線形/ロジスティック回帰を使用した論文を公開したことがなく、変数の選択を正しく行いたいと考えています。解釈可能性は重要なので、凝った機械学習技術はありません。変数選択についての私の理解をまとめました-誰かが誤解に光を当てることを気にしますか?私が見つかりました。2(1)と同様のこの1の(2)CVの記事、しかし、彼らは非常に完全に私の懸念に答えませんでした。どんな考えでも大歓迎です!最後に3つの主要な質問があります。 問題と議論 私の典型的な回帰/分類問題には、200-300の観測値、15%の有害事象率(分類の場合)、および文献で「統計的に有意な」効果があると主張された、またはもっともらしいと主張されている40の変数のうち25の情報がありますドメイン知識によるセンス。 「統計的に有意」を引用符で囲みます。これは、全員と母親がステップワイズ回帰を使用しているように見えますが、Harrell(3)とFlom(4)は多くの正当な理由でそれを好まないようです。これは、Gelmanブログ投稿ディスカッション(5)でさらにサポートされています。ステップワイズが受け入れられるのは、これが本当に探索的分析であるか、予測に関心があり、相互検証スキームが関係している場合のみです。特に、多くの医学的併存症は共線性に悩まされ、研究は小さなサンプルサイズに悩まされるため、私の理解では、文献には多くの偽陽性が存在するということです。また、これにより、含める可能性のある変数について文献を信頼する可能性が低くなります。 別の一般的なアプローチは、予測変数と独立変数間の一連の単変量回帰/関連付けを開始点として使用することです。特定のしきい値未満(たとえば、p <0.2)。このStackExchangeの投稿(6)で概説されている理由により、これは間違っているか、少なくとも誤解を招くように思われます。 最後に、機械学習で一般的に見られる自動化アプローチは、L1(Lasso)、L2(Ridge)、L1 + L2コンボ(Elastic Net)などのペナルティを使用することです。私の理解では、これらにはOLSやロジスティック回帰と同じ簡単な解釈はありません。 Gelman + Hillは以下を提案します。 Statsコースでは、Fテストまたは逸脱分析を使用して、完全なモデルとネストされたモデルを比較し、変数ごとにモデル/変数選択を行うことも思い出します。これは理にかなっているように思えますが、dfごとの逸脱の最大の低下を引き起こす変数を見つけるために、順番にネストされたモデルをフィッティングすることは、簡単に自動化できるように思えるので(少し心配です)、次の順序の問題に苦しんでいるようにも見えます変数の包含をテストします。私の理解では、これは多重共線性と残差プロット(残差対予測)を調べることによっても補足されるべきであるということです。 質問: ゲルマンの要約は進むべき道ですか?彼の提案した戦略で何を追加または変更しますか? 潜在的な相互作用と変換(非常に偏り/エラー/脱落が発生しやすいようです)について純粋に考える以外に、潜在的なものを発見する別の方法はありますか?多変量適応回帰スプライン(MARS)が推奨されましたが、非線形性/変換は標準回帰モデルの同じ変数に変換されないことが通知されました。 私の目標が非常に単純だとしましょう:「Y上のX1の関連付けを推定したいのですが、X2のみを考慮します」。Y〜X1 + X2を単に回帰するだけで、実際の予測能力を参照せずに結果を報告するだけで十分ですか(クロス検証RMSEまたは精度測定によって測定される場合があります)?これは、イベントレートやサンプルサイズに応じて、またはR ^ 2が非常に低い場合に変化しますか(R ^ 2はオーバーフィッティングによって常に増加させることができるため、R ^ 2は良くないことを認識しています)。一般的に、予測力を最適化するよりも推論/解釈可能性に興味があります。 結論の例: 「X2の制御、X1はX1の参照レベルと比較してYと統計的に有意に関連していませんでした。」(ロジスティック回帰係数) 「X1はYの統計的に有意な予測因子ではありませんでした。モデルではdfの変化に対して逸脱度の低下が十分ではなかったからです。」(逸脱の分析) 相互検証は常に必要ですか?その場合、SMOTE、サンプリングなどを介してクラスのバランスを取ることもできます。

10
統計における時代錯誤的な実践の例は何ですか?
対処するように設計された問題(通常は計算上の問題)のほとんどが解決されているにもかかわらず、その存在を維持しているプラ​​クティスに言及しています。 たとえば、Yatesの連続性補正は、フィッシャーの正確検定を検定で近似するために発明されましたが、ソフトウェアが大きなサンプルでもフィッシャーの検定を処理できるようになったため、実用的ではなくなりました(これは「 AgrestiのCategorical Data Analysisのような教科書は、Yatesの修正が「もはや必要ではない」ことをしばしば認めているため、その存在を維持します)。χ2χ2\chi^2 そのような慣行の他の例は何ですか?

1
ロジスティック回帰のWald検定
私の知る限り、ロジスティック回帰のコンテキストでのWald検定は、特定の予測変数が有意であるかどうかを判断するために使用されます。対応する係数がゼロであるという帰無仮説を棄却します。XXX テストでは、係数の値を標準誤差で除算します。σσ\sigma 私が混乱しているのは、がZスコアとも呼ばれ、与えられた観測値が正規分布(平均ゼロ)から生じる可能性を示していることです。X/σX/σX/\sigma

10
常連客は誰ですか?
我々はすでに求めてスレッドを持っていたBayesiansある人、もう1つは尋ねfrequentistsがBayesiansであれば、しかし直接尋ねるどのスレッドがなかったfrequentistsている人は?これは、@ whuber がこのスレッドへのコメントとして尋ねた質問であり、回答を求めています。それらは存在しますか?たぶん、彼らは主流の統計を批判するときに責めるためにスケープゴートを必要としたベイジアンによって作られたのでしょうか? すでに与えられた答えへのメタコメント:対照的に、ベイジアン統計は、ベイズの定理の使用(非ベイジアンも使用する)だけで定義されているわけではなく、確率の主観主義的解釈の使用についても定義されていません(素人とは呼ばないでしょう)「確率は50:50未満だと思います!」と言っています)-頻度の採用は、確率の採用された解釈に関してのみ定義できますか?また、統計確率を適用し≠≠\ne、そのfrequentismの定義は、単に確率の解釈に集中する必要がありますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.