統計とビッグデータ

4

同じ帰無仮説でNNN独立した統計検定を実行していますが、結果を1つのppp値に結合したいと思います。Fisherの方法とStoufferの方法の 2つの「受け入れられた」方法があるようです。私の質問は、ストーファーの方法についてです。個別のテストごとに、zスコアz_iを取得しz私z私z_iます。帰無仮説では、それらはそれぞれ標準正規分布で分布するため、和ΣのZ私Σz私\Sigma z_iは分散Nの正規分布に従いますNNN。したがって、Stoufferの方法は、単位分散で正規分布する\ Sigma z_i / \ sqrt {N}を計算しΣのZ私/ N−−√Σz私/N\Sigma z_i / \sqrt{N}、これをジョイントzスコアとして使用することを提案しています。これは理にかなっていますが、ここで私が思いついた別のアプローチがあり、これも理にかなっています。各z私z私z_iは標準正規分布に由来するため、平方和S= Σ Z2私S=Σz私2S=\Sigma z^2_iはNNN自由度のカイ2乗分布に由来する必要があります。したがって、N自由度の累積カイ2乗分布関数を使用してSSSを計算し、ppp値に変換できます（p = 1−X_N（S）、X_NはCDF）。NNNp = 1 − XN（S）p=1−バツN（S）p=1−X_N(S)バツNバツNX_N しかし、このアプローチが言及されていることすら見つけることができません。使用されたことがありますか？名前はありますか？ストーファーの方法と比較した場合の利点/欠点は何ですか？または、私の推論に欠陥がありますか？

22 hypothesis-testing chi-squared p-value multiple-comparisons combining-p-values

3

ヒストグラムよりもQQプロットを使用する利点

ではこのコメント、ニック・コックスは書きました：クラスへのビニングは古代の方法です。ヒストグラムは便利ですが、最新の統計ソフトウェアを使用すると、生データに分布を適合させることが簡単になります。ビニングは、どの分布がもっともらしいかを判断するのに重要な詳細を単に捨てます。このコメントの文脈は、フィットを評価するための代替手段としてQQプロットを使用することを示唆しています。声明は非常に妥当なように聞こえますが、この声明を裏付ける信頼できる参照について知りたいです。単純な「まあ、これは明白に聞こえます」を超えて、この事実をより徹底的に調査する論文はありますか？結果または同類の実際の体系的な比較はありますか？また、ヒストグラムに対するQQプロットの利点が、モデルフィッティング以外のアプリケーションにどの程度まで拡張されるかを確認したいと思います。上の回答この質問は「『何かが間違っている』 [...]ちょうどことを示していますQQプロット」ことに同意します。ヌルモデルと比較して観測データの構造を識別するツールとしてそれらを使用することを考えており、非ランダムを検出するだけでなく説明するためにQQプロット（またはその基礎となるデータ）を使用する確立された手順が存在するかどうか疑問に思います観測データの構造。したがって、この指示を含む参照は特に有用です。

22 references histogram binning qq-plot

2

データのSVDによるデータのPCAが必要な理由

この質問は、主成分を計算する効率的な方法に関するものです。 casewise dataの特異値分解を使用した線形PCAの多くのテキスト。つまり、データあり、変数（その列）を主成分で置き換えたい場合、SVDを実行します。、特異値（固有値の平方根）の主対角を占める、右固有ベクトルは、軸変数から軸コンポーネントへの直交回転行列です。左固有ベクトルは、場合のみに似ています。その後、コンポーネント値をとして計算できます。XX\bf XX=USV′X=USV′\bf X=USV'SS\bf SVV\bf VUU\bf UVV\bf VC=XV=USC=XV=US \bf C=XV=US 変数のPCAを行う別の方法は、分解を経由している（つまり正方行列でき相関または共分散の変数の間、など）。分解は、固有分解または特異値分解である可能性があります：正方対称正定行列では、前述の\ bf Lおよび\ bf Vの対角要素と同じ固有値を持つ\ bf R = VLV 'と同じ結果が得られます。コンポーネントの値は\ bf C = XVになります。R=X′XR=X′X\bf R=X'XRR\bf R R=VLV′R=VLV′\bf R=VLV'LL\bf LVV\bf VC=XVC=XV\bf C=XV さて、私の質問：データXX\bf Xが大きな行列であり、ケースの数が（多くの場合）変数の数よりはるかに大きい場合、ウェイ（1）はウェイ（2 ）、方法（1）は非常に高価なアルゴリズム（SVDなど）を大きなマトリックスに適用するため。巨大な行列UU\bf Uを計算して保存しますが、この場合は実際には必要ありません（変数のPCA）。もしそうなら、なぜそんなに多くのtexbookが主張しているように見える、または単に方法（1）だけに言及しているように見えるのでしょうか？たぶんそれは効率的で、私は何かが欠けていますか？

22 pca algorithms svd matrix-decomposition

3

期待値最大化アルゴリズムが使用されるのはなぜですか？

私が知る限り、尤度のパラメーターに関する偏微分をゼロに設定すると、EMアルゴリズムを使用して最尤を見つけることができ、分析的に解くことができない方程式のセットが得られます。しかし、前述の一連の方程式の制約に関する尤度の最大値を見つけるために、何らかの数値手法を使用する代わりに、EMアルゴリズムが必要です。

22 expectation-maximization

2

「ベイジアン推論と機械学習」の後の次のステップ

現在、David Barberによる「ベイジアン推論と機械学習」を行っていますが、これは基礎を学ぶための非常によく書かれた魅力的な本です。すでにこれを行った人への質問です。Barberの概念のほとんどを十分に習熟した後、次に進むべき本は何ですか？

22 machine-learning bayesian references graphical-model

5

ノンパラメトリックテストは正確に何を達成し、結果をどうしますか？

私はこれが他の場所で尋ねられたかもしれないと感じていますが、実際に私が必要とする基本的な説明のタイプではありません。ノンパラメトリックは、比較するために平均ではなく中央値に依存していることを知っています...何か。また、標準偏差ではなく「自由度」（？）に依存していると思います。私が間違っている場合は修正してください。私はかなり良い研究をしてきたので、コンセプト、その背後にある仕組み、テスト結果が本当に意味すること、および/またはテスト結果をどう処理するかを理解しようとして考えました。しかし、誰もその地域に進出することはないようです。簡単にするために、Mann-WhitneyのU検定に固執しましょう。これは非常に人気があることに気づきました（また、「正方形のモデルを円の穴に入れる」ために誤用され、過度に使用されているようです）。他のテストについても自由に説明したい場合は、一度理解すれば、他のテストもさまざまなt検定などに類似した方法で理解できます。データでノンパラメトリックテストを実行し、この結果を取得したとしましょう。 2 Sample Mann-Whitney - Customer Type Test Information H0: Median Difference = 0 Ha: Median Difference ≠ 0 Size of Customer Large Small Count 45 55 Median 2 2 Mann-Whitney Statistic: 2162.00 p-value (2-sided, adjusted for ties): 0.4156 私は他の方法に精通していますが、ここで何が違うのですか？p値を.05より低くする必要がありますか？「マン・ホイットニー統計」とはどういう意味ですか？それに用途はありますか？ここでのこの情報は、私が持っている特定のデータソースを使用する必要があるかどうかを確認するだけですか？私は回帰と基本の合理的な量の経験を持っていますが、この「特別な」ノンパラメトリックなものに非常に興味があります。私が5年生だと想像して、あなたがそれを私に説明できるかどうか確かめてください。

22 hypothesis-testing nonparametric wilcoxon-mann-whitney

3

重回帰において「その他はすべて等しい」とはどういう意味ですか？

重回帰を行って、変数の変化について変数の平均変化を調べて、他のすべての変数を一定に保持している場合、他の変数を一定に保持しているのはどの値ですか？彼らの平均？ゼロ？値はありますか？yyyxバツx 私はそれが価値があると思う傾向があります。明確化を探しています。誰かが証拠を持っているなら、それも素晴らしいでしょう。

22 multiple-regression interpretation least-squares regression-coefficients controlling-for-a-variable

2

Rのブートストラップは実際にどのように機能しますか？

私はRのブートパッケージを調査してきましたが、その使用方法に関する多くの優れた入門書を見つけましたが、「舞台裏」で何が起こっているかを正確に説明するものはまだ見つけていません。たとえば、この例では、ガイドは標準の回帰係数をブートストラップ回帰の開始点として使用する方法を示していますが、ブートストラップ回帰係数を導出するためにブートストラップ手順が実際に何をしているのかについては説明しません。何らかの反復プロセスが行われているように見えますが、何が起こっているのかを正確に把握できないようです。

22 r regression bootstrap regression-coefficients

1

多重共線性の特定の尺度を好む理由はありますか？

多くの入力変数を使用する場合、しばしば多重共線性が懸念されます。多重共線性の検出、考察、および/または通信に使用される多重共線性の尺度は多数あります。一般的な推奨事項は次のとおりです。特定の変数の複数のR2jRj2R^2_j 特定の変数の許容誤差1 − R2j1−Rj21-R^2_j 特定の変数の分散インフレーション係数、VIF = 1寛容VIF=1寛容\text{VIF}=\frac{1}{\text{tolerance}} 設計マトリックス全体の条件番号： max（固有値（X'X））min（固有値（X'X））−−−−−−−−−−−−−−−−−−√max（固有値（X'X））min（固有値（X'X））\sqrt{\frac{\text{max(eigenvalue(X'X))}}{\text{min(eigenvalue(X'X))}}} （ウィキペディアの記事で議論されている他のいくつかのオプションがあり、RのコンテキストでSOがあります。）最初の3つがお互いの完全な機能であるという事実は、それらの間の唯一の可能な純利益が心理的であることを示唆しています。一方、最初の3つの方法では変数を個別に調べることができます。これは利点かもしれませんが、条件番号の方法が最適であると聞いています。これは本当ですか？何に最適？条件数はの完全な関数ですか？（そうなると思います。） R2jRj2R^2_j そのうちの1つが説明が最も簡単だと人々は思いますか？（これらの数値をクラス外で説明しようとしたことは一度もありません。多重共線性のゆるくて定性的な説明をします。）

22 multicollinearity

2

形式

Webディスカッションフォーラムの統計データセットがあります。私は、トピックが持つことが期待される返信の数の分布を見ています。特に、トピックの返信数のリストを含むデータセットを作成し、その数の返信を含むトピックの数を作成しました。 "num_replies","count" 0,627568 1,156371 2,151670 3,79094 4,59473 5,39895 6,30947 7,23329 8,18726 データセットを対数プロットでプロットすると、基本的に直線が得られます：（これはZipfianディストリビューションです）。ウィキペディアによると、対数プロットの直線は形式の単項式でモデル化できる関数を意味します。そして実際、私はそのような機能を目撃しました：y= a xky=aバツky = ax^k lines(data$num_replies, 480000 * data$num_replies ^ -1.62, col="green") 私の眼球は明らかにRほど正確ではありません。それでは、どうやってRをこのモデルのパラメーターにもっと正確に合わせることができますか？多項式回帰を試みましたが、Rが指数をパラメーターとして適合させようとは思わない-私が望むモデルの適切な名前は何ですか？編集：みんなの回答をありがとう。示唆されたように、このレシピを使用して、入力データのログに対して線形モデルを適合させました。 data <- read.csv(file="result.txt") # Avoid taking the log of zero: data$num_replies = data$num_replies + 1 plot(data$num_replies, data$count, log="xy", cex=0.8) # Fit just the first …

22 r regression nonlinear-regression

3

統計学者が機械学習を学ぶことは重要ですか？

機械学習は、統計学者が知っておくべき重要なテーマですか？機械学習は統計のようです。統計プログラム（学部および大学院）が機械学習を必要としないのはなぜですか？

22 machine-learning careers

2

制限付きボルツマンマシンと多層ニューラルネットワーク

私が直面している分類問題について、ニューラルネットワークで実験したいと思っていました。RBMについての論文に出くわしました。しかし、私が理解できることから、それらは多層ニューラルネットワークを持つことと違いはありません。これは正確ですか？さらに、私はRで働いていますが、RBMの缶詰パッケージは見ていません。私は基本的にスタックされたRBMであるディープラーニングネットワークについて話している文献に出会いましたが、Rでそれらを実装する努力の価値があるかどうかはわかりません。ありがとう

22 r machine-learning classification neural-networks

5

RのrandomForestは32レベル以上を処理できません。回避策は何ですか？

RのrandomForestパッケージは、32レベルを超える係数を処理できません。32レベルを超えると、エラーメッセージが表示されます。 32を超えるカテゴリを持つカテゴリカル予測子を処理できません。しかし、私が持っているデータにはいくつかの要因があります。それらの一部には1000以上のレベルがあり、一部には100以上があります。52の米国の「状態」もあります。だから、ここに私の質問があります。なぜそのような制限があるのですか？randomForestは、単純な場合でも実行を拒否します。 > d <- data.frame(x=factor(1:50), y=1:50) > randomForest(y ~ x, data=d) Error in randomForest.default(m, y, ...) : Can not handle categorical predictors with more than 32 categories. 単にメモリ制限が原因である場合、scikit学習のrandomForeestRegressorは32を超えるレベルでどのように実行できますか？この問題を処理する最良の方法は何ですか？X1、X2、...、X50の独立変数があり、Yが従属変数であるとします。そして、X1、X2、X3には32を超えるレベルがあるとします。私は何をすべきか？私が考えているのは、距離がYの差として定義されるX1、X2、X3のそれぞれに対してクラスタリングアルゴリズムを実行することです。3つの問題のある変数があるので、3つのクラスタリングを実行します。そして、各クラスタリングで、同様のレベルを見つけることができればと思います。そして、それらをマージします。これはどのように聞こえますか？

22 r random-forest many-categories

5

分位点回帰がOLSより悪いのはいつですか？

条件付き平均関係を絶対に理解しなければならないいくつかのユニークな状況とは別に、研究者が分位点回帰よりもOLSを選択すべき状況は何ですか？ OLSの代替として中央値回帰を使用することができるため、「テール関係を理解するのに役に立たない場合」と答えたくありません。

22 least-squares econometrics regression-strategies quantile-regression semiparametric

3

A / Bテストのサンプルサイズを安全に決定する

私は、A / Bテストツールの構築を検討しているソフトウェアエンジニアです。統計のバックグラウンドはしっかりしていませんが、ここ数日間はかなりの読書をしています。ここで説明する方法論に従い、関連するポイントを以下にまとめます。このツールにより、デザイナーとドメインエキスパートは、特定のURLで受信したトラフィックを2つ以上のURLに分割するようにWebサイトを構成できます。たとえば、http://example.com/hello1に到着するトラフィックは、http://example.com/hello1とhttp://example.com/hello2に分割できます。トラフィックはターゲットURL間で均等に分割され、各ターゲットURLでのマーケティングプロセスのパフォーマンスが比較されます。この実験では、サンプルサイズNは訪問者に対応します。このテストでは、訪問者がマーケティングプロセスで特定のアクションをいつ実行するかを表す用語である「コンバージョン」を測定します。コンバージョンはパーセンテージで表され、より高いコンバージョン率が望まれます。これにより、テストは独立した比率の比較になります。このツールは、安全な結果のテストを作成するために簡単に使用できる必要があります。の適切な値を選択することNが重要です。上記のリンクされた記事では、2つの独立した比率の検出力分析を使用してを見つけていますN。この方法では、コントロールの変換率を事前に把握し、目標とする変換改善を指定する必要があります。また、有意水準95％および統計的検出力80％を指定します。質問： N音を決定するこの方法はありますか？その場合、テストを開始する前にコントロールの変換率を決定する最も安全な方法は何ですか？ Nコントロールの変換率を事前に知る必要のない適切な判断方法はありますか？リンクされた記事の方法論は適切ですか？そうでない場合、私にリンクできるアクセス可能な簡単に消化できる方法はありますか？

22 hypothesis-testing statistical-significance proportion ab-test