統計とビッグデータ

4

グラフィカルモデルの紹介では、それらを「...グラフ理論と確率理論の融合」と説明しています。確率理論の部分はわかりますが、グラフ理論が正確に当てはまる場所を理解するのは困難です。グラフ理論からの洞察は、不確実性の下での確率分布と意思決定の理解を深めるのに役立ちましたか？ PGMを「ツリー」、「二部」、「無向」などに分類するなど、PGMでのグラフ理論用語の明白な使用を超えて、具体的な例を探しています。

29 graphical-model graph-theory distributions

3

ニューラルネットワークでバイアスノードが使用される理由

ニューラルネットワークでバイアスノードが使用される理由いくつ使うべきですか？どのレイヤーで使用する必要があります：すべての非表示レイヤーと出力レイヤー？

29 machine-learning neural-networks bias-node

3

フィッシャー情報とはどのような情報ですか？

ランダム変数ます。場合は trueパラメータだった、尤度関数を最大化し、ゼロに等しい派生する必要があります。これが最尤推定量の背後にある基本原則です。バツ〜F（x | θ ）バツ〜f（バツ|θ）X \sim f(x|\theta)θ0θ0\theta_0 私が理解するように、フィッシャー情報は次のように定義されます私（θ ）= E [ （∂∂θf（X| θ））2]私（θ）=E[（∂∂θf（バツ|θ））2]I(\theta) = \Bbb E \Bigg[\left(\frac{\partial}{\partial \theta}f(X|\theta)\right)^2\Bigg ] したがって、が真のパラメーターである場合、です。しかし、が真のパラメーターでない場合、フィッシャーの情報が多くなります。θ0θ0\theta_0私（θ ）= 0私（θ）=0I(\theta) = 0θ0θ0\theta_0 私の質問フィッシャー情報は、特定のMLEの「エラー」を測定しますか？言い換えると、ポジティブなフィッシャー情報の存在は、私のMLEが理想的ではないことを意味しないのでしょうか？「情報」のこの定義は、シャノンが使用する定義とどのように異なりますか？なぜそれを情報と呼ぶのですか？

29 bayesian maximum-likelihood likelihood intuition fisher-information

10

平均対ギャンブラーの誤acyへの回帰

一方で、平均への回帰があり、他方でギャンブラーの誤acyがあります。ギャンブラーの誤acyは、Miller and Sanjurjo（2019）によって定義されています。「ランダムシーケンスは反転の系統的傾向がある、つまり、同様の結果のストリークは継続するよりも終了する可能性が高いという誤った信念」。連続した時間は、次の試験で不釣り合いに尾を引く可能性が高いと考えられます。私は前回のゲームで良好なパフォーマンスを達成しましたが、平均への回帰によると、おそらく次のゲームではパフォーマンスが低下するでしょう。しかし、ギャンブラーの誤acyによると、次の2つの確率を考慮します。 20頭の確率、1尾= 0.520×0.5=0.5210.520×0.5=0.5210.5^{20} × 0.5 = 0.5^{21} 20頭の確率、その後1頭= 0.520×0.5=0.5210.520×0.5=0.5210.5^{20} × 0.5 = 0.5^{21} その後... 簡単な例を考えてみましょう。生徒のクラスは、科目で100項目の正誤テストを行います。すべての生徒がすべての質問をランダムに選択するとします。次に、各学生のスコアは、平均50の期待値を持つ、独立した同じ分布のランダム変数のセットの1つを実現します。当然のことながら、一部の学生は50を大幅に上回り、一部の学生は偶然50を大幅に下回ります。学生の上位10％のみを取得し、2番目のテストを行って、すべてのアイテムで再びランダムに選択すると、平均スコアは再び50に近くなると予想されます。したがって、これらの学生の平均は、元のテストを受けたすべての学生の平均にまで「回帰」します。学生が元のテストで得点したものに関係なく、2番目のテストで得点の最高の予測は50です。特別に10％の学生のトップスコアのみを取得し、すべてのアイテムで再びランダムに選択する2回目のテストを行うと、平均スコアは再び50に近くなります。ギャンブラーの誤acyによると、得点の確率は同じで、必ずしも50に近いとは限らないと思われますか？ Miller、JB、およびSanjurjo、A.（2019）。サンプルサイズを無視した場合の経験によるギャンブラーの誤Fallの確認方法

29 regression mean fallacy gambling

2

ブートストラップは、推定量のサンプリング分布にどれくらい近似していますか？

最近ブートストラップを研究した後、私はまだ私を困惑させる概念的な質問を思いつきました：人口があり、人口属性、つまりを知りたい場合、ここで人口を表すためにを使用します。このは、たとえば平均です。通常、母集団からすべてのデータを取得することはできません。したがって、母集団からサイズサンプルを描画します。簡単にするためにiidサンプルがあると仮定します。次に、推定器を取得します。あなたは利用したいについて推論を行うためにあなたがの変動知っていただきたいと思いますので、。θ=g(P)θ=g(P)\theta=g(P)PPPθθ\thetaXXXNNNθ^=g(X)θ^=g(X)\hat{\theta}=g(X)θ^θ^\hat{\theta}θθ\thetaθ^θ^\hat{\theta} まず、真のサンプリング分布があります。概念的には、母集団から多くのサンプル（それぞれのサイズが）を描画できます。毎回異なるサンプルを取得するため、毎回実現します。最後に、真の分布を回復することができます。OK、これは少なくとも分布を推定するための概念的なベンチマークです。言い換えると、最終的な目標は、さまざまな方法を使用して真の分布を推定または近似することです。θ^θ^\hat{\theta}NNNθ^=g(X)θ^=g(X)\hat{\theta}=g(X) θθ^θ^\hat{\theta}θ^θ^\hat{\theta}θ^θ^\hat{\theta} さて、質問が来ます。通常、データポイントを含む1つのサンプルのみがあります。次に、このサンプルから何度もリサンプリングすると、ブートストラップ分布が作成されます。私の質問は、このブートストラップ分布はの真のサンプリング分布にどれだけ近いかということです。それを定量化する方法はありますか？XXXNNNθ^θ^\hat{\theta}θ^θ^\hat{\theta}

29 bootstrap simulation resampling

3

ペアワイズt検定のいずれも重要でない場合、ANOVAは重要ですか？

一方向（グループ、または「レベル」）ANOVAは、ペアワイズt検定のいずれも実行しない場合に有意差を報告することは可能ですか？N （N − 1 ）/ 2N> 2N>2N>2N（N− 1 ）/ 2N(N−1)/2N(N-1)/2 で、この答え @whuberは書きました：グローバルANOVA F検定は、平均のペアのいずれの個々の[未調整ペアワイズ] t検定も有意な結果をもたらさない場合でも、平均の差を検出できることはよく知られています。どうやらそれは可能ですが、方法はわかりません。それはいつ起こり、そのようなケースの背後にある直感は何でしょうか？たぶん誰かがそのような状況の簡単なおもちゃの例を提供できますか？さらなるコメント：明らかに反対の可能性があります：全体的なANOVAは有意ではない場合がありますが、ペアワイズt検定のいくつかは誤って有意差を報告します（つまり、それらは偽陽性です）。私の質問は、多重比較t検定の非調整標準に関するものです。調整されたテスト（たとえば、TukeyのHSD手順）が使用される場合、全体のANOVAが重要であっても、それらのどれも重要でないことが判明する可能性があります。ここでは、いくつかの質問で説明します。たとえば、全体的な有意なANOVAを得ることができますが、Tukeyの手順との有意なペアワイズ差はありません。および有意なANOVA相互作用、ただし有意でないペアワイズ比較。更新。私の質問はもともと、通常の2標本ペアワイズt検定に言及していました。ただし、@ whuberがコメントで指摘したように、ANOVAのコンテキストでは、t検定は通常、グループ内分散のANOVA推定値を使用して、すべてのグループにプールされた事後の対比として理解されます（2 -サンプルt検定）。したがって、実際には私の質問には2つの異なるバージョンがあり、両方の答えは肯定的であることがわかりました。下記参照。

29 statistical-significance anova t-test post-hoc

5

ブートストラップの間隔にひどいカバレッジがあるのはなぜですか？

t間隔をブートストラップ間隔と比較し、両方のカバレッジ確率を計算するクラスのデモを行いたいと思いました。歪んだ分布からデータを取得したいのでexp(rnorm(10, 0, 2)) + 1、シフトした対数正規分布からサイズ10のサンプルとしてデータを生成することにしました。1000個のサンプルを描画するスクリプトを作成し、各サンプルについて、1000回の繰り返しに基づいて95％のt間隔と95％のブートストラップパーセンタイル間隔の両方を計算しました。スクリプトを実行すると、両方の方法の間隔は非常に似ており、両方のカバレッジ確率は50〜60％です。ブートストラップの間隔の方が良いと思ったので驚きました。私の質問はコードを間違えた？間隔の計算を間違えましたか？ブートストラップ間隔がより良いカバレッジプロパティを持つことを期待することでミスを犯しましたか？また、この状況でより信頼性の高いCIを構築する方法はありますか？ tCI.total <- 0 bootCI.total <- 0 m <- 10 # sample size true.mean <- exp(2) + 1 for (i in 1:1000){ samp <- exp(rnorm(m,0,2)) + 1 tCI <- mean(samp) + c(1,-1)*qt(0.025,df=9)*sd(samp)/sqrt(10) boot.means <- rep(0,1000) for (j in 1:1000) boot.means[j] …

29 bootstrap diagnostic

2

信頼区間に属さない仮説と同等のp値を使用して仮説を棄却していますか？

推定の信頼区間を正式に導出している間、値の計算方法に非常によく似た式になりました。ppp したがって、質問：それらは形式的に同等ですか？すなわち仮説拒否され臨界値とと同等臨界値と信頼区間に属さない？H0= 0H0=0H_0 = 0αα\alpha000αα\alpha

29 hypothesis-testing confidence-interval p-value

1

メチル化データのglmnetを使用した機能の選択とモデル（p >> N）

GLMとElastic Netを使用してそれらの関連機能を選択し、線形回帰モデルを構築します（つまり、予測と理解の両方であるため、比較的少ないパラメーターを残しておく方が良いでしょう）。出力は連続的です。それはだあたりの遺伝子例でした。私はパッケージについて読んでいますが、従うべき手順について100％確信が持てません。200002000020000505050glmnet CVを実行してラムダを選択します： cv <- cv.glmnet(x,y,alpha=0.5) （Q1）入力データが与えられたら、別のアルファ値を選択しますか？（Q2）モデルを構築する前に他に何かする必要がありますか？モデルに適合： model=glmnet(x,y,type.gaussian="covariance",lambda=cv$lambda.min) （Q3）「共分散」よりも優れているものはありますか？（Q4）ラムダがCVによって選択された場合、なぜこのステップが必要なのnlambda=ですか？（Q5）lambda.minまたはを使用する方が良いlambda.1seですか？係数を取得して、どのパラメーターが抜けているか（ "。"）を確認します。 predict(model, type="coefficients") ヘルプページでは、多くがあるpredict方法（例えば、predict.fishnet、predict.glmnet、predict.lognet、など）。しかし、例で見たように、「プレーン」は予測します。（Q6）またはその他を使用する必要がありますpredictかpredict.glmnet？正則化方法について読んだことにもかかわらず、私はRとこれらの統計パッケージがまったく新しいので、問題をコードに適合させているかどうかを確認することは困難です。どんな提案も歓迎します。 UPDATE に基づいて、クラス列のオブジェクトがという要素が含まれ先に述べたように、」finalModelリサンプリングによって選択されたチューニングパラメータの値を装着したモデルで、このオブジェクトはことを使用して、新しいサンプルの予測を生成するために、伝統的な方法で使用することができますモデルの予測関数。」 caretアルファとラムダの両方を調整するために使用： trc = trainControl(method=cv, number=10) fitM = train(x, y, trControl = trC, method="glmnet") fitM前のステップ2を交換しますか？その場合、glmnetオプション（type.gaussian="naive",lambda=cv$lambda.min/1se）を今指定する方法は？そして、次predictのステップでは、私は置き換えることができますmodelにfitM？私が行った場合 trc = trainControl(method=cv, number=10) fitM = train(x, y, trControl = trC, method="glmnet") …

29 r regularization glmnet elastic-net underdetermined

1

OLSモデルの係数が（nk）自由度のt分布に従うことの証明

バックグラウンド回帰モデルに係数がある通常の最小二乗モデルがあるとします。 kkky=Xβ+ϵy=Xβ+ϵ\mathbf{y}=\mathbf{X}\mathbf{\beta} + \mathbf{\epsilon} ここで、は係数のベクトル、は次で定義される設計行列です。ββ\mathbf{\beta}(k×1)(k×1)(k\times1)XX\mathbf{X} X = ⎛⎝⎜⎜⎜⎜⎜⎜11⋮1バツ11バツ21バツn 1バツ12…⋱………バツ1（k − 1 ）⋮⋮バツn（k − 1 ）⎞⎠⎟⎟⎟⎟⎟⎟X=(1x11x12…x1(k−1)1x21…⋮⋮⋱⋮1xn1……xn(k−1))\mathbf{X} = \begin{pmatrix} 1 & x_{11} & x_{12} & \dots & x_{1\;(k-1)} \\ 1 & x_{21} & \dots & & \vdots \\ \vdots & & \ddots & & \vdots \\ 1 & x_{n1} & \dots …

29 regression linear-model least-squares t-distribution

2

ガンマ対対数正規分布

ガンマ分布または対数正規分布と非常によく似た実験的に観察された分布があります。対数正規分布は、の平均と分散が固定されているランダム変量の最大エントロピー確率分布であることを読みました。ガンマ分布には同様の特性がありますか？XXXln(X)ln⁡(X)\ln(X)

29 pdf gamma-distribution lognormal

4

ROCの曲線下面積と全体の精度

ROCの曲線下面積（AUC）と全体的な精度について少し混乱しています。 AUCは全体の精度に比例しますか？言い換えると、全体の精度が大きい場合、AUCが大きくなりますか？または、それらは定義により正の相関がありますか？それらが正の相関関係にある場合、一部の出版物でそれらの両方を報告するのはなぜですか？実際のケースでは、分類タスクを実行し、次のように結果を得ました。分類子Aの精度は85％、AUCは0.98、分類子Bの精度は93％、AUCは0.92です。質問は、どの分類器の方が良いですか？または、これらのような同様の結果を得ることが可能ですか？（実装にバグがあるかもしれません）

29 classification roc

1

ロジスティック回帰からの適合値の標準誤差はどのように計算されますか？

ロジスティック回帰モデルから近似値を予測する場合、標準誤差はどのように計算されますか？つまり、フィッシャーの情報マトリックスを含む係数ではなく、近似値についてです。私はのみで数を取得する方法を見つけたR（例えば、ここでは R-ヘルプ上、またはここにスタックオーバーフロー上）が、私は式を見つけることができません。 pred <- predict(y.glm, newdata= something, se.fit=TRUE) （できれば大学のウェブサイトで）オンラインソースを提供できれば、それは素晴らしいことです。

29 r regression logistic mathematical-statistics references

2

SVMおよびランダムフォレストの正規化を行うことは不可欠ですか？

私の機能のすべての次元には、さまざまな価値の範囲があります。このデータセットを正規化することが不可欠かどうかを知りたいです。

29 machine-learning svm random-forest normalization

3

SVMとパーセプトロンの違い

SVMとパーセプトロンの違いに少し混乱しています。ここで私の理解を要約してみましょう。私が間違っている箇所を修正し、見落としたことを記入してください。パーセプトロンは、分離の「距離」を最適化しようとしません。2つのセットを分離する超平面を見つける限り、それは良いことです。一方、SVMは「サポートベクトル」、つまり、最も近い2つの最も近いサンプルポイント間の距離を最大化しようとします。 SVMは通常、「カーネル関数」を使用してサンプルポイントを高次元空間に射影し、線形分離可能にしますが、パーセプトロンはサンプルポイントを線形分離可能と想定します。

29 machine-learning svm kernel-trick