統計とビッグデータ bias

7

モデルの分散とバイアスの観点から、さまざまな交差検証方法をどのように比較しますか？私の質問はこのスレッドによって部分的に動機づけられています：最適な折り畳み数-交差検証：leave-one-out CVは常に最良の選択ですか？KKK。そこでの答えは、leave-one-out交差検定で学習したモデルは、通常の倍交差検定で学習したモデルよりも高い分散を持ち、leave-one-out CVがより悪い選択になることを示唆しています。KKK しかし、私の直感では、Leave-one-out CVではフォールドCV よりもモデル間の分散が比較的小さいはずです。なぜなら、フォールド間で1つのデータポイントのみをシフトしているため、フォールド間のトレーニングセットが実質的に重なっているからです。KKK または、逆方向に進むと、がフォールドCVで低い場合、トレーニングセットはフォールド全体で大きく異なり、結果のモデルは異なる可能性が高くなります（したがって、分散が大きくなります）。KKKKKKK 上記の議論が正しければ、leave-one-out CVで学習したモデルの分散が大きくなるのはなぜですか？

83 machine-learning variance cross-validation bias bias-variance-tradeoff

10

「科学者は統計的有意性に反する」とはどういう意味ですか？（自然の中でのコメント）

Nature ScientistsのCommentのタイトルは、統計的有意性に反して始まります。バレンティン・アムライン、サンダー・グリーンランド、ブレイク・マクシェーン、および800人以上の署名者は、誇大広告の主張の終了と、おそらく重大な影響の却下を求めています。その後、次のようなステートメントが含まれます。繰り返しますが、P値、信頼区間、またはその他の統計的手段の禁止を提唱するのではなく、それらをカテゴリ的に扱うべきではありません。これには、統計的に有意であるかどうかの二分法と、ベイズ因子などの他の統計的尺度に基づく分類が含まれます。下の画像は、一方の効果が「除外」され、もう一方の研究がそうではないため、2つの研究が一致しないとは言っていないことを理解できると思います。しかし、この記事は私が理解できる以上に深く掘り下げているようです。終わりに向かって、4つのポイントで要約があるようです。統計を書くのではなく読む人にとって、これらをさらに簡単な言葉で要約することは可能ですか？互換性の間隔について話すときは、4つのことを念頭に置いてください。最初に、間隔がデータと最も互換性のある値を与えるという仮定が与えられているからといって、それ以外の値が互換性がないということではありません。互換性が低いだけです... 第二に、仮定を考えると、内部のすべての値がデータと等しく互換性があるわけではありません第三に、0.05のしきい値のように、間隔の計算に使用されるデフォルトの95％はそれ自体が任意の規則です... 最後に、そして最も重要なことは、謙虚であることです。互換性評価は、間隔の計算に使用される統計的仮定の正確さにかかっています...

61 statistical-significance p-value bias

6

バイアスと分散のトレードオフの直感的な説明？

一般的に、具体的には線形回帰のコンテキストで、バイアスと分散のトレードオフの直感的な説明を探しています。

46 regression variance bias

7

データを収集または解釈するときに人間が作る最も一般的なバイアスは何ですか？

私はecon / stat専攻です。経済学者は、人間が合理的に振る舞わない状況を特定することにより、人間の行動と合理性に関する仮定を修正しようとしたことを知っています。たとえば、1000 ドルの損失の100％のチャンスまたは2500 ドルの損失の50％のチャンスを提供すると、後者の期待値が保証された1000 ドルよりも大きい損失であっても、人々は2500 ドルのオプションを選択します損失。これは「損失回避」として知られています。行動経済学者は現在、これらのパターンを研究し、通常「合理的な」行動を構成すると想定される公理から人間が逸脱する方法を特定しようとしています。ここでは、予想される最小の損失を優先することが合理的であると想定しています。統計学者が、人々がデータをどのように解釈するかに偏った結果をもたらすデータ収集の一般的なパターンを特定したかどうか疑問に思っていました。本質的にデータを収集する「合理的な」方法があった場合、人間がこれから逸脱して「バイアス」を示す例があると思います。そうだとすれば、データを収集または解釈するときに人間が作る最も一般的なバイアスは何ですか？

39 bias

2

偏りのある推定器が偏りのない推定器よりも望ましいのはいつですか？

偏りのない推定量を好む理由は何度も明らかです。しかし、偏りのない推定器よりもバイアスのある推定器を実際に好む状況はありますか？

38 bias unbiased-estimator estimators

4

（なぜ）オーバーフィットモデルは大きな係数を持つ傾向がありますか？

変数の係数が大きいほど、モデルはその次元で「スイング」する能力が大きくなり、ノイズに適合する機会が増えると思います。モデルの分散と大きな係数との関係については合理的な意味を持っていると思いますが、オーバーフィットモデルでそれらが発生する理由についてはあまり意味がありません。それらが過剰適合の症状であり、係数の収縮はモデルの分散を減らすための技術であると言うのは間違っていますか？係数の縮小による正則化は、大きな係数は過剰適合モデルの結果であるという原則に基づいているようですが、おそらくこの手法の背後にある動機を誤解しているのでしょう。大きな係数は一般に過剰適合の症状であるという私の直感は、次の例から得られます。すべてがx軸上にある点をフィットさせたいとしましょう。これらの点がある多項式を簡単に構築できます。私たちのポイントがでているとしましょう。この手法は、10以上のすべての係数を提供します（1つの係数を除く）。さらにポイントを追加すると（したがって、多項式の次数が増加します）、これらの係数の大きさは急速に増加します。f （x ）= （x − x 1）（x − x 2）。。。。（X - X N - 1）（X - X N）のx = 1 、2 、3 、4nnnf(x)=(x−x1)(x−x2)....(x−xn−1)(x−xn)f（バツ）=（バツ−バツ1）（バツ−バツ2）。。。。（バツ−バツn−1）（バツ−バツn）f(x) = (x-x_1)(x-x_2)....(x-x_{n-1})(x-x_n)x=1,2,3,4バツ=1、2、3、4x=1,2,3,4 この例は、現在、モデル係数のサイズと生成されたモデルの「複雑さ」をどのように結びつけているのかを示していますが、実際の動作を実際に示すためにこのケースが不毛になることを心配しています。私は意図的にオーバーフィットモデル（2次サンプリングモデルから生成されたデータにフィットする10次多項式OLS）を構築し、私のモデルでほとんど小さな係数を見ることに驚きました： set.seed(123) xv = seq(-5,15,length.out=1e4) x=sample(xv,20) gen=function(v){v^2 + 7*rnorm(length(v))} y=gen(x) df = data.frame(x,y) model = lm(y~poly(x,10,raw=T), data=df) summary(abs(model$coefficients)) # Min. 1st Qu. Median …

33 regression variance linear-model bias regularization

4

バイアスのブートストラップ推定はいつ有効ですか？

ブートストラップは推定器のバイアスの推定値を提供できるとしばしば主張されます。もしいくつかの統計の推定値であり、そして（とブートストラップ複製である）、次いで、バイアスのブートストラップ推定値であるこれは非常にシンプルで強力なようで、不安にさせるほどです。〜T II∈{1、⋯、N}BIAST≈1t^t^\hat tt~it~i\tilde t_ii∈{1,⋯,N}i∈{1,⋯,N}i\in\{1,\cdots,N\}biast≈1N∑it~i−t^biast≈1N∑it~i−t^\begin{equation} \mathrm{bias}_t \approx \frac{1}{N}\sum_i \tilde{t}_i-\hat t \end{equation} 統計の偏りのない推定器をすでに持っていなければ、これがどのように可能かを頭に浮かぶことはできません。たとえば、推定値が観測値に依存しない定数を単に返す場合、上記のバイアスの推定値は明らかに無効です。この例は病理学的ですが、ブートストラップの推定値が妥当であることを保証する推定器と分布についての合理的な仮定は何なのかわかりません。正式な参考文献を読んでみましたが、私は統計学者でも数学者でもないので、何も明らかにされませんでした。推定値がいつ有効になると予想されるかについて、だれでも概要を提供できますか？あなたが主題に関する良い参考文献を知っているなら、それも素晴らしいでしょう。編集：推定器の滑らかさは、ブートストラップが機能するための要件としてしばしば引用されます。変換のローカルな可逆性が必要なこともありますか？定数マップは明らかにそれを満たしていません。

31 bootstrap bias

5

機械学習で階層/ネストされたデータを処理する方法

例で問題を説明します。いくつかの属性（年齢、性別、国、地域、都市）を与えられた個人の収入を予測するとします。あなたはそのようなトレーニングデータセットを持っています train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

1

自由度は非整数の数値にできますか？

GAMを使用すると、残留DFは（コードの最終行）になります。どういう意味ですか？GAMの例を超えて、一般に、自由度の数を整数以外の数にすることはできますか？26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …

27 r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

2

対数正規分布のモーメントの推定量のバイアス

私は、対数正規分布をサンプリングすることにあるいくつかの数値実験をやっているX∼LN(μ,σ)X∼LN(μ,σ)X\sim\mathcal{LN}(\mu, \sigma)、およびモーメントを推定しようとしてE[Xn]E[Xn]\mathbb{E}[X^n] 2つの方法で： X nのサンプル平均を見るXnXnX^n 推定μμ\mu及びσ2σ2\sigma^2のサンプル手段を用いてlog(X),log2(X)log⁡(X),log2⁡(X)\log(X), \log^2(X)、次いで対数正規分布のために、我々は持っているという事実を利用してE[Xn]=exp(nμ+(nσ)2/2)E[Xn]=exp⁡(nμ+(nσ)2/2)\mathbb{E}[X^n]=\exp(n \mu + (n \sigma)^2/2)。質問は次のとおりです。私は実験的に見つける、第2の方法が実行はるかに優れた、最初の1、私は固定のサンプル数を維持し、向上させるときμ,σ2μ,σ2\mu, \sigma^2この事実のためにいくつかの簡単な説明があり、いくつかの要因によってT.？ Y軸の値である間、私は、x軸がTである図形を装着していE[X2]E[X2]\mathbb{E}[X^2]の真の値を比較するE[X2]=exp(2μ+2σ2)E[X2]=exp⁡(2μ+2σ2)\mathbb{E}[X^2] = \exp(2 \mu + 2 \sigma^2)（オレンジ行）、推定値に。方法1-青い点、方法2-緑の点。y軸は対数スケールです編集：以下は、1つのTの結果を出力する最小のMathematicaコードです。 ClearAll[n,numIterations,sigma,mu,totalTime,data,rmomentFromMuSigma,rmomentSample,rmomentSample] (* Define variables *) n=2; numIterations = 10^4; sigma = 0.5; mu=0.1; totalTime = 200; (* Create log normal data*) data=RandomVariate[LogNormalDistribution[mu*totalTime,sigma*Sqrt[totalTime]],numIterations]; (* the moment by theory:*) …

25 estimation bias lognormal moments

3

偏った最尤推定量の背後にある直感的な推論

偏りのある最尤（ML）推定量に混乱があります。概念全体の数学は私にはかなり明確ですが、その背後にある直感的な推論を理解することはできません。分布からのサンプルを含む特定のデータセットがあり、それ自体が推定するパラメーターの関数である場合、ML推定器は、データセットを生成する可能性が最も高いパラメーターの値になります。バイアス付きML推定量を直感的に理解することはできません。パラメーターの最も可能性のある値は、間違った値へのバイアスを伴うパラメーターの実際の値をどのように予測できるのでしょうか。

25 maximum-likelihood bias

5

臨床試験が早期に終了したときにバイアスが影響を受けるのはなぜですか？

中間解析は、おそらく初期の研究を終了する前に1つの以上の時点でのデータの分析を意図して研究の公式近い、例えば、あります。 Piantadosi、S.（臨床試験-方法論的観点）によると：「治験が早期に終了した場合、治療効果の推定値は偏ります。決定が早ければ早いほど、偏りが大きくなります。」この主張を説明してもらえますか。精度が影響を受けることは簡単に理解できますが、バイアスに関する主張は私には明らかではありません...

24 clinical-trials bias

2

正規化された推定による信頼区間のカバレッジ

何らかの正規化された推定を使用して、高次元のデータから多数のパラメーターを推定しようとしているとします。レギュラライザーは推定値にある程度のバイアスを導入しますが、分散の減少はそれを補う以上のものでなければならないため、依然として良いトレードオフになる可能性があります。問題は、信頼区間を推定するときに発生します（たとえば、ラプラス近似またはブートストラップを使用）。具体的には、推定値の偏りにより、信頼区間のカバレッジが悪くなり、推定量の頻度特性を判断することが難しくなります。この問題について議論している論文をいくつか見つけました（例：「エッジワース展開に基づくリッジ回帰の漸近信頼区間」）が、数学はほとんど私の頭の上にあります。リンクされた論文では、方程式92-93がリッジ回帰によって正則化された推定値の補正係数を提供しているように見えますが、さまざまな正則化器で機能する適切な手順があるかどうか疑問に思っていました。一次補正でさえ非常に役立ちます。

21 confidence-interval bias regularization ridge-regression coverage-probability

3

「バイアス」とは直感的に何ですか？

線形回帰分析のコンテキストでバイアスの概念を把握するのに苦労しています。バイアスの数学的定義は何ですか？正確にバイアスされているものとその理由/方法実例？

21 regression terminology bias definition

5

ディープラーニング：どの変数が重要であるかを知るにはどうすればよいですか？

ニューラルネットワークの用語（y =重み* x +バイアス）の観点から、どの変数が他の変数よりも重要であるかをどのようにして知ることができますか？ 10個の入力を持つニューラルネットワーク、20個のノードを持つ1つの隠れ層、1つのノードを持つ1つの出力層があります。どの入力変数が他の変数よりも影響力があるかを知る方法がわかりません。私が考えているのは、入力が重要な場合、最初のレイヤーへの重みの高い接続がありますが、重みは正または負になる可能性があるということです。したがって、入力の重みの絶対値を取得し、それらを合計することができます。より重要な入力は、より高い合計を持ちます。したがって、たとえば、髪の長さが入力の1つである場合、次のレイヤーの各ノードに1つの接続、つまり20の接続（したがって20の重み）が必要です。各重量の絶対値を取り、それらを合計することはできますか？

20 machine-learning neural-networks bias tensorflow theano

タグ付けされた質問 「bias」

タグ付けされた質問「bias」