統計とビッグデータ error

3

奇妙な質問があります。単純な線形モデルで分析する従属変数が大きく左に歪んでいる小さなサンプルがあると仮定します。したがって、uuuは正規分布していないと仮定します。これは、が正規分布になるためyyyです。しかし、QQ-Normalプロットを計算すると、残差が正規分布しているという証拠があります。したがって、はそうではありませんが、エラー項は正規分布していると誰でも想定できます。エラー用語が正規分布しているように見えるが、はそうではない場合、それはどういう意味ですか？yyyyyyy

110 regression residuals error normality-assumption

6

残差は「予測マイナス実際」または「実際マイナス予測」です

「予測値から実際の値を引いたもの」または「実際の値から予測した値を引いたもの」としてさまざまに定義された「残差」を見てきました。説明のために、両方の式が広く使用されていることを示すために、次のWeb検索を比較します。残余「予測マイナス実際」残余「実際のマイナス予測」実際には、個々の残差の符号は通常重要ではないので、違いはほとんどありません（たとえば、それらが二乗されているか、絶対値が取られている場合）。ただし、私の質問は次のとおりです。これら2つのバージョンの1つ（最初に予測対実際の最初）は「標準」と見なされますか私は自分の使用法に一貫性がありたいので、確立された従来の標準があれば、それに従うことを望みます。ただし、標準が存在しない場合、標準の慣例がないことが納得できるように示されれば、それを回答として受け入れます。

46 residuals terminology error

1

GradientDescentOptimizerとAdamOptimizer（TensorFlow）の違いは？

XOR-GateをモデリングしているTensorFlowで簡単なMLPを作成しました。だから： input_data = [[0., 0.], [0., 1.], [1., 0.], [1., 1.]] 次のものが生成されます。 output_data = [[0.], [1.], [1.], [0.]] このネットワークには、入力層、隠れ層、出力層があり、それぞれ2、5、1個のニューロンがあります。現在、私は次のクロスエントロピーを持っています： cross_entropy = -(n_output * tf.log(output) + (1 - n_output) * tf.log(1 - output)) 私はこの簡単な代替手段も試しました： cross_entropy = tf.square(n_output - output) 他のいくつかの試みと一緒に。ただし、私の設定が何であっても、のエラーはのエラーよりもはるかに遅くGradientDescentOptimizer減少していましたAdamOptimizer。実際tf.train.AdamOptimizer(0.01)、どのクロスエントロピー計算または学習率が使用されたとして0.01も、tf.train.GradientDescentOptimizer常に2000を超える学習ステップが必要でしたが、（最高の結果が得られた学習率に応じて）400から800の学習ステップ後に本当に良い結果が得られました。これはなぜですか？そうですAdamOptimizer、常により良い選択です！

45 machine-learning neural-networks error gradient-descent supervised-learning

1

エラー対策の解釈方法は？

Wekaで特定のデータセットに対して分類を実行していますが、公称値を予測しようとすると、出力に正確に予測された値と誤って予測された値が明確に表示されることに気付きました。ただし、現在は数値属性に対して実行しており、出力は次のとおりです。 Correlation coefficient 0.3305 Mean absolute error 11.6268 Root mean squared error 46.8547 Relative absolute error 89.2645 % Root relative squared error 94.3886 % Total Number of Instances 36441 これをどうやって解釈しますか？私はそれぞれの概念をグーグルで試しましたが、統計は私の専門分野ではまったくないため、あまり理解していません。統計の観点からELI5タイプの回答をいただければ幸いです。

41 machine-learning error weka mse rms

5

二乗誤差の最小化は絶対誤差の最小化と同等ですか？なぜ二乗誤差が後者よりも一般的ですか？

一連のデータポイントに合うように線形回帰を実行すると、従来のアプローチは平方誤差を最小化します。二乗誤差を最小化すると絶対誤差を最小化するのと同じ結果が得られるという質問に長い間戸惑っていました。そうでない場合、なぜ二乗誤差を最小化するのが良いのでしょうか？「目的関数は微分可能」以外の理由はありますか？（X 1、Y 1）、（X 2、Y 2）、。。。、（x n、y n）y= a x + by=aバツ+by=ax+b（x1、y1）、（x2、y2）、。。。、（xn、yn）（バツ1、y1）、（バツ2、y2）、。。。、（バツn、yn）(x_1,y_1),(x_2,y_2),...,(x_n,y_n) 二乗誤差もモデルのパフォーマンスを評価するために広く使用されていますが、絶対誤差はあまり一般的ではありません。絶対誤差よりも二乗誤差が一般的に使用されるのはなぜですか？導関数を取る必要がない場合、絶対誤差の計算は平方誤差の計算と同じくらい簡単です。その有病率を説明できるユニークな利点はありますか？ありがとうございました。

39 least-squares error

2

ImageNet：トップ1およびトップ5エラー率とは何ですか？

ImageNet分類論文では、トップ1とトップ5のエラー率は、いくつかのソリューションの成功を測定するための重要な単位ですが、それらのエラー率はどのくらいですか？深い畳み込みニューラルネットワークとImageNet分類 Krizhevskyらによる。1つのCNN（7ページ）に基づくすべてのソリューションには、上位5つのエラー率がありませんが、5および7 CNNのソリューションにはあります（また、7 CNNのエラー率は5 CNNよりも優れています）。これは、トップ1のエラー率が1つのCNNの最高のシングルエラー率であることを意味しますか？トップ5のエラー率は、単に5つのCNNの累積エラー率ですか？

38 classification neural-networks error measurement-error image-processing

3

ランダムフォレストのOOBと混同マトリックスを解釈する方法は？

誰かからランダムスクリプトモデルを実行するRスクリプトを受け取りました。いくつかの従業員データを使用して変更して実行しました。自発的な分離を予測しようとしています。いくつかの追加情報があります。これは、0 =従業員が留まる、1 =従業員が解雇される分類モデルです。現在、12個の予測変数のみを調べています。レコードセット全体の％。さまざまなmtryおよびntreeの選択を使用してモデルを実行しましたが、以下で解決しました。OOBは6.8％で良いと思いますが、エラーマトリックスは92.79％と非常に高いため、混同マトリックスは用語を予測するための別の話をしているようです。用語を予測するための高いエラー率？または、RFを使用して用語を予測するためのエラー率を小さくするためにできることはありますか？ FOREST_model <- randomForest(theFormula, data=trainset, mtry=3, ntree=500, importance=TRUE, do.trace=100) ntree OOB 1 2 100: 6.97% 0.47% 92.79% 200: 6.87% 0.36% 92.79% 300: 6.82% 0.33% 92.55% 400: 6.80% 0.29% 92.79% 500: 6.80% 0.29% 92.79% > print(FOREST_model) Call: randomForest(formula = theFormula, data = trainset, mtry = 3, ntree …

35 r classification error random-forest

3

ロジスティック回帰の95％信頼区間を手動で計算することと、Rでconfint（）関数を使用することに違いがあるのはなぜですか？

皆さん、私は説明できない奇妙なことに気づきました、できますか？要約すると、ロジスティック回帰モデルで信頼区間を計算する手動のアプローチとR関数confint()は異なる結果をもたらします。 Hosmer＆LemeshowのApplied Logistic Regression（第2版）を行ってきました。第3章には、オッズ比と95％の信頼区間を計算する例があります。Rを使用すると、モデルを簡単に再現できます。 Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.8408 0.2551 -3.296 0.00098 *** as.factor(dataset$dich.age)1 2.0935 0.5285 3.961 7.46e-05 *** --- Signif. codes: 0 ‘***’ 0.001 …

34 r regression logistic confidence-interval profile-likelihood correlation mcmc error mixture measurement data-augmentation r logistic goodness-of-fit r time-series exponential descriptive-statistics average expected-value data-visualization anova teaching hypothesis-testing multivariate-analysis r r mixed-model clustering categorical-data unsupervised-learning r logistic anova binomial estimation variance expected-value r r anova mixed-model multiple-comparisons repeated-measures project-management r poisson-distribution control-chart project-management regression residuals r distributions data-visualization r unbiased-estimator kurtosis expected-value regression spss meta-analysis r censoring regression classification data-mining mixture

4

真の値がゼロのときに相対誤差を計算する方法は？

真の値がゼロのときに相対誤差を計算するにはどうすればよいですか？私は言うと。相対誤差を次のように定義すると：xtrue=0xtrue=0x_{true} = 0xtestxtestx_{test} relative error=xtrue−xtestxtruerelative error=xtrue−xtestxtrue\text{relative error} = \frac{x_{true}-x_{test}}{x_{true}} その場合、相対誤差は常に未定義です。代わりに定義を使用する場合： relative error=xtrue−xtestxtestrelative error=xtrue−xtestxtest\text{relative error} = \frac{x_{true}-x_{test}}{x_{test}} その場合、相対誤差は常に100％です。どちらの方法も役に立たないようです。別の選択肢はありますか？

32 error measurement-error

1

仮定が満たされない場合、回帰モデルはどの程度間違っていますか？

回帰モデルをフィッティングするとき、出力の仮定が満たされない場合、具体的にはどうなりますか：残差が等分散でない場合はどうなりますか？残差対残差対適合プロットでパターンが増加または減少する場合。残差が正規分布されず、Shapiro-Wilkテストに失敗するとどうなりますか？Shapiro-Wilkの正規性のテストは非常に厳密なテストであり、Normal-QQプロットがある程度合理的である場合でも、データはテストに失敗します。 1つ以上の予測変数が正規分布していない場合、Normal-QQプロットで正しく表示されない場合、またはデータがShapiro-Wilkテストに失敗した場合はどうなりますか？私は、ハードな白黒の分割がないこと、0.94が正しいこと、0.95が間違っていることを理解しています。質問では、私は知りたいです：正規性に失敗するとは、R-Squaredの値に応じて適切に適合するモデルを意味します。信頼性が低下したり、まったく役に立たなくなったりしませんか？偏差はどの程度許容されますか、それともまったく許容されますか？正規性の基準を満たすためにデータに変換を適用する場合、データがより正常な場合（Shapiro-Wilk検定のP値が高く、通常のQQプロットの方が良い場合）、または役に立たない場合（同等に良好またはデータが正規性テストに合格するまで、元のものと比べて悪いですか？

28 regression multiple-regression error assumptions normality-assumption

1

lmerモデルからの効果の再現性の計算

混合効果モデリングによる測定の再現性（別名信頼性、別名クラス内相関）の計算方法を説明するこの論文に出会ったばかりです。Rコードは次のようになります。 #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …

28 mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

2

分散と平均二乗誤差の違いは何ですか？

これが以前に聞かれたことがないことに驚いていますが、stats.stackexchangeで質問を見つけることができません。これは、正規分布のサンプルの分散を計算する式です。 ∑(X−X¯)2n−1∑(X−X¯)2n−1\frac{\sum(X - \bar{X}) ^2}{n-1} これは、単純な線形回帰で観測値の二乗平均誤差を計算する式です。 ∑(yi−y^i)2n−2∑(yi−y^i)2n−2\frac{\sum(y_i - \hat{y}_i) ^2}{n-2} これらの2つの式の違いは何ですか？私が見ることができる唯一の違いは、MSEが使用することです。それが唯一の違いであるなら、なぜそれらを両方の分散として参照するのではなく、異なる自由度で？n−2n−2n-2

27 variance error

8

確率のエラーバーには意味がありますか？

人々はしばしば、ある出来事が起こる可能性が50-60％あると言います。確率の割り当てについて明示的なエラーバーを表示する人もいます。これらのステートメントには意味がありますか、それとも本質的に知らない何かに対して特定の番号を選択する不快感の言語的な癖ですか？

25 probability error

2

回帰用の非対称損失関数を設計および実装する方法は？

問題回帰では、通常、サンプルの平均二乗誤差（MSE）を計算しますMSE=1n∑i=1n(g(xi)−gˆ(xi))2MSE=1n∑i=1n(g(xi)−g^(xi))2 \text{MSE} = \frac{1}{n} \sum_{i=1}^n\left(g(x_i) - \widehat{g}(x_i)\right)^2 予測の品質を測定します。現在、私は回帰の問題に取り組んでおり、その目的は、多くの数値的特徴が与えられた場合に顧客が製品に対して支払う価格を予測することです。予測価格が高すぎる場合、顧客は製品を購入しませんが、価格を単純に引き下げることができるため、金銭的損失は低くなります。もちろん、製品が長期間購入されない可能性があるため、高すぎてはいけません。一方、予測価格が低すぎる場合、製品は価格を調整する機会なしに迅速に購入されます。言い換えれば、学習アルゴリズムは、すぐに金銭的損失をもたらす真の価格を過小評価するのではなく、必要に応じて減少させることができるわずかに高い価格を予測する必要があります。質問このコストの非対称性を組み込んだエラーメトリックをどのように設計しますか？可能な解決策非対称損失関数を定義する方法は、単純に重みを掛けることです： 1n∑i=1n∣∣α−1(g(xi)−gˆ(xi))<0∣∣⋅(g(xi)−gˆ(xi))21n∑i=1n|α−1(g(xi)−g^(xi))<0|⋅(g(xi)−g^(xi))2 \frac{1}{n} \sum_{i=1}^n \left| \alpha - \mathbb{1}_{(g(x_i) - \widehat{g}(x_i)) < 0} \right|\cdot \left(g(x_i) - \widehat{g}(x_i)\right)^2 を有するα∈(0,1)α∈(0,1)\alpha \in (0,1)我々は、非対称の程度を変更するために調整することができるパラメータです。ここで見つけた。これは、二次損失を維持しながら行うべき最も簡単なことのように思えます。

24 regression error loss-functions

1

平均二乗誤差と平均二乗予測誤差

平均二乗誤差（MSE）と平均二乗予測誤差（MSPE）のセマンティックの違いは何ですか？

23 regression estimation interpretation error prediction

タグ付けされた質問 「error」

タグ付けされた質問「error」