統計とビッグデータ error-propagation

2

私はこのチュートリアルにあるクロスエントロピーコスト関数を見ています： C=−1n∑x[ylna+(1−y)ln(1−a)]C=−1n∑x[yln⁡a+(1−y)ln⁡(1−a)]C = -\frac{1}{n} \sum_x [y \ln a+(1−y)\ln(1−a)] 正確には何を合計しているのですか？それはもちろん、上、あるが、とで変わらない。すべてのは、1つのへの入力です。は、方程式の上の段落で、すべてのとの合計の関数として定義されています。 xxxyyyaaaxxxxxxaaaaaawwwxxx また、はこの特定のニューロンへの入力数として定義されていますよね？「トレーニングデータの総数」と表現されています。nnn 編集：私はそれを正しいと思いますか C=−1n∑x[ylna+(1−y)ln(1−a)]C=−1n∑x[yln⁡a+(1−y)ln⁡(1−a)]C= -\frac{1}{n} \sum_x [y \ln a+(1−y)\ln(1−a)] ネットワーク全体のコスト関数になりますが、 C=[ylna+(1−y)ln(1−a)]C=[yln⁡a+(1−y)ln⁡(1−a)]C = [y \ln a+(1−y)\ln(1−a)] 個々のニューロンのコストでしょうか？合計は各出力ニューロンを超えるべきではありませんか？

10 neural-networks error-propagation

2

エラー伝播SD対SE

私は、2つの異なる条件（AとB）で、1人あたり3〜5個の特性を測定しています。各条件の各個人の平均をプロットしており、標準誤差（つまり、、 =測定数）を誤差範囲として使用しています。 NSD / N−−√SD/NSD/\sqrt{N}NNN ここで、条件Aと条件Bの個人ごとの平均測定値の差をプロットしたいと思います。次のようにして伝搬エラーを特定できることがわかります。 SD = SD2あ+ SD2B−−−−−−−−−−√SD=SDA2+SDB2SD=\sqrt{SD_A^2+SD_B^2} しかし、標準偏差の代わりに標準誤差を伝搬するにはどうすればよいですか（測定の平均を扱っているため）。これはまったく意味がありますか？

10 standard-deviation standard-error error error-propagation

1

Rを使用した、データに不確実性がある線形モデル

不確実なデータがあるとしましょう。例えば： X Y 1 10±4 2 50±3 3 80±7 4 105±1 5 120±9 不確かさの性質としては、繰り返し測定や実験、測定器の不確かさなどがあります。 Rを使用してカーブをフィットさせたいのですが、通常はで行いlmます。ただし、これは、フィット係数の不確実性、したがって予測区間の不確実性を私に与える場合、データの不確実性を考慮に入れていません。ドキュメントを見ると、lmページにはこれがあります： ...重みは、異なる観測値に異なる分散があることを示すために使用できます... だから、多分これは何か関係があるのではないかと思います。私はそれを手動で行う理論を知っていますが、lm関数でそれを行うことが可能かどうか疑問に思っていました。そうでない場合、これを実行できる他の関数（またはパッケージ）はありますか？編集コメントのいくつかを見て、ここにいくつかの明確化があります。この例を見てみましょう： x <- 1:10 y <- c(131.4,227.1,245,331.2,386.9,464.9,476.3,512.2,510.8,532.9) mod <- lm(y ~ x + I(x^2)) summary(mod) くれます： Residuals: Min 1Q Median 3Q Max -32.536 -8.022 0.087 7.666 26.358 Coefficients: Estimate Std. Error t …

9 r least-squares error-propagation

3

SVDを実行して欠損値を代入する方法、具体例

SVDを適用する前に欠損値を処理する方法に関する素晴らしいコメントを読みましたが、簡単な例でどのように機能するか知りたいです。 Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 上記のマトリックスを考えると、NAの値を削除すると、User2とUser5しかなくなります。これは、私のUが2×kになることを意味します。しかし、欠損値を予測する場合、Uは5×kである必要があります。これは、特異値とVで乗算できます。上記のマトリックスで、最初に欠損値のあるユーザーを削除してからSVDを適用して、欠損値を記入する人はいますか？数学記号を使いすぎずに、適用した手順の非常に簡単な説明を提供し、答えを実用的なものにしてください（つまり、数値に別の数値を掛けると答えが得られます）。次のリンクを読みました。 stats.stackexchange.com/q/33142 stats.stackexchange.com/q/31096 stats.stackexchange.com/q/33103

8 r missing-data data-imputation svd sampling matlab mcmc importance-sampling predictive-models prediction algorithms graphical-model graph-theory r regression regression-coefficients r-squared r regression modeling confounding residuals fitting glmm zero-inflation overdispersion optimization curve-fitting regression time-series order-statistics bayesian prior uninformative-prior probability discrete-data kolmogorov-smirnov r data-visualization histogram dimensionality-reduction classification clustering accuracy semi-supervised labeling state-space-models t-test biostatistics paired-comparisons paired-data bioinformatics regression logistic multiple-regression mixed-model random-effects-model neural-networks error-propagation numerical-integration time-series missing-data data-imputation probability self-study combinatorics survival cox-model statistical-significance wilcoxon-mann-whitney hypothesis-testing distributions normal-distribution variance t-distribution probability simulation random-walk diffusion hypothesis-testing z-test hypothesis-testing data-transformation lognormal r regression agreement-statistics classification svm mixed-model non-independent observational-study goodness-of-fit residuals confirmatory-factor neural-networks deep-learning

2

膨大なデータセットが与えられた場合、なぜ統計モデルは過剰適合しますか？

現在のプロジェクトでは、特定のグループの行動を予測するモデルを構築する必要があるかもしれません。トレーニングデータセットには6つの変数のみが含まれます（idは識別目的のみです）。 id, age, income, gender, job category, monthly spend その中で monthly spend応答変数です。ただし、トレーニングデータセットには約300万行が含まれid, age, income, gender, job category、予測されるデータセット（応答変数は含まれるが、含まれない）には100万行が含まれます。私の質問は、統計モデルにあまりにも多くの行（この場合は300万行）を投げた場合に潜在的な問題はありますか？計算コストが懸念事項の1つであることを理解していますが、他に懸念事項はありますか？データセットのサイズの問題を完全に説明している本/紙はありますか？

8 modeling large-data overfitting clustering algorithms error spatial r regression predictive-models linear-model average measurement-error weighted-mean error-propagation python standard-error weighted-regression hypothesis-testing time-series machine-learning self-study arima regression correlation anova statistical-significance excel r regression distributions statistical-significance contingency-tables regression optimization measurement-error loss-functions image-processing java panel-data probability conditional-probability r lme4-nlme model-comparison time-series probability probability conditional-probability logistic multiple-regression model-selection r regression model-based-clustering svm feature-selection feature-construction time-series forecasting stationarity r distributions bootstrap r distributions estimation maximum-likelihood garch references probability conditional-probability regression logistic regression-coefficients model-comparison confidence-interval r regression r generalized-linear-model outliers robust regression classification categorical-data r association-rules machine-learning distributions posterior likelihood r hypothesis-testing normality-assumption missing-data convergence expectation-maximization regression self-study categorical-data regression simulation regression self-study self-study gamma-distribution modeling microarray synthetic-data

1

グループ平均について推論するとき、信頼区間は被験者内分散に敏感ですが、信頼区間はそうではありませんか？

これはこの質問から派生したものです。Rを使用して各個人の複数の測定値を持つ2つのグループを比較する方法は？そこでの回答で（私が正しく理解した場合）、被験者内分散はグループ平均についてなされた推論に影響を与えず、単純に平均の平均をとってグループ平均を計算し、次にグループ内分散を計算してそれを使用することは問題ありません有意性検定を実行します。サブジェクト内の分散が大きいほど、グループについて確信が持てない、またはそれを望んでも意味がない理由を理解できない方法を使用したいと思います。これは、元のデータと、同じ被験者平均を使用したシミュレーションデータのプロットですが、これらの平均と被験者内分散（sd = .1）を使用して、正規分布から各被験者の個々の測定値をサンプリングしました。見て取れるように、グループレベルの信頼区間（一番下の行）はこれに影響されません（少なくとも私が計算した方法）。また、3つの方法でグループ平均を推定するためにrjagsを使用しました。1）元の生データを使用する2）被験者の手段のみを使用する3）被験者内sdが小さいシミュレーションデータを使用する結果は以下の通りです。この方法を使用すると、95％の信頼できる間隔は、ケース＃2と＃3で狭いことがわかります。これは、グループ平均について推論するときに何をしたいのかという私の直感に一致しますが、これがモデルのアーチファクトなのか、信頼できる間隔のプロパティなのかはわかりません。注意。rjagsを使用するには、まずここからJAGSをインストールする必要があります：http ://sourceforge.net/projects/mcmc-jags/files/ さまざまなコードを以下に示します。元のデータ： structure(c(1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, …

8 r confidence-interval mixed-model jags error-propagation

タグ付けされた質問 「error-propagation」

タグ付けされた質問「error-propagation」