統計とビッグデータ mean

2

チェビシェフ不等式の次の片側Cantelli版に興味があります。 P(X−E(X)≥t)≤Var(X)Var(X)+t2.P(X−E(X)≥t)≤Var(X)Var(X)+t2. \mathbb P(X - \mathbb E (X) \geq t) \leq \frac{\mathrm{Var}(X)}{\mathrm{Var}(X) + t^2} \,. 基本的に、母平均と分散がわかっている場合、特定の値を観測する確率の上限を計算できます。（少なくとも私の理解はそうでした。）ただし、実際の母集団の平均と分散の代わりに、標本の平均と標本の分散を使用したいと思います。これにより不確実性が高まるため、上限が増加すると推測しています。上記に類似した不等式はありますが、サンプルの平均と分散を使用していますか？編集：チェビシェフ不等式の「サンプル」アナログ（片面ではない）が作成されました。Wikipediaのページには、いくつかの詳細を持っています。ただし、上記の片側のケースにどのように変換されるかはわかりません。

32 probability mathematical-statistics probability-inequalities mean

4

データのウィンザライズとトリミングの相対的なメリットは何ですか？

データのウィンソライズとは、データセットの極値を各端から特定のパーセンタイル値に置き換えることを意味し、トリミングまたは切り捨てにはこれらの極値の削除が含まれます。平均または標準偏差などの統計を計算する際に、外れ値の影響を軽減するための実行可能なオプションとして、両方の方法について説明していますが、一方を選択する理由はわかりません。 WinsorizingまたはTrimmingを使用することに相対的な利点または欠点はありますか？1つの方法が望ましい特定の状況はありますか？実際にはもっと頻繁に使用されていますか、それとも基本的に交換可能ですか？

31 standard-deviation mean truncation trimmed-mean winsorizing

8

外れ値を平均で置き換える

この質問は、インターネットに精通していない友人によって尋ねられました。私は統計のバックグラウンドがなく、この質問をインターネットで検索しています。問題は、外れ値を平均値で置き換えることは可能ですか？可能であれば、この声明をバックアップするための書籍の参照/ジャーナルはありますか？

31 mean outliers robust winsorizing

5

「平均値」と「平均」の違いは何ですか？

ウィキペディアの説明：データセットの場合、平均は値の合計を値の数で割ったものです。ただし、この定義は、私が「平均」と呼ぶものに対応しています（少なくとも、覚えていることは覚えています）。しかし、ウィキペディアはもう一度引用しています：「中央値」や「モード」など、一部の人々が平均値と混同するサンプルを使用する他の統計的尺度があります。今では混乱しています。「平均値」と「平均」は互いに異なりますか？もしそうならどのように？

31 mean interpretation average

2

歪んだ分布の平均に対して信頼できるノンパラメトリックな信頼区間はありますか？

対数正規分布などの非常に歪んだ分布では、正確なブートストラップ信頼区間が得られません。これは、Rでどのブートストラップ方法を試しても、左右のテール領域が理想的な0.025から遠く離れていることを示す例です。 require(boot) n <- 25 B <- 1000 nsim <- 1000 set.seed(1) which <- c('basic', 'perc', 'norm', 'bca', 'stud') mul <- 0; sdl <- 1.65 # on log scale dist <- c('normal', 'lognormal')[2] switch(dist, normal = {g <- function(x) x; mu <- mul}, lognormal = {g <- exp; mu <- …

30 confidence-interval nonparametric mean bootstrap median

4

mean = modeは対称分布を意味しますか？

mean = medianの場合にこの質問が行われたことは知っていますが、mean = modeに関連するものは見つかりませんでした。モードが平均に等しい場合、これは常に対称分布であると結論付けることができますか？この方法の中央値も知る必要がありますか？

30 distributions mean skewness mode symmetry

5

機械学習で階層/ネストされたデータを処理する方法

例で問題を説明します。いくつかの属性（年齢、性別、国、地域、都市）を与えられた個人の収入を予測するとします。あなたはそのようなトレーニングデータセットを持っています train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

10

平均対ギャンブラーの誤acyへの回帰

一方で、平均への回帰があり、他方でギャンブラーの誤acyがあります。ギャンブラーの誤acyは、Miller and Sanjurjo（2019）によって定義されています。「ランダムシーケンスは反転の系統的傾向がある、つまり、同様の結果のストリークは継続するよりも終了する可能性が高いという誤った信念」。連続した時間は、次の試験で不釣り合いに尾を引く可能性が高いと考えられます。私は前回のゲームで良好なパフォーマンスを達成しましたが、平均への回帰によると、おそらく次のゲームではパフォーマンスが低下するでしょう。しかし、ギャンブラーの誤acyによると、次の2つの確率を考慮します。 20頭の確率、1尾= 0.520×0.5=0.5210.520×0.5=0.5210.5^{20} × 0.5 = 0.5^{21} 20頭の確率、その後1頭= 0.520×0.5=0.5210.520×0.5=0.5210.5^{20} × 0.5 = 0.5^{21} その後... 簡単な例を考えてみましょう。生徒のクラスは、科目で100項目の正誤テストを行います。すべての生徒がすべての質問をランダムに選択するとします。次に、各学生のスコアは、平均50の期待値を持つ、独立した同じ分布のランダム変数のセットの1つを実現します。当然のことながら、一部の学生は50を大幅に上回り、一部の学生は偶然50を大幅に下回ります。学生の上位10％のみを取得し、2番目のテストを行って、すべてのアイテムで再びランダムに選択すると、平均スコアは再び50に近くなると予想されます。したがって、これらの学生の平均は、元のテストを受けたすべての学生の平均にまで「回帰」します。学生が元のテストで得点したものに関係なく、2番目のテストで得点の最高の予測は50です。特別に10％の学生のトップスコアのみを取得し、すべてのアイテムで再びランダムに選択する2回目のテストを行うと、平均スコアは再び50に近くなります。ギャンブラーの誤acyによると、得点の確率は同じで、必ずしも50に近いとは限らないと思われますか？ Miller、JB、およびSanjurjo、A.（2019）。サンプルサイズを無視した場合の経験によるギャンブラーの誤Fallの確認方法

29 regression mean fallacy gambling

1

自由度は非整数の数値にできますか？

GAMを使用すると、残留DFは（コードの最終行）になります。どういう意味ですか？GAMの例を超えて、一般に、自由度の数を整数以外の数にすることはできますか？26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …

27 r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

3

重心を見つけることは、平均を見つけることとどう違うのですか？

階層クラスタリングを実行する場合、多くのメトリックを使用してクラスター間の距離を測定できます。このような2つのメトリックは、クラスター内の重心とデータポイントの平均の計算を意味します。平均と重心の違いは何ですか？これらはクラスター内の同じポイントではありませんか？

26 clustering mean

3

2つの正規平均の比の信頼区間を計算する方法

私はのための限界を導出したい二つの手段の比の信頼区間を。仮定、および独立している、平均比。解決しようとしました：だが、その方程式は多くの場合解くことができなかった（根がない）。私は何か間違っていますか？より良いアプローチはありますか？ありがとう100 （1 - α ）％100（1−α）％100(1-\alpha)\%バツ1〜N（θ1、σ2）バツ1〜N（θ1、σ2）X_1 \sim N(\theta_1, \sigma^2)バツ2〜N（θ2、σ2）バツ2〜N（θ2、σ2）X_2 \sim N(\theta_2, \sigma^2)Γ = θ1/ θ2Γ=θ1/θ2\Gamma = \theta_1/\theta_2Pr （− z（α / 2 ））≤ X1- Γ X2/ σ1 + γ2−−−−−√≤ Z（α / 2 ））= 1 - αPr（−z（α/2））≤バツ1−Γバツ2/σ1+γ2≤z（α/2））=1−α\text{Pr}(-z(\alpha/2)) \leq X_1 - \Gamma X_2 / \sigma \sqrt {1 + \gamma^2} \leq z(\alpha/2)) …

26 normal-distribution mean

3

算術平均が幾何平均に非常に近い場合、データについて何を結論付けることができますか？

幾何平均と算術平均について、互いに非常に近いもの、たとえば〜0.1％に重要なものはありますか？そのようなデータセットについてどのような推測をすることができますか？私はデータセットの分析に取り組んできましたが、皮肉なことに、値は非常に近いことがわかりました。正確ではないが、近い。また、算術平均幾何平均不等式の簡単な健全性チェックとデータ収集のレビューにより、値をどのように考え出したかという点で、データセットの整合性について怪しいものはないことが明らかになりました。

24 descriptive-statistics mean geometric-mean

4

データの分布が対称かどうかを確認するにはどうすればよいですか？

中央値と平均値がほぼ等しい場合、対称分布が存在することを意味しますが、この特定のケースでは確信がありません。平均値と中央値は非常に近い（差額は0.487m / gallのみ）ため、対称分布があると言えますが、箱ひげ図を見ると、わずかに正に歪んでいるように見えます（中央値はQ3よりもQ1に近いことが確認されています）値によって）。（このソフトウェアについて特別なアドバイスがあれば、Minitabを使用しています。）

23 distributions mean skewness median qq-plot

4

なぜ平均値は中央値よりも異なるサンプルでより安定しているのですか

Andy FieldsによるRを使用した統計の発見などのセクション1.7.2、および平均対中央値の長所を挙げながら： ...平均は異なるサンプルで安定する傾向があります。これは中央値の多くの美徳を説明した後、例えば ...中央値は、分布の両端の極端なスコアに比較的影響を受けません... 中央値が極端なスコアの影響を比較的受けないことを考えると、サンプル全体でより安定していると思っていたでしょう。だから著者の主張に戸惑った。シミュレーションを実行したことを確認するために、1Mの乱数を生成し、100の数値を1000回サンプリングし、各サンプルの平均と中央値を計算してから、それらのサンプルの平均と中央値のsdを計算しました。 nums = rnorm(n = 10**6, mean = 0, sd = 1) hist(nums) length(nums) means=vector(mode = "numeric") medians=vector(mode = "numeric") for (i in 1:10**3) { b = sample(x=nums, 10**2); medians[i]= median(b); means[i]=mean(b) } sd(means) >> [1] 0.0984519 sd(medians) >> [1] 0.1266079 p1 <- hist(means, col=rgb(0, …

22 mean median

5

一部の分布の平均が未定義になるのはなぜですか？

多くのPDFの範囲はマイナスからプラスの無限までありますが、いくつかの手段が定義され、いくつかは定義されていません。どのような一般的な特性が計算可能になりますか？

21 distributions mean

タグ付けされた質問 「mean」

タグ付けされた質問「mean」