タグ付けされた質問 「sample」

サンプルは母集団のサブセットです。一般に、統計は、サンプルを使用して、より大きい(場合によっては無限の)母集団を支配するパラメーターについて推論することを考慮しています。

25
自由に利用可能なデータサンプルの検索
私は、データセットを分析および解析して、サブグループの特性を知らずに母集団のサブグループを特定および分離する新しい方法に取り組んでいます。この方法は、人工データサンプル(つまり、母集団のサブセットを識別および分離するために特別に作成されたデータセット)で十分に機能しますが、ライブデータでテストしてみたいと思います。 私が探しているのは、自由に利用できる(つまり、非機密、非専有)データソースです。好ましくは、バイモーダルまたはマルチモーダル分布を含むもの、または明らかに従来の手段では簡単に分解できない複数のサブセットで構成されるものです。そのような情報はどこで入手できますか?


3
R:データセットにNaNがないにもかかわらず、「Forest function call」エラーでNaN / Infをスローするランダムフォレスト[非公開]
キャレットを使用して、データセットに対してクロス検証されたランダムフォレストを実行しています。Y変数は要因です。データセットにNaN、Inf、またはNAはありません。ただし、ランダムフォレストを実行すると、 Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see them) Warning messages: 1: In data.matrix(x) : NAs introduced by coercion 2: In data.matrix(x) : NAs introduced by coercion 3: In data.matrix(x) : NAs introduced by …

3
ランダムなサンプルが明らかに代表的でない場合はどうなりますか?
ランダムなサンプルを取り、それが明らかに最近の質問のように代表ではないことがわかる場合はどうでしょう。たとえば、人口分布が0を中心に対称であると仮定し、ランダムに描画するサンプルに不均衡な正と負の観測値があり、不均衡が統計的に有意である場合、どうなりますか?バイアスされたサンプルに基づいて、母集団についてどのような合理的な説明をすることができますか?そのような状況での合理的な行動方針は何ですか?私たちの研究でこの不均衡に気づいたとき、それは重要ですか?

1
lmerモデルからの効果の再現性の計算
混合効果モデリングによる測定の再現性(別名信頼性、別名クラス内相関)の計算方法を説明するこの論文に出会ったばかりです。Rコードは次のようになります。 #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

1
自由度は非整数の数値にできますか?
GAMを使用すると、残留DFは(コードの最終行)になります。どういう意味ですか?GAMの例を超えて、一般に、自由度の数を整数以外の数にすることはできますか?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

9
ping応答時間に関するこのデータがどのような分布を表しているのかを知るにはどうすればよいですか?
ネットワークping時間の実世界のプロセスをサンプリングしました。「往復時間」はミリ秒単位で測定されます。結果はヒストグラムにプロットされます。 ping時間には最小値がありますが、長い上側の尾があります。 これがどのような統計分布であり、そのパラメーターを推定する方法を知りたいです。 ディストリビューションは通常のディストリビューションではありませんが、達成しようとしていることを示すことができます。 正規分布は次の関数を使用します。 2つのパラメーター μ(平均) σ 2 (分散) パラメータ推定 2つのパラメーターを推定する式は次のとおりです。 Excelにあるデータに対してこれらの式を適用すると、次のようになります。 μ= 10.9558(平均) σ 2 = 67.4578(分散) これらのパラメーターを使用すると、サンプリングしたデータの上に「正規」分布をプロットできます。 明らかに正規分布ではありません。正規分布は、無限の上部および下部テールを持ち、対称です。この分布は対称ではありません。 どの原則を適用しますか。これがどのような分布であるかを判断するために、どのフローチャートを適用しますか? 分布に負のテールがなく、長い正のテールがある場合、どの分布がそれに一致しますか? あなたが取っている観測値に分布を一致させる参照はありますか? そして、簡単に言えば、この分布の式は何ですか?また、そのパラメーターを推定する式は何ですか? 「平均」値と「スプレッド」を取得できるように、分布を取得したい: 私は実際にソフトウェアでヒストグラムをプロットしており、理論的な分布をオーバーレイしたい: 注:math.stackexchange.comからクロスポスト 更新:160,000サンプル: 月と月、および無数のサンプリングセッションは、すべて同じ分布を提供します。数学的表現が必要です。 Harveyは、データをログスケールにすることを提案しました。対数スケールでの確率密度は次のとおりです。 タグ:サンプリング、統計、パラメーター推定、正規分布 それは答えではなく、質問の補遺です。これが配布バケットです。もっと冒険好きな人は、Excel(またはあなたが知っているプログラム)にそれらを貼り付けて、分布を見つけることができると思います。 値は正規化されます Time Value 53.5 1.86885613545469E-5 54.5 0.00396197500716395 55.5 0.0299702228922418 56.5 0.0506460012708222 57.5 0.0625879919763777 58.5 0.069683415770654 59.5 0.0729476844872482 …

3
ブートストラップ:オーバーフィットの問題
元の観測値からそれぞれサイズサンプルを置き換えて描画することにより、いわゆるノンパラメトリックブートストラップを実行するとします。この手順は、経験累積分布関数による累積分布関数の推定と同等であると思います。BBBnnnnnn http://en.wikipedia.org/wiki/Empirical_distribution_function そして、連続した推定累積分布関数回から回の観測値をシミュレートして、ブートストラップサンプルを取得します。nnnBBB 私がこれに正しければ、経験的累積分布関数には約N個のパラメーターがあるため、過剰適合の問題に対処する必要があります。もちろん、漸近的に母集団cdfに収束しますが、有限サンプルについてはどうでしょうか?たとえば、100個の観測値があり、2つのパラメーターを使用してcdfをとして推定する場合、心配する必要はありません。ただし、パラメーターの数が100に達する場合、まったく妥当とは思えません。N(μ,σ2)N(μ,σ2)N(\mu, \sigma^2) 同様に、標準の多重線形回帰を使用する場合、誤差項の分布はとして推定されます。残差のブートストラップに切り替えることにした場合、エラー項の分布を処理するためだけに約 n個のパラメーターが使用されることに気づかなければなりません。N(0,σ2)N(0,σ2)N(0, \sigma^2)nnn この問題に明示的に対処しているいくつかの情報源を教えてもらえますか、間違っていると思われる場合はなぜ問題ではないのか教えてください。



4
母集団の定量的特性は「パラメータ」ですか?
統計とパラメーターという用語の区別については比較的よく知っています。統計は、サンプルデータに関数を適用して得られた値として表示されます。ただし、パラメーターのほとんどの例は、パラメトリック分布の定義に関連しています。一般的な例は、正規分布をパラメーター化する平均と標準偏差、または線形回帰をパラメーター化する係数と誤差分散です。 ただし、人口分布のその他の多くの値はプロトタイプではありません(たとえば、最小、最大、重回帰のr平方、.25変位値、中央値、非ゼロ係数の予測子の数、歪度、数.3を超える相関行列の相関関係など)。 したがって、私の質問は次のとおりです。 母集団の定量的特性に「パラメータ」というラベルを付ける必要がありますか? はいの場合、なぜですか? いいえの場合、パラメータにラベル付けしない特性は何ですか?それらは何にラベル付けされるべきですか?なぜ? 混乱に関する詳細 推定量に関するウィキペディアの記事には、次のように記載されています。 「推定器」または「点推定」は、統計モデルの未知のパラメーターの値を推測するために使用される統計(つまり、データの関数)です。 しかし、未知の値を.25分位として定義し、その未知の推定量を開発できます。つまり、母集団のすべての量的特性が、平均とsdが正規分布のパラメーターであると同じようにパラメーターであるわけではありませんが、量的母集団特性を推定しようとするのは正当です。

1
大規模なサンプルの漸近/理論-なぜ気にするのか?
この質問が「あまりにも一般的」とマークされないことを望み、すべてに利益をもたらす議論が開始されることを望みます。 統計では、大規模なサンプル理論の学習に多くの時間を費やしています。漸近的に不偏であるか、漸近的に効率的であるか、それらの漸近分布などを含む推定器の漸近特性を評価することに深く興味があります。漸近という言葉は、という仮定と強く結びついていn → ∞n→∞n \rightarrow \inftyます。 しかし実際には、常に有限の扱いnnnます。私の質問は: 1)大きなサンプルとはどういう意味ですか?小さいサンプルと大きいサンプルをどのように区別できますか? 2)と言うときn → ∞n→∞n \rightarrow \infty、文字通りnnnは行くべきだという意味∞∞\inftyですか? 二項分布の場合、はCLTで正規分布に収束するために約n = 30が必要です。我々は持っている必要があり、N → ∞かによって、この場合には∞我々は30以上を意味します!バツ¯バツ¯\bar{X}n → ∞n→∞n \rightarrow \infty∞∞\infty 3)有限のサンプルがあり、推定量の漸近的挙動に関するすべてを知っていると仮定します。だから何?推定器が漸近的に不偏であると仮定すると、有限サンプルの対象パラメータの不偏推定がありますか、それともがあれば不偏のものになりますか?n → ∞n→∞n \rightarrow \infty 上記の質問からわかるように、私は「大規模なサンプル漸近性」の背後にある哲学を理解し、私たちが気にする理由を学ぼうとしていますか?私が学んでいる定理についていくつかの直観を得る必要があります。

1
LARSと投げ縄の座標降下
L1正規化線形回帰のあてはめにLARS [1]を使用する場合と座標降下を使用する場合の長所と短所は何ですか? 私は主にパフォーマンスの側面に興味があります(私の問題はN数十万とp20未満にある傾向があります)。しかし、他の洞察も歓迎されます。 編集:私は質問を投稿したので、chlは親切にフリードマンらによる論文[2]を指摘しました。そこでは、座標降下は他の方法よりもかなり速いことが示されています。その場合、実務家として座標降下を支持するLARSを単に忘れるべきですか? [1]エフロン、ブラッドリー。ヘイスティー、トレバー; ジョンストーン、イアンおよびティブシラーニ、ロバート(2004)。「最小角度回帰」。統計32(2):pp。407–499。 [2] Jerome H. Friedman、Trevor Hastie、Rob Tibshirani、「座標降下による一般化線形モデルの正規化パス」、Journal of Statistics Software、Vol。33、1号、2010年2月。

2
ランダム変数とランダムサンプルの違いは何ですか?
統計を学んでいたとき、これら2つの式は私をよく混乱させました。まるで違うもののようです。 ランダムなサンプルは一方で、ランダムに母集団からサンプルを取ることである確率変数が実数に、実験のすべての可能な結果セットをマップする関数のようなものです。 ただし、いくつかのサンプル、、およびを描画する場合、およびは不明ですが、、、ランダムサンプルまたはランダム変数ですか?X1X1X_1X2X2X_2X3X3X_3Xi∼N(μ,σ2)Xi∼N(μ,σ2)X_i \sim N(\mu,\sigma^2)μμ\muσσ\sigmaX1X1X_1X2X2X_2X3X3X_3

2
Kaggleコンペティションは偶然に勝っただけですか?
Kaggleコンペティションでは、実施済みのテストセットに基づいて最終ランキングを決定します。 保留テストセットはサンプルです。モデル化されている母集団を代表していない場合があります。各提出は仮説のようなものであるため、競争に勝ったアルゴリズムは、偶然にも、他のアルゴリズムよりもテストセットによく一致する可能性があります。つまり、別のテストセットが選択され、競争が繰り返された場合、ランキングは同じままになりますか? スポンサー企業にとって、これは実際には重要ではありません(おそらく、上位20件のサブミッションがベースラインを改善するでしょう)。皮肉なことに、彼らはより悪い最初のランクのモデルを使用することになりますは他のトップ5よりもなります。しかし、競争の参加者にとって、Kaggleは最終的にはチャンスのゲームだと思われます。正しいソリューションにつまずくために運は必要ありません。テストセットに一致するものにつまずく必要があります。 統計的に区別できない上位チームがすべて勝つように競争を変更することは可能ですか?または、このグループで、最もpar約的または計算的に安価なモデルが勝つことができましたか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.