タグ付けされた質問 「descriptive-statistics」

記述統計は、平均と標準偏差、中央値と四分位数、最大値と最小値など、サンプルの特徴を要約します。複数の変数を使用して、相関とクロス集計を含めることができます。箱ひげ図、ヒストグラム、散布図などの視覚表示を含めることができます。

5
正規化と標準化の違いは何ですか?
職場では、上司が正規化について聞いたことがないので、これについて議論していました。線形代数では、正規化はベクトルをその長さで除算することを指しているようです。また、統計では、標準化は平均を差し引いてからそのSDで割ることを指すようです。しかし、それらは他の可能性とも互換性があるようです。 ある種のユニバーサルスコアを作成するとき、それは異なるメトリックを構成します。これらは異なる手段と異なるSDを持ち、正規化しますか、標準化しますか。ある人は、各メトリックを取得し、それらをSDで個別に分割するだけの問題だと言った。次に、2つを合計します。そして、それは両方のメトリックを判断するために使用できる普遍的なスコアになります。222 たとえば、地下鉄に乗って仕事をする人の数(NYCの場合)と、車で仕事に行く人の数(NYCの場合)があるとします。 車⟶ yのTrain⟶xTrain⟶x\text{Train} \longrightarrow x Car⟶yCar⟶y\text{Car} \longrightarrow y 交通量の変動をすばやく報告するためにユニバーサルスコアを作成する場合、および追加することはできません。電車に乗る人が多くなるからです。NYCには800万人が住んでおり、さらに観光客もいます。車で毎日何十万人もの人々が電車に乗っている何百万人もの人々です。したがって、それらを比較するには、同様のスケールに変換する必要があります。平均(y )mean(x)mean(x)\text{mean}(x)mean(y)mean(y)\text{mean}(y) 場合mean(x)=8,000,000mean(x)=8,000,000\text{mean}(x) = 8,000,000 およびmean(y)=800,000mean(y)=800,000\text{mean}(y) = 800,000 とを正規化し、合計しますか?とを標準化し、合計しますか?または、それぞれをそれぞれのSDで割り、合計しますか?変動するとき、合計のトラフィック変動を表す数値に到達するため。y x yxxxyyyxxxyyy 参考のために本の記事または章をいただければ幸いです。ありがとう! また、私がやろうとしていることの別の例もあります。 あなたが大学の学部長であり、入学要件について話し合っていると想像してください。少なくとも特定のGPAと特定のテストスコアを持つ学生が必要な場合があります。それらが両方とも同じ規模であれば、2つを加算して、「少なくとも7.0を持っている人なら誰でも認められる」と言うことができるのでいいでしょう。そうすることで、入学希望者が4.0 GPAを取得している場合、3.0のテストスコアを取得しても、入学することができます。逆に、3.0のGPAがあったとしても、4.0のテストスコアで入院することができます。 しかし、それはそうではありません。ACTは36ポイントスケールであり、ほとんどのGPAは4.0です(一部は4.3で、いらいらします)。ACTとGPAを追加して、ある種のユニバーサルスコアを取得することはできないため、それらを追加できるように変換して、ユニバーサルアドミッションスコアを作成するにはどうすればよいですか。そして、学部長として、特定のしきい値を超えるスコアを持つ人を自動的に受け入れることができました。または、スコアが上位95%以内にある全員を自動的に受け入れます。 それは正規化でしょうか?標準化?または、それぞれをSDで割ってから合計しますか?


3
例:バイナリ結果にglmnetを使用したLASSO回帰
私は興味のある結果が二分されglmnetているLASSO回帰の使用に手を出し始めています。以下に小さな模擬データフレームを作成しました。 age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

4
標準偏差を「合計」する方法は?
値の月間平均とその平均に対応する標準偏差があります。現在、月平均の合計として年平均を計算していますが、合計平均の標準偏差をどのように表すことができますか? たとえば、風力発電所からの出力を検討する場合: Month MWh StdDev January 927 333 February 1234 250 March 1032 301 April 876 204 May 865 165 June 750 263 July 780 280 August 690 98 September 730 76 October 821 240 November 803 178 December 850 250 風力発電所は平均して10,358 MWhを生産していますが、この数値に対応する標準偏差はどのくらいですか?

8
順序データに使用する適切な基本統計とは何ですか?
私はいくつか持っている順序データの調査の質問から得られたし。私の場合、それらはリッカートスタイルの応答です(強く同意しない、同意しない、中立、同意する、強く同意します)。私のデータでは、それらは1-5としてコード化されています。 ここで手段が意味することはあまりないと思うので、どのような基本的な要約統計量が役に立つと考えられますか?



5
連続変数とカテゴリー変数(名義変数)の相関
連続(従属変数)変数とカテゴリ(名目:性別、独立変数)変数の間の相関関係を見つけたいと思います。連続データは通常は配布されません。以前は、スピアマンのを使用して計算していました。しかし、私はそれが正しくないと言われました。ρρ\rho インターネットで検索しているときに、箱ひげ図がそれらがどの程度関連付けられているかについてのアイデアを提供できることがわかりました。ただし、ピアソンの積率係数やスピアマンのなどの定量化された値を探していました。これを行う方法について私を助けてもらえますか?または、どの方法が適切かを教えてください。ρρ\rho Point Biserial Coefficientは正しいオプションでしょうか?

3
平均、中央値、モード間の経験的関係
適度に歪んだユニモーダル分布の場合、平均、中央値、モードの間に次の経験的関係があります。 この関係はどうでしたか派生?(Mean - Mode)∼3(Mean - Median)(Mean - Mode)∼3(Mean - Median) \text{(Mean - Mode)}\sim 3\,\text{(Mean - Median)} この結論を形成する前に、カールピアソンはこれらの関係を何千もプロットしましたか、それともこの関係の背後に論理的な推論の線がありますか?

8
Rのグラフィカルデータの概要(概要)関数
Rパッケージでこのような関数に出くわしたことは確かですが、大規模なGooglingを行った後はどこにも見つからないようです。私が考えている機能は、それに与えられた変数のグラフィカルな要約を生成し、いくつかのグラフ(ヒストグラムとおそらくボックスとウィスカープロット)と平均、SDなどの詳細を示すテキストで出力を生成します この関数はベースRに含まれていなかったと確信していますが、使用したパッケージが見つからないようです。 誰もがこのような関数を知っていますか?もしそうなら、どのパッケージに含まれていますか?

6
共分散推定量の分母がn-1ではなくn-2にならないのはなぜですか?
(不偏)分散推定量の分母はであり、観測値があり、推定されるパラメーターは1つだけです。n−1n−1n-1nnn V(X)=∑ni=1(Xi−X¯¯¯¯)2n−1V(X)=∑i=1n(Xi−X¯)2n−1 \mathbb{V}\left(X\right)=\frac{\sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)^{2}}{n-1} 同様に、2つのパラメーターを推定するときに共分散の分母をにしないのはなぜでしょうか?n−2n−2n-2 Cov(X,Y)=∑ni=1(Xi−X¯¯¯¯)(Yi−Y¯¯¯¯)n−1Cov(X,Y)=∑i=1n(Xi−X¯)(Yi−Y¯)n−1 \mathbb{Cov}\left(X, Y\right)=\frac{\sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)\left(Y_{i}-\overline{Y}\right)}{n-1}

3
ロジスティック回帰の95%信頼区間を手動で計算することと、Rでconfint()関数を使用することに違いがあるのはなぜですか?
皆さん、私は説明できない奇妙なことに気づきました、できますか?要約すると、ロジスティック回帰モデルで信頼区間を計算する手動のアプローチとR関数confint()は異なる結果をもたらします。 Hosmer&LemeshowのApplied Logistic Regression(第2版)を行ってきました。第3章には、オッズ比と95%の信頼区間を計算する例があります。Rを使用すると、モデルを簡単に再現できます。 Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.8408 0.2551 -3.296 0.00098 *** as.factor(dataset$dich.age)1 2.0935 0.5285 3.961 7.46e-05 *** --- Signif. codes: 0 ‘***’ 0.001 …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

7
変動係数の解釈方法は?
変動係数を理解しようとしています。次の2つのデータサンプルに適用しようとすると、結果の解釈方法を理解できません。 サンプル1が 、サンプル2がます。サンプル2サンプル1をご覧ください。10 、15 、17 、22 、21 、27 = + 100 、5 、7 、12 、11 、170,5,7,12,11,17{0, 5, 7, 12, 11, 17}10 、15 、17 、22 、21 、2710,15,17,22,21,27{10 ,15 ,17 ,22 ,21 ,27}===+ 10 + 10+\ 10 どちらも同じ標準偏差が、およびです。μ 2 = 18.67 μ 1 = 8.66667σ2= σ1= 5.95539σ2=σ1=5.95539\sigma_{2} = \sigma_{1}= 5.95539μ2= 18.67μ2=18.67\mu_{2}=18.67μ1= 8.66667μ1=8.66667\mu_{1}=8.66667 …

5
機械学習で階層/ネストされたデータを処理する方法
例で問題を説明します。いくつかの属性(年齢、性別、国、地域、都市)を与えられた個人の収入を予測するとします。あなたはそのようなトレーニングデータセットを持っています train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

2
変動は分散と同じですか?
これは、ここでのクロス検証に関する最初の質問ですので、些細なことでも手伝ってください。それにもかかわらず、ここにあります: 人口統計では、変動と分散は同じ用語ですか?そうでない場合、2つの違いは何ですか? 分散は標準偏差の二乗であることを知っています。また、データがどの程度スパースであるかを示す尺度であり、その計算方法も知っています。 しかし、私は「モデル思考」と呼ばれるCoursera.orgのコースをフォローしており、講師は明らかに変化を説明しましたが、常にそれを変化と呼んでいました。それで少し混乱しました。 公平を期すために、彼は常に母集団内の特定のインスタンスのバリエーションの計算について話しました。 それらが交換可能である場合、またはおそらく私が何かを見逃している場合、誰かが私にそれを明確にすることができますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.