タグ付けされた質問 「spss」

SPSSは統計ソフトウェアパッケージです。このタグは、(a)質問の重要な部分または予想される回答としてSPSSを含み、(b)SPSSの使い方だけではないトピックに関する質問に使用します。

25
統計ワークベンチとしてのPython
多くの人々が、Excelや別のスプレッドシート、SPSS、Stata、Rなどのメインツールを統計のニーズに使用しています。非常に特別なニーズのために特定のパッケージを使用する場合がありますが、単純なスプレッドシートまたは一般的な統計パッケージまたは統計プログラミング環境で多くのことができます。 私は常にプログラミング言語としてPythonが好きで、単純なニーズのために、必要なものを計算する短いプログラムを書くのは簡単です。Matplotlibでプロットできます。 RからPythonに完全に切り替えた人はいますか?R(または他の統計パッケージ)には統計に固有の多くの機能があり、実行したい統計について考えることができるデータ構造があり、データの内部表現についてはあまりありません。Python(またはその他の動的言語)には、馴染みのある高レベル言語でプログラミングできるという利点があります。また、データが存在する、またはそこから測定を行うことができる実際のシステムとプログラムでやり取りすることができます。しかし、単純な記述統計からより複雑な多変量法まで、「統計用語」で物事を表現できるPythonパッケージは見つかりませんでした。 Pythonを「統計ワークベンチ」として使用して、R、SPSSなどを置き換える場合、何を推奨できますか? あなたの経験に基づいて、私は何を獲得し、失いますか?
355 r  spss  stata  python 

3
例:バイナリ結果にglmnetを使用したLASSO回帰
私は興味のある結果が二分されglmnetているLASSO回帰の使用に手を出し始めています。以下に小さな模擬データフレームを作成しました。 age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

3
Rが負の場合
私の理解では、は乗なので負にはなり得ません。しかし、単一の独立変数と従属変数を使用してSPSSで単純な線形回帰を実行しました。私のSPSS出力は、負の値を与えます。Rから手動でこれを計算する場合、は正になります。これを負として計算するためにSPSSは何をしましたか?R 2 R 2R2R2R^2R2R2R^2R2R2R^2 R=-.395 R squared =-.156 B (un-standardized)=-1261.611 私が使用したコード: DATASET ACTIVATE DataSet1. REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT valueP /METHOD=ENTER ageP 負の値を取得します。誰もこれが何を意味するのか説明できますか?

8
PCAの後に回転(バリマックスなど)が続いているのはまだPCAですか?
私はRのSPSSから(PCAを使用して)いくつかの研究を再現しようとしました。私の経験では、パッケージからのprincipal() 関数はpsych、出力に一致する唯一の関数でした(または私の記憶が正しければ、完全に機能します)。SPSSと同じ結果を一致させるには、parameterを使用する必要がありましたprincipal(..., rotate = "varimax")。私は論文がPCAをどのようにしたかについて話しているのを見てきましたが、SPSSの出力と回転の使用に基づいて、それは因子分析のように聞こえます。 質問:PCAは、(を使用してvarimax)回転した後でもPCAですか?私はこれが実際に因子分析であるかもしれないという印象を受けていました...もしそうでない場合、どのような詳細が欠けていますか?


3
対数変換された予測子および/または応答の解釈
従属変数のみ、従属変数と独立変数の両方、または独立変数のみが対数変換されるかどうかの解釈に違いがあるのか​​と思います。 の場合を考えます log(DV) = Intercept + B1*IV + Error IVはパーセントの増加として解釈できますが、 log(DV) = Intercept + B1*log(IV) + Error または私が持っているとき DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

3
ロジスティック回帰の95%信頼区間を手動で計算することと、Rでconfint()関数を使用することに違いがあるのはなぜですか?
皆さん、私は説明できない奇妙なことに気づきました、できますか?要約すると、ロジスティック回帰モデルで信頼区間を計算する手動のアプローチとR関数confint()は異なる結果をもたらします。 Hosmer&LemeshowのApplied Logistic Regression(第2版)を行ってきました。第3章には、オッズ比と95%の信頼区間を計算する例があります。Rを使用すると、モデルを簡単に再現できます。 Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.8408 0.2551 -3.296 0.00098 *** as.factor(dataset$dich.age)1 2.0935 0.5285 3.961 7.46e-05 *** --- Signif. codes: 0 ‘***’ 0.001 …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 


5
機械学習で階層/ネストされたデータを処理する方法
例で問題を説明します。いくつかの属性(年齢、性別、国、地域、都市)を与えられた個人の収入を予測するとします。あなたはそのようなトレーニングデータセットを持っています train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

1
因子分析における最高の因子抽出方法
SPSSは、因子抽出のいくつかの方法を提供します。 主成分(これは因子分析ではありません) 重みなし最小二乗 一般化最小二乗 最尤法 主軸 アルファ因数分解 画像ファクタリング 因子分析(ただし主成分分析、PCA)ではない最初の方法を無視すると、これらの方法のうちどれが「最良」ですか?さまざまな方法の相対的な利点は何ですか?そして基本的に、使用するものをどのように選択しますか? 追加の質問:6つの方法すべてから同様の結果を取得する必要がありますか?

4
2x2より大きい分割表でのフィッシャーの正確検定
2x2の分割表にのみFisherの正確検定を適用するように教えられました。 質問: フィッシャー自身がこのテストを2x2より大きいテーブルで使用することを想像していました(私は彼がテストを考案している間に、老婦人がミルクがお茶に追加されたのか、お茶がミルクに追加されたのかを推測しようとしていたのを知っています) Stataを使用すると、Fisherの正確なテストを任意の分割表に使用できます。これは有効ですか? 分割表の予想セル数が5未満の場合、FETを使用することをお勧めしますか?

1
lmerモデルからの効果の再現性の計算
混合効果モデリングによる測定の再現性(別名信頼性、別名クラス内相関)の計算方法を説明するこの論文に出会ったばかりです。Rコードは次のようになります。 #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

4
二項、負の二項、ポアソン回帰の違い
二項回帰、負の二項回帰、ポアソン回帰の違いに関する情報と、これらの回帰が最も適している状況を探しています。 SPSSで実行できるテストで、これらの回帰のうちどれが自分の状況に最適かを判断できますか? また、SPSSでポアソンまたは負の二項式を実行するにはどうすればよいですか?回帰部分に表示されるようなオプションはありませんか? 役に立つリンクがあれば、とても感謝しています。

2
CHAID vs CRT(またはCART)
約20の予測変数(いくつかのカテゴリを含むカテゴリ)を含むデータセットでSPSSを使用して決定木分類を実行しています。CHAID(カイ二乗自動相互作用検出)およびCRT / CART(分類および回帰ツリー)は、異なるツリーを提供しています。誰もがCHAIDとCRTの相対的なメリットを説明できますか?あるメソッドを他のメソッドよりも使用することの意味は何ですか?
23 spss  cart 

2
時系列をクラスター化する方法は?
クラスター分析について質問があります。3000社があり、5年間の電力使用量に応じてクラスター化する必要があります。各企業には、5年間の1時間ごとの価値があります。一部の企業が、一定期間にわたって使用電力のパターンが同じかどうかを調べたいと思います。結果は、電力使用量の毎日の予測に使用する必要があります。SPSSで時系列をクラスター化する方法についてアイデアをお持ちの場合は、私と共有してください。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.