統計とビッグデータ spss

25

多くの人々が、Excelや別のスプレッドシート、SPSS、Stata、Rなどのメインツールを統計のニーズに使用しています。非常に特別なニーズのために特定のパッケージを使用する場合がありますが、単純なスプレッドシートまたは一般的な統計パッケージまたは統計プログラミング環境で多くのことができます。私は常にプログラミング言語としてPythonが好きで、単純なニーズのために、必要なものを計算する短いプログラムを書くのは簡単です。Matplotlibでプロットできます。 RからPythonに完全に切り替えた人はいますか？R（または他の統計パッケージ）には統計に固有の多くの機能があり、実行したい統計について考えることができるデータ構造があり、データの内部表現についてはあまりありません。Python（またはその他の動的言語）には、馴染みのある高レベル言語でプログラミングできるという利点があります。また、データが存在する、またはそこから測定を行うことができる実際のシステムとプログラムでやり取りすることができます。しかし、単純な記述統計からより複雑な多変量法まで、「統計用語」で物事を表現できるPythonパッケージは見つかりませんでした。 Pythonを「統計ワークベンチ」として使用して、R、SPSSなどを置き換える場合、何を推奨できますか？あなたの経験に基づいて、私は何を獲得し、失いますか？

355 r spss stata python

3

例：バイナリ結果にglmnetを使用したLASSO回帰

私は興味のある結果が二分されglmnetているLASSO回帰の使用に手を出し始めています。以下に小さな模擬データフレームを作成しました。 age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …

77 r self-study lasso regression interpretation anova statistical-significance survey conditional-probability independence naive-bayes graphical-model r time-series forecasting arima r forecasting exponential-smoothing bootstrap outliers r regression poisson-distribution zero-inflation genetic-algorithms machine-learning feature-selection cart categorical-data interpretation descriptive-statistics variance multivariate-analysis covariance-matrix r data-visualization generalized-linear-model binomial proportion pca matlab svd time-series correlation spss arima chi-squared curve-fitting text-mining zipf probability categorical-data distance group-differences bhattacharyya regression variance mean data-visualization variance clustering r standard-error association-measure somers-d normal-distribution integral numerical-integration bayesian clustering python pymc nonparametric-bayes machine-learning svm kernel-trick hyperparameter poisson-distribution mean continuous-data univariate missing-data dag python likelihood dirichlet-distribution r anova hypothesis-testing statistical-significance p-value rating data-imputation censoring threshold

3

Rが負の場合

私の理解では、は乗なので負にはなり得ません。しかし、単一の独立変数と従属変数を使用してSPSSで単純な線形回帰を実行しました。私のSPSS出力は、負の値を与えます。Rから手動でこれを計算する場合、は正になります。これを負として計算するためにSPSSは何をしましたか？R 2 R 2R2R2R^2R2R2R^2R2R2R^2 R=-.395 R squared =-.156 B (un-standardized)=-1261.611 私が使用したコード： DATASET ACTIVATE DataSet1. REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT valueP /METHOD=ENTER ageP 負の値を取得します。誰もこれが何を意味するのか説明できますか？

77 regression spss r-squared

8

PCAの後に回転（バリマックスなど）が続いているのはまだPCAですか？

私はRのSPSSから（PCAを使用して）いくつかの研究を再現しようとしました。私の経験では、パッケージからのprincipal() 関数はpsych、出力に一致する唯一の関数でした（または私の記憶が正しければ、完全に機能します）。SPSSと同じ結果を一致させるには、parameterを使用する必要がありましたprincipal(..., rotate = "varimax")。私は論文がPCAをどのようにしたかについて話しているのを見てきましたが、SPSSの出力と回転の使用に基づいて、それは因子分析のように聞こえます。質問：PCAは、（を使用してvarimax）回転した後でもPCAですか？私はこれが実際に因子分析であるかもしれないという印象を受けていました...もしそうでない場合、どのような詳細が欠けていますか？

63 r spss pca factor-analysis factor-rotation

7

「統計的に有意」では不十分なのはなぜですか？

データ分析を完了し、仮説と一致する「統計的に有意な結果」を得ました。しかし、統計学の学生は、これは時期尚早な結論だと私に言った。どうして？レポートに含める必要のあるものは他にありますか？

46 hypothesis-testing statistical-significance spss p-value

3

対数変換された予測子および/または応答の解釈

従属変数のみ、従属変数と独立変数の両方、または独立変数のみが対数変換されるかどうかの解釈に違いがあるのかと思います。の場合を考えます log(DV) = Intercept + B1*IV + Error IVはパーセントの増加として解釈できますが、 log(DV) = Intercept + B1*log(IV) + Error または私が持っているとき DV = Intercept + B1*log(IV) + Error ？

46 regression data-transformation interpretation regression-coefficients logarithm r dataset stata hypothesis-testing contingency-tables hypothesis-testing statistical-significance standard-deviation unbiased-estimator t-distribution r functional-data-analysis maximum-likelihood bootstrap regression change-point regression sas hypothesis-testing bayesian randomness predictive-models nonparametric terminology parametric correlation effect-size loess mean pdf quantile-function bioinformatics regression terminology r-squared pdf maximum multivariate-analysis references data-visualization r pca r mixed-model lme4-nlme distributions probability bayesian prior anova chi-squared binomial generalized-linear-model anova repeated-measures t-test post-hoc clustering variance probability hypothesis-testing references binomial profile-likelihood self-study excel data-transformation skewness distributions statistical-significance econometrics spatial r regression anova spss linear-model

3

ロジスティック回帰の95％信頼区間を手動で計算することと、Rでconfint（）関数を使用することに違いがあるのはなぜですか？

皆さん、私は説明できない奇妙なことに気づきました、できますか？要約すると、ロジスティック回帰モデルで信頼区間を計算する手動のアプローチとR関数confint()は異なる結果をもたらします。 Hosmer＆LemeshowのApplied Logistic Regression（第2版）を行ってきました。第3章には、オッズ比と95％の信頼区間を計算する例があります。Rを使用すると、モデルを簡単に再現できます。 Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.8408 0.2551 -3.296 0.00098 *** as.factor(dataset$dich.age)1 2.0935 0.5285 3.961 7.46e-05 *** --- Signif. codes: 0 ‘***’ 0.001 …

34 r regression logistic confidence-interval profile-likelihood correlation mcmc error mixture measurement data-augmentation r logistic goodness-of-fit r time-series exponential descriptive-statistics average expected-value data-visualization anova teaching hypothesis-testing multivariate-analysis r r mixed-model clustering categorical-data unsupervised-learning r logistic anova binomial estimation variance expected-value r r anova mixed-model multiple-comparisons repeated-measures project-management r poisson-distribution control-chart project-management regression residuals r distributions data-visualization r unbiased-estimator kurtosis expected-value regression spss meta-analysis r censoring regression classification data-mining mixture

1

バイナリデータの主成分分析または因子分析を行う

Yes / No応答が多数あるデータセットがあります。このタイプのデータに対して主成分分析（PCA）またはその他のデータ削減分析（因子分析など）を使用できますか？SPSSを使用してこれを行う方法についてアドバイスしてください。

30 spss categorical-data pca factor-analysis binary-data

5

機械学習で階層/ネストされたデータを処理する方法

例で問題を説明します。いくつかの属性（年齢、性別、国、地域、都市）を与えられた個人の収入を予測するとします。あなたはそのようなトレーニングデータセットを持っています train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

1

因子分析における最高の因子抽出方法

SPSSは、因子抽出のいくつかの方法を提供します。主成分（これは因子分析ではありません）重みなし最小二乗一般化最小二乗最尤法主軸アルファ因数分解画像ファクタリング因子分析（ただし主成分分析、PCA）ではない最初の方法を無視すると、これらの方法のうちどれが「最良」ですか？さまざまな方法の相対的な利点は何ですか？そして基本的に、使用するものをどのように選択しますか？追加の質問：6つの方法すべてから同様の結果を取得する必要がありますか？

29 spss pca factor-analysis

4

2x2より大きい分割表でのフィッシャーの正確検定

2x2の分割表にのみFisherの正確検定を適用するように教えられました。質問：フィッシャー自身がこのテストを2x2より大きいテーブルで使用することを想像していました（私は彼がテストを考案している間に、老婦人がミルクがお茶に追加されたのか、お茶がミルクに追加されたのかを推測しようとしていたのを知っています） Stataを使用すると、Fisherの正確なテストを任意の分割表に使用できます。これは有効ですか？分割表の予想セル数が5未満の場合、FETを使用することをお勧めしますか？

29 spss stata contingency-tables fishers-exact

1

lmerモデルからの効果の再現性の計算

混合効果モデリングによる測定の再現性（別名信頼性、別名クラス内相関）の計算方法を説明するこの論文に出会ったばかりです。Rコードは次のようになります。 #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …

28 mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

4

二項、負の二項、ポアソン回帰の違い

二項回帰、負の二項回帰、ポアソン回帰の違いに関する情報と、これらの回帰が最も適している状況を探しています。 SPSSで実行できるテストで、これらの回帰のうちどれが自分の状況に最適かを判断できますか？また、SPSSでポアソンまたは負の二項式を実行するにはどうすればよいですか？回帰部分に表示されるようなオプションはありませんか？役に立つリンクがあれば、とても感謝しています。

26 spss references binomial poisson-distribution negative-binomial

2

CHAID vs CRT（またはCART）

約20の予測変数（いくつかのカテゴリを含むカテゴリ）を含むデータセットでSPSSを使用して決定木分類を実行しています。CHAID（カイ二乗自動相互作用検出）およびCRT / CART（分類および回帰ツリー）は、異なるツリーを提供しています。誰もがCHAIDとCRTの相対的なメリットを説明できますか？あるメソッドを他のメソッドよりも使用することの意味は何ですか？

23 spss cart

2

時系列をクラスター化する方法は？

クラスター分析について質問があります。3000社があり、5年間の電力使用量に応じてクラスター化する必要があります。各企業には、5年間の1時間ごとの価値があります。一部の企業が、一定期間にわたって使用電力のパターンが同じかどうかを調べたいと思います。結果は、電力使用量の毎日の予測に使用する必要があります。SPSSで時系列をクラスター化する方法についてアイデアをお持ちの場合は、私と共有してください。

21 time-series clustering spss

タグ付けされた質問 「spss」

タグ付けされた質問「spss」