タグ付けされた質問 「spss」

SPSSは統計ソフトウェアパッケージです。このタグは、(a)質問の重要な部分または予想される回答としてSPSSを含み、(b)SPSSの使い方だけではないトピックに関する質問に使用します。

2
因子スコアを計算する方法、およびPCAまたは因子分析の「スコア係数」マトリックスとは何ですか?
私の理解では、相関に基づくPCAでは、変数(この場合は主成分)の負荷を取得しますが、これは変数と因子間の相関にすぎません。SPSSで因子スコアを生成する必要がある場合、各因子の各回答者の因子スコアを直接取得できます。また、「コンポーネントスコア係数行列」(SPSSによって生成される)に標準化された元の変数を掛けると、SPSSから取得したものと同じファクタースコアが得られることも観察しました。 「コンポーネントスコア係数マトリックス」または「ファクタースコア係数マトリックス」(ファクターまたはコンポーネントスコアを計算できる)がどのように計算されるかを誰かが理解してくれますか?この行列では、計算係数スコアのさまざまな方法がどのように異なりますか?

4
エッジケースの精度と再現率の正しい値は何ですか?
精度は次のように定義されます: p = true positives / (true positives + false positives) それは、それを修正しているtrue positivesとfalse positives、精度が1に近づくアプローチ0? リコールに関する同じ質問: r = true positives / (true positives + false negatives) 現在、これらの値を計算する必要がある統計テストを実装していますが、分母が0である場合があり、この場合にどの値を返すのか迷っています。 PS:不適切なタグをすみません、、およびを使用したいのですがrecall、新しいタグをまだ作成できません。precisionlimit
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

4
RまたはSPSSを使用したリッカート応答の視覚化
2つのグループに82人の回答者(グループAの43人とグループBの39人)があり、それぞれ1〜5の65のリッカート質問の調査を完了しました(強く同意する-強く同意しない)。したがって、66列(質問ごとに1 +グループ割り当てを示す1)と82行(回答者ごとに1)のデータフレームがあります。 RまたはSPSSを使用することで、このデータを視覚化する優れた方法を誰もが知っています。 このようなものが必要です: (Jason Bryerから) しかし、コードの最初のセクションを機能させることはできません。あるいは、以前の相互検証された投稿からリッカートデータを視覚化する方法の非常に良い例を見つけました:リッカートアイテムレスポンスデータを視覚化するが、RまたはSPSSを使用してこれらの中心カウントグラフまたは積み上げ棒グラフを作成する方法に関するガイドも指示もありません。

3
私の分布は正常です。コルモゴロフ-スミルノフ検定は同意しない
私が持っているいくつかのデータの正規性に問題があります:p = .0000では正常ではないと言うコルモゴロフ検定を実行しましたが、わかりません:私の分布の歪度=-。497、尖度= -0,024 これは非常に正規に見える私の分布のプロットです... (私は3つのスコアを持っていますが、このスコアのそれぞれはコルモゴロフ検定の有意なp値で正常ではありません...私は本当に理解していません)

3
異分散データの分散の予測
私は、誤差分散と線形モデルの観点からの平均値を予測しようとする異分散データの回帰を試みています。このようなもの: y(x,t)ξ(x,t)y¯(x,t)σ(x,t)=y¯(x,t)+ξ(x,t),∼N(0,σ(x,t)),=y0+ax+bt,=σ0+cx+dt.y(x,t)=y¯(x,t)+ξ(x,t),ξ(x,t)∼N(0,σ(x,t)),y¯(x,t)=y0+ax+bt,σ(x,t)=σ0+cx+dt.\begin{align}\\ y\left(x,t\right) &= \bar{y}\left(x,t\right)+\xi\left(x,t\right),\\ \xi\left(x,t\right) &\sim N\left(0,\sigma\left(x,t\right)\right),\\ \bar{y}\left(x,t\right) &= y_{0}+ax+bt,\\ \sigma\left(x,t\right) &= \sigma_{0}+cx+dt. \end{align} 言い換えると、データは、さまざまな値のxおよびtでのの反復測定で構成さy(x,t)y(x,t)y(x,t)れています。私は、これらの測定は、「真の」平均値から成ると仮定ˉ Y(X 、T )の線形関数であり、X及びT加法ガウス雑音で、ξ (X 、T )私は持っていない、その標準偏差(または分散また、x 、tに線形に依存します。(xにより複雑な依存関係を許可し、xxxttty¯(x,t)y¯(x,t)\bar{y}(x,t)xxxtttξ(x,t)ξ(x,t)\xi(x,t)x,tx,tx,txxxttt –線形形式の強力な理論的動機付けはありませんが、この段階で物事を複雑にしすぎないようにしたいです。) 私は「不均一」ここでは検索用語がある知っているが、すべては私がこれまでよりよく予測することがそれを削除/削減する方法の議論されている見つけることができましたy¯y¯\bar{y}、しかししようという点では何もすることが予測しない σσ\sigmaの観点から独立変数。私は推定したいと思いy0,a,b,σ0,cy0,a,b,σ0,cy_0, a, b, \sigma_0, c及びddd信頼区間(またはベイジアン当量)で、そしてとても良くSPSSでそれを行うための簡単な方法があるかどうか!私は何をすべきか?ありがとう。

5
探索的因子分析によるRとSPSS間の矛盾の解釈
私はコンピューターサイエンスの大学院生です。私は研究プロジェクトのためにいくつかの探索的因子分析を行ってきました。私の同僚(プロジェクトを率いる)はSPSSを使用しますが、私はRを使用することを好みます。これは、2つの統計パッケージ間に大きな不一致を発見するまで問題ではありませんでした。 抽出方法として主軸ファクタリングを使用しています(PCAと因子分析の違いを十分に認識しており、少なくとも意図的にPCAを使用していないことに注意してください)。私が読んだことから、これはRの「主軸」メソッド、およびRのドキュメントによると SPSSの「主軸因数分解」または「非加重最小二乗」のいずれかに対応するはずです。相関因子を期待し、パターンマトリックスを解釈しているため、斜め回転法(具体的にはpromax)を使用しています。 RとSPSSで2つの手順を実行すると、大きな違いがあります。パターン行列はさまざまな負荷を与えます。これにより、変数関係にほぼ同じ要因が与えられますが、対応する負荷には最大0.15の差があります。これは、抽出方法とプロマックス回転の異なる実装によって予想されるよりも大きいようです。しかし、それは最も驚くべき違いではありません。 要因によって説明される累積分散は、SPSS結果で約40%、R結果で31%です。これは大きな違いであり、Rの代わりにSPSSを使用することを同僚に求めています。これには問題はありませんが、大きな違いがあるため、何かを間違って解釈している可能性があると思います。これは問題です。 SPSSは、水をさらに濁らせて、非加重最小二乗ファクタリングを実行すると、さまざまな種類の説明された分散を報告します。初期固有値による説明された分散の割合は40%ですが、抽出平方和(SSL)からの説明された分散の割合は33%です。これにより、初期固有値は見るのに適切な数ではないと思うようになります(これは回転の前に説明された分散であると思われますが、それは非常に大きいのですが)。さらに紛らわしいことに、SPSSはRotation SSLも表示しますが、説明された分散の割合を計算しません(相関係数があるため、SSLを追加して合計分散を見つけることができないことを教えてくれます。Rから報告されたSSLはこれらのいずれにも一致せず、Rは合計分散の31%を表すと教えてくれます。RのSSLは、ローテーションSSLと最も密接に一致します。元の相関行列からのRの固有値は、SPSSからの初期固有値と一致します。 また、私はさまざまな方法を使用して遊んでいましたが、SPSSのULSとPAFはRのPA方法に最も近いようです。 私の具体的な質問: 因子分析の実装では、RとSPSSの間でどの程度の違いが予想されますか? SPSSからの二乗荷重の和、初期固有値、抽出、回転のどれを解釈する必要がありますか? 私が見落としていたかもしれない他の問題はありますか? SPSSおよびRへの私の呼び出しは次のとおりです。 SPSS: FACTOR /VARIABLES <variables> /MISSING PAIRWISE /ANALYSIS <variables> /PRINT INITIAL KMO AIC EXTRACTION ROTATION /FORMAT BLANK(.35) /CRITERIA FACTORS(6) ITERATE(25) /EXTRACTION ULS /CRITERIA ITERATE(25) /ROTATION PROMAX(4). R: library(psych) fa.results <- fa(data, nfactors=6, rotate="promax", scores=TRUE, fm="pa", oblique.scores=FALSE, max.iter=25)

5
段階的なロジスティック回帰とサンプリング
SPSSのデータセットに段階的なロジスティック回帰を当てはめています。手順では、モデルをランダムなサブセットに近似しています。合計サンプルの60%、約330ケースです。 おもしろいと思うのは、データをリサンプリングするたびに、最終モデルでさまざまな変数が出入りするということです。最終モデルには常に少数の予測変数が存在しますが、サンプルに応じて他の予測変数が表示されます。 私の質問はこれです。これを処理する最良の方法は何ですか?予測変数の収束を見たいと思っていましたが、そうではありません。一部のモデルは、運用の観点からはるかに直感的な意味を持ち(意思決定者に説明する方が簡単です)、他のモデルはデータによりやや適合しています。 要するに、変数はシャッフルされているので、私の状況に対処することをどのようにお勧めしますか? 事前に感謝します。

5
欠損値の多重代入
特定の制約の下でデータセットの欠損値を置き換えるために代入を使用したいと思います。 たとえば、代入さx1れた変数が、他の2つの変数、たとえばx2との合計以上になるようにしますx3。またx3、0またはのいずれかに代入され>= 14たいx2、0またはのいずれかに代入されたい>= 16。 複数の代入に対してSPSSでこれらの制約を定義しようとしましたが、SPSSでは最大値と最小値しか定義できません。SPSSでさらに制約を定義する方法はありますか、または、欠損値の代入のためにこのような制約を定義できるRパッケージを知っていますか? 私のデータは次のとおりです。 x1 =c(21, 50, 31, 15, 36, 82, 14, 14, 19, 18, 16, 36, 583, NA,NA,NA, 50, 52, 26, 24) x2 = c(0, NA, 18,0, 19, 0, NA, 0, 0, 0, 0, 0, 0,NA,NA, NA, 22, NA, 0, 0) x3 = c(0, 0, 0, 0, …

1
隠れマルコフモデルで「最適な」モデルを選択するための基準
データの潜在状態の数を推定するために、隠れマルコフモデル(HMM)を近似しようとする時系列データセットがあります。これを行うための私の擬似コードは次のとおりです。 for( i in 2 : max_number_of_states ){ ... calculate HMM with i states ... optimal_number_of_states = "model with smallest BIC" ... } さて、通常の回帰モデルでは、BICは最もpar約的なモデルを好む傾向がありますが、HMMの場合、それが何をしているのかわかりません。BIC基準がどのようなHMMの傾向があるのか​​を実際に知っている人はいますか?また、AICと尤度値も取得できます。州の真の総数を推測しようとしているので、これらの基準の1つは、この目的のために他の基準よりも「優れている」のでしょうか。


5
ロジスティック回帰におけるデフォルトのより良い分類
完全な開示:これは宿題です。データセットへのリンクを含めました(http://www.bertelsen.ca/R/logistic-regression.sav) 私の目標は、このデータセットのローン債務不履行の予測を最大化することです。 私がこれまでに考え出したすべてのモデルは、非デフォルト者の90%を超えると予測していますが、デフォルト値の40%未満は全体として分類効率を最大80%にします。だから、変数間に相互作用効果があるのだろうか?ロジスティック回帰では、考えられる各組み合わせをテストする以外に、潜在的な相互作用効果を特定する方法はありますか?あるいは、債務不履行者の分類の効率を高める方法。 私は立ち往生しています。推奨事項は、単語、Rコード、またはSPSS構文の選択に役立ちます。 私の主な変数は、次のヒストグラムと散布図で概説されています(二項変数を除く) 主な変数の説明: age: Age in years employ: Years with current employer address: Years at current address income: Household income in thousands debtinc: Debt to income ratio (x100) creddebt: Credit card debt in thousands othdebt: Other debt in thousands default: Previously defaulted (dichotomous, yes/no, 0/1) ed: Level …
12 r  logistic  spss  self-study 

1
序数データの表示-平均、中央値、平均ランク
正規分布されていない序数データが​​あるため、Mann-Whitney U検定を使用してノンパラメトリック検定を行うことにしました。7つのスコアについてグループ間の違いを調べています。これらのスコアは、各被験者について0、1、2、または3のいずれかです。データの表示方法を理解するのに苦労しています! 中央値(および中央値の IQR)を使用してデータを提示する場合、違いがどこにあるかはまったく明らかではありません。それは、ほとんどの場合、中央値が0または1にあるためです。テーブルは面白くないように見えます。 手段を使用してデータを提示することもできます。序数データで平均を使用できるが、スコア間の差異について同じタイプの仮定を行うことはできないとする科学論文がいくつかあります(たとえば、0と1の差異は1と1の差異と同じではありません) 2)。手段を使用することは少し物議を醸すでしょうが、私がそれらを使用するとき、表の数字は物語をよく伝えます。 3番目のオプションは、マンホイットニーの出力でSPSSが私に与える平均ランクを使用することです。平均ランクはグループ間で比較されているものなので、多分私はそれらを使用する必要がありますか?これに関して私が抱えている唯一の問題は、平均ランクが実際のデータに関して実際には何も意味しないことです(たとえば、平均ランクを使用すると、コントロールが1に近いのに、対象が3に近いことがわかりません。) そして最後のオプションは、スコアを2つのグループ(0と1は低、2と3は高)に分割した後、被験者とコントロールを比較するカイ2乗分析を実行することでした。しかし、私がこれを行ったとき、違いはそれほど明白ではありませんでした(おそらくいくつかの理由のため)。

2
複数の帰属データセットで行われたテストでプールされたp値を取得するにはどうすればよいですか?
Rでアメリアを使用して、複数の帰属データセットを取得しました。その後、SPSSで繰り返し測定テストを行いました。ここで、テスト結果をプールします。Rubinのルール(Rの複数の代入パッケージを通じて実装)を使用して平均値と標準誤差をプールできることはわかっていますが、p値をプールするにはどうすればよいですか?出来ますか?Rにそうする関数はありますか?前もって感謝します。

2
2つの名義変数間の相関測定をどのようにして見つけますか?
人々が自分の出身国を表すために特定のスマイリーを使用するものを選択し、出身国に入る調査が行われました。テキスト応答を数値に再コーディングしました。 人々がどこから来たのかと彼らが選択した表現との間の相関のレベルをチェックするために、どのような形式の分析を使用する必要があります(できればSPSS)。

4
モデル間でロジスティック回帰係数を比較しますか?
6つの異なる横断データセットに適用するロジットモデルを開発しました。私が明らかにしようとしているのは、特定の独立変数(IV)の従属変数(DV)に対する実質的な効果に、他の説明をさまざまな時間および時間で制御する変化があるかどうかです。 私の質問は: IVとDVの関連でサイズの増加/減少をどのように評価しますか? モデル全体の係数の異なる大きさ(サイズ)を単純に確認できますか、それとも他のプロセスを実行する必要がありますか? 他に何かする必要がある場合、それは何であり、それを行うことができますか/ SPSSでそれを行う方法は? また、単一のモデル内では、 すべてが0-1でコーディングされている場合、標準化されていないスコアに基づいて独立変数の相対サイズを比較できますか、それとも標準化されたスコアに変換する必要がありますか? 標準化されたスコアに関連する問題はありますか?
11 logistic  spss 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.