タグ付けされた質問 「scales」

測定値を表すために使用されるスケール。通常、比率、間隔、順序または名義のスケールのタイプが認識されます。二項およびカウントタイプは、独自のタイプと見なされることがあります。他の分類が存在します。[心理測定における個々の項目の合計としての「スケール」について-タグ「スケール構築」も参照してください。]

3
アンケートの検証
論文のアンケートを作成しています。私は、クロンバッハのアルファテストを最初のサンプルグループに適用したアンケートを検証しています。アンケートへの回答はリッカートスケールです。誰でも、その妥当性をテストするために適用するテストを提案できますか 私は統計の専門家ではありませんので、どんな助けでも感謝します。 私はいくつかの研究を行ってきましたが、このテストとアドバイスを適用するためのフリーソフトウェアサイトを持っている人がいるなら、ラッシュ分析を行うことができますか?

2
R初心者向けのアイテム分析
20項目のマルチプル選択テストを評価しようとしています。この例で見られるようなアイテム分析を実行したいと思います。したがって、質問ごとに、P値、合計との相関、および選択したオプションの分布が必要です。 さまざまな統計ソフトウェアパッケージについては何も知りませんが、プログラミングに慣れており、Rはオープンソースであるため、Rを使用したいと思います。私が想定している擬似ワークフローは次のとおりです。 Excelでデータを準備し、CSVにエクスポートする Rにデータをロードする 必要なことを行うパッケージをロードする そのパッケージのコマンドを実行する エクスポートとレポート。 私は1と2には自信がありますが、おそらくCRANで閲覧したパッケージを比較する統計用語がないので、3には問題があります。 ltm適切なパッケージになりそうですが、私にはわかりません。どのパッケージを使用しても、コマンドはどうなりますか? サイドの質問:リンクされた例では、MCとMIは何を表していると思いますか?

2
オメガ対アルファの信頼性
オメガとアルファの信頼性の主な違いは何ですか? 次の図に示すように、オメガの信頼性は階層的因子モデルに基づいており、アルファは平均のアイテム間の相関を使用しています。 私が理解していないのは、どのような条件で、オメガ信頼性係数がアルファ係数よりも高くなるか、またはその逆ですか? サブファクターと変数の間の相関がより高い場合、オメガ係数もより高くなると仮定できますか(上の図に示されているように)? アドバイスは大歓迎です!

4
公開されたリッカート尺度の項目数を有効に減らすことはできますか?
[フィードバックに応じて行われた編集-感謝:-)] どー!さらに編集!ごめんなさい! こんにちは- 私は、モラールや他のそのような問題について公表された尺度を使用してヘルスケアスタッフに送信される調査で、かなりラフで準備が整ったデータ収集を行っています。 唯一のことは、スケールは調査の他のすべてのものと比べてかなり長いことです。私は、各サブスケールを半分にカットし、アイテムの半分だけを使用することでサイズを縮小したいと考えています。私の直感では、サブスケールは相互に相関しているため、これで問題ありません。出版基準の調査には理想的ではありませんが、組織内の事実を少しでも発見しても問題ありません。 これを行うことの有効性、落とし穴、または他の何かについて誰かが何か考えを持っているのではないかと思いました。私の同僚には説得力のあるものが必要なので、特に参考文献はありがたいです。 どうもありがとう、クリスB 編集- はい、それは既知の心理測定特性を持つ検証済みのスケールです。 一次元であり、サブスケールがあります。 アイテムレベルではなく、サブスケールレベルと合計レベルで作業します。 30アイテム、おそらく約40-60個人。 乾杯!

1
ガウス効率とはどういう意味ですか?
堅牢な推定量の場合、ガウス効率とはどういう意味ですか?たとえば、は82%のガウス効率と50%のブレークダウンポイントを持っています。QんQんQ_{_n} 参照は次のとおりです:Rousseeuw PJおよびCroux、C.(1993)。「絶対偏差の中央値の代替案。」J. American Statistical Assoc。、88、1273-1283

3
スピアマンまたはピアソンのリッカートスケールとの相関性
リッカート尺度が使用された多くの測定で相関を実行したいと考えています。散布図を見ると、線形性と等分散性の仮定に違反している可能性があります。 序数レベルの評価と間隔レベルのスケーリングの概算について議論があるように見えるので、安全にプレイして、ピアソンのrではなくスピアマンのローを使用する必要がありますか? スピアマンのローと一緒に行く場合に引用できる参考文献はありますか?

2
より少ない人々によって高く評価されたアイテムよりもより多くの人々によって高く評価されたアイテムを支持するために評価システムに重みを付けますか?
私と一緒に話してくれてありがとう、私はどのような統計学者でもないし、私が想像していることをどのように説明するのかわからないので、Googleはここで私を助けていません... 作業中のWebアプリケーションに評価システムを含めています。各ユーザーは各アイテムを1回だけ評価できます。 「非常に嫌い」、「嫌い」、「好き」、「非常に好き」の4つの値を持つスケールを想像していて、それぞれ-5、-2、+ 2、+ 5の値を割り当てる予定でした。 さて、すべてのアイテムが同じ数の評価を持つことになれば、私はこのスコアリングシステムに非常に満足し、最も好きなアイテムと最も嫌いなアイテムを明確に区別できます。ただし、アイテムの評価の数は同じではなく、異なる写真の投票数の格差は非常に劇的です。 その場合、2つのアイテムの累積スコアを比較することは、平凡な評価が多い古いアイテムのほうが、投票数が少ない例外的な新しいアイテムよりもはるかに高いスコアになることを意味します。 だから、私が平均を取ることを最初に考えた明らかなこと...しかし、アイテムが「+5」の評価が1つしかない場合、99「+5」のスコアを持つアイテムよりも平均が良い1つの「+2」評価。直感的には、これはアイテムの人気を正確に表すものではありません。 私はこの問題が一般的だと思います。皆さんは私がもっと多くの例で問題を起こす必要はないので、この時点で停止し、必要に応じてコメントで詳しく説明します。 私の質問は: この種の問題は何と呼ばれ、それを解決するために使用される技法の用語はありますか?読みたいので、これを知りたいのですが。 この件に関する一般向けのリソースを知っている場合は、リンクをいただければ幸いです。 最後に、この種のデータを効果的に収集および分析する方法に関する他の提案をいただければ幸いです。
9 scales  rating 

1
Andrew Gelmanの再スケーリング方法に基づく回帰係数の解釈
バイナリロジスティック回帰モデルには2つの予測子があります。1つはバイナリ、もう1つは連続です。私の主な目標は、同じモデル内の2つの予測子の係数を比較することです。 連続回帰入力変数を標準化するというAndrew Gelmanの提案に出くわしました。 I)最初の提案(2008):連続予測子を2 SDで除算 Original manuscript: http://www.stat.columbia.edu/~gelman/research/published/standardizing7.pdf II)更新された推奨事項(2009):連続予測子を1 SDで除算し、バイナリ入力値を(0,1)から(-1、+ 1)に再コード化)。 Updated recommendation (1 SD, recode binary): http://andrewgelman.com/2009/06/09/standardization/ 結果として生じる係数の適切な解釈は、私にはまだとらえどころのないです: シナリオ1:両方の予測子が同じモデルで重要である 結果:非変換バイナリY連続予測子:XCONT(1sdで除算)バイナリ予測子:XBIN(値-1または1をとるように再コーディング) > orfit1c=with(data=mat0, glm(YBIN~XCONT+XBIN, family=binomial(link="logit"))) > summary(orfit1c) Call: glm(formula = YBIN ~XCONT + XBIN, family = binomial(link = "logit")) Deviance Residuals: Min 1Q Median 3Q Max -0.9842 -0.6001 -0.5481 -0.5481 …

2
適切なスコアリングルールの概念とは別の概念、およびスコアリングルールを使用したモデルの評価
スコアリングルールは、イベントの(カテゴリ)の結果を考慮すると、カテゴリのイベントに関連付けられた確率のエージェントの推測を評価する手段です。推測と観察された結果に応じて、スコアリングルールはエージェントにスコア(実数)を与えます。スコアリングルールは、平均して、スコアが最小のエージェントが最も正確に推測できるようにスコアを割り当てることになっています。(採点ルールが最小化と最大化のどちらの観点からフレーム化されているかについては、慣例が異なります。ここでは、最小化の見方をとっています。) スコアリングルールの重要な特性は、それらが適切なスコアリングルールであるかどうかです。つまり、エージェントが真の確率を推測したときに平均スコアが最小になるかどうか(または、主観的なベイジアンフレーミングでは、エージェント自身の事前確率が与えられると、エージェントが独自の信念の度合いを使用するときに、事後平均スコアが最小になるかどうか)その推測)。バイナリイベントの場合、0または1(Brierスコア)からの2乗誤差は適切なスコアリングルールですが、絶対誤差はそうではありません。どうして?さて、適切性の基準は平均に基づいており、平均は二乗差の合計を最小化するが、絶対誤差を最小化する必要はない中心傾向の測定値です。 この考え方は、適切なスコアリングルールの定義の平均を、中央値などの他の統計関数で置き換えると、類似した種類の適切なスコアリングルールの豊富なファミリが得られることを示唆しています。エージェントが平均スコアではなく中央値を最小化したい状況を想像することは不合理ではありません。実際には、重要な中央値の適切なスコアリングルールはないようです。再びバイナリイベントの場合を考えると、真の確率が1/2未満の場合、イベントの発生に関係なく、エージェントの中央値は、イベントが発生しないときにエージェントに与えられたスコアに等しくなります。正確な確率。平均を、たとえば、幾何平均で置き換えると、類似のシェニガンが発生するようです。 それで、適切なスコアリングルールの理論が意図したとおりに機能するためには、統計汎関数が平均でなければならないという意味がありますか? これは漠然とした質問であり、最良の回答はその質問が本当に意味をなさない理由の説明である可能性が高いことを理解しています。私は意思決定の心理学者であり、人々が選択する可能性の確率を吐き出すモデルのパフォーマンス(クロス検証の下での予測パフォーマンス、またはモデル適合後のいずれか)を定量化したいと思うことがよくあります二分決定シナリオ。上記の説明は、適切なスコアリングルールを使用する必要があることを示唆しています。厄介なことに、適切なスコアリングルールは確率と同じスケールではありません。たとえば、平均二乗誤差(つまり、平均ブライアースコア)を見るだけでなく、平均二乗誤差の平方根を求めたいと思っていますが、1回の試行の場合、RMSEは絶対誤差に相当しますが、これは適切ではないので、精度の低いモデルの方が良いと思いませんか?明らかに、スコアリングルールを評価する方法を、平均の点での1つから、たとえば中央値の点での1つに変更することはできません。通常の適切なスコアリングルールの1つのスケールに慣れるか、ROC曲線の下の面積やd 'のような信号検出統計を使用する必要がありますか? さらに複雑なのは、Wagenmakers、Ratcliff、Gomez、およびIverson(2004)に従って、1つの研究でパラメトリックにブートストラップされたモデルフィットを調べていることです。つまり、個々のスコアではなく、スコアの密度プロットを調べています。それから、私が適切さを気にする必要があるのか​​、それとも類似の基準を気にする必要があるのか​​はさらに明確ではありません。 編集:詳細については、Redditのこのコメントスレッドを参照してください。 Wagenmakers、E.-J.、Ratcliff、R.、Gomez、P.、&Iverson、GJ(2004)。パラメトリックブートストラップを使用したモデルの模倣の評価。Journal of Mathematical Psychology、48、28–50。doi:10.1016 / j.jmp.2003.11.004

1
新しい集団におけるアンケートの検証
医学生の態度構成を測定することを目的とする20項目のアンケートに400の回答があります。機器は米国で医学生の1年間検証され、公開されたデータは非常に「クリーン」です。すべてのritc値> 0.3、アルファ0.84、安定した4因子構造のPCAなど。私のサンプルでは、 ritc <0.2を持つ20のアイテムと文化的サブポピュレーション(n = 70)では、これらのritc値はゼロ/負です。すべてのitmesを保持している場合、ritcが低いものは、どの要素にもロードされないか、2項目の要素(要素4)に分類されません。これは(調査したいと思います)これは次のいずれかが原因であると仮定します。または(ii)プログラムのすべての段階で生徒からの回答があり、スケールアイテムで十分にキャプチャされていない構成に発達面があるため。これを調査できる統計検定はありますか? ritcのあるアイテムをスケールから削除する必要がありますか。削除する場合は、最低から順に削除します。どの時点でアイテムの削除を停止する必要がありますか/アンケートから何かを紛失しましたか?メジャーとマイナーのサブポピュレーションの間でスケールの因子構造を比較したい場合、これをどのように試行するか、またはマイナーサブサンプルが小さすぎて結論を導き出せないのですか?参考文献をいただければ幸いです。 最後に、スケールを検証する目的は、介入前および介入後のスコアを使用して介入の有効性を判断するためにスケールを使用することです。アイテムのritcが低い場合、実験的な設定でスケールの信頼性に影響を与える可能性があると思います。または私は間違っていますか?発達的側面を持つ構成要素を測定するために設計されたスケールの有用性を決定する統計的方法はありますか?つまり、学生が態度構成要素の「より多く」を開発するときにすべての項目が適切に機能しますか?

5
0はリッカート尺度の有効な値ですか?
私は6ポイントのリッカートスケールを使用して言語学習の動機付けに関するパイロット調査を実施しましたが、0(非常に同意しない)から5(非常に同意する)までです。彼の調査で同僚が1〜6を使用していることに気付きました。私の計算変数(合計と平均)は、1〜6を使用した場合と同じですか?通常、何らかの理由で0を使用しないことをお勧めしますか?私はSPSSを初めて使用しましたが、実行する必要のあることのほとんどを実行できましたが、現在、自分の値が「歪んでいる」と心配しています。SPSSが方程式に0を追加する方法がわかりません。

1
(因子分析における)因子負荷に基づいて、リッカート尺度項目に等しくない重みを与えることができますか?
データを収集した後、個々のアイテムスコアを合計して(そして合計をアイテム数で割って平均スコアを取得することにより)、リッカート(合計)スケール(以前は因子分析で因子として識別されていました)のスコアを計算します。その計算では、スケール内のすべてのアイテムの重量が等しいと想定しています。ただし、因子分析から、一部の項目には、そのスケールを構成する他の項目よりも大きな因子負荷があったことがわかります。したがって、彼らは差異の詳細を説明しています。それらの因子負荷を使用することにより、アイテムに等しくない重みを与えることは可能ですか?たとえば、6アイテムスケールの場合、アイテム4は他のアイテムよりもそのスケールスコアでより効果的です。 または、私の質問を言い直します:リッカートスケール(構成)の項目には等しい因子負荷がありません(その因子の分散を説明しています)が、研究者は通常、同じように重み付けされた項目でリッカートスケールを使用するのはなぜですか?

4
リッカート尺度をさまざまな数のカテゴリーと時系列で比較するにはどうすればよいですか?
1年目を昨年のデータ、2年目を今年のデータとします。 1年目にリッカート尺度が1〜9(カテゴリ/序数)で、2年目に同じ質問に対して1〜5(カテゴリ/序数)のリッカート尺度があったと仮定します。 2年分のデータを比較するために(もしあれば)何を試してみますか? これまでに行ったこと: 比較された分布(形状、スキュー、尖度、統計的に等しい) 1-9から1-5に再スケーリングされ、頻度の前年比の変化は、業界のニュース/イベントおよび定性的な調査結果から得られた論理的な期待に一致しています。 注:これは宿題ではありません。また、明確な答えがない場合もあります。しかし、私は手が必要です! 前もって感謝します!
8 scales  likert 

2
科学的に健全なスケール構築に関するアドバイス
組織研究の分野で、20のリッカートアイテム(1〜5、サンプルサイズn = 299)のセットが与えられました。これらのアイテムは、多面的で多面的であり、本質的に異質である潜在的な概念を測定することを目的としています。目標は、さまざまな組織の分析に使用でき、ロジスティック回帰で使用できるスケールを作成することです。アメリカの心理学協会に従って、スケールは(1)一次元、(2)信頼でき、(3)有効でなければなりません。 したがって、それぞれ4/6/6/4アイテムの4つの次元またはサブスケールを選択することにしました。コンセプトを表すと仮定されています。 アイテムは、リフレクトアプローチを使用して構築されました(可能なアイテムの多くを生成し、その後の3つのグループでcronbachのアルファおよび概念表現(有効性)を使用してアイテムを繰り返し削除します)。 利用可能なデータを使用して、ポリコリック相関に基づく予備的な並列説明因子分析とバリマックスローテーションを使用すると、アイテムが予想とは異なる他の因子にロードされていることが明らかになりました。4つの仮説とは異なり、少なくとも7つの潜在要素があります。項目間相関の平均は、正ではありますがかなり低い(r = 0.15)。cronbach-alpha係数も、各スケールで非常に低い(0.4〜0.5)。確認的因子分析が適切なモデルフィットをもたらすとは思えません。 2つの次元が削除された場合、cronbachsアルファは受け入れられます(スケールあたり10アイテムで0.76,0.7、これはcronbachsアルファの通常バージョンを使用することでさらに大きくすることができます)が、スケール自体は依然として多次元です! 私は統計に不慣れで適切な知識が不足しているため、さらに先に進む方法に困っています。スケールを完全に破棄し、説明のみのアプローチに辞任することに消極的であるため、さまざまな質問があります。 I)信頼でき、有効であるが一次元ではないスケールを使用することは間違っていますか? II)その後、概念を形成的であると解釈し、消失四面体テストを使用してモデル仕様を評価し、部分最小二乗(PLS)を使用して可能な解決策に到達するのは適切でしょうか?結局のところ、この概念は反射的なものよりも形成的なもののようです。 III)項目応答モデル(Rasch、GRMなど)を使用することは役に立ちますか?私が読んだように、ラッシュモデルなども一次元性の仮定が必要です IV)7つの要素を新しい「サブスケール」として使用するのが適切でしょうか?古い定義を破棄し、因子負荷に基づいて新しい定義を使用するだけですか? 私はこれについての考えをいただければ幸いです:) 編集:追加された因子負荷と相関 > fa.res$fa Factor Analysis using method = ml Call: fa.poly(x = fl.omit, nfactors = 7, rotate = "oblimin", fm = "ml") 因子パターン行列と因子相互相関行列から計算された因子負荷、0.2を超える値のみが表示されます
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.