構造方程式モデルに非常に小さなサンプルがあることの複雑さ


13

Amos 18で構造方程式モデル(SEM)を実行しています。実験に100人の参加者(緩やかに使用)を探していましたが、SEMを成功させるにはおそらく十分ではないと思われました。SEM(EFA、CFAとともに)は「大規模なサンプル」統計手順であると繰り返し言われました。簡単に言えば、私は100人の参加者には到達しませんでした(なんて驚きです!)。問題のある2つのデータポイントを除外した後は42人しかいません。興味深いことに、とにかくこのモデルを試してみましたが、驚いたことに、非常にうまく適合しているようでした!CFI> .95、RMSEA <.09、SRMR <.08。

このモデルは単純ではありません。実際、比較的複雑だと思います。2つの潜在変数があり、1つは観測値が2つ、もう1つは観測値が5つあります。また、モデルには4つの追加の観測変数があります。間接変数と直接変数には多くの関係があり、例として、いくつかの変数は他の4つの変数に内因性があります。

私はSEMにやや不慣れです。ただし、SEMに精通している私が知っている2人の個人は、フィットインデックスが良好である限り、効果は解釈可能であり(有意である限り)、モデルに重大な「誤り」はないことを教えてくれます。いくつかの適合指数は、良好な適合を示唆するという点で小さなサンプルに対してバイアスがかけられていることを知っていますが、前述の3つはうまく見えるようで、同様にバイアスがかけられていないと思います。間接的な影響をテストするために、ブートストラップ(2000サンプル程度)を使用しています。90%のバイアス補正信頼度、モンテカルロ。さらに、3つの異なる条件に対して3つの異なるSEMを実行しています。

私はあなたの何人かを考慮したい2つの質問があります、そして、あなたが貢献する何かがあるならば、返信してください:

  1. 適合指数で実証されていないモデルに重大な弱点はありますか?小さなサンプルは研究の弱点として強調されますが、私が完全に忘れている大きな統計的問題があるかどうか疑問に思っています。将来、さらに10〜20人の参加者を獲得する予定ですが、このような分析のサンプルは比較的少ないままです。

  2. 私の小さなサンプル、または私がそれを使用しているコンテキストを考えると、ブートストラップの使用に問題はありますか?

これらの質問がこのフォーラムにとって「基本的」すぎないことを願っています。私はSEMおよび関連事項に関する多くの章を読みましたが、この分野の意見に関しては人々が非常に分散していることがわかりました!

乾杯


1
@Behacad-十分に説明された問題。非常にまばらなデータを使用して、多くのパラメータを推定しています。そのため、推論は非常に不安定になります。しかし、私は戻って尋ねたいと思います-あなたはこれらの42を使用して、より大きな人口間の関係を推測していますか?もしそうなら、42はランダムなサンプルですか、それとも少なくとも実証的な代表サンプルですか?
rolando2

コメントrolando2をありがとう!サンプルには42人の大学生が含まれており、多くの要因と不安の関係を調べています。私が推測しようとしている関係は、一般の人々の間です。参加者はすべて比較的若い学生であるため、私の推測は限られていますが、特定の集団(不安障害に苦しむ個人など)を探していません。たとえば、非クリニカムのサンプルでXがYに間接的に関連付けられていることを広く述べることに興味があります。それはあなたの質問に答えますか?
Behacad

1
@Behacad-潜在的な批評家にサンプルの代表性を守ることができると仮定すると、12の変数間の関係を推定しようとすると42件のケースが多すぎると明確に言います。モデルを単純化して、最も興味深い3つの予測子のみを含めることができるかどうかを確認してください。データを手放すのは苦痛だと思いますが、収集に一生懸命取り組んだかもしれません!
rolando2

返信してくれてありがとう。これらすべての変数間の関係を42個のデータポイントで推定するのは難しいという「気持ち」があり、どこから来ているのかがわかります。そうは言っても、この問題の統計的な理由(好ましくは引用)は何でしょうか?これは、異なる従属変数で多数の回帰/相関を実行することとどう違うのですか?適合は良好で(実際、異なる実験タスクに対して3つの異なるモデルを実行しています)、結果はモデル全体で理論に沿って一貫しています。守備として出て行ってすみません!
Behacad

(防御的ではありません-心配はありません!)42のケースがあると、単変量統計を推定する場合でも、少なくともサンプリングエラーにさらされます。現在、SEMでは、C、Dなどを制御しながらAとBの関係を推定しているため、各変数が何度も使用されます。したがって、サンプリングエラーの影響が伝播します。通常、大きなサンプルが必要です。あなたの場合、ランダムなサンプルがないため、サンプリングエラーよりも多くの種類のエラーが発生する可能性があります。そのため、取得した結果の周囲に非常に大きな信頼できる間隔を描く必要があります。
rolando2

回答:


4

ワンポイント:「基本的な質問」というものはありません。あなたは知っていることだけを知っており、知らないことは知っていません。多くの場合、質問することが唯一の方法です。

小さなサンプルを見るたびに、モデルに「信仰」を持っている人とそうでない人を見つけます。これは、通常、モデルが最大の影響を与えるのは小さなサンプルであるためです。

熱心な(サイコ?)モデラーである私は、それのために行くと言います!あなたは慎重なアプローチを採用しているようであり、サンプルが少ないことによる潜在的なバイアスなどを認識しています。モデルを小さなデータに適合させる際に留意すべきことの1つは、12個の変数があることです。今、あなたは考える必要があります-どのくらいのモデルができますか -12個の変数を持つは、42個の観測によってに決定か?42個の変数がある場合、どのモデルもそれらの42個の観測値に完全に適合することができます(大まかに言えば)ので、あなたのケースはあまりにも柔軟であるからです。モデルの柔軟性が高すぎるとどうなりますか?それはノイズにフィットする傾向があります-つまり、あなたが仮定したもの以外のものによって決定される関係です。

また、モデルから将来の10〜20個のサンプルがどのようになるかを予測することにより、モデルを自分のエゴに置く機会もあります。あなたの批評家は、正しい予測を与えるいわゆる「危険な」モデルにどのように反応するのだろうか。モデルがデータを適切に予測しない場合、同様の「私はあなたに言った」というメッセージが表示されることに注意してください。

結果の信頼性を保証できる別の方法は、それらを試してみることです。元のデータをそのまま保持し、新しいデータセットを作成し、SEMの結果をとんでもないように見せるためにこの新しいデータセットに対して何をする必要があるかを確認します。次に、あなたがしなければならなかったことを見て、考慮してください:これは合理的なシナリオですか?「ばかげた」データは本当の可能性に似ていますか?ばかげた結果を出すためにデータをとんでもない領域に持っていく必要がある場合、メソッドが適切であることをある程度保証します(正式ではなく、ヒューリスティック)。


1

私がこれに関して見ている主な問題は、力不足です。確認因子とSEMテストでは、nullを受け入れるように見えます-有意でないp値を表示する必要があるため、電力不足が問題になる可能性があります。テストの能力は、サンプルサイズ(42)と自由度に依存します。AMOSはあなたに自由度を与えます。引用していませんが、この場合は大きくなりません。12個の変数を使用して、66個のDFから開始し、推定するパラメーターごとに1を引きます。それがいくつになるかはわかりませんが、いくつかの要因とさまざまな構成要素間の相関があると言います。

Rolando2にはまったく同意しません。SEMでは、基礎となる構成要素の信頼できる指標であると仮定して、多くの変数を使用することで利益を得ます。したがって、変数の数を減らさないでください。同じ理由で、@ probabilityislogicにはまったく同意しません。SEMでは、42個の観測値を持つ12個の変数をモデル化しようとはしていません。42の複製によって強化された12のインジケーターを使用して、コンストラクトをモデル化しようとしています。非常に単純な因子モデル-12個の指標を持つ1つの因子-おそらく42人でテストできます。

RMSEAおよびその他の適合度の尺度は、モデルが飽和状態に近づくにつれて向上する傾向があるため、誤解を招く結果が生じるリスクがあります。

そうは言っても、小さなデータセットが因子モデルを拒否するのを見てきました。それはおそらくフィット感が良いと思われる何かを意味します。

注:SEMモデルの残差も確認できます。これらは、推定共分散行列とモデル共分散行列の違いです。AMOSは、お客様がリクエストした場合、それらを提供します。残差を調べると、それらが均等に分布しているか、または特定の共分散が非常に不適切に適合しているかが示される場合があります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.