複数の帰属データセットを組み合わせる方法は?


8

単一の帰属データセットが必要です(たとえば、帰属国の一人当たり所得データから国グループのダミーを作成するため)。Rは、複数の帰属データ(Ameliaなど)を作成し、(MItoolsのように)複数のデータセットの結果を組み合わせるためのパッケージパッケージを提供します。私の懸念は、帰属されたすべてのデータを平均して単一のデータセットを取得できるかどうかです。もしそうなら、どうすればRでそれを行うことができますか?


5
データの平均化は、相関関係を膨らませるので不適切です。本当の問題は、なぜ単一の帰属データセットが必要だと思うかです。単一のデータセットで実行できることはすべて、多重に計算されたデータセットで実行できます。
Stef van Buuren 2013

@Stef:Heckitモデルのような選択モデルの場合に限界効果を計算したい場合もそうですか?各帰属データの限界効果を計算できます。しかし、問題は、理論がこれらを組み合わせる方法について何か言いたいことがあるかどうかです。ありがとう。
メトリック2013

1
ただプール!これを可能にする理論はありません。しかし、これを禁ずる理論もありません。
Stef van Buuren

@Stefは、mouse :: poolでは、オブジェクトがwith.mids()またはas.mira()であることを指定しています。回帰法の代わりに機械学習モデルを使用できますか?
KarthikS

回答:


5

データを平均化することはできません。変数は代入されたデータ全体で同じになるため、代入された各データを追加する必要があります。たとえば、1000個の観測値を持つ6つの変数があり、代入頻度が5である場合、5000個の観測値を持つ6つの変数の最終データが得られます。rbind関数を使用してRのデータを追加します。たとえば、5つの代入データがある場合(これらのデータがすでに手元にあると仮定)、最終的なデータは次のように取得されます。

finaldata <- rbind(data1,data2,data3,data4,data5)

詳しくはこちらをご覧ください。

補完後:

各補完データの回帰係数は通常異なります。したがって、係数はすべての帰属データの係数の平均として取得されます。ただし、標準エラーには追加のルールがあります。詳細はこちらをご覧ください。


4
finaldata <- complete(data, "long")[マウス] [1] のステートメントも同じです。それはまた他の形、例えば広いマトリックスまたは繰り返しマトリックスを作り出すことができます。[1]:cran.r-project.org/web/packages/mice/index.html "マウス"
Stef van Buuren

@Stef:ありがとう。miceまだ使っていません。mice調査からの複数の代入されたデータ(元のデータではなく)しかない場合に、が分析を行うかどうかを知りたいのですが。
2013

1
はい、できますが、繰り返し分析、診断、プールのために標準のマウスの補完後関数を使用するには、多重補完されたデータをmidsオブジェクトに変換する必要があります。マウスの次のバージョン(2.18)には、これを行うas.mids関数が含まれますが、元のデータが存在する必要があります。欠けているデータの場所がわからない場合は(まだ)処理されません。
Stef van Buuren

ありがとう。したがって、たとえば、消費者金融の調査のように複数の帰属データセットしか持っていない場合は、まだ使用できません。
メトリック2013

3
欠落しているデータの場所がわからない場合は、帰属されたデータからそれらを逆計算する必要があります。これは、偶然にも、そのセルのすべての代入がm個のデータセット全体で同一である場合に、観測されたポイントを誤って分類します。結果として、診断により、帰属されたポイントが誤って観測ポイントとしてラベル付けされることがあります(マウスの用語では、一部の赤いポイントが誤って青いポイントとしてプロットされています)。ただし、これは統計的推論の有効性には影響しません。ですから、少し努力すればできます。
Stef van Buuren 2013

-1

シミュレーション研究がカバー区間内にある真の基礎となるパラメーターの可能性が常に正確に描かれているわけではないことを示唆しているため、欠落データの複数の代入モデルは実際にはめったに採用されません。調査領域の実際のデータに基づいて、(パラメータが正確にわかっている)シミュレーションデータに基づいてプロセスをテストすることを強くお勧めします。シミュレーションスタディのリファレンスhttps://www.google.com/url?sa=t&source=web&rct=j&ei=Ua4BVJgD5MiwBMKggKgP&url=http://www.ssc.upenn.edu/~allison/MultInt99.pdf&cd=13&ved=0CCEQFjACOAo&usg=PCVgiPC5giwcViVgVcGjVcVc6GVcVjGVcGjVcGjwgwgwgwgwgwgwgwcwbwbwbwbfbfbfbfbfbfbfbfbfbfbfbfbfbfbfbfbfbfbfbfbfbfbfbfbfbfbfbfbfbfbfbfbfbfbfbfbfbfbdbfbd1a2a方いるところりと、 = d2VORWbqTNygdM6Z51TZEg

欠けているデータに対して5つのシンプル/ナイーブモデルを使用すると、真の基本的なパラメーターを正確に含むバイアスとカバー間隔を少なくするのに優れていると思います。パラメーターの推定値をプールするのではなく、ベイジアン手法を採用することで改善できる場合があります(https://www.google.com/url?sa=t&source=web&rct=j&ei=mqcAVP7RA5HoggSop4LoDw&url=http: //gking.harvard.edu/files/gking/files/measure.pdf&cd=5&ved=0CCUQFjAE&usg=AFQjCNFCZQwfWJDrrjzu4_5syV44vGOncA&sig2=XZUM14OMq_A01FyN4r61Zw)。

はい、標準の欠落データ補完モデルと、出典を引用するための、たとえばhttp://m.circoutcomes.ahajournals.org/content/3/1/98.short?rss=1&ssource=mfrのような、推奨されるリンギングはあまりありません:「欠落データ分析の背景を説明し、深刻な問題が発生しやすいアドホックメソッドを批判します。次に、複数の代入に焦点を当てます。最初に、欠落ケースにいくつかの妥当な値のセットが入力され、複数の完成したデータセットが作成されます。 .. "単純なモデルとしてもっともらしい後に"(?) "を挿入する場所は、一般的にもっともらしい予測を生成するとは言えません。ただし、従属変数y自体を独立変数(いわゆるキャリブレーション回帰)として組み込んだモデルは、この特性をより適切に満たす場合があります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.