単一の帰属データセットが必要です(たとえば、帰属国の一人当たり所得データから国グループのダミーを作成するため)。Rは、複数の帰属データ(Ameliaなど)を作成し、(MItoolsのように)複数のデータセットの結果を組み合わせるためのパッケージパッケージを提供します。私の懸念は、帰属されたすべてのデータを平均して単一のデータセットを取得できるかどうかです。もしそうなら、どうすればRでそれを行うことができますか?
単一の帰属データセットが必要です(たとえば、帰属国の一人当たり所得データから国グループのダミーを作成するため)。Rは、複数の帰属データ(Ameliaなど)を作成し、(MItoolsのように)複数のデータセットの結果を組み合わせるためのパッケージパッケージを提供します。私の懸念は、帰属されたすべてのデータを平均して単一のデータセットを取得できるかどうかです。もしそうなら、どうすればRでそれを行うことができますか?
回答:
データを平均化することはできません。変数は代入されたデータ全体で同じになるため、代入された各データを追加する必要があります。たとえば、1000個の観測値を持つ6つの変数があり、代入頻度が5である場合、5000個の観測値を持つ6つの変数の最終データが得られます。rbind
関数を使用してRのデータを追加します。たとえば、5つの代入データがある場合(これらのデータがすでに手元にあると仮定)、最終的なデータは次のように取得されます。
finaldata <- rbind(data1,data2,data3,data4,data5)
補完後:
各補完データの回帰係数は通常異なります。したがって、係数はすべての帰属データの係数の平均として取得されます。ただし、標準エラーには追加のルールがあります。詳細はこちらをご覧ください。
finaldata <- complete(data, "long")
[マウス] [1] のステートメントも同じです。それはまた他の形、例えば広いマトリックスまたは繰り返しマトリックスを作り出すことができます。[1]:cran.r-project.org/web/packages/mice/index.html "マウス"
mice
まだ使っていません。mice
調査からの複数の代入されたデータ(元のデータではなく)しかない場合に、が分析を行うかどうかを知りたいのですが。
シミュレーション研究がカバー区間内にある真の基礎となるパラメーターの可能性が常に正確に描かれているわけではないことを示唆しているため、欠落データの複数の代入モデルは実際にはめったに採用されません。調査領域の実際のデータに基づいて、(パラメータが正確にわかっている)シミュレーションデータに基づいてプロセスをテストすることを強くお勧めします。シミュレーションスタディのリファレンスhttps://www.google.com/url?sa=t&source=web&rct=j&ei=Ua4BVJgD5MiwBMKggKgP&url=http://www.ssc.upenn.edu/~allison/MultInt99.pdf&cd=13&ved=0CCEQFjACOAo&usg=PCVgiPC5giwcViVgVcGjVcVc6GVcVjGVcGjVcGjwgwgwgwgwgwgwgwcwbwbwbwbfbfbfbfbfbfbfbfbfbfbfbfbfbfbfbfbfbfbfbfbfbfbfbfbfbfbfbfbfbfbfbfbfbfbfbfbfbfbdbfbd1a2a方いるところりと、 = d2VORWbqTNygdM6Z51TZEg
欠けているデータに対して5つのシンプル/ナイーブモデルを使用すると、真の基本的なパラメーターを正確に含むバイアスとカバー間隔を少なくするのに優れていると思います。パラメーターの推定値をプールするのではなく、ベイジアン手法を採用することで改善できる場合があります(https://www.google.com/url?sa=t&source=web&rct=j&ei=mqcAVP7RA5HoggSop4LoDw&url=http: //gking.harvard.edu/files/gking/files/measure.pdf&cd=5&ved=0CCUQFjAE&usg=AFQjCNFCZQwfWJDrrjzu4_5syV44vGOncA&sig2=XZUM14OMq_A01FyN4r61Zw)。
はい、標準の欠落データ補完モデルと、出典を引用するための、たとえばhttp://m.circoutcomes.ahajournals.org/content/3/1/98.short?rss=1&ssource=mfrのような、推奨されるリンギングはあまりありません。:「欠落データ分析の背景を説明し、深刻な問題が発生しやすいアドホックメソッドを批判します。次に、複数の代入に焦点を当てます。最初に、欠落ケースにいくつかの妥当な値のセットが入力され、複数の完成したデータセットが作成されます。 .. "単純なモデルとしてもっともらしい後に"(?) "を挿入する場所は、一般的にもっともらしい予測を生成するとは言えません。ただし、従属変数y自体を独立変数(いわゆるキャリブレーション回帰)として組み込んだモデルは、この特性をより適切に満たす場合があります。