変数が約200の医療データセットがあります。変数の1つは、バイオマーカー(特定の酵素の濃度)です。その分布は正しいスキューであり、問題は特定のレベルを超える値がそのレベルで打ち切られたり、打ち切られたりすることです。したがって、変数の平均は約10ですが、50を超える値は50として記録されます。
これらの打ち切り値に連続値を代入したいと思います。現在、R のマウスパッケージで複数の補完を使用していますが、他のシステムも利用可能であり、他のアプローチを受け入れています。私が考えていたのは、これらのすべての打ち切り値を欠落するように再コード化してから、代入を実行することでした。最初に打ち切られた帰属値のいずれかがカットオフを下回っている場合、それらはカットオフ値として割り当てられます。
これについての意見、および/またはこれに対処するためのより良い方法を知りたいのですが。
そのバイオマーカーはその後の分析でどのような役割を果たすでしょうか?たとえば、それは説明変数、共変量、または回帰の従属変数でしょうか?値の代入を必要としないメソッドを使用できる可能性があります。そうでなければ、検閲された右尾の形状についてWAGを作成することになります。これは、歪度のために、分析に影響力のある値が含まれる可能性があるためです。
—
whuber
@whuber、バイオマーカーは説明変数です。この分野での通常の慣行は、それを0-1、1-10、10 +、または時々ちょうど0-1と1+として離散化することです(つまり、上昇または上昇しない)。私はそれを継続的説明変数として含めるという考えがありました。データセットには200の変数がありますが、臨床ガイダンスと以前の経験では、最終モデルでこれらの10を使用することが推奨されているため、他の変数のいくつかを使用して50より大きい値を代入することを考えていました。
—
Robert Long