打ち切り変数の代入

変数が約200の医療データセットがあります。変数の1つは、バイオマーカー（特定の酵素の濃度）です。その分布は正しいスキューであり、問題は特定のレベルを超える値がそのレベルで打ち切られたり、打ち切られたりすることです。したがって、変数の平均は約10ですが、50を超える値は50として記録されます。

これらの打ち切り値に連続値を代入したいと思います。現在、R のマウスパッケージで複数の補完を使用していますが、他のシステムも利用可能であり、他のアプローチを受け入れています。私が考えていたのは、これらのすべての打ち切り値を欠落するように再コード化してから、代入を実行することでした。最初に打ち切られた帰属値のいずれかがカットオフを下回っている場合、それらはカットオフ値として割り当てられます。

これについての意見、および/またはこれに対処するためのより良い方法を知りたいのですが。

r epidemiology data-imputation censoring

— ロバート・ロング
ソース

そのバイオマーカーはその後の分析でどのような役割を果たすでしょうか？たとえば、それは説明変数、共変量、または回帰の従属変数でしょうか？値の代入を必要としないメソッドを使用できる可能性があります。そうでなければ、検閲された右尾の形状についてWAGを作成することになります。これは、歪度のために、分析に影響力のある値が含まれる可能性があるためです。

— whuber

@whuber、バイオマーカーは説明変数です。この分野での通常の慣行は、それを0-1、1-10、10 +、または時々ちょうど0-1と1+として離散化することです（つまり、上昇または上昇しない）。私はそれを継続的説明変数として含めるという考えがありました。データセットには200の変数がありますが、臨床ガイダンスと以前の経験では、最終モデルでこれらの10を使用することが推奨されているため、他の変数のいくつかを使用して50より大きい値を代入することを考えていました。

— Robert Long

複数の代入を含む代入の方法は、50を超えるデータがどのように分布しているかを理解できなければ、暗闇の中でのショットです。200の変数があるので、それらのいずれかがバイオマーカーと相関していますか？バイオマーカーの回帰を共変量の関数として当てはめることができれば、そのモデルを使用して、切り捨てられたものの値を予測できます。モデルの残差分散に基づいて予測にエラーを適用し、そのようにして複数の代入を生成できます。それはもっと賢明でしょう。もちろん、これは有効なモデルを見つけることができ、残差の平均がゼロで分散が一定であることを前提としています。モデルを構築するには、切り捨てられていないバイオマーカー値のみを適合させます。

— マイケル・R・チェニック
ソース