整合性チェックとは何ですか？

11

「日々の仕事で一貫性チェックをしましたか？」といった質問をされました。生物統計学者のポジションの電話インタビュー中に。何に答えればいいのか分かりません。どんな情報でも大歓迎です。

validation

— Baisong
ソース

17

率直なデータ処理エラーに焦点を当てたchlのリストに、微妙なエラーのチェックを追加して、次の質問と問題に対処します（特定の順序でなく、確かに不完全です）。

データベースの整合性を想定して、データは妥当ですか？彼らは大体、期待や従来のモデルに準拠していますか、それとも類似のデータに詳しい誰かを驚かせますか？
データは内部的に一貫していますか？たとえば、1つのフィールドが他の2つのフィールドの合計であると想定されている場合、それはどうでしょうか。
データはどのくらい完全ですか？それらはデータ収集の計画段階で指定されたものですか？計画されていなかった追加のデータはありますか？もしそうなら、なぜそこにあるのですか？
ほとんどの分析は、暗黙的または明示的にデータを簡潔にモデル化し、一般的な説明とは異なる可能性を含みます。このような各モデルは、外れ値（一般的な説明から著しく逸脱しているデータ）を特定するための独自の方法を提案しています。探索と分析の各段階で外れ値を特定して理解する試みが行われましたか？
多くの場合、アナリストは品質チェックと洞察のために分析に追加データを導入することが可能です。たとえば、自然科学、社会科学、およびビジネスの多くのデータセットには、（少なくとも暗黙的に）位置情報が含まれています。国勢調査地域の識別子。国、州、郡の名前。顧客の郵便番号。等々。空間相関がEDAまたはモデリングの要素ではない場合でも、アナリストは、データをロケーションの地理的表現に結合し、それらをマップしてパターンや外れ値を探すことができます。
分析に潜入する可能性がある最も潜行性の高いエラーの1つは、データの損失です。フィールドの抽出、データの要約、データセットの再フォーマットなどを行う場合、1つまたは2つのアイテムが大きなデータセットから削除されると、フラグを付けるものがなくなります。しかし、重要な何かが失われることもあり、発見された場合、それは非常に恥ずかしいことです。単純なチェック（データのカウントと合計の前後の比較など）は、そのようなことを防ぐために定期的に実行する必要があります。
もう1つの陰湿なエラーは、デジタルコンピューティングでの型変換に関連しています。たとえば、最近、浮動小数点フィールドから（2つのデータファイルを照合するための）キーを作成する必要がありました。ソフトウェア（Stata）は、フィールドを1つのファイルの単精度浮動小数点数としてインポートしましたが、何らかの理由で別のファイルの倍精度浮動小数点数としてインポートしました。ほとんどの場合、値は一致しましたが、丸めが異なるために一致しない場合もありました。その結果、一部のデータが失われました。（6）を適用しただけで捕まえた。一般に、フィールドデータタイプの一貫性をチェックすることは重要です。intとfloat、文字列の長さなどです。
スプレッドシートが分析のいずれかの段階で使用された場合、最悪の事態が予想されます。問題は、迷ったキーストロークでさえ、目に見えない形でデータが破損する可能性があることです。結果が重要な場合は、前後に移動し続け（スプレッドシートにエクスポートし、分析し、インポートし、体系的に比較して）、不都合なことが起こらないようにします。
データベースが更新されるたびに、一時停止して体系的な完全な比較を実行し、プロセスで何も失われたり、変更されたり、破損したりしていないことを確認します。
より高いレベルでは、推定（回帰、PCAなど）が実行されるときはいつでも、別の手法を使用して推定を実行し、感度やコードのエラーをチェックすることは価値があります。たとえば、なんらかの形のロバスト回帰によるOLS回帰に従い、係数を比較します。重要な結果を得るには、2つ（またはそれ以上）の異なるソフトウェアプラットフォームを使用して回答を取得するのが快適な場合があります。

おそらく、誰でも実行できる最も一般的な「整合性チェック」の種類は、すべてを早期にそして頻繁にグラフ化することです。

— whuber
ソース

8

これは、データの整合性に関する何らかの形式の品質管理に関係していると考えられます。具体的には、作業中のデータベースが破損していないことを定期的に確認します（転送中、コピー中、または更新または正常性チェック後のエラーが原因です）。これはまた、中間の計算が（手動で、または統計ソフトウェアの追加のコードやマクロを通じて）ダブルチェックされることを保証することを意味する場合もあります。

その他の情報は、ここにあります：EMEAのGood Clinical Practiceのガイドラインに関する ICH E6（R1）リファレンスガイド、Good Clinical Laboratory Practiceのガイドライン、またはClinical Research Study Investigator's Toolbox。

— chl
ソース

1

他の良い点に追加する

Excelを使用するときは、常に各行の最初の列としてケース番号を生成し、これを最後の列にコピーします。Excelは一度に数列だけを並べ替えることが非常にうれしいので、すべてを慎重に選択しないと混乱が生じます。あなたはこれが起こったことに気づいてさえいないかもしれません。行の最初と最後の列でケース番号が一致していることを確認できると便利です。

外れ値は常に確認します。

重要な作業には、別々の人によるデータの二重入力をお勧めします。

紙のドキュメントからデータを入力するときは、参照識別子を使用して、エントリの派生元の正確なドキュメントと行を参照できるようにすることをお勧めします。これには、データ入力フォームの番号付けが役立ちます。

編集-別の項目-スプレッドシートの編集には問題があることを知っていますが、スプレッドシートを使用してデータ入力をクリーンアップする方がはるかに簡単です。ただし、元の未編集のバージョンも保持しているため、変更を確認したり、最悪の場合は復元したりできます。

— ロバート・ジョーンズ
ソース