データがどのように記録されたかを理解するのに役立ちます。
話を共有させてください。かつて、多くのデータセットはフェージングハードコピーでのみ保存されていました。暗黒の時代、私は組織(素晴らしい血統と規模、多くの人がおそらくその株を所有している)と契約して、製造工場の1つで約10 ^ 5の環境モニタリングデータの記録をコンピューター化しました。これを行うには、私は個人的には、(データがいた場所を示すために)研究室の報告書の棚をマークアップされたデータ入力フォームを作成し、ために派遣会社と契約読み書きデータをフォームに入力するワーカー。(はい、読むことができる人には余分にお金を払わなければなりませんでした。)データの価値と機密性のために、私はこのプロセスを一度に2人の作業者と並行して行いました。数週間かかりました。2つのエントリセットを比較するソフトウェアを作成し、表示されたすべてのエラーを体系的に特定して修正しました。
少年はエラーがありました!何がうまくいかないのでしょうか?エラーを記述および測定する良い方法は、基本的な記録のレベルです。この状況では、特定の監視ポイントで得られた特定のサンプルの単一の分析結果(一部の化学物質の濃度)の記述でした。与えられた日付。2つのデータセットを比較すると、次のことがわかりました。
省略の誤り:1つのデータセットにレコードが含まれ、別のデータセットには含まれません。これは通常、(a)ページの下部で1行または2行が見落とされるか、(b)ページ全体がスキップされるために発生しました。
本当にデータ入力の間違いである、見逃しの明らかなエラー。レコードは、監視ポイント名、日付、および「分析物」(通常は化学名)によって識別されます。これらのいずれかに誤植がある場合、関連する他のレコードとは一致しません。実際には、正しいレコードが消え、誤ったレコードが表示されます。
偽の複製。同じ結果が複数のソースに現れ、複数回転写され、そうでない場合は真の繰り返し測定値のように見えます。重複は簡単に検出できますが、誤っているかどうかを判断するには、重複がデータセットに表示されるかどうかを知る必要があります。時々、あなたはただ知ることができません。
率直なデータ入力エラー。「良い」ものはデータムのタイプを変更するため、簡単にキャッチできます。たとえば、数字「0」に文字「O」を使用すると、数字が非数字に変わります。他の良いエラーは値を大きく変えるので、統計的検定で簡単に検出できます。(あるケースでは、「1,000,010 mg / Kg」の先頭の桁が切り捨てられ、10の値が残っていました。農薬濃度について話しているとき、それは大きな変化です!) 「50」を「80」と入力するなど、残りのデータに適合する(並べ替える)値。(この種の間違いは、OCRソフトウェアで常に発生します。)
トランスポーズ。正しい値を入力できますが、間違ったレコードキーに関連付けられています。これは、データセットのグローバルな統計特性が変更されないままになる可能性があるため、潜行性がありますが、グループ間で誤った違いが作成される可能性があります。おそらく、ダブルエントリのようなメカニズムだけがこれらのエラーを検出することさえできます。
これらのエラーを認識し、その発生方法を知っているか、または理論を把握したら、スクリプトを記述して、データセットにそのようなエラーが存在する可能性を調べ、さらに注意を喚起するためにフラグを立てることができます。それらを常に解決できるわけではありませんが、少なくとも「コメント」または「品質フラグ」フィールドを含めて、後の分析を通じてデータに付随させることができます。
それ以来、データ品質の問題に注意を払い、大規模な統計データセットの包括的なチェックを行う機会が増えました。完璧なものはありません。それらはすべて品質チェックの恩恵を受けます。これを行うために長年にわたって開発してきたいくつかの原則には、
可能な限り、データ入力およびデータ転記手順の冗長性を作成します。チェックサム、合計、繰り返しエントリ:一貫性の自動内部チェックをサポートするもの。
可能であれば、データがどのように見えるかを説明する別のデータベース、つまりコンピューターが読み取り可能なメタデータを作成して活用します。 たとえば、薬物実験では、すべての患者が3回見られることを事前に知っている場合があります。これにより、すべての正しいレコードと、入力待ちの値を持つ識別子を含むデータベースを作成できます。指定されたデータを入力し、重複、省略、予期しないデータをチェックします。
分析用にデータセットをフォーマットする方法に関係なく、データを常に正規化します(具体的には、少なくとも4番目の正規形式に変換します)。これにより、モデリングする概念的に異なるすべてのエンティティのテーブルを作成する必要があります。(環境の場合、これには監視場所、サンプル、化学物質(特性、典型的な範囲など)の表、それらのサンプルのテスト(テストは通常化学物質のスイートをカバーします)、およびそれらのテストの個々の結果が含まれます。そうすることで、データの品質と一貫性の多くの効果的なチェックを作成し、潜在的に欠落または重複または不整合な値を特定します。
この作業(優れたデータ処理スキルが必要ですが、簡単です)は驚くほど効果的です。大規模または複雑なデータセットの分析を望んでおり、リレーショナルデータベースとその理論の実用的な知識がない場合は、できるだけ早く学習するもののリストに追加してください。それはあなたのキャリアを通して配当を支払います。
可能な限り多くの「愚かな」チェックを常に実行してください。これらは、日付が予想される期間に収まる、患者(または化学物質など)のカウントが常に正しく加算される、値が常に合理的である(たとえば、pHが0から14であり、これは、ドメインの専門知識が最も役立つ可能性がある場所です。統計学者は、専門家の愚かな質問を恐れずに尋ね、データを確認するために答えを悪用することができます。
もちろん、もっと多くのことを言うことができます-主題は本の価値があります-しかし、これはアイデアを刺激するのに十分なはずです。