この回答は2番目の質問に焦点を当てていますが、その過程で最初の質問に対する部分的な回答(QA / QC手順のガイドライン)が明らかになります。
あなたができる最善のことは、入力が試みられたときにデータ品質をチェックすることです。ユーザーのチェックとレポートは労働集約型であるため、実行可能な限り遅く、プロセスの後半に予約する必要があります。
豊富な経験から得られたいくつかの原則、ガイドライン、および提案を以下に示します(多くのデータベースの設計と作成は、お客様のデータベースに匹敵し、はるかに大きい)。それらはルールではありません。成功し効率的にするためにそれらに従う必要はありません。しかし、それらはすべて優れた理由でここにあり、それらから逸脱することについて一生懸命に考える必要があります。
知的に要求されるすべての活動からデータ入力を分離します。データ入力オペレーターに同時に何かをチェックしたり、数を数えたりするように頼まないでください。コンピューター読み取り可能なデータのファクシミリを作成することだけに仕事を制限してください。特に、この原則は、データ入力フォームが、データを保存する予定の形式ではなく、最初にデータを取得する形式を反映する必要があることを意味します。後である形式から別の形式に変換するのは比較的簡単ですが、データを入力しながらその場で変換を試みるのはエラーが発生しやすいプロセスです。
データ監査証跡を作成します:データに何かが行われるたびに、データ入力段階から開始し、これを文書化し、簡単に戻って問題が発生したことを確認できるように手順を記録します(問題が発生するため)。タイムスタンプ、データ入力演算子の識別子、元のデータのソースの識別子(レポートやページ番号など)のフィールドへの入力を検討してください。ストレージは安価ですが、エラーを追跡する時間は高価です。
すべてを自動化します。 マーフィーの法則によれば、どのステップもやり直す必要があると想定し(最悪の場合には)、それに応じて計画します。手作業でいくつかの「簡単な手順」を実行して、時間を節約しようとしないでください。
特に、データ入力のサポートを作成します。各テーブルのフロントエンドを作成し(スプレッドシートでもうまくできる)、データを取得するための明確でシンプルで統一された方法を提供します。同時に、フロントエンドは「ビジネスルール:」つまり、できる限り多くの単純な有効性チェックを実行する必要があります。(たとえば、pHは0〜14でなければなりません。カウントは正でなければなりません。)理想的には、DBMSを使用してリレーショナル整合性チェックを強制します(たとえば、測定に関連するすべての種が実際にデータベースに存在します)。
常に物事を数え、その数が正確に一致することを確認してください。たとえば、調査で10種の属性を測定することになっている場合は、(データの入力が完了するとすぐに)10種が本当に報告されていることを確認してください。カウントのチェックは簡単で有益ではありませんが、重複したデータや省略されたデータの検出には優れています。
データが貴重で重要な場合は、データセット全体を個別に二重入力することを検討してください。つまり、各アイテムは、相互作用しない2人の異なるユーザーによって別々の時間に入力されます。これは、タイプミスや欠落データなどをキャッチするのに最適な方法です。クロスチェックは完全に自動化できます。これは、100%の手動ダブルチェックよりも高速で、エラーの検出に優れ、効率的です。(データエントリ「people」には、OCR付きスキャナーなどのデバイスを含めることができます。)
DBMSを使用して、データを保存および管理します。スプレッドシートはデータ入力をサポートするのに最適ですが、データをスプレッドシートまたはテキストファイルからできるだけ早く実際のデータベースに取得します。これにより、あらゆる種類の潜在的なエラーが防止され、自動データ整合性チェックのサポートが多数追加されます。必要に応じて、データの保存と管理に統計ソフトウェアを使用しますが、専用のDBMSの使用を真剣に検討してください。それはより良い仕事をします。
すべてのデータを入力して自動的にチェックした後、画像を描画します。ソートされたテーブル、ヒストグラム、散布図などを作成し、それらすべてを確認します。これらは、本格的な統計パッケージで簡単に自動化できます。
コンピューターが実行できる反復タスクを実行するように人々に依頼しないでください。これらの場合、コンピューターははるかに高速で信頼性が高くなります。すぐには完了できないタスクを実行するために、小さなスクリプトや小さなプログラムを作成(および文書化)する習慣を身に付けます。これらは監査証跡の一部となり、作業を簡単にやり直すことができます。使いやすいプラットフォームを使用してください。これはタスクに適しています。(長年にわたって、利用可能なものに応じて、CおよびFortranプログラムからAWKおよびSEDスクリプト、ExcelおよびWord用のVBAスクリプト、カスタムに至るまで、そのようなプラットフォームを幅広く使用し、すべてその方法で効果を発揮してきました。リレーショナルデータベースシステム、GIS、およびRやStataなどの統計分析プラットフォーム用に作成されたプログラム。)
これらのガイドラインのほとんどに従う場合、データベースにデータを取り込む作業の約50%〜80%は、データベースの設計とサポートスクリプトの作成になります。そのようなプロジェクトで90%を達成し、50%未満で完了し、それでも時間通りに終了することは珍しいことではありません。すべてのセットアップとテストが完了すると、データ入力とチェックが驚くほど効率的になります。