データ処理エラーはすでに統計分析に「価格が設定されていますか」?


10

わかりました、公正な警告です。これは数字を含まない哲学的な質問です。エラーが時間の経過に伴ってデータセットに侵入する方法と、それをアナリストがどのように処理する必要があるのか​​、あるいはそれが本当に重要なのかについて、私は多くのことを考えてきました。

背景として、私は7〜8年間でおそらく25人が収集した多くのデータセットを含む長期的な研究で分析を行っています。誰もすべてのデータを一貫した構造に持ってきたことはありません(それが私の仕事です)。私は多くのデータ入力(古いラボノートブックのコピーからの転記)を行っており、他の人が作成した小さな転記エラーを見つけ続けています。また、ほとんどの場合、インクが原因で、読み取りが困難または不可能であるデータエントリを見つけています。時間の経過とともに色あせています。私はコンテキストを使用して、データが何を言っているかについて「最良の推測」をし、私がかなり確実でない場合はデータを完全に指摘します。しかし、データがコピーされるたびに、元のデータが完全に失われるまで、エラーの頻度は必然的に増加するという事実を考え続けます。

したがって、これは私に考えを導きます:機器/測定エラー、および記録エラーに加えて、時間の経過とともに増加し、データの処理が増える基本的な「データ処理エラー」コンポーネントがあります(補足:これはおそらく熱力学の第2法則を説明する別の方法ですよね?データエントロピーは常に増加します)。結果として、データセットのライフヒストリーを説明するために導入されたある種の「訂正」(ボンフェローニ訂正に似たもの)があるのだろうか?言い換えれば、古い、またはコピーされたデータセットは正確性が低いと想定すべきですか?そうであれば、それに応じて調査結果を調整する必要がありますか?

しかし、私のもう1つの考えは、エラーはデータ収集とデータ処理の本質的な部分であり、すべての統計テストは実際のデータを使用して開発されているため、おそらくこれらのエラーの原因は分析に「価格が設定されている」でしょうか。

また、注目に値するもう1つの点は、データエラーはランダムであるため、改善するよりも発見の強度を低下させる可能性がはるかに高いということです。つまり、データ処理エラーは、タイプ1エラーではなくタイプ2エラーにつながります。 。したがって、多くのコンテキストでは、古い/疑問のあるデータを使用していても効果が見つかった場合、その効果が本物であるという確信が高まります(データセットへのランダムエラーの追加に耐えるのに十分強力だったため)。したがって、その理由から、おそらく「修正」は逆の方向に進むべきです(「発見」に必要なアルファレベルを上げる)か、単に私たちを困らせないのですか?

とにかく、非常に冗長で鈍くて申し訳ありませんが、私はこの質問をより簡潔に尋ねる方法が本当にわかりません。私を支えてくれてありがとう。


7
すばらしい質問です(+1)。ただし、1つのポイント:言及したデータエラーのほとんどを「ランダム」として扱うことは、重大なエラーになる可能性があります。たとえば、転記中に他の数字よりも数字の「0」、「5」、「6」、および「8」の交換がはるかに多い傾向があります(これらの一部は「。」と誤解される可能性があり、その逆も同様です))。また、顕著なデータ値(極端など)に加えられた変更は、多くの場合、すばやく識別され修正されます。これらのデータ破損プロセスには確かにチャンスの要素がいくつかありますが、それらを正しく特徴付けることは重要な問題になる可能性があります。
whuber

1
データ処理エラーを測定エラーの一部として扱い、それに応じてそれらを処理しないのはなぜですか?遊園地の乗客の数を測定するために、ゲートを監視するために20人を配置する必要がある場合、この20人のチームを一種の測定デバイスと見なすことができます
Aksakal

@ whuber、8と5を混ぜることはまだランダムですが、5と7を混ぜることと同じ確率ではないかもしれません
Aksakal

1
@whuber、それは私が考えていなかった魅力的な点(特定のタイプの転写エラーの不等頻度)です。それについてもっと学ぶために、私をどんな情報源に向けてもらえますか?数字の頻度に基づいて、データ品質テストを開発できるかどうか疑問に思いますか?数字の頻度に基づく詐欺的/偽造データの同様のテストを聞いたので、あなたが言及する傾向が一貫していれば、同様のことが可能になると思います。
Jas Max

@whuber、もう1つ考えました。0、5、6、8はよく混同されるとおっしゃっていますが、似ているためですか?たとえば、データを聞いている(誰かが言ったことを記録している)場合、5と9はおそらくより頻繁に混乱するだろうと私は思います。エラーの原因がエントロピー(インクの退色または電子の移動)だった場合、置換はよりランダムになると思いますが、おそらく一意でもあります。これらのパターンが保持されている場合、おそらく、数字の頻度に基づいて、大規模なデータセットのエラーの原因を調査できます。
Jas Max

回答:


3

@Aksakalの2番目の提案:測定誤差が分析者によって潜在的に重要であると見なされる場合、それはデータ生成プロセスの一部として明示的にモデル化することができ、モデル化する必要があります。

たとえば、データセットの古さに基づく一般的な補正係数の導入に反対するいくつかの考慮事項があります。

まず、年齢はデータの劣化の程度を示す非常に貧弱なプロキシである可能性があります。複製、圧縮、および保存の技術、および正しい転記の検証に費やされた努力と注意の度合いは、明らかに重要な要素です。いくつかの古代のテキスト(たとえば、聖書)は何世紀にもわたって保存されており、明らかに劣化はありません。あなたのVHSの例は実際には珍しいですが、複製イベントごとに常にエラーが発生し、複製と保存に安価で広く利用可能なテクノロジーを使用している場合、転記エラーをチェックして修正する簡単な方法はありません。より高価なシステムへの投資を通じて、導入されたエラーの程度が大幅に低下することを期待しています。

この最後のポイントはより一般的です。データの保存と伝達は経済活動です。伝送の品質は、配置されたリソースに大きく依存します。これらの選択は、複製と送信を行う人にとってのデータの認識された重要性に依存します。

経済的な考慮事項はアナリストにも適用されます。分析を行う際に考慮できる要素は常にあります。どのような条件下で、データの転記エラーが十分に重要であり、十分に重要であるかを考慮に入れるべきでしょうか?私の直感は次のとおりです。そのような条件は一般的ではありません。さらに、データ劣化の可能性が分析で明らかになるほど重要であると考えられる場合は、一般的な「修正」ステップを挿入するのではなく、プロセスを明示的にモデル化する努力をすることがおそらく重要です。

最後に、そのような一般的な補正係数を新たに開発する必要はありません。測定誤差が重要であると見なされるデータセットを分析するための統計理論と実践のかなりの本体がすでに存在しています。

要するに、それは興味深い考えです。しかし、分析の実践に変化をもたらすはずはないと思います。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.