わかりました、公正な警告です。これは数字を含まない哲学的な質問です。エラーが時間の経過に伴ってデータセットに侵入する方法と、それをアナリストがどのように処理する必要があるのか、あるいはそれが本当に重要なのかについて、私は多くのことを考えてきました。
背景として、私は7〜8年間でおそらく25人が収集した多くのデータセットを含む長期的な研究で分析を行っています。誰もすべてのデータを一貫した構造に持ってきたことはありません(それが私の仕事です)。私は多くのデータ入力(古いラボノートブックのコピーからの転記)を行っており、他の人が作成した小さな転記エラーを見つけ続けています。また、ほとんどの場合、インクが原因で、読み取りが困難または不可能であるデータエントリを見つけています。時間の経過とともに色あせています。私はコンテキストを使用して、データが何を言っているかについて「最良の推測」をし、私がかなり確実でない場合はデータを完全に指摘します。しかし、データがコピーされるたびに、元のデータが完全に失われるまで、エラーの頻度は必然的に増加するという事実を考え続けます。
したがって、これは私に考えを導きます:機器/測定エラー、および記録エラーに加えて、時間の経過とともに増加し、データの処理が増える基本的な「データ処理エラー」コンポーネントがあります(補足:これはおそらく熱力学の第2法則を説明する別の方法ですよね?データエントロピーは常に増加します)。結果として、データセットのライフヒストリーを説明するために導入されたある種の「訂正」(ボンフェローニ訂正に似たもの)があるのだろうか?言い換えれば、古い、またはコピーされたデータセットは正確性が低いと想定すべきですか?そうであれば、それに応じて調査結果を調整する必要がありますか?
しかし、私のもう1つの考えは、エラーはデータ収集とデータ処理の本質的な部分であり、すべての統計テストは実際のデータを使用して開発されているため、おそらくこれらのエラーの原因は分析に「価格が設定されている」でしょうか。
また、注目に値するもう1つの点は、データエラーはランダムであるため、改善するよりも発見の強度を低下させる可能性がはるかに高いということです。つまり、データ処理エラーは、タイプ1エラーではなくタイプ2エラーにつながります。 。したがって、多くのコンテキストでは、古い/疑問のあるデータを使用していても効果が見つかった場合、その効果が本物であるという確信が高まります(データセットへのランダムエラーの追加に耐えるのに十分強力だったため)。したがって、その理由から、おそらく「修正」は逆の方向に進むべきです(「発見」に必要なアルファレベルを上げる)か、単に私たちを困らせないのですか?
とにかく、非常に冗長で鈍くて申し訳ありませんが、私はこの質問をより簡潔に尋ねる方法が本当にわかりません。私を支えてくれてありがとう。