統計フォレンジック:ベンフォード以降


23

サードパーティが作成した科学作品の詐欺、異常、不正行為などを検出するための広範な方法はありますか?(最近のMarc Hauser事件でこれを尋ねる動機がありました。)通常、選挙と会計詐欺のために、ベンフォードの法則のいくつかの変種が引用されています。ベンフォードの法則では、数値がほぼ対数均一であることが求められているため、これがたとえばマークハウザーの場合にどのように適用できるかはわかりません。

具体例として、多数の統計的検定のp値を引用した論文があると仮定します。これらをログの均一性に変換してから、ベンフォードの法則を適用できますか?このアプローチにはあらゆる種類の問題があるようです(たとえば、いくつかの帰無仮説は合法的に偽である可能性があり、統計コードはほぼ正しいだけのp値を与える可能性があり、テストは均一なp値のみを与える可能性がありますヌルの下で漸近的になど)


2
この質問には、統計的な法医学の実際の例を提供する答えが切実に必要です!受け入れられた答えはそれをまったくしません。たとえば、Simonsohn 2013Carlisle 2012(および2015 followup)、Pitt and Hill 2013などのすばらしい例があります。
アメーバは、モニカを復活させる

回答:


11

いい質問です!

科学的な文脈では、さまざまな種類の問題のあるレポートと問題のある動作があります。

  • 詐欺:詐欺は、著者またはアナリストが結果を不実表示する意図的な意図であり、不実表示が十分に重大な性質のものであると定義します。主な例は、生データまたは要約統計の完全な作成です。
  • エラー:データアナリストは、データ入力からデータ操作、分析、レポート、解釈まで、データ分析の多くの段階でエラーを起こす可能性があります。
  • 不適切な行動:は多くの形式があります。一般的に、それは真実を探すのではなく、特定の位置を確認しようとするオリエンテーションによって要約することができます。

不適切な動作の一般的な例は次のとおりです。

  • 一連の可能な従属変数を調べて、統計的に有意な変数のみを報告する
  • 仮定の重要な違反に言及していない
  • 特にこれらの手順が不適切であり、結果がより良く見えるように純粋に選択されている場合、データ操作と外れ値の削除手順を言及せずに実行する
  • 実際に探索的である確認モデルとしてモデルを提示する
  • 望ましい議論に反する重要な結果を省略する
  • 結果がより良く見えるようにするという理由だけで統計的検定を選択する
  • 1つだけが統計的に有意である(おそらくp = .04である)一連の5または10の低出力研究を実行し、他の研究に言及せずに研究を報告する

一般に、私は無能が問題行動の3つの形態すべてに関連していると仮定します。優れた科学を行う方法を理解していないが、成功することを望んでいる研究者は、結果を誤って伝えようとする大きなインセンティブを持ち、倫理的データ分析の原則を尊重する可能性が低くなります。

上記の区別は、問題のある動作の検出に影響します。たとえば、報告された一連の結果が間違っていることを認識できた場合でも、結果が詐欺、エラー、または不適切な行動から生じたかどうかを確認する必要があります。また、さまざまな形式の不適切な行動が詐欺よりもはるかに一般的であると思います。

問題のある行動を検出することに関して、私はそれが主にデータを扱う経験、トピックを扱う経験、そして研究者と働く経験から来るスキルだと思う。これらの経験はすべて、データがどのように見えるべきかについての期待を強化します。したがって、予想からの大きな逸脱は、説明を検索するプロセスを開始します。研究者との経験は、多かれ少なかれ一般的な不適切な行動の種類の感覚を与えます。組み合わせて、これは仮説の生成につながります。たとえば、雑誌の記事を読んでその結果に驚いた場合、研究の力が弱く、執筆の性質上、著者が論点を立てることになっていることが示唆された場合、結果はおそらくそうではないという仮説を立てます信頼できます。

その他の資料


4

実際、ベンフォードの法則は信じられないほど強力な方法です。これは、ベンフォードの最初の桁の頻度分布が、実世界または自然界で発生するあらゆる種類のデータセットに適用できるためです。

特定の状況でのみベンフォードの法則を使用できることは正しいです。あなたは、データが均一なログ分布を持たなければならないと言います。技術的には、これは完全に正しいです。ただし、要件をはるかに単純かつ寛大な方法で説明できます。必要なのは、データセットの範囲が少なくとも1桁以上になることです。たとえば、1から9または10から99または100から999であるとしましょう。2桁を超える場合、ビジネスを展開しています。そして、ベンフォードの法則はかなり役立つはずです。

ベンフォードの法則の利点は、干し草の山のデータ内の針を使って調査を非常に迅速に絞り込むことができることです。最初の桁の周波数がベンフォード周波数とは大きく異なる異常を探します。2つの多くの6があることに気付いたら、ベンフォードの法則を使用して6だけに焦点を合わせます。ただし、最初の2桁(60、61、62、63など)に移動します。今、多分あなたは、ベンフォードが示唆するよりもはるかに多くの63があることに気付くでしょう(ベンフォードの頻度を計算することによってそれをするでしょう:0%に近い値を与えるlog(1 + 1/63))。したがって、最初の3桁にはベンフォードを使用します。予想以上に632が多すぎる(またはベンフォードの頻度を計算することで何でも)(log(1 + 1/632))が見つかるまでに、おそらく何かにたどり着くでしょう。すべての異常が詐欺ではありません。しかし、

マークハウザーが操作したデータセットが、十分に広い関連範囲を持つ自然な制約のないデータである場合、ベンフォードの法則はかなり良い診断ツールになります。起こりそうにないパターンも検出する他の優れた診断ツールがあり、それらをベンフォードの法則と組み合わせることで、おそらくマークハウザーの問題を効果的に調査できたはずです(上記のベンフォードの法則のデータ要件を考慮して)。

ここで見ることができるこの短いプレゼンテーションで、ベンフォードの法則についてもう少し説明します:http : //www.slideshare.net/gaetanlion/benfords-law-4669483

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.