「再現可能な研究」をどのように定義していますか?


50

これは今いくつかの質問で出てきており、私は何かについて疑問に思っていました。フィールド全体は、元のデータと問題のコードの可用性に焦点を当てた「再現性」に移行しましたか?

私はいつも、再現性の核心は必ずしも言及しているように、「実行」をクリックして同じ結果を得る能力ではないと教えられていました。データとコードのアプローチは、データが正しいこと、つまりデータ自体の収集に欠陥がないことを前提としているようです(科学的詐欺の場合は明らかに間違っています)。また、複数の独立したサンプルでの結果の再現性よりも、ターゲット母集団の単一のサンプルに焦点を当てています。

なぜ研究をゼロから複製するのではなく、分析を再実行できることに重点が置かれているのですか?

以下のコメントに記載されている記事はこちらから入手できます


良い質問 !私は答えにdonohoの論文への言及を入れましたが、再現可能な研究についてのあなたの書面による言及は何ですか?
ロビンギラード

ReiterとKinneyは、今月号の疫学誌に「研究目的での機密データの共有:入門書」という論文を掲載しています。機密性が損なわれないようにする必要があります。
フォマイト

@EpiGrad、「今月」が過ぎたので、記事へのリンクがあると役に立ちます。履歴書と科学/データ分析に役立つ素晴らしい質問をしてくれてありがとう!
GUNG -復活モニカ

@gungどの記事ですか?
フォマイト

上の@ EpiGrad、Reiter&Kinney。+1 btw
gung-モニカの復職

回答:


41

再現可能な分析としての「再現可能な研究」

再現性のある研究とは、特定の研究分野で使用される用語で、特に

  • コードは生データとメタデータを処理済みデータに変換し、
  • コードはデータの分析を実行し、
  • コードは分析をレポートに組み込みます。

そのようなデータとコードを共有すると、他の研究者は次のことができます。

  • 元の研究者によって報告されていない分析を実行する
  • 元の研究者によって行われた分析の正確性を確認する

この使用法は、Sweaveのような技術の議論で見ることができます。例えば、Friedrich LeischはSweaveのコンテキストで「データまたは分析が変更された場合にレポートを自動的に更新できるため、真に再現可能な研究が可能になる」と書いています。また、「再現性のある研究に関するCRANタスクビュー」では、「再現性のある研究の目標は、特定の指示をデータ分析と実験データに結び付けて、奨学金を再現し、よりよく理解し、検証できるようにすることです」と述べています。

「再現性」という用語の幅広い使用法

再現性は科学の基本的な目的です。それは新しいものではありません。研究レポートには、データがどのように生成、処理、分析されたかを概説する方法と結果のセクションが含まれています。原則として、提供される詳細は、適切な有能な研究者が提供された情報を取得して研究を再現できるようにするのに十分でなければなりません。

再現性は、複製可能性と一般化の概念とも密接に関連しています。

したがって、Sweaveのような技術に適用される文字通りに取られた「再現可能な研究」という用語は、それがカバーするよりも広い関連性を示唆することを考えると、誤った呼び名です。また、Sweaveのような技術を使用していない研究者に提示するとき、そのような研究者は、プロセスを「再現可能な研究」と呼ぶとしばしば驚かれます。

「再現可能な研究」よりも良い用語

Sweaveのようなコンテキスト内で使用される「再現性のある研究」は再現性のある研究の1つの側面にのみ関係することを考えると、おそらく別の用語を採用する必要があります。可能な選択肢は次のとおりです。

上記の用語はすべて、Sweaveのような分析に伴うものをより正確に反映したものです。再現性のある分析は短くて簡単です。「データ」または「統計」を追加すると、物事がさらに明確になりますが、用語が長くなり、狭くなります。さらに、「統計」には狭い意味と広い意味があり、確かに狭い意味の範囲内で、データ処理の多くは統計的ではありません。したがって、「再現性のある分析」という用語で示される幅には利点があります。

再現性だけではありません

「再現可能な研究」という用語に関する他の追加の問題は、Sweaveのような技術の目的が「再現性」だけではないことです。相互に関連する目的がいくつかあります。

  • 再現性
    • 生データを最終レポートに変換して同じ結果を得るために、分析を簡単に再実行できますか?
  • 正しさ
    • データ分析は研究者の意図と一致していますか?
    • 研究者の意図は正しいですか?
  • 開放性
    • 透明性、説明責任
      • 他の人は、実行された分析の正確性をチェックおよび検証できますか?
    • 拡張性、変更可能性
      • 他の人は、データ、分析、またはその両方を変更、拡張、再利用、およびマッシュして、新しい研究成果を作成できますか?

確認可能な分析の書面による記録があるため、再現可能な分析は正しい分析を促進するべきだという議論があります。さらに、データとコードが共有されている場合、研究者が分析を確認する動機付けとなる説明責任が生じ、他の研究者が修正を記録できるようになります。

再現可能な分析は、オープンな研究に関する概念とも密接に適合します。もちろん、研究者は自分自身のためだけにSweaveのようなテクノロジーを使用できます。オープンな研究原則により、データと分析コードの共有が促進され、再利用と説明責任が向上します。

これは、「再現可能」という言葉の使用に対する批判ではありません。むしろ、Sweaveのような技術を使用することが必要であるが、オープンな科学研究の目的を達成するには十分ではないことを強調しているだけです。


2
(+1)すばらしい答え、非常に良い点。私たちは、Sweaveと友人が再現可能な分析を行うことを呼び出すべきであることに同意します
-NRH

1
(+1)すてきな概要。しかし、「生データ」という用語はあいまいで誤解を招く可能性があることに注意してください。データは一般に、「生」と見なされる段階よりも前に処理されます。
デビッドルバウアー

@Jeromy Anglimこれは素晴らしい答えであり、「再現性のある研究」のセマンティクスに関して私を悩ませているものの中核になります-データ生成プロセスが完了した後にのみ行われるプロセスを記述するために使用されます。用語として「再現性のある分析」のアイデアが好きです。
フォマイト

+1 @Jeromy Anglim、私は最近著者に連絡Rし、出版物で使用されているコードを共有できるかどうかを確認しました。著者はそれを拒否し、出版物を指し示しました。あなたの意見では、これを再現性のある研究に対するオープン性の欠如と考えますか、それともジャーナルで方法論を明示し、他のプログラムにコード自体を許可するだけで十分ですか?ありがとう
予報官

11

分析のためのデータとコードに簡単に実行できる形式でアクセスできることは、再現性のある研究の真の意味です。分析が機能することを確認したら、元の作者に懐疑的である独自のコード/データに置き換えることができます。私が読んだ統計を含む論文の大半は、方法論の少なくとも一部が曖昧に残っていると思います。これらの分析を再現しようとする私の試みは、多くの場合失敗します(そして常に時間がかかります)が、これが詐欺、人為的ミスのためであるか、または(はるかに)私とこれらのあいまいさを著者とは異なる方法で解決するためであるかどうかを言うことは非常に困難です。したがって、論文のデータとコードを持っているからといって、その結論が正しいことを保証するわけではありませんが、それを批判したり拡張したりするのはずっと簡単です。

また、「再現可能な研究」の程度の問題。したがって、再現可能な研究運動は、研究が何らかの最小閾値を満たすことを要求するのではなく、標準よりも「再現性の高い」研究を奨励するものと見ることができます。「データとコードをリリースする」が流行しているのは、比較的簡単で脅威のないステップだからだと思います。


9

すべてを再実行できることは、再現可能な研究の出発点です。実際に同じ手順を使用していることを示すことができます。その後-そしてその後だけ-あなたはあなたの仲間の研究を追求することができます。言い換えれば、厳密な再現性は、研究が前進している時点としてではなく、人々が同意するランドマーク、コンセンサス、として認識されるべきです。さらに進んでいくのは基本的ではないでしょうか?

また、Donhoの議論 (セクション2「スキャンダル」を読んでください)によると、再現可能な研究の目的は、特定のコードの堅牢性をテストすることでもあります。最初に、コードで遊んで、紙では行われなかった軽微な変更を行います(30の数字の紙が必要ないため...)。文学の再現性のある研究の概念には、強力で堅牢なランドマークを持つという考えが含まれていると思います。それはさらに先へ進むという考えをほとんど含んでいます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.