再現可能な分析としての「再現可能な研究」
再現性のある研究とは、特定の研究分野で使用される用語で、特に
- コードは生データとメタデータを処理済みデータに変換し、
- コードはデータの分析を実行し、
- コードは分析をレポートに組み込みます。
そのようなデータとコードを共有すると、他の研究者は次のことができます。
- 元の研究者によって報告されていない分析を実行する
- 元の研究者によって行われた分析の正確性を確認する
この使用法は、Sweaveのような技術の議論で見ることができます。例えば、Friedrich LeischはSweaveのコンテキストで「データまたは分析が変更された場合にレポートを自動的に更新できるため、真に再現可能な研究が可能になる」と書いています。また、「再現性のある研究に関するCRANタスクビュー」では、「再現性のある研究の目標は、特定の指示をデータ分析と実験データに結び付けて、奨学金を再現し、よりよく理解し、検証できるようにすることです」と述べています。
「再現性」という用語の幅広い使用法
再現性は科学の基本的な目的です。それは新しいものではありません。研究レポートには、データがどのように生成、処理、分析されたかを概説する方法と結果のセクションが含まれています。原則として、提供される詳細は、適切な有能な研究者が提供された情報を取得して研究を再現できるようにするのに十分でなければなりません。
再現性は、複製可能性と一般化の概念とも密接に関連しています。
したがって、Sweaveのような技術に適用される文字通りに取られた「再現可能な研究」という用語は、それがカバーするよりも広い関連性を示唆することを考えると、誤った呼び名です。また、Sweaveのような技術を使用していない研究者に提示するとき、そのような研究者は、プロセスを「再現可能な研究」と呼ぶとしばしば驚かれます。
「再現可能な研究」よりも良い用語
Sweaveのようなコンテキスト内で使用される「再現性のある研究」は再現性のある研究の1つの側面にのみ関係することを考えると、おそらく別の用語を採用する必要があります。可能な選択肢は次のとおりです。
- 再現可能な分析:
- 再現可能なデータ分析
- 再現可能な統計分析
- 再現可能なレポート
上記の用語はすべて、Sweaveのような分析に伴うものをより正確に反映したものです。再現性のある分析は短くて簡単です。「データ」または「統計」を追加すると、物事がさらに明確になりますが、用語が長くなり、狭くなります。さらに、「統計」には狭い意味と広い意味があり、確かに狭い意味の範囲内で、データ処理の多くは統計的ではありません。したがって、「再現性のある分析」という用語で示される幅には利点があります。
再現性だけではありません
「再現可能な研究」という用語に関する他の追加の問題は、Sweaveのような技術の目的が「再現性」だけではないことです。相互に関連する目的がいくつかあります。
- 再現性
- 生データを最終レポートに変換して同じ結果を得るために、分析を簡単に再実行できますか?
- 正しさ
- データ分析は研究者の意図と一致していますか?
- 研究者の意図は正しいですか?
- 開放性
- 透明性、説明責任
- 他の人は、実行された分析の正確性をチェックおよび検証できますか?
- 拡張性、変更可能性
- 他の人は、データ、分析、またはその両方を変更、拡張、再利用、およびマッシュして、新しい研究成果を作成できますか?
確認可能な分析の書面による記録があるため、再現可能な分析は正しい分析を促進するべきだという議論があります。さらに、データとコードが共有されている場合、研究者が分析を確認する動機付けとなる説明責任が生じ、他の研究者が修正を記録できるようになります。
再現可能な分析は、オープンな研究に関する概念とも密接に適合します。もちろん、研究者は自分自身のためだけにSweaveのようなテクノロジーを使用できます。オープンな研究原則により、データと分析コードの共有が促進され、再利用と説明責任が向上します。
これは、「再現可能」という言葉の使用に対する批判ではありません。むしろ、Sweaveのような技術を使用することが必要であるが、オープンな科学研究の目的を達成するには十分ではないことを強調しているだけです。