Rを使用した再現可能な研究の完全な実質的な例


71

質問: Rを使用して再現性のある研究の良い例があり、オンラインで無料で入手できますか?

理想的な例: 具体的には、理想的な例は以下を提供します:

  • 生データ(および理想的にはデータを説明するメタデータ)、
  • データのインポート、処理、分析、出力生成を含むすべてのRコード、
  • 最終出力を最終ドキュメントにリンクするためのSweaveまたはその他のアプローチ、
  • すべては、読者のコンピューターで簡単にダウンロードおよびコンパイルできる形式です。

理想的には、この例は、統計的な教育の例とは対照的に、実際の応用トピックに重点を置いたジャーナル記事または論文です。

興味の理由: 雑誌記事や論文の応用トピックに特に興味があります。これらの状況では、いくつかの追加の問題が発生するためです。

  • データのクリーニングと処理に関連する問題が発生し、
  • メタデータの管理に関連する問題が発生し、
  • ジャーナルと論文には、表や図の外観とフォーマットに関するスタイルガイドの期待がありますが、
  • 多くのジャーナルと論文には、ワークフロー(分析の順序付け方法など)と処理時間(分析のキャッシュの問題など)に関する問題を引き起こす幅広い分析が含まれていることがよくあります。

完全な実例を見ると、再現性のある研究から始める研究者にとって良い教材となります。

回答:



11

ジャーナルBiostatisticsには再現性のためのアソシエイトエディターがおり、その記事はすべてマークされています。

再現可能な研究

私たちの再現可能な研究方針は、ジャーナルの論文にカイトマークを付けることです。Dに基づいているデータが自由に利用できる場合はD、著者のコードが自由に利用できる場合はC、データとコードの両方が利用できる場合はR、 Associate for Editor for Reproducibilityは、これらを使用して論文の結果を再現することができます。データとコードは、補足資料として雑誌のウェブサイトに電子的に公開されています。

http://biostatistics.oxfordjournals.org/

それはどれほど良いアイデアですか?

http://biostatistics.oxfordjournals.org/content/12/1/18.abstractには、分析を行う補助パッケージにRパッケージが付属しています-まだ試していない。また、開放性の評価が指定されている場所を見つけることができません。副編集者にいくつかの質問をメールで送信しています...

[編集]

アソシエイトエディターのロジャーペンは、おそらくPDFを入手せずに再現可能な論文を見つける方法はないと言っています。彼は、再現性のために素敵な大きな「R」(映画のようなR格付けを意味するわけではない)を持っているこのものを私に指摘しました:

http://biostatistics.oxfordjournals.org/content/10/3/409.abstract

もちろん、ジャーナル自体は無料ではありません... #fail

バリー


1
再現性を優先するジャーナルを見るのは素晴らしいことです。Rとマークされた記事の良い例を見ましたか?
ジェロミーアングリム

1
彼らは出版のためにそれを優先しません、私は彼らがそれを単に強調したいと思うと思います。例で回答を編集します。
Spacedman


10

私の研究論文のページにはそのような例いくつかあります。(複数のハイパーリンクを新しいメンバーとして投稿することは許可されていません。そのため、そのサイトの論文について説明します。)

(1)「ランダム化実験で効果をマニフェストにする」では、Rのビネットシステムを使用しています。

(2)「クラスターへの効果のランダム化された脱出キャンペーン」は、時間のかかるシミュレーションを含むより複雑な論文でした。Makefileベースのシステムを使用して、Dataverseに投稿しました

(3)「HLMのEDA」は私の最初の試みでした。ここでは、データと関連するSweaveファイルをtarballに入れるだけです。

JASAアーカイブの作成時に発見した問題の1つは、CRANパッケージのバージョンとデフォルトが変更されたことです。そのため、そのアーカイブには、使用したパッケージのバージョンも含まれています。ユーザーがパッケージを変更すると、ビネットベースのシステムはおそらく破損します(大要であるパッケージ内に追加のパッケージを含める方法がわからない)。

最後に、R自体が変更された場合の対処方法について考えます。たとえば、仮想マシンが巨大にならないように、論文に使用される計算環境全体を再現する仮想マシンを作成する方法はありますか?

とにかく、これらの例が役立つことを願っています。少なくとも彼らは、この分野での私自身の実験のいくつかを示しています。

(プレーンテキストのハイパーリンクを次に示します。)

  [2]:http://jakebowers.org/manifesteffects-compendium-howto.txt
  [3]:http://hdl.handle.net/1902.1/12174
  [4]:http://hdl.handle.net/1902.1/13376

あなたはいくつかの興味深い質問を提起します。:私はあなたを引用別の質問投稿したstats.stackexchange.com/questions/4466/...
Jeromy Anglim


8

マイクロアレイデータを分析する際にR / Bioconductorを使用する方法を説明した論文を書きました。このペーパーはSweaveで作成されており、グラフの生成に使用されるすべてのコードは補足資料として含まれています。

ギレスピー、CS、レイ、G.、男の子、RJ、Greenall、AJ、ウィルキンソン、DJは、2010 BioConductorを使用して分析酵母の経時的マイクロアレイデータ:ケーススタディは、Affymetrixアレイyeast2使用して BMC研究ノート、3:81を。


7

SweaveのCharles Geyerのページには、いくつかの要件を満たす論文の例があります(生データは単にRパッケージからのものですが、R / sweaveコードと最終的なPDFは入手可能です)。

Yun Ju Sungの論文「欠損データモデルのモンテカルロ尤度推論(プレプリント)」の理論に関する論文には、計算例が含まれていました。紙のすべての数字とすべてのプロットは、Sweaveで行われた「補足資料」文書から(カットアンドペーストで、認めなければなりません)取得されました。

ソースファイルは、「補足資料」セクションにリンクされています。)

以前にReproducibleResearch.netのマテリアルページを参照したRの例に少なくとも1つ出会ったことがありますが、残念ながらブックマークしていませんでした。


5

サイモン・ジャックマンには、調査の結果を分析する特に有用な例があります:「9/11から10年後のアメリカ人とオーストラリア人」。表と図を統合する複数の例があります。

彼はこのブログ投稿でSweave文書PDFレポート作成しました。

生データは提供されていません(私が知る限り)ので、実際のSweaveの例を実行することはできませんが、Sweaveのコードを学習することでかなりのことが学べると思います。



4

また見統計ソフトのジャーナル。Sweaveで論文を作成することをお勧めします。


いいえ、正式ではありません-LaTeX への投稿は推奨されますが、手順ページを見ると、Sweaveという単語は含まれていません。著者はそれを使用したり、Rコードを紙と一緒に出荷したりしますが、私にとっては、パッケージビネットに関するシェーンのポイントを反映しています。
ダークエデルブエッテル

OK、まだほとんどの提出者が使用しています(また、ジャーナルスタイルにはSwave.styが含まれています)。主な問題は、Rnwsが公開されていないことです。Sweaveが作成した論文には、Stangle出力が付属しています。

4

私は過去に良いものを見つけました。それらを掘り下げたら投稿しますが、いくつかの簡単な一般的な提案:

  1. キーワードとext:rnw(sweave拡張子のファイルを検索します)でgoogleを検索すると、いくつかの興味深い例を見つけることができます。以下に検索の例を示します。これは私の検索の3番目の結果です:http : //www.ne.su.se/paper/araietal_source.Rnw ここに私の検索からの別の例があります:http : //www.stat.umn.edu/geyer/gdor/
  2. 多くのRパッケージには、本質的に同じことになる興味深いビネットがあります。例:https : //r-forge.r-project.org/scm/viewvc.php/paper/maxLik.Rnw

4

ロバート・ジェントルマンは、「再現可能な研究:バイオインフォマティクスのケーススタディ」という論文を書きました

Rパッケージとして短い分析セットを実装し、Sweaveを使用します。また、Sweaveの使用についてより一般的に説明します。

使用されているすべてのファイルとフォルダのアーカイブファイルについては、記事ページの「関連ファイル」セクションを参照してください。

参照:

  • ジェントルマン、ロバート(2005)「再現性のある研究:バイオインフォマティクスのケーススタディ」、遺伝学および分子生物学における統計的応用:Vol。4:Iss。1、第2条。
  • DOI:10.2202 / 1544-6115.1034
  • http://www.bepress.com/sagmb/vol4/iss1/art2で入手可能

4

http://genome.cshlp.org/content/early/2011/06/09/gr.117523.110/suppl/DC1

私の研究室の仲間による素敵な論文。ファンメールに似たものがこのために届いたとき、私たちのPIはかなり喜んでいました。現在、グループのすべての出版物には、LaTeX / Sweaveで補足的な方法が用意されています。いくつかの論文も(私のものをLyX / Sweaveで保持するか、折りたたんでSweaveで補足するかを決定できない)。


3

例を学ぶことは良い方法ですが、再現性には技術/スクリプトの再実行の側面だけでなく、コードのスタイルと構造化の側面、コア関数の副作用の最小化なども含まれることに言及したかっただけです。 Chambersのデータ分析ソフトウェアにより、Rコードレベルでの信頼性と再現性の問題を回避するのに役立つ技術をより深く理解できます。


2

完全に再現可能な分析と用紙の優れた例が必要な場合は、このレポを使用してください

@jscamacは、彼の分析を再現可能にすることで素晴らしい仕事をし、私はそれを個人的に検証しました。

パッケージなどのR固有の関数を使用remakeして、再現性を確保する方法を学習できます。

注意してください/計算が完了するまで約1時間かかります。

そのすべてがスクリプト化され、最終的には数字でLaTeX論文を作成します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.