Googleドキュメントのスプレッドシートを使用して、統計作業を実施し、他の人と共有していますか?


15

おそらくほとんどの人が、Googleドキュメントはまだ原始的なツールだと感じていることを知っています。MatlabやRではなく、Excelでもありません。それでも、私はブラウザの操作機能を使用するだけの(そして非常に異なる動作をする多くのブラウザと互換性がある)このWebベースのソフトウェアのパワーに困惑しています。

このフォーラムでアクティブに活動しているマイク・ローレンスは、Google Docsを使用してスプレッドシートを共有しました。私は個人的に、GoogleドキュメントのExcelで最初に行われたかなり徹底した仮説テストフレームワーク(多数のパラメトリックテストとノンパラメトリックテストを含む)を複製しました。

Googleドキュメントを試してみて、興味深いアプリケーションで限界に達した人がいるかどうかに興味があります。また、Googleドキュメントで発生したバグや欠陥についても興味があります。

私はこの質問を「コミュニティwiki用」に指定しています。これには最良の答えがないことを示しています。何よりも調査です。


Mike Lawrenceが提供するスプレッドシートにリンクしていただけますか?
アンディW


1
Googleのドキュメントは、正式にテストされたとき、ほとんどの統計計算でひどくパフォーマンスを発揮しました(まったく実行できた場合)。Kellie B. KeelingおよびRobert J. Pavur(2011):Spreadsheet Software、The American Statistician、65:4、265-273
whuber

回答:


12

Googleスプレッドシートの主な用途は、データを収集し、それをRに簡単にインポートするためのGoogleフォームでの使用です。

Googleスプレッドシート+ Googleフォーム+ R =分析のためのデータの簡単な収集とインポート

また、共同作業をしている場合、私の選択ツールはDropBoxです。数ヶ月前にそれに関する投稿を書きました。

DropBoxを使用してコンピューター間でファイルを同期する

5人の共著者がいるプロジェクトで約半年間使用していますが、非常に貴重です(3人の貢献者からのデータファイルを同期し、誰もが私が作成している出力の最新バージョンを見ることができ、誰もが探しています記事の同じ.docxファイルで)。

どちらの投稿も、ビデオチュートリアルと口頭説明を提供しています。


ご意見をいただきありがとうございます。これは私が興味を持った正確なタイプのコメントです。Googleドキュメントの共有およびインポートコンポーネントを本当に活用しました。よかったね。詳細については、資料をお読みください。
-Sympa

親愛なるゲータン、私はあなたの反応に喜んでいます-親切な言葉をありがとう。ベスト、タル。
タルガリリ

19

R、bash、Python、asciidoc、(La)TeX、オープンソースソフトウェア、またはun * xツールの熱狂的なユーザーとして、私は客観的な答えを提供できません。さらに、MS Excelやあらゆる種類のスプレッドシートの使用に反対することがよくあるので(データやデータの一部は表示されますが、他には何がありますか?)、私は議論に積極的に貢献しません。私だけではない、例えば

私の同僚は、後方互換性の欠如などのために、すべてのマクロを失いました。別の同僚は、「それらを見る」ためだけに遺伝データ(800,000マーカーで遺伝子型分類された約700人)をインポートしようとしました。Excelは失敗し、メモ帳もあきらめました... viで「それらを見る」ことができ、いくつかのsed / awkまたはperlスクリプトでデータをすばやく再フォーマットできます。したがって、スプレッドシートの有用性について議論する際に考慮すべきさまざまなレベルがあると思います。小さいデータセットで作業していて、基本的な統計データのみを適用したい場合は、それで問題ありません。次に、結果を信頼するか、ソースコードをいつでも求めることができますが、NISTベンチマークを使用してすべてのインラインプロシージャのクイックテストを行う方が簡単な場合があります。上記のリストの更新として、MS Excelの新しいバージョンはその正確性の改善を実証したように見えますが、これは単にこれが真の統計ソフトウェア(IMHO)ではないという理由だけで、統計を行う良い方法に対応するとは思いません統計分析、Keeling and Pavur、9つの統計ソフトウェアパッケージの信頼性の比較研究CSDA 2007 51:3811)。

それでも、10または20枚のうち約1枚(生物医学、心理学、精神医学)にはExcelで作られたグラフィックが含まれていますが、灰色の背景、水平の黒い線、または自動の凡例を削除することもあります(Andrew GelmanとHadley Wickhamは確かにそれを見たときに私)。しかし、より一般的には、FlowingDataの最近の世論調査によると、最もよく使用される「ソフトウェア」である傾向があります。これは、ブライアンリプリー(MASS Rパッケージを共同執筆し、パターン認識に関する優れた本、とりわけ):

自分をからかわないでください:統計に最も広く使用されているソフトウェアはExcel(B. Ripley via Jan De Leeuw)、http: //www.stats.ox.ac.uk/~ripley/RSS2002.pdfです

さて、あなたがそれがあなたの統計を終わらせるための迅速で簡単な方法をあなたに提供すると感じたら、なぜですか?問題は、そのような環境では実行できないこと(または、少なくともややこしいこと)がまだあるということです。いくつか例を挙げると、ブートストラップ、順列、多変量探索的データ分析について考えます。VBA(スクリプトでもプログラミング言語でもない)に精通していない限り、R(またはMatlab、Python)でデータに対する小さな操作でもより適切に処理できると思う傾向があります。たとえば、いわゆるdata.frame)。何よりも、Excelはデータアナリストにとって非常に優れたプラクティスを促進していないと思います(ただし、どの "cliquodrome"にも適用されます。データ処理の記録を維持する必要性に関するMedstatsの議論分析とデータ編集の文書化)、そして、私はこの実用的な統計に関する投稿をExcelの落とし穴のいくつかを比較的説明するものだと見つけました。それでも、それはExcelに適用されますが、GDocsにどのように変換されるのかわかりません。

作品の共有については、Github(またはソースコードの場合はGist)またはDropbox(EULAは一部の人々を思いとどまらせるかもしれませんが)は非常に良いオプション(改訂履歴、必要に応じて許可管理など)であると思う傾向があります。基本的にバイナリ形式でデータを保存するソフトウェアの使用を奨励することはできません。R、Matlab、Stata、SPSSにインポートできることは知っていますが、私の意見では:

  • データは確実にテキスト形式である必要があり、別の統計ソフトウェアで読み取ることができます。
  • 分析は再現可能である必要があります。つまり、分析用の完全なスクリプトを提供し、いつでも別のオペレーティングシステムで実行する必要があります(この近くの理想的なケースにアプローチします)。
  • 独自の統計ソフトウェアは、認知されたアルゴリズムを実装する必要があり、統計モデリングの現在のベストプラクティスを反映するように更新する簡単な方法が必要です。
  • 選択する共有システムには、バージョン管理機能と共同機能を含める必要があります。

それでおしまい。


@Gaetan回答はさておき、この質問に+1を付けました。統計実践とプロジェクト管理についての議論に非常に関連があると思うからです。
chl

賛成票に対するコメントをいただければ幸いです。
chl

@chl:この答えに反対票を投じなかったが、なぜ反対票を投じるのか理解できたと思う。あなたが提供した情報は正確で、非常に重要で、考えさせるものです。ただし、そのほとんど(最後の2つの段落を除く)は質問に答えません。理想的には、この大きな免責事項を別の場所に書いて、それへのリンクを提供します。
ボリスゴリリック

@chl:私がコメントで言ったことにもかかわらず、私はあなたの答えを愛し、それを賛成票を投じる
ボリス

@bgbgコメントありがとうございます。CWの質問には答えなかったのかもしれません。しかし、純粋に挑発的な答えをするつもりはありませんでした。OPは、GDocsの潜在的な「バグと欠陥」について質問しました。Excelから知っていることのイラストを提供し、GDocsにどのように変換されるかわからないという事実を認めます。また、質問の一部を「データ分析にGDocsを使用する利点」として理解し、大規模なプロジェクトでスプレッドシートを使用することや、最先端の分析に反対することを主張しました(まだ、これは偏っているだろうということで始まる)。
chl

10

「また、Googleドキュメントで発生したバグや欠陥についても知りたいと思っています。」

元の質問のその部分にのみ回答します。Google Docs Spreadsheets(GSheets)での私の調査は、数学関数と統計関数に関係しています。最後に、私の評価では、Googleスプレッドシートは、その点で、2012年には1997年の悪意のあるExcelに比べてはるかに劣っています。

目撃者:Googleスプレッドシートは、erf(x)= 1-erf(x)を使用して、erf(x)が1に近い引数を使用してerfc(x)を評価しているようです。平均の; それは悪い数値実践です。poisson(n、x)= pow(x、n)* exp(-x)/ n!などの組み合わせ関数と離散確率!要因ごとに評価されるため、不必要なオーバーフローが発生します。階乗はスターリングの近似係数を使用して評価され、さらに不必要なオーバーフローを引き起こします。累積ポアソン分布は、単純に有限合計を行うことで評価されるため、正規化特性は丸めで失われます。累積二項分布についても同様です。累積正規分布は完全に混乱しています。[0,1]の範囲外になります。他のパッケージの同じ関数の実装に比べて、一般的に精度が低下します。丸めなどの基本関数の説明は、しばしば文字化けしており、判読できません。解釈は推測ゲームです。

これらの問題は、Googleドキュメントの製品フォーラムへの2つの投稿で文書化されています。

(2011-11-13以降)normdistはまだ負の値をスローし ますhttps://productforums.google.com/d/topic/docs/XfBPtoKJ1Ws/

(2012-05-06以降)GSheetsの統計関数および数学関数に関するエラーおよびその他の問題 https://productforums.google.com/d/topic/docs/rxFCHYeMhrU/


1
(+1)つまり、Googleの(多く!)統計学者がこのプロジェクトに関与していないことは明らかです。
枢機

私が使用したGoogleドキュメントの唯一の部分はエディターです。これは、リアルタイムで共同編集する場合に非常に便利です。gitや友人がその問題を解決するとは思わない!
kjetil bハルヴォルセン
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.