多くの人々(私を含む)がExcelで探索的データ分析を行うことを好むようです。スプレッドシートで許可されている行数などの制限は苦痛ですが、ほとんどの場合、Excelを使用してデータを操作することは不可能ではありません。
しかし、McCulloughとHeiserの論文は、Excelを使用しようとすると、結果がすべて間違っていること、そしておそらく地獄で燃え上がることを実際に叫んでいます。
この論文は正しいですか、それとも偏っていますか?著者は、彼らがマイクロソフトを嫌うように聞こえます。
多くの人々(私を含む)がExcelで探索的データ分析を行うことを好むようです。スプレッドシートで許可されている行数などの制限は苦痛ですが、ほとんどの場合、Excelを使用してデータを操作することは不可能ではありません。
しかし、McCulloughとHeiserの論文は、Excelを使用しようとすると、結果がすべて間違っていること、そしておそらく地獄で燃え上がることを実際に叫んでいます。
この論文は正しいですか、それとも偏っていますか?著者は、彼らがマイクロソフトを嫌うように聞こえます。
回答:
適切なツールを適切な仕事に使用し、使い慣れたツールの長所を活用してください。
Excelの場合、いくつかの顕著な問題があります。
データがスプレッドシートに収まる場合でも、データの管理にスプレッドシートを使用しないでください。あなたはただのトラブル、ひどいトラブルを求めているだけです。誤植、データの大量混合、データ値の切り捨てなどに対する保護は実質的にありません。
実際、統計関数の多くは壊れています。t分布はそれらの1つです。
デフォルトのグラフィックはひどいです。
基本的な統計グラフィック、特に箱ひげ図とヒストグラムが欠落しています。
乱数ジェネレーターは冗談です(ただし、それでも教育目的には有効です)。
高レベルの機能とほとんどのアドインを避けます。彼らはc ** pです。しかし、これは安全なコンピューティングの一般原則に過ぎません。関数が何をしているのかわからない場合は、使用しないでください。低レベルのもの(算術関数、ランキング、exp、ln、trig関数、および制限内の正規分布関数を含む)に固執します。 グラフィックを生成するアドインを使用しないでください。ひどいものになります。(注:ゼロから独自の確率プロットを作成するのは非常に簡単です。それらは正確で高度にカスタマイズ可能です。)
ただし、次のような利点があります。
その基本的な数値計算は、倍精度浮動小数点数が可能な限り正確です。これらには、ログガンマなどの便利なものが含まれています。
スプレッドシートの入力ボックスにコントロールをラップするのは非常に簡単で、動的なシミュレーションを簡単に作成できます。
統計を使用していない人と計算を共有する必要がある場合、ほとんどの人はスプレッドシートである程度快適であり、統計ソフトウェアを使用しても、それがどれほど安価であってもまったくありません。
VBAに非常に近い古いFortranコードの移植など、効果的な数値マクロを簡単に作成できます。さらに、VBAの実行はかなり高速です。(たとえば、ゼロからの非中心t分布を正確に計算するコードと、高速フーリエ変換の3つの異なる実装があります。)
Crystal Ballや@Riskなどのいくつかの効果的なシミュレーションとモンテカルロアドオンをサポートしています。(彼らは独自のRNGを使用していますが、私はチェックしました。)
(小さなセットの)データと直接対話することの即時性は他に類を見ません。統計パッケージやMathematicaなどよりも優れています。大量のストレージを備えた巨大な計算機として使用する場合、スプレッドシートは本当に独自のものになります。
堅牢で耐性のある方法を使用した優れた EDAは簡単ではありませんが、一度実行した後は、すぐに再設定できます。Excelを使用すると、nウェイテーブルの中央値の洗練を含む(少し面倒ですが)TukeyのEDAブックですべての計算(プロットの一部のみ)を効果的に再現できます。
元の質問に対する直接的な回答では、その論文にはバイアスがあります。Excelが最も弱く、有能な統計学者が使用する可能性が最も低い資料に焦点を当てています。しかし、このような警告は放送する必要があるため、それは論文に対する批判ではありません。
=TINV(2*p,df)
して、0.01からほぼ0まで変化するpの値を計算し、正しい値と比較します。(2から32の範囲のdfでチェックしました。)エラーは6番目の有効数字で始まり、pが1.E-5以下になると爆発します。これらのpの値は小さいですが、複数比較テストおよび非中心tなどのt分布に関連する値の計算に重要であるため、テストするのに現実的な値です。
バイオインフォマティクス設定でのExcelの使用に関する興味深い論文は次のとおりです。
誤った識別子:バイオインフォマティクス、BMC Bioinformatics、2004(リンク)でExcelを使用すると、遺伝子名エラーが誤って導入される可能性があります。
この短いペーパーでは、Excelでの自動型変換(特に日付と浮動小数点の変換)の問題について説明します。たとえば、遺伝子名Sept2は2月9日に変換されます。あなたは実際にオンラインデータベースでこのエラーを見つけることができます。
Excelを使用して中規模から大量のデータを管理することは危険です。間違いは、ユーザーに気付かれずに簡単に忍び寄ることができます。
さて、論文が正しいか偏っているかという質問は簡単なはずです。彼らの分析の一部を複製して、同じ答えが得られるかどうかを確認できます。
McCulloughは数年前からMS Excelの異なるバージョンを分解してきましたが、MSは以前のバージョンで数年前に指摘したエラーを修正するのにふさわしくないようです。
Excelでデータを操作することに問題はありません。しかし、正直に言うと、Excelで "深刻な"分析は行いません。私の主な問題は不正確ではありませんが(問題になることはめったにありません)、1年後にレビュー担当者または上司がXを実行しなかった理由を尋ねたときに分析を追跡および複製することは不可能です-あなたは保存することができます仕事とあなたの盲目の路地はコメントされたRコードでありますが、Excelでは意味のある方法ではありません。
ちなみに、Googleスプレッドシートの使用に関する質問は、それについて対照的な(したがって、興味深い)意見を提起しました。
あまり悲観的ではないように思えた古い論文を念頭に置いていますが、それはあなたが言及した論文でわずかに引用されています:Keeling and Pavur、A比較研究の信頼性の9つの統計ソフトウェアパッケージ(CSDA 2007 51:3811)。しかし今、私はあなたのハードドライブを見つけました。また、2008年に特別な問題がありました。MicrosoftExcel 2007の特別なセクションを参照してください。さらに最近では、Journal of Statistics Software:On the Numerical Accuracy on Spreadsheetsを参照してください。
これは長年の議論であり、統計計算に関するExcelの信頼性についてさまざまな論文や意見があると思います。さまざまなレベルの議論があると思います(どのような種類の分析を計画していますか、内部ソルバーに依存していますか、特定のモデルに入る非線形項がありますかなど)、および数値の不正確さの原因が生じる可能性があります適切な計算エラーまたは設計選択の問題の結果として。これはよくまとめられています
M.アルトマン、J。ギル&MPマクドナルド、 社会科学者のための統計的計算の数値的問題、ワイリー、2004年。
現在、探索的データ分析のために、強化された視覚化機能、多変量および動的グラフィックス、たとえばGGobiを提供するさまざまな代替手段がありますが、このwikiの関連スレッドを参照してください。
しかし、明らかに、最初に行ったポイントは別の問題(IMO)に対処します。つまり、スプレッドシートを使用して大きなデータセットを処理するということです。大きなcsvファイルをExcelにインポートすることはまったく不可能です(ゲノムデータについて考えていますただし、他の種類の高次元データに適用されます)。その目的のために構築されていません。
論文および他の参加者は、技術的な弱点を指摘しています。Whuberは、少なくともその長所のいくつかをうまく説明しています。私は個人的にExcelで広範な統計作業(仮説検定、線形および多重回帰)を行っており、それが大好きです。256列と65,000行の容量を持つExcel 2003を使用します。これは、使用するデータセットの約100%しか処理できません。Excel 2007はその容量を膨大な量(数百万行単位)に拡張したことを理解しています。
Whuberが言及しているように、Excelは非常に強力で使いやすい多数の非常に優れたアドインソフトウェアの開始プラットフォームとしても機能します。クリスタルボールとモンテカルロシミュレーションの@Riskを考えています。XLStatは、強力な統計情報とデータ分析のすべてに対応しています。最適化に最適なもの。そして、リストは続きます。Excelは、膨大な数の信じられないほどのアプリを備えたIPodまたはIPadに相当します。Excelアプリが安くないことは確かです。しかし、彼らができることについては、彼らは通常、かなり素晴らしい掘り出し物です。
モデルのドキュメントに関する限り、テキストボックスを挿入するのは非常に簡単です。ここに、方法論やソースなどに関する本を文字通り書くことができます。また、任意のセルにコメントを挿入することもできます。そのため、Excelは埋め込みドキュメントの作成に非常に適しています。
Excelを使用したくない理由のもう1つの参考資料は次のとおりです。
あなたが本当にExcelを使用する必要がある状況にいる場合(一部の学部が主張します)、Rexcel プラグインを使用することをお勧めします。これにより、Excelを使用してインターフェイスできますが、計算エンジンとしてRプログラムを使用します。Rを使用するためにRを知る必要はありません。ドロップダウンメニューとダイアログを使用できますが、使用すればさらに多くのことができます。Rは計算を実行しているため、Excelよりもはるかに信頼性が高く、ExcelやExcelにはない優れたグラフやボックスプロット、その他のグラフがあります。Excelでのセルの自動更新でも動作します(ただし、毎回再計算する複雑な分析がたくさんある場合は、非常に遅くなります)。スプレッドシート中毒ページのすべての問題を解決するわけではありませんが、ストレートExcelを使用するよりも大幅に改善されています。
Excelは、適切なプラグインを使用した探索的データ分析と線形回帰分析の両方に最適です。多くの商用製品がありますが、それらのほとんどは、生成する出力の品質の点で望ましいものを残しています(Excelのグラフ作成オプションや他のOfficeアプリケーションとリンクする機能を十分に活用していません)。一般に、それらはデータの視覚化と表示に使用できるほど優れていません。また、(特に)作業に関する十分に文書化された監査証跡を保持する統制のとれたモデリングアプローチをサポートしない傾向があります。ここでは無料のプラグイン、「RegressIt」は、あること、これらの問題の多くのアドレス: http://regressit.com。探索的分析(最大50個の変数を含む並列時系列プロットおよび散布図マトリックスを生成する機能を含む)の非常に優れたサポートを提供し、遅延、ロギング、差分などのデータ変換を簡単に適用できます(多くの場合、適用されません)回帰の単純なユーザーによって適切に)、データ分析のベストプラクティスをサポートする非常に詳細なテーブルとグラフの出力を提供し、モデルの記録を保持するだけでなく、モデルの比較を容易にする監査証跡ワークシートを維持しますどの順番で取り付けられました。多変量データを処理していて、少なくとも一部の作業がExcel環境で実行されている場合は、使用している他のものを補完します。
R
SAS よりも正確であるようです)。