ハドリーから期待できるように、彼の記事にはきちんとしたデータの適切な定義が含まれており、私は彼の記事のほとんどすべてに同意し、「データ専門家」だけに有効なわけではないと信じています。しかし、より根本的な問題が回避されれば、彼が作成するいくつかのポイントは(たとえば、彼が作成したパッケージを使用して)修正が比較的簡単です。これらの問題のほとんどは、Excelの広範な使用の結果です。Excelは価値のあるツールであり、そのメリットがありますが、一部の機能はデータアナリストに問題を引き起こします。
いくつかのポイント(私の経験から):
- カラフルなスプレッドシートが好きで、書式設定オプションを豊富に使用する人もいます。データを整理し、プレゼンテーション用のテーブルを準備するのに役立つ場合は、これで問題ありません。ただし、セルの色が実際にデータをエンコードしている場合は危険です。このデータは簡単に失われ、統計ソフトウェアにインポートすることは非常に困難です(たとえば、Stack Overflowでこの質問を参照してください)。
- 時々私は人々にそれを準備する方法を教えた後、うまくフォーマットされたデータを受け取りますが、コメントのために専用の列または別のファイルを使用するように彼らに頼んだにもかかわらず、彼らは値の列にコメントを入れることに決めました。データをインポートするときにこの列を特別な方法で処理する必要があるだけでなく、主な問題は、そのようなコメントを表示するためにすべてのテーブルをスクロールする必要があることです(通常は行いません)。Excelのコメント機能を使用している場合、これはさらに悪化します。
- 複数のテーブルが含まれているスプレッドシート、複数のヘッダー行、または接続されたセルは、統計ソフトウェアでのインポートのために準備するための手作業になります。優れたデータアナリストは通常、この種の手動作業を楽しんでいません。
- Excelで列を非表示にしないでください。不要な場合は削除してください。必要な場合は、提示してください。
- xlsとその子孫は、他のユーザーとデータを交換したり、アーカイブしたりするのに適したファイル形式ではありません。ファイルを開くと数式が更新され、Excelのバージョンが異なるとファイルの処理が異なる場合があります。代わりにシンプルなCSVファイルをお勧めします。これは、ほとんどすべてのデータ関連ソフトウェアがそれをインポートでき(Excelを含む)、それがすぐに変更されないことが予想されるためです。ただし、ExcelでCSVに保存する場合は、表示される桁に丸められることに注意してください(これにより、精度が破棄されます)。
- 他人の生活を楽にしたい場合は、Hadleyの記事に記載されている原則に従ってください。各変数の値列と、層を定義する因子列があります。
おそらく思いつかなかったいくつかの追加点があるでしょう。