私はすでに与えられたすべての答えに下線を引きますが、猫を猫と呼びましょう:多くのワークスペースでは、「エキゾチックな」ソフトウェアツール(つまり、エキゾチックな)への投資が必要であることを経営者に納得させることはほとんど不可能ですそれを維持します。私はかなりのクライアントに、ソフトウェアとデータベースの完全なバックグラウンドを持つ統計学者を雇うことで大きな恩恵を受けるだろうと言ってきましたが、「できない」は一般的な回答です。
そのため、それが起こらない限り、Excelでできる簡単なことがいくつかあります。そして、これの最初は間違いなくバージョン管理です。Excelによるバージョン管理の詳細については、こちらをご覧ください。
Excelの使用に関するいくつかのこと
EXCELを使用している人々は、EXCELの数式機能を非常によく使用します。それでも、これはEXCELシート内のエラーの最も重要な原因であり、私の経験では、EXCELファイルを読み取ろうとするときの問題の原因です。数式を含むシートの使用を拒否します。
また、私は一緒に働くすべての人に、EXCELシートを単純な形式で提供するよう強制します。
- 最初の行には、さまざまな変数の名前が含まれています
- スプレッドシートはセルA1から始まります
- すべてのデータは、中断することなく、フォーマットせずに列に配置されます。
- 可能であれば、データも.csv形式で保存されます。データを抽出し、再フォーマットして.csvファイルに入れるVBAスクリプトを記述することは難しくありません。また、データの.csvダンプを毎日作成できるため、バージョン管理が向上します。
データに常にある一般的な構造がある場合は、データを追加して分析用のデータセットを生成するために、基礎となるVBマクロを含むテンプレートを開発することをお勧めします。これにより、一般的に、すべての従業員が独自のデータストレージの「天才」システムを思い付くことが回避され、これに基づいてコードを記述することができます。
つまり、すべての人にSQL(およびデータ入力用のフロントエンド)を使用するよう説得できれば、RをそのSQLに直接リンクできます。これにより、パフォーマンスが大幅に向上します。
データ構造と管理
一般的な規則として、データベース(または、それらが主張する場合はEXCELシート)に保存されるデータは絶対的な最小値でなければなりません。つまり、他の変数から計算できる変数はデータベースに含まれません。計算が面倒で時間がかかる場合は、派生変数または変換された変数も保存しておくと便利な場合があります。ただし、これらは、必要に応じて元のデータベースにリンクされた別のデータベースに保存する必要があります。
1つのケースと見なされるもの(したがって1つの行)についても考慮する必要があります。例として、人々は各時点で新しい変数を作成することで時系列を作成する傾向があります。これはEXCELでは理にかなっていますが、これらのデータを読み取るには、データマトリックスをひっくり返す必要があります。グループを比較する場合も同じです。各グループの応答変数ではなく、1つのグループインジケータと1つの応答変数が必要です。このようにして、データ構造も標準化できます。
私が頻繁に遭遇する最後のことは、異なるメトリックの使用です。長さはメートルまたはセンチメートルで、温度は摂氏、ケルビンまたはファレンハイトで与えられます...変数が測定される単位がフロントエンドまたはテンプレートで示される必要があります。
そして、これらすべてのことを行った後でも、実際に分析を開始する前に、データ制御ステップが必要です。繰り返しになりますが、これは新しいエントリで毎日(夜間など)実行され、問題をすぐに(範囲外、間違ったタイプ、欠落フィールドなど)フラグ付けするスクリプトであるため、できるだけ早く修正できます。2か月前に作成されたエントリに戻って、何が間違っているのか、その理由を調べる必要がある場合は、修正するための優れた「シャーロックスキル」を取得することをお勧めします。
私の2セント