カスタムレポートの作成に関連するデータ分析のワークフローについて、知識はありますか?ユースケースは基本的にこれです:
クライアントは、データ分析を使用するレポートを委託します。たとえば、水区の人口推定や関連マップなどです。
アナリストは一部のデータをダウンロードし、データを変更して結果を保存します(たとえば、単位あたりの人口の列を追加したり、地区の境界に基づいてデータをサブセット化したりします)。
アナリストは、(2)で作成されたデータを分析し、彼女の目標に近づきますが、さらに多くのデータが必要であるため、(1)に戻ります。
テーブルとグラフィックスがQA / QCを満たし、クライアントを満足させるまで繰り返します。
表とグラフィックを組み込んだレポートを作成します。
来年、幸せなクライアントが戻ってきて、更新を求めています。これは、仕様が変更されない限り、新しいダウンロード(たとえば、昨年の建築許可の取得)によってアップストリームデータを更新し、[RECALCULATE]ボタンを押すのと同じくらい簡単なはずです。
現時点では、ディレクトリを作成して、できる限りその場限りで作成します。もっと体系的なアプローチが欲しいので、誰かがこれを理解してくれることを願っています...私は、スプレッドシート、SQL、ARCGIS、R、およびUnixツールを組み合わせて使用しています。
ありがとう!
PS:
以下は、さまざまな中間データセット(.RData
サフィックス付き)とスクリプト(.R
サフィックス)の依存関係をチェックする基本的なMakefileです。Makeはタイムスタンプを使用して依存関係をチェックします。そのためtouch ss07por.csv
、このファイルが依存しているすべてのファイル/ターゲットよりも新しいことがわかり、指定されたスクリプトを実行してそれらを適宜更新します。これは、SQLデータベースに入れるステップや、sweaveなどのテンプレート言語のステップを含む、まだ進行中の作業です。Makeは構文がタブに依存していることに注意してください。したがって、カットアンドペーストする前にマニュアルをお読みください。楽しんでフィードバックしてください!
http://www.gnu.org/software/make/manual/html_node/index.html#Top
R = / home / wsprague / R-2.9.2 / bin / R persondata.RData:ImportData.R ../../DATA/ss07por.csv Functions.R $ R --slave -f ImportData.R persondata.Munged.RData:MungeData.R persondata.RData Functions.R $ R --slave -f MungeData.R report.txt:TabulateAndGraph.R persondata.Munged.RData Functions.R $ R --slave -f TabulateAndGraph.R> report.txt