タグ付けされた質問 「project-management」

*統計*プロジェクトの計算作業を整理する。データストレージ、データ共有、コードリポジトリなどに関する質問に使用します。プログラミングに関する質問や統計に関連しない質問はトピックから外れていることに注意してください。

7
統計分析プロジェクトを効率的に管理する方法は?
コンピューターサイエンスではプロジェクト管理やデザインパターンについてよく耳にしますが、統計分析ではそうではありません。しかし、効果的で耐久性のある統計プロジェクトを設計するための決定的なステップは、物事を整理することです。 私はしばしば、Rの使用と、別々のフォルダー内のファイルの一貫した編成(生データファイル、変換されたデータファイル、Rスクリプト、図、メモなど)を提唱します。このアプローチの主な理由は、後で分析を実行する方が簡単な場合があることです(たとえば、特定のプロットの作成方法を忘れた場合)。 統計プロジェクト管理のベストプラクティスは何ですか?または、あなた自身の経験から与えたい推奨事項は何ですか?もちろん、これはすべての統計ソフトウェアに適用されます。(投稿ごとに1つの回答をお願いします)

3
ロジスティック回帰の95%信頼区間を手動で計算することと、Rでconfint()関数を使用することに違いがあるのはなぜですか?
皆さん、私は説明できない奇妙なことに気づきました、できますか?要約すると、ロジスティック回帰モデルで信頼区間を計算する手動のアプローチとR関数confint()は異なる結果をもたらします。 Hosmer&LemeshowのApplied Logistic Regression(第2版)を行ってきました。第3章には、オッズ比と95%の信頼区間を計算する例があります。Rを使用すると、モデルを簡単に再現できます。 Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.8408 0.2551 -3.296 0.00098 *** as.factor(dataset$dich.age)1 2.0935 0.5285 3.961 7.46e-05 *** --- Signif. codes: 0 ‘***’ 0.001 …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 


6
研究の長期的な再現性を高める方法(特にRとSweaveを使用)
コンテキスト:ジェイクが書いた 再現可能な研究に関する以前の質問への回答 JASAアーカイブの作成時に発見した問題の1つは、CRANパッケージのバージョンとデフォルトが変更されたことです。そのため、そのアーカイブには、使用したパッケージのバージョンも含まれています。ユーザーがパッケージを変更すると、ビネットベースのシステムはおそらく破損します(大要であるパッケージ内に追加のパッケージを含める方法がわからない)。 最後に、R自体が変更された場合の対処方法について考えます。たとえば、仮想マシンが巨大にならないように、論文に使用される計算環境全体を再現する仮想マシンを作成する方法はありますか? 質問: 再現可能なデータ分析が将来(たとえば、発行後5年、10年、または20年)再現可能であることを保証するための優れた戦略は何ですか? 具体的には、SweaveとRを使用するときに継続的な再現性を最大化するための優れた戦略は何ですか? これは、再現性のあるデータ分析プロジェクトを、わずかに異なるデフォルト、パッケージなどを使用して他の誰かのマシンで実行することを保証する問題に関連しているようです。

1
lmerモデルからの効果の再現性の計算
混合効果モデリングによる測定の再現性(別名信頼性、別名クラス内相関)の計算方法を説明するこの論文に出会ったばかりです。Rコードは次のようになります。 #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

4
Rコードと出力を整理する効率的な方法は何ですか?[閉まっている]
閉まっている。この質問はトピック外です。現在、回答を受け付けていません。 この質問を改善したいですか? 質問を更新して、相互検証のトピックになるようにします。 去年閉鎖されました。 他の人がどのようにRコードと出力を整理するかについてのインプットを探しています。 私の現在のプラクティスは、次のようなテキストファイルのブロックにコードを記述することです。 #================================================= # 19 May 2011 date() # Correlation analysis of variables in sed summary load("/media/working/working_files/R_working/sed_OM_survey.RData") # correlation between estimated surface and mean perc.OM in epi samples cor.test(survey$mean.perc.OM[survey$Depth == "epi"], survey$est.surf.OM[survey$Depth == "epi"])) #================================================== 次に、通常は注釈を付けて、出力を別のテキストファイルに貼り付けます。 この方法の問題は次のとおりです。 コードと出力は、日付以外では明示的にリンクされていません。 コードと出力は時系列に編成されているため、検索が難しい場合があります。 目次を作成できるので、すべてを使って1つのSweaveドキュメントを作成することを検討しましたが、これは、提供するメリットよりも手間がかかるようです。 Rコードと出力を整理して、分析の効率的な検索と編集を可能にする効果的なルーチンを教えてください。

5
大規模なデータセットの探索的分析をチェックする方法
大きなデータセット(多くのサンプル、多くの変数)で探索的分析を開始すると、多くの場合、何百もの派生変数と多数の異なるプロットがあり、何が起こっているのかを追跡する実際の方法がありません。コードは、最初から方向性がないため、スパゲッティのようになります... 探索的分析をきちんと整理するために推奨される方法はありますか?特に、探索の複数のブランチ(行き止まりのブランチを含む)を、どのように異なるバージョンのプロットで処理しますか? 参考までに、私は地球科学データ(時間とともに多くの変数、時には空間にわたっても)に取り組んでいます。私は通常、PythonまたはRで作業し、すべてをgitに保存し、IPython Notebookも試しています。ただし、他のタイプの(大規模?)データを使用して、すべての分野の人々にとって回答がある程度一般的で有用であればよいでしょう。

10
コンマ区切り値(CSV)ファイルを編集するための戦略
データ分析プロジェクトで作業するとき、データをコンマまたはタブ区切り(CSV、TSV)データファイルに保存することがよくあります。多くの場合、データは専用のデータベース管理システムに属します。私のアプリケーションの多くにとって、これはやり過ぎです。 Excel(またはおそらく別のスプレッドシートプログラム)でCSVファイルとTSVファイルを編集できます。これには利点があります。 スプレッドシートを使用すると、データを簡単に入力できます また、いくつかの問題があります。 CSVファイルとTSVファイルを使用すると、さまざまな機能が失われたり、アクティブシートのみがどのように保存されるかなど、さまざまな警告メッセージが表示されます。したがって、ファイルを開いて少し変更したいだけの場合は迷惑です。 多くの「おそらくインテリジェントな」変換を行います。たとえば、12/3と入力すると、日付を入力したいと考えられます。 更新:日付の例は、多くの例の1つにすぎないことを述べたはずです。ほとんどの問題は不適切な変換に関連しているようです。特に、数字や日付のように見えるテキストフィールドは問題を引き起こします。 または、標準のテキストエディターでテキストファイルを直接操作することもできます。これにより、入力した内容が記録されます。ただし、データを入力するのは非常に厄介な方法です(列が揃っていません。複数のセルに単純にデータを入力することは困難です。など)。 質問 CSVまたはTSVデータファイルを操作するための優れた戦略は何ですか?つまり、入力した内容が実際に正しく解釈されるようにしながら、データの入力と操作を簡単にする戦略は何ですか?

5
データを保存するためのシンプルで信頼性が高く、オープンで相互運用可能なプレーンテキスト形式
前の質問で、CSVファイルを編集するためのツールについて尋ねました。 Gavinは 、Duncan MurdochによるR Helpのコメントにリンクしており 、Data Interchange FormatはCSVよりもデータを保存する信頼性の高い方法であると示唆しています。 一部のアプリケーションでは、専用のデータベース管理システムが必要です。ただし、小規模のデータ分析プロジェクトでは、より軽量なものがより適しているようです。 ファイル形式を評価するには、次の基準を考慮してください。 reliabile:入力されたデータは、入力された内容に忠実でなければなりません。データは異なるソフトウェアで一貫して開く必要があります。 simple:ファイル形式が理解しやすく、理想的には単純なテキストエディタで読みやすい場合は便利です。フォーマットを読み書きするための簡単なプログラムを書くのは簡単なはずです。 open:形式は開いている必要があります 相互運用可能:ファイル形式は多くのシステムでサポートされる必要があります タブとコンマで区切られた値の形式は、信頼性の基準で失敗します。ファイル形式ではなく、プログラムのインポートとエクスポートを非難できると思いますが。read.table奇妙なキャラクターがデータフレームの読み込みを壊さないようにするために、オプションを少し調整する必要があることがよくあります 。 ご質問 これらのニーズに最適なファイル形式はどれですか? データ交換形式はより良い代替手段ですか?それとも問題がありますか? 望ましい他の形式はありますか? TSVとCSVを不当に評価していますか?ファイル形式の信頼性を高めるようなファイルを操作するための簡単なヒントはありますか?

3
実用的なデータ分析プロセスとは何ですか?
各データ分析プロジェクトについて、ほとんどの統計データアナリストが経験する分析プロセスを知りたい、または参照したいと思います。 データ分析プロジェクトを完了するために「リスト」を作成する場合、アナリストは次のことを行う必要があります。 最初にプロジェクトの要件を収集し、 以前にそれらの要件に基づいてデータ分析を計画/設計する 実際にデータを前処理する、 データ分析を実行し、 彼の分析結果に基づいてレポートを作成します。 この質問については、ステップ2の詳細に興味があります。しかし、分析者はデータ分析の出力に応じて計画や設計を変更する必要があるため、これは実際には明確ではありません。このテーマに関する参考文献はありますか?

3
データセット内の変数名の改善
適切な変数名は次のとおりです。 a)短い/入力しやすい、 b)覚えやすい c)理解可能/伝達的。 忘れ物はありますか?一貫性は探すべきものです。私が言うには、一貫した命名規則が上記の品質に貢献しているということです。一貫性は、(b)思い出しやすさと(c)理解しやすさに貢献しますが、多くの場合、他の要因がより重要です。(a)名前の長さ/入力のしやすさ(たとえば、すべて小文字)と(c)理解しやすさの間には明確なトレードオフがあります。 何千人もの人々がデータを使用しており、多くの人が私のコードを使用してデータを準備し、いくつかのタイプの分析を容易にすることを期待しています。青年期の健康に関する縦断的研究のデータは、複数のデータセットに分類されます。私の最初のステップは、最も一般的に使用されるデータセットの227変数を取得し、それらを再コード化して、より意味のある名前を付けることでした。元の変数名は、「aid2」、「age」、「male.is」に名前を変更した「aid」、「s1」、「s2」のようなものです。他のデータセットには他の何千もの変数があり、研究者の目標に応じてマージされる場合があります。 変数の名前を変更している限り、それらをできるだけ使いやすくしたいと思います。これが私が検討した問題のいくつかです。これまでのところ、小文字のみを使用し、ダッシュやアンダースコアの使用は避けており、ピリオドは非常に特定の目的でのみ使用しています。これには、単純さと一貫性という長所があるため、ほとんどの変数で問題は発生しません。しかし、物事がより複雑になるにつれて、私は一貫性を壊したくなります。たとえば、変数「talkprobmsum」を例にとると、「talkProbMSum」または「talk.prob.m.sum」として読む方が簡単ですが、大文字またはピリオドを使用して単語を区切る場合は、すべての変数に対してそれを行うべきではありませんか? 一部の変数は複数回記録されます。たとえば、レース変数なので、.isまたは.ihを追加して、それらが学校内または家庭内のアンケートに由来するかどうかを示します。しかし、確かにまだ気づいていない繰り返しがいくつかあります。データセットへの参照をすべての変数の名前に追加する方が良いでしょうか? 多くの変数をグループ化して標準化する必要があります。これは、.zmsを追加して、男性別および学校別のZスコアを意味します。 一般的または特定の考えやリソースは大歓迎です。私のコードの一部、および変数名のリストを含む記述統計については、このリポジトリを参照してください。私の簡単には、このコードを共有するための理由を説明し、ここで、それが少し公表された、ここで、これらの最後の2つのリンクが変数の命名規則の問題には本当に関係ありません。 追加:コメントで明らかな混乱を避けようと、これを軽く編集しました。考えてくれてありがとう! 2016年9月5日追加:注目に値するそのハドレーウィッカムのRスタイルガイドとGoogleのRスタイルガイドを ...ハドレー氏は述べています: 変数名と関数名は小文字にする必要があります。名前内の単語を区切るには、アンダースコア(_)を使用します。 グーグルは言う: 識別子にアンダースコア(_)またはハイフン(-)を使用しないでください。識別子には、次の規則に従って名前を付ける必要があります。変数名の推奨形式は、すべて小文字とドットで区切られた単語(variable.name)ですが、variableNameも受け入れられます。関数名には最初の大文字があり、ドットはありません(FunctionName)。定数は関数のように名前が付けられますが、最初はkです。

1
複数の言語(RやSplusなど)を含む統計プロジェクトのディレクトリ構造?
投稿の構築統計分析プロジェクトとR の ProjectTemplateパッケージを効率的に管理する方法 ... Q:複数の言語が大きく機能している場合(R AND Splusなど)、統計プロジェクトのディレクトリ構造をどのように構築しますか? このトピックに関するほとんどの議論は、主に1つの言語を使用するプロジェクトに限定されています。複数の言語を使用しているときに、だらし、混乱、破損を最小限に抑える方法に関心があります。 以下に、現在のプロジェクト構造と実行方法を示します。代替は私が持っているので、別々のコードにあるかもしれない./Rし、./Splusディレクトリ---それぞれ含む、独自の/lib、/src、/util、/tests、および/mungeディレクトリ。 Q:「ベストプラクティス(存在する場合)」に最も近いアプローチはどれですか。 / data-プロジェクト間で共有されるデータ / libraries-プロジェクト間で共有されるスクリプト / projects / myproject-私の作業ディレクトリ。現在、複数の言語を使用している場合は、この場所を作業ディレクトリとして共有しています。 ./data/-データに固有のデータとデータへの/myprojectシンボリックリンク/data ./cache/ -キャッシュされたワークスペース(例えば、.RDataファイルを使用して保存されたsave.image()Rまたはに.sddファイルを使用して保存されたdata.dump()S-PLUSで) ./lib/-メインプロジェクトファイル。すべてのプロジェクトで同じです。Rプロジェクトが実行されます経由source("./lib/main.R")今度の実行中にload.R、clean.R、test.R、analyze.R、.report.R。複数の言語が使用されている場合、現在、たとえば、S-PLUSは、Rに加えて、私がスローされますmain.ssc、clean.sscこのディレクトリに、などにも。私はこれが好きかどうかわからない。 ./src/-プロジェクト固有の関数。ファイルごとに1つの関数を収集しました。 ./util/-最終的にパッケージ化される一般的な関数。ファイルごとに1つの関数を収集しました。 ./tests/-テストケースを実行するためのファイル。によって使われた./lib/test.R ./munge/-データをクリーニングするためのファイル。によって使われた./lib/clean.R ./figures/-./lib/report.R最終レポートで使用される表と図の出力 ./report/ - .texファイルへのファイルやシンボリックリンクで./figures ./presentation/ - .texプレゼンテーション用のファイル(通常はBeamerクラス) ./temp/-一時スクリプトの場所 ./README ./TODO ./.RData-Rプロジェクトワークスペースを格納する ./.Data/-Sプロジェクトワークスペースを格納するため

5
探索的データ分析のためのグラフのコメントの保持
探索的データ分析を行う際に、グラフを印刷したり、コメント/注釈などを書き出すことがよくあります。 人々はより良​​い電子的方法論についての提案を持っていますか?私は特にpython / Rに興味があります。 探索的作業を遅くすることはないが、私が行った洞察を記録するのに役立つ、「迅速な(そして汚い)」何かを探しています。 私が想像できることは、PDFとしてグラフを生成し、コメントを追加することです。 理想的には、これをプログラムで行うオプションが欲しいので、グラフをやり直すと、「自動的に」コメントを追加できるようになります。

5
Bibtexで使用されているような優れた汎用プレーンテキストデータ形式とは何ですか?[閉まっている]
閉まっている。この質問はトピックから外れています。現在、回答を受け付けていません。 この質問を改善してみませんか? 質問を更新することがありますので、話題のクロス検証済みのため。 3年前休業。 環境 私はいくつかの多肢選択問題の質問を書いており、それらを単純なプレーンテキストデータ形式で保存したいと考えています。以前はタブ区切りを使用していましたが、テキストエディターでの編集は少し厄介です。ビブテックスのようなフォーマットを使いたいのですが。 例えば、 @Article{journals/aim/Sloman99, title = "Review of Affective Computing", author = "Aaron Sloman", journal = "AI Magazine", year = "1999", number = "1", volume = "20", url = "http://dblp.uni-trier.de/db/journals/aim/aim20.html#Sloman99", pages = "127--133", } 重要なプロパティは次のようです: データはレコードで構成されています 各レコードには複数の属性と値のペアがあります 各属性と値のペアは新しい行に記録できますが、複数の行にまたがることができます テキストエディターにテキストデータを手動で入力するのは簡単 表形式のデータに変換するためのすぐに利用できるツール たとえば、これはうまくいくかもしれないもののようなものです @ id: 1 question: 1 …
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.