タグ付けされた質問 「references」

特定の主題に関する外部参照(本、論文など)を求める質問。さらに、常により具体的なタグを使用してください。



1
ロジスティック回帰モデルを最適化する場合、データが増えると、処理が*速く*なります。なぜか?
私は、さまざまなバッチ最適化アルゴリズム(共役勾配法、ニュートンラプソン、およびさまざまな準ニュートン法)を使用したロジスティック回帰をいじっています。気づいたことの1つは、モデルにデータを追加すると、モデルのトレーニングにかかる​​時間が大幅に短縮される場合があることです。各反復では、より多くのデータポイントを調べる必要がありますが、データを追加すると、必要な反復の総数が大幅に減少する可能性があります。もちろん、これは特定のデータセットでのみ発生し、ある時点でデータを追加すると、最適化の速度が低下します。 これはよく研究された現象ですか?これが発生する理由/時期に関する詳細情報はどこで入手できますか?

2
膨大なデータセットが与えられた場合、なぜ統計モデルは過剰適合しますか?
現在のプロジェクトでは、特定のグループの行動を予測するモデルを構築する必要があるかもしれません。トレーニングデータセットには6つの変数のみが含まれます(idは識別目的のみです)。 id, age, income, gender, job category, monthly spend その中で monthly spend応答変数です。ただし、トレーニングデータセットには約300万行が含まれid, age, income, gender, job category、予測されるデータセット(応答変数は含まれるが、含まれない)には100万行が含まれます。私の質問は、統計モデルにあまりにも多くの行(この場合は300万行)を投げた場合に潜在的な問題はありますか?計算コストが懸念事項の1つであることを理解していますが、他に懸念事項はありますか?データセットのサイズの問題を完全に説明している本/紙はありますか?
8 modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 

2
統計の代数幾何学
統計と機械学習における代数幾何学の使用について聞いたことがあります。このトピックについて少し学びたいと思いました。私は代数幾何学についてほとんど何も知りませんが、私には数学のバックグラウンドがあり、基本的な群論、環場、およびいくつかの可換代数について知っています。私の質問は: Stats / MLのアプリケーションに関連する、私が学ぶべきアルジェブリアック幾何学の概念とは何ですか(代数幾何学のコースと本で通常教えられているものの一部のみが役立つと思います)。 私のバックグラウンドを持つ人にいくつかの本/紹介論文を推薦できますか?AGの標準的な教科書ではなく、アプリケーションで使用される概念に焦点を当てたものです。

3
演習を伴う数学的多変量統計の推奨事項
私自身を強化するために、多変量解析と推論に関する大学院レベルの数学的に厳密な教科書が必要です。Elements of Statistical Learningを読んで問題を解決してきましたが、他の焦点を絞った本が必要です。有名な分布(ウィシャート、ウィルクスラムダなど)、仮説検定、推定に関する理論(点、間隔)、およびその他の最新の資料などのトピックを歓迎します。私はこの質問をチェックしましたが、OPは彼の心理分析に役立つ何かを探していました。現在、私は多変量統計分析入門を持っているので、この本とその演習についてのコメントも聞きたいです。ありがとうございました。

1
自己学習のためのET Jaynes確率論の解決策?
私は、ETJayneの確率論、つまり科学の論理について自己学習しています。演習のソリューションを提供するWebページを知っている人がいることを確認したかったのですが。私の周りにこの本で経験した教師や誰もいないので、それらに対する私の解決策が正しいことを確認する必要があります。

5
2Dデータの平滑化
データは、さまざまな時間に記録された光学スペクトル(周波数に対する光強度)で構成されています。ポイントは、x(時間)、y(周波数)の通常のグリッドで取得されました。特定の周波数での時間発展を分析するために(急上昇、続いて指数関数的減衰)、データに存在するノイズの一部を削除したいと思います。このノイズは、固定周波数の場合、ガウス分布のランダムとしてモデル化できます。ただし、一定の時間に、データは異なる種類のノイズを示し、大きなスプリアススパイクと高速振動(+ランダムガウスノイズ)を伴います。2つの軸に沿ったノイズは物理的な起源が異なるため、相関関係がないはずです。 データを平滑化するための合理的な手順は何ですか?目標は、データを歪めることではなく、「明白な」ノイズの多いアーティファクトを削除することです。(そして、過度のスムージングは​​調整/定量化できますか?)1つの方向に沿って他の方向から独立してスムージングすることが意味があるのか​​、それとも2Dでスムージングする方が良いのかわかりません。 2Dカーネル密度推定、2D多項式/スプライン補間などについて読みましたが、専門用語や基礎となる統計理論に精通していません。 私はRを使用していますが、関連しているように見える多くのパッケージ(MASS(kde2)、フィールド(smooth.2d)など)が表示されますが、どの手法を適用するかについてのアドバイスはここでは見つかりません。 あなたが私を指摘する特定の参照があれば、私はもっと学ぶことができて嬉しいです(MASSは良い本だと思いますが、おそらく非統計家には技術的すぎるかもしれません)。 編集:データを表すダミーのスペクトログラムは、時間と波長の次元に沿ったスライスです。 ここでの実際的な目標は、各波長(またはノイズが多すぎる場合はビン)の指数関数的減衰率を時間で評価することです。

3
SPSSを使用した2x3混合設計ANOVAの事後テスト?
実験中に3回評価された10人の参加者の2つのグループがあります。グループ間および3つの評価全体の違いをテストするために、group(コントロール、実験)、time(最初、2、3)、およびを使用して2x3混合設計ANOVAを実行しましたgroup x time。両方timeとgroup有意な相互作用があったほか、重大な結果group x time。 グループメンバーシップに関しても、3回の評価の違いをさらにチェックする方法をよく知りません。実際、最初は、ANOVAのオプションで、ボンフェローニの補正を使用してすべての主要な効果を比較することだけを指定しました。しかし、この方法で、グループを区別せずに、サンプル全体の時間の違いをこのように比較したことに気付きましたね。 したがって、可能な解決策を見つけるためにインターネットでたくさん検索しましたが、結果はほとんどありませんでした。私と同じようなケースは2つしか見つかりませんでしたが、解決策は逆です! 記事では、混合設計の後、著者らは被験者ごとに1つずつ、2回の反復測定ANOVAを事後的に実行しました。このようにして、2つのグループは修正なしで個別に分析されます。 インターネットのガイドでは、混合ANOVAの実行中に、SPSS構文のCOMPARE(time) ADJ(BONFERRONI)直後にを手動で追加すると述べています/EMMEANS=TABLES(newgroup*time)。このように、3つの時間はグループごとに個別に比較されます。ボンフェローニ補正を使用すると、私は正しいのでしょうか。 どう思いますか?どちらが正しい方法でしょうか?
8 anova  mixed-model  spss  post-hoc  bonferroni  time-series  unevenly-spaced-time-series  classification  normal-distribution  discriminant-analysis  probability  normal-distribution  estimation  sampling  classification  svm  terminology  pivot-table  random-generation  self-study  estimation  sampling  estimation  categorical-data  maximum-likelihood  excel  least-squares  instrumental-variables  2sls  total-least-squares  correlation  self-study  variance  unbiased-estimator  bayesian  mixed-model  ancova  statistical-significance  references  p-value  fishers-exact  probability  monte-carlo  particle-filter  logistic  predictive-models  modeling  interaction  survey  hypothesis-testing  multiple-regression  regression  variance  data-transformation  residuals  minitab  r  time-series  forecasting  arima  garch  correlation  estimation  least-squares  bias  pca  predictive-models  genetics  sem  partial-least-squares  nonparametric  ordinal-data  wilcoxon-mann-whitney  bonferroni  wilcoxon-signed-rank  traminer  regression  econometrics  standard-error  robust  misspecification  r  probability  logistic  generalized-linear-model  r-squared  effect-size  gee  ordered-logit  bayesian  classification  svm  kernel-trick  nonlinear  bayesian  pca  dimensionality-reduction  eigenvalues  probability  distributions  mathematical-statistics  estimation  nonparametric  kernel-smoothing  expected-value  filter  mse  time-series  correlation  data-visualization  clustering  estimation  predictive-models  recommender-system  sparse  hypothesis-testing  data-transformation  parametric  probability  summations  correlation  pearson-r  spearman-rho  bayesian  replicability  dimensionality-reduction  discriminant-analysis  outliers  weka 

6
入門統計資料のレビューのためのオンライン参照
誰もが、大学レベルの統計をブラッシュアップするための優れたレビュー参照(必ずしも無料のオンラインPDF)を提案できますか? 私は、理想的には以下をカバーする統計の最初のコースを通常カバーする何かを見ています。 絶対基礎(平均、分散など) 大きなサンプル 信頼性テスト 仮説検定(通常、t、chi、F) 線形回帰/相関 本の参照は必要ありません。重要な側面を説明する簡単なレビューのようなものが必要です。自由形式のすべては何でもします:プレゼンテーション、講義ノートまたはその他。簡潔にする必要があります。深さをいただければ幸いです。

3
異質性/異分散性の説明に関するアドバイス
私の部門の生物学者に異質性/異分散性を説明する方法についてのヘルプ、アドバイス、またはヒントを探しています。特に、なぜそれを探し、それが存在する場合はそれに対処することが重要である理由を説明したいのですが、私は次の質問についての意見を探していました。 異質性は変量効果推定の信頼性に影響を与えますか?確かにあると思いますが、論文が見つかりませんでした。 異質性はどれほど深刻な問題ですか?私はこれについて矛盾する見解を発見しましたが、モデルの標準エラーなどは信頼できないと言う人もいますが、異質性が深刻な場合にのみ問題であることも読みました。重症度はどれくらいですか? 異質性のモデリングに関するアドバイス。現在、私は主にRのnlmeパッケージと分散共変量の使用に焦点を当てています。これはかなり簡単で、ここでほとんどの人がRを使用しているため、スクリプトを提供すると便利です。私はMCMCglmmパッケージも使用していますが、他の提案、特に通常でないデータについては歓迎します。 その他の提案は大歓迎です。

9
財務データの統計分析について学ぶためのリソース
私は財務データの統計分析が大きなトピックであることを認識していますが、それがまさに私が財務分析の世界に侵入しようとするときに私の質問をする必要がある理由です。 この時点で私はこの件についてほとんど何も知らないので、私のグーグル検索の結果は圧倒的です。試合の多くは、専門的なツールやRプログラミング言語の学習を提唱しています。必要なときにこれらを学びますが、私は最初に、特に財務データのための統計分析の最新の方法を説明する本、記事、またはその他のリソースに興味があります。私はデータを分析するための非常に多様なさまざまな方法があると思いますので、理想的には、実際に適用できるさまざまな方法の概要を探しています。初心者は理解できるが、過度に単純化されていない実世界の例を利用するものが欲しいです。 財務データの統計分析について学習するための優れたリソースは何ですか?

2
ブートストラップが失敗するタイミングを理解するための推奨資料
ブートストラップが失敗する可能性があることがわかっています。 Bickel and Freedman(1981)のセクション6で、ブートストラップを使用して連続一様分布のパラメーターを推定するためにMLEを評価する場合に失敗することを読みました。 私はエフロンとティブシラニの本のセクション7.4を読みましたが、彼らが指摘した参考文献を見つけることができません。 誰かが私が参照できるもっと簡単にアクセスできるものを私に指摘できますか?ありがとう!


2
疫学のための良い参考書
疫学の良い参考書を探しています。私はロスマンの疫学:序論とポルタの 『疫学の辞書』を持っています。Rothman'sは非常に単純化されており、基礎的な研究の後に明らかではないことを何も欠いているため、大きな失望でした。彼のModern Epidemiologyは良いと聞いていますが、紹介本にがっかりしているので、購入に少し躊躇しています。ポルタはとてもいいと思いましたが、それは辞書であり、私は教科書にもっと興味があります。 私はどんな提案にも感謝します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.