タグ付けされた質問 「references」

特定の主題に関する外部参照(本、論文など)を求める質問。さらに、常により具体的なタグを使用してください。

4
Rの離散時間イベント履歴(生存)モデル
Rに離散時間モデルを適合させようとしていますが、その方法がわかりません。 従属変数を時間監視ごとに1つずつ異なる行に編成し、glm関数をlogitまたはcloglogリンクで使用できることを読みました。この意味で、私は3つの列があります:ID、Event(各time-obsで1または0)およびTime Elapsed(観測の開始以降)、および他の共変量。 モデルに合うようにコードを書くにはどうすればよいですか?従属変数はどれですか?Event従属変数として使用できTime Elapsed、共変量に含めることができると思います。しかし、どうなりIDますか?必要ですか? ありがとう。
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

2
時系列分析の履歴に役立つリソースは何ですか?
私はstats.stackexchangeでこの質問の回答を確認しました。統計の履歴を提供する優れたリソースは何ですか? 確かに、スティグラーの本「Statistics on the Table」はすばらしいように見え、私はそれを読むのを楽しみにしています。しかし、私は現代のARIMAモデルの開発にもっと興味があります。 第二次世界大戦中の大砲のランダムな不正確さを予測しようとすることで多くの進歩が刺激されたと聞いたのを覚えていると思います。また、もちろん、ミレニアムの後半の天文学者は、天体の動きを理解するために、ある種の時系列をある程度使用していました。しかし、時系列の大砲の適用についてどこで聞いたのか思い出せず、物理学のバックグラウンドがあり、天文学者がどのような統計的手法を使用していたのか本当にわかりません。 ですから、時系列手法の開発に最も関連した歴史的影響は何だと思いますか。たとえば、それらは主に金融、防衛、地質学/地球物理学、またはこれらすべての組み合わせによって刺激されたのでしょうか?ARIMAの歴史に関する有益な本やウェブサイトはありますか?


4
統計への理論的アプローチについての良い本
私が10年前に学部生として理論統計学のコースを受講したとき、私たちはDudewiczとMishraによるModern Mathematical Statisticsを使用しました。私は今この本をもう一度参照していることに気づき、コード例のいくつかはIBM 370のアセンブリに含まれていることを思い出します。 最近のヴィンテージの高品質の本は何ですか?
10 references 

2
iidガウシアンの最大値について最も強力な結果は何ですか?実際に最も使用されていますか?
与えられたバツ1、… 、Xん、... 〜N(0 、1 )X1,…,Xn,…∼N(0,1)X_1, \ldots, X_n, \ldots \sim \mathscr{N}(0,1) IID、ランダムな変数を考慮 Zん:= 最大1つの≤ I ≤ Nバツ私。Zn:=max1≤i≤nXi. Z_n := \max_{1 \le i \le n} X_i\,. 質問:これらの確率変数について最も「重要な」結果は何ですか? 「重要性」を明確にするために、論理的帰結として他の最も多くの結果を持っている結果はどれですか?実際に最も頻繁に使用される結果はどれですか? より具体的には、ZんZnZ_nが「基本的には同じ」であることは、(理論上の)統計学者の間の民間伝承の知識のようです2 ログん−−−−−√2log⁡n\sqrt{2 \log n}、少なくとも漸近的に。(この関連質問を参照してください。) ただし、このタイプには多くの関連する結果があり、ほとんどが同等ではなく、相互に示唆しているわけでもないようです。例えば∗、∗∗^* Zん2 ログん−−−−−√→A 。s 。1、(1)(1)Zn2log⁡n→a.s.1, \frac{Z_n}{\sqrt{2 \log n}} \overset{a.s.}{\to} 1 \,, \tag{1} 他に何もない場合は、対応する確率と分布の結果も意味します。 ただし、一見関連のある結果(この他の質問を参照)も示唆していません。 リムn → ∞E Zん2 ログん−−−−−√= 1、(2)(2)limn→∞EZn2log⁡n=1, …

1
ええと、 興味深い反例については、たとえばhttps://en.wikipedia.org/wiki/Subindependenceを参照できません。しかし、本当の問題は、独立が続くように条件を強化する方法はありますか?たとえば、関数g 1、… 、g nのセットがあるため、E g i(X )g j(Y )= E g i(X )E g j(Y )の場合、すべてのi 、jg1,…,gng1,…,gng_1, \dotsc, g_nEgi(X)gj(Y)=Egi(X)Egj(Y)E⁡gi(X)gj(Y)=E⁡gi(X)E⁡gj(Y)\E g_i(X) g_j(Y) =\E g_i(X) \E g_j(Y)i,ji,ji,jその後、独立が続きますか?そして、そのような一連の関数は無限大である必要がありますか? そして、さらに、この質問を扱う良い参考文献はありますか?


6
確率論、測度論、そして最後に機械学習について学びたいです。どこから始めますか?[閉まっている]
休業。この質問には、より焦点を当てる必要があります。現在、回答を受け付けていません。 この質問を改善してみませんか?質問を更新して、この投稿を編集するだけで1つの問題に焦点を当てます。 3年前休業。 確率論、測度論、そして最後に機械学習について学びたいです。私の最終的な目標は、ソフトウェアで機械学習を使用することです。 私は大学で微積分と非常に基本的な確率を勉強しましたが、それだけです。これらの科目について学ぶために使用できるオンラインコースや書籍を知っていますか。私はウェブ上で多くのリソースを見つけましたが、それらはすべて専門家の読者を対象にしているようです。時間がかかることはわかっていますが、最初から学びたい場合はどこから始めればよいですか。

1
ARIMAとLSTMを使用した時系列予測
私が扱っている問題は、時系列値を予測することです。一度に1つの時系列を見ていて、たとえば入力データの15%に基づいて、将来の値を予測したいと思います。これまでのところ、2つのモデルに出会いました。 LSTM(長期短期記憶;再帰型ニューラルネットワークのクラス) 有馬 私は両方を試し、それらに関するいくつかの記事を読みました。現在、私はこの2つを比較する方法について理解を深めようとしています。これまでに見つけたもの: 大量のデータを処理し、十分なトレーニングデータが利用可能な場合、LSTMは適切に機能しますが、ARIMAは小さなデータセットに適しています(これは正しいですか?) ARIMAでは(p,q,d)データに基づいて計算する必要がある一連のパラメーターが必要ですが、LSTMではそのようなパラメーターを設定する必要はありません。ただし、LSTMを調整する必要があるいくつかのハイパーパラメーターがあります。 上記の特性以外に、最良のモデルを選択するのに役立つポイントや事実は見つかりませんでした。誰かが記事、論文、またはその他のものを見つけるのを手伝ってくれる人がいてくれたら本当にありがたいです(これまでのところ運が悪く、あちこちにいくつかの一般的な意見だけがあり、実験に基づくものはありません)。 元々はストリーミングデータを扱っていることを述べなければなりませんが、今のところ、最大サイズが20kデータポイントの50個のデータセットを含むNABデータセットを使用しています。

1
高度な実験に関する優れた最新の本/リソースは何ですか?
私は、実験計画と統計分析のより困難なケースのいくつかをカバーするリソース(1冊である必要はありません)を探しています。カバーしたいケースのいくつか: 1.ランダム化の単位が分析の単位と異なる場合 例:Mの売り手とNの買い手でeコマースプラットフォームを実行しています。売り手レベルの扱いを紹介したいが、買い手が購入する確率に関心があります。一般的なバイヤーは、セッション中に複数の店舗を訪問します。 2.結果変数が大きく歪んでいる 例:コールセンターを運営していて、エージェントに連絡する前に顧客IDを入力するように顧客に要求したいと思います。通話の平均時間を減らしたいと思います。通話の分配は非常にゆがんでいます。 3.治療グループの分布が異なる 例:コールセンターは同じですが、私の扱いは短い通話の場合ははるかに良く機能し、長い通話の場合はやや悪くなります。これを分析する正しい方法は何ですか? 4.治療自体により、グループのバランスが崩れる 例:1.と同じeコマースプラットフォームですが、さまざまなランキングメカニズムを試してみたいと思います。売り手は、より有利なランキングポジションに割り当てられることにより、価格を上げたり、在庫を増やしたり、マーケティング戦略を変更したりすることができます。

1
代数的分類子、詳細情報?
代数的分類器:高速交差検証、オンライントレーニング、並列トレーニングへの一般的なアプローチを読み、派生したアルゴリズムのパフォーマンスに驚かされました。ただし、Naive Bayes(およびGBM)を超えると、フレームワークに適応したアルゴリズムは多くないようです。 異なる分類子を扱った他の論文はありますか?(SVM、ランダムフォレスト)

1
実験計画の大学院コースは何をカバーすべきですか?
農学と生態学の上級の大学院生のために実験計画のコースを提案するように頼まれました。私はそのようなコースを受講したことがなく、このコースの名前が「Beyond one-way ANOVA」であることがわかり、農業分野の実験に関する統計の上級大学院コースで学んだ教材(例: RCBD、ラテン方陣、コントラスト、反復測定、および共変量)。たぶん、「実験結果の分析」ではなく「実験デザイン」という名前に戸惑っています。 私はそのようなコースに何が含まれるべきかについていくつかのアイデアを持っています、そしてこれが学生のニーズを満たす統計カリキュラムにどのように統合されるかについてのフィードバックをいただければ幸いです。 たとえば、線形および2次関数で回帰モデルを比較するように教えるときに、連続変数の分類を強制するANOVAで線形および2次の対比を使用するように生徒に教えることは想像できません。2番目のケースでは、実験的に定義された離散値ではない要因を処理する方法も学習します。どちらかと言えば、2つのアプローチを比較します。 「実験デザイン」のコースを教えるとしたら、適用する統計モデルに依存せず、他の問題にさらに広く適用される基本的な概念を強調したいと思います。これにより、学生は最新の統計的アプローチをより柔軟に使用できるようになります。 既存のコースでカバーされていないように見える関連概念の一部は次のとおりです。 階層モデルと混合モデル(ANOVAと親族を1つの例として理解しています) モデル比較(コントラストを置き換えるためなど) 「因子」としてブロックの代わりに空間モデルを使用する レプリケーション、ランダム化、およびIID 仮説検定、p-ハッキング、パターン認識の違い。 シミュレーションによる電力分析(たとえば、シミュレーションされたデータセットからのパラメーターの回復)、 事前登録、 発表された研究および科学的原理からの事前知識の使用。 現在そのようなアプローチを取っているコースはありますか?そのような焦点を当てたテキスト本はありますか?

1
不適切な線形モデルはいつロバストに美しくなりますか?
質問: 不適切な線形モデルは実際に使用されていますか、それとも科学雑誌で時々説明されているある種の好奇心ですか?もしそうなら、それらはどの領域で使用されていますか? そのようなモデルの他の例はありますか? 最後に、そのようなモデルのOLSから取得した標準誤差、値、R 2などは正しいのでしょうか、それとも何らかの方法で修正する必要がありますか?pppR2R2R^2 背景:不適切な線形モデルは、文献に随時説明されています。一般に、そのようなモデルは次のように説明できます。 y=a+b∑iwixi+εy=a+b∑iwixi+ε y = a + b \sum_i w_i x_i + \varepsilon 回帰との違いは、はモデルで推定された係数ではなく、wjwjw_j 各変数等しい(単位加重回帰)、wi=1wi=1w_i = 1 相関に基づく(Dana and Dawes、2004)、wi=ρ(y,xi)wi=ρ(y,xi)w_i = \rho(y, x_i) ランダムに選択された(Dawes、1979)、 −1−1-1yyy111yyy ZZZ y=a+bv+εy=a+bv+ε y = a + b v + \varepsilon v=∑wixv=∑wixv = \sum w_i x 参考文献: Dawes、Robyn M.(1979)。意思決定における不適切な線形モデルの堅牢な美しさ。アメリカの心理学者、 34、571-582。 Graefe、A.(2015)。均等に重み付けされた予測子を使用して予測を改善します。Journal of …

2
混合効果モデルの「分散成分パラメーター」とは何ですか?
混合効果モデルに関するベイツの本の 12ページで、彼はモデルを次のように説明しています。 スクリーンショットの終わり近くで、彼は 相対共分散係数 に応じて、分散成分パラメータ、θΛθΛθ\Lambda_{\theta}θθ\theta 正確に関係を説明せずに。我々が与えられていると言うどのように我々は導き出すだろう、Λのθ、それから?θθ\thetaΛθΛθ\Lambda_{\theta} 関連するノートでは、これはベイツの説明が少し詳細に欠けていると私が思う多くの例の1つです。パラメータ推定の最適化プロセスとテスト統計の分布の証明を実際に通過するより良いテキストはありますか?

2
SVMを使用する場合、なぜ機能を拡張する必要があるのですか?
scikit-learn のStandardScalerオブジェクトのドキュメントによると: たとえば、学習アルゴリズムの目的関数で使用される多くの要素(サポートベクターマシンのRBFカーネル、線形モデルのL1およびL2正則化器など)は、すべての特徴が0を中心とし、同じ順序で分散があると仮定します。ある特徴の分散が他のものよりも桁違いに大きい場合、それは目的関数を支配し、推定量が期待どおりに他の特徴から正しく学習できなくなる可能性があります。 分類する前に機能をスケーリングする必要があります。なぜこれを行うべきなのかを示す簡単な方法はありますか?科学論文への参照はさらに良いでしょう。私はすでに見つかったものを他の多くのは、おそらくあります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.