統計とビッグデータ

2

自己相関ジオリファレンスされた航空データをモデル化する際に、同時自己回帰モデルよりも条件付き自己回帰モデルを使用したい場合はいつですか？

23 modeling spatial

2

1986年と1988年の2つの論文で、コナーとコラジクは資産の収益をモデル化するアプローチを提案しました。これらの時系列は、通常、期間の観測よりも多くの資産を持っているため、資産収益の断面共分散に対してPCAを実行することを提案しました。彼らは、このメソッドを漸近主成分分析（APCA、PCAの漸近特性を聴衆がすぐに考えるため、かなり混乱します）と呼びます。方程式を作成しましたが、2つのアプローチは数値的には同等に見えます。収束はではなくで証明されるため、漸近性はもちろん異なります。私の質問は、APCAを使用してPCAと比較した人はいますか？具体的な違いはありますか？もしそうなら、どれ？T → ∞N→ ∞N→∞N \rightarrow \inftyT→ ∞T→∞T \rightarrow \infty

23 pca econometrics

2

統計フォレンジック：ベンフォード以降

サードパーティが作成した科学作品の詐欺、異常、不正行為などを検出するための広範な方法はありますか？（最近のMarc Hauser事件でこれを尋ねる動機がありました。）通常、選挙と会計詐欺のために、ベンフォードの法則のいくつかの変種が引用されています。ベンフォードの法則では、数値がほぼ対数均一であることが求められているため、これがたとえばマークハウザーの場合にどのように適用できるかはわかりません。具体例として、多数の統計的検定のp値を引用した論文があると仮定します。これらをログの均一性に変換してから、ベンフォードの法則を適用できますか？このアプローチにはあらゆる種類の問題があるようです（たとえば、いくつかの帰無仮説は合法的に偽である可能性があり、統計コードはほぼ正しいだけのp値を与える可能性があり、テストは均一なp値のみを与える可能性がありますヌルの下で漸近的になど）

23 meta-analysis fraud

5

予測ツリー（CVなど）のパフォーマンスが向上した分類ツリーの代替手段

私はより良い予測力をもたらすかもしれない分類木に代わるものを探しています。私が扱っているデータには、説明変数と説明変数の両方の要因があります。このコンテキストでランダムフォレストとニューラルネットワークに出くわしたことを覚えていますが、以前に試したことはありませんが、このようなモデリングタスクの別の良い候補はありますか（明らかにRで）？

23 r machine-learning classification cart

2

それらの間の相関に基づくクラスタリング変数

質問：大きな相関行列があります。個々の相関をクラスタリングする代わりに、相互の相関に基づいて変数をクラスタリングします。つまり、変数Aと変数Bが変数C〜Zと同様の相関を持っている場合、AとBは同じクラスターの一部である必要があります。これの良い実例は、さまざまな資産クラスです。資産内クラス相関は、資産間クラス相関よりも高くなっています。また、変数AとBの相関が0に近い場合、それらは多かれ少なかれ独立して作用するなど、変数間の厳密な関係の観点から変数をクラスタリングすることも検討しています。根本的な条件が突然変化し、強い相関（正または負）が発生した場合、これら2つの変数は同じクラスターに属していると考えることができます。したがって、正の相関関係を探すのではなく、関係と関係なしを探します。類推は、正と負に帯電した粒子のクラスターになり得ると思います。電荷が0になると、粒子はクラスターから離れます。ただし、正電荷と負電荷の両方が粒子を魅力的なクラスターに引き付けます。これのいくつかがあまり明確でない場合、私は謝罪します。特定の詳細を明確にします。

23 correlation clustering correlation-matrix

9

カウント<20のカウントデータの時系列

私は最近結核クリニックで働き始めました。現在治療中の結核症例の数、投与された検査の数などについて定期的に話し合います。何かが異常であるかどうかを推測するだけではないように、これらのカウントのモデリングを開始したいと思います。残念ながら、私は時系列のトレーニングをほとんど受けていませんでした。私の露出のほとんどは、非常に連続的なデータ（株価）または非常に多くのカウント（インフルエンザ）のモデルを扱ってきました。ただし、月ごとに0〜18のケース（平均6.68、中央値7、変数12.3）を扱い、次のように配布されます。 [時間の霧に負けたイメージ] [グルーに食われるイメージ] このようなモデルに対処する記事をいくつか見つけましたが、これらのアプローチを実装するために使用できるアプローチとRパッケージの両方について、あなたからの提案を聞いていただければ幸いです。編集： mbqの答えは、私がここで何を求めているかについて、より慎重に考えることを余儀なくさせました。私は毎月のカウントに夢中になりすぎて、質問の実際の焦点を失いました。私が知りたいのは、たとえば2008年以降の（かなり目に見える）減少は、症例の総数の減少傾向を反映していますか？2001年から2007年までの毎月の症例数は安定したプロセスを反映しているように思えます。多少の季節性があるかもしれませんが、全体的に安定しています。2008年から現在まで、そのプロセスは変化しているように見えます。ランダム性と季節性により毎月のカウントが上下する可能性がある場合でも、ケースの総数は減少しています。プロセスに実際の変更があるかどうかをテストするにはどうすればよいですか？そして、衰退を特定できれば、

23 r time-series poisson-distribution count-data epidemiology

5

この「単純な」シャッフルアルゴリズムの何が問題になっていますか？

これは、配列をランダムにシャッフルすることに関する Stackoverflowの質問のフォローアップです。「単純な」アドホックな実装に依存するのではなく、配列をシャッフルするために使用する確立されたアルゴリズム（Knuth-Fisher-Yates Shuffleなど）があります。私は今、私の素朴なアルゴリズムが壊れていることを証明（または反証）することに興味があります（すべての可能な順列を等しい確率で生成するわけではありません）。アルゴリズムは次のとおりです。ループを数回繰り返し（配列の長さで行う必要があります）、繰り返しごとに2つのランダム配列インデックスを取得し、2つの要素を交換します。明らかに、これにはKFY（2倍）よりも多くの乱数が必要ですが、それ以外は適切に動作しますか？そして、適切な反復回数は何ですか（「配列の長さ」で十分ですか）。

23 combinatorics randomness

1

アテンションメカニズムとは何ですか？

ここ数年、さまざまなディープラーニングの論文で注意メカニズムが使用されてきました。Open AIの研究責任者であるIlya Sutskever氏は、熱心に称賛しています：https ://towardsdatascience.com/the-fall-of-rnn-lstm-2d1594c74ce0 パデュー大学のEugenio Culurcielloは、純粋に注意ベースのニューラルネットワークを優先して、RNNとLSTMを放棄すべきだと主張しています。 https://towardsdatascience.com/the-fall-of-rnn-lstm-2d1594c74ce0 これは誇張のように見えますが、純粋に注意に基づくモデルがシーケンスモデリングタスクで非常にうまく機能していることは否定できません。ただし、注意ベースのモデルとは正確には何ですか？そのようなモデルの明確な説明をまだ見つけていません。履歴値を与えられた多変量時系列の新しい値を予測したいとします。LSTMセルを持つRNNでそれを行う方法は非常に明確です。アテンションベースのモデルで同じことをどのように行うのでしょうか？

23 time-series deep-learning lstm rnn attention

1

xgboostアルゴリズムのmin_child_weightの説明

xgboostのmin_child_weightパラメーターの定義は次のとおりです。子に必要なインスタンスの重み（ヘシアン）の最小合計。ツリーパーティションのステップの結果、インスタンスの重みの合計がmin_child_weightより小さいリーフノードが生成される場合、構築プロセスはさらにパーティションを放棄します。線形回帰モードでは、これは単に各ノードに必要なインスタンスの最小数に対応します。アルゴリズムが大きくなるほど、保守的になります。元の論文（式8と式9の直後のもの）、この質問、およびGoogle検索の最初の数ページに表示されるxgboostで行うほとんどのことを含め、xgboostでかなり多くのことを読みました。;）基本的に、ヘシアンの合計に制約を課している理由について、私はまだ満足していませんか？元の論文からの私の唯一の考えは、それが各インスタンスの「重み」としてを持つ重み付き分位点スケッチセクション（および式3の重み付き2乗損失の再定式化）にているということです。hihih_i さらなる質問は、それが単に線形回帰モードのインスタンスの数である理由に関するものですか？これは二乗和方程式の二次導関数に関係していると思いますか？

23 machine-learning xgboost hessian

1

ハミルトニアンモンテカルロ対シーケンシャルモンテカルロ

これら2つのMCMCスキームのさまざまなアプリケーションドメインだけでなく、相対的なメリットと欠点についても把握しようとしています。いつ、なぜ使用しますか？一方が失敗し、もう一方が失敗しない場合（例：HMCは適用可能だがSMCは適用不可、またはその逆）一つは、非常に単純に、許可された可能性（すなわち、一般的に、1である他と比較して1つの方法に有用性の尺度を入れて、より良いですか）？現在、HMCに関するBetancourtの優れた論文を読んでいます。

23 mcmc random-walk particle-filter probabilistic-programming hmc

2

なぜ2つの異なるロジスティック損失定式化/表記法があるのですか？

2種類のロジスティック損失の公式を見てきました。それらが同一であることを簡単に示すことができます。唯一の違いは、ラベル定義です。yyy 定式化/表記法1、：y∈{0,+1}y∈{0,+1}y \in \{0, +1\} L(y,βTx)=−ylog(p)−(1−y)log(1−p)L(y,βTx)=−ylog⁡(p)−(1−y)log⁡(1−p) L(y,\beta^Tx)=-y\log(p)-(1-y)\log(1-p) ここで、、ここでロジスティック関数は実数を0,1間隔にマッピングします。p=11+exp(−βTx)p=11+exp⁡(−βTx)p=\frac 1 {1+\exp(-\beta^Tx)}βTxβTx\beta^T x 定式化/表記法2、：y∈{−1,+1}y∈{−1,+1}y \in \{-1, +1\} L(y,βTx)=log(1+exp(−y⋅βTx))L(y,βTx)=log⁡(1+exp⁡(−y⋅βTx)) L(y,\beta^Tx)=\log(1+\exp{(-y\cdot \beta^Tx})) 表記法を選択することは、言語を選択するようなものであり、どちらを使用するかには賛否両論があります。これら2つの表記法の長所と短所は何ですか？この質問に答えようとする私の試みは、統計コミュニティが最初の表記を好み、コンピュータサイエンスコミュニティが2番目の表記を好むように見えることです。ロジスティック関数は実数を0.1間隔に変換するため、最初の表記は「確率」という用語で説明できます。βTxβTx\beta^Tx 2番目の表記はより簡潔で、ヒンジ損失または0-1損失と比較するのがより簡単です。私は正しいですか？他の洞察はありますか？

23 logistic generalized-linear-model notation loss-functions

3

高い役に立たないでしょうか？

この質問は、相互検証で回答できるため、Stack Overflowから移行されました。 3年前に移行されました。統計では、線形回帰を開始しています。一般に、が高いほど良いことはわかっていますが、が高いと役に立たないシナリオはありますか？R2R2R^2R2R2R^2

23 regression r-squared

2

最高密度領域（HDR）とは何ですか？

で統計的推論、問題9.6b、「最高密度領域（HDR）」が言及されています。しかし、私は本でこの用語の定義を見つけませんでした。 1つの類似した用語は、最高後方密度（HPD）です。しかし、9.6bは事前分布については何も言及していないため、このコンテキストには適合しません。提案された解決策では、「明らかにc （y）c（y）c(y)はHDRである」としか書かれていません。または、HDRはpdfのモードを含む領域ですか？最高密度領域（HDR）とは何ですか？

23 confidence-interval estimation definition credible-interval highest-density-region

3

座標降下と勾配降下

2つのアルゴリズムCoordinate DescentとGradient Descentの異なるユースケースは何だろうと思っていました。座標降下には、滑らかでない関数に問題があることを知っていますが、SVMやLASSOなどの一般的なアルゴリズムで使用されています。しかし、勾配降下法は、特にANNの復活や他の多くの機械学習タスクで、より広く使用されていると思います。私の質問は次のとおりです。どのタイプの問題が一方に適合し、他方には適合しないか、その点でSVMおよびLASSOの座標降下フィッティングを作成しますが、ANNの勾配降下フィッティングを作成します。最適化アルゴリズムを選択するときに、2つのうちどちらを選択する必要がありますか？

23 optimization gradient-descent

3

時系列でのAIC対クロス検証：小さなサンプルの場合

時系列設定でのモデル選択に興味があります。具体的には、ラグオーダーが異なるARMAモデルのプールからARMAモデルを選択するとします。最終的な意図は予測です。モデルの選択は次の方法で実行できます相互検証、情報基準の使用（AIC、BIC）、他の方法の中で。 Rob J. Hyndmanは、時系列の相互検証を行う方法を提供します。比較的小さなサンプルの場合、クロス検証で使用されるサンプルサイズは、元のサンプルサイズと質的に異なる場合があります。たとえば、元のサンプルサイズが200の観測値である場合、最初の101の観測値を取得し、ウィンドウを102、103、...、200の観測値に拡張して100の交差検証結果を取得することにより、交差検証を開始することを考えることができます。明らかに、200回の観測に対して合理的に控えめなモデルは、100回の観測に対して大きすぎる可能性があり、そのため検証エラーは大きくなります。したがって、相互検証は、あまりにもpar約なモデルを体系的に優先する可能性があります。これは、サンプルサイズの不一致による望ましくない効果です。相互検証の代わりに、モデル選択に情報基準を使用します。予測が重要なので、AICを使用します。AICは時系列モデルのサンプル外のワンステップ予測MSEを最小化することに漸近的に相当しますが（Rob J. Hyndmanによるこの投稿によると）、サンプルが私が気にするサイズはそれほど大きくありません... 質問：小規模/中規模サンプルの時系列相互検証よりもAICを選択する必要がありますか？関連するいくつかの質問を見つけることができるここでは、こことここ。

23 time-series forecasting cross-validation model-selection aic