統計とビッグデータ

2

最適化は初めてです。ノルムの右側に上付き文字2と下付き文字2がある方程式を見続けています。たとえば、ここに最小二乗方程式があります分| | Ax−b | |22||Aバツ−b||22 ||Ax-b||^2_2 上付き文字2を理解していると思います：それは標準の値を二乗することを意味します。しかし、下付き文字2とは何ですか？これらの方程式はどのように読むべきですか？

20 regression optimization notation

3

誤差と残差の違いは何ですか？

これらの2つの一般的な用語はしばしば同義語として使用されますが、区別がある場合もあります。実際に違いはありますか、それとも同義語ですか？

20 residuals error terminology

1

アンサンブル学習のk倍交差検証

アンサンブル学習のk倍交差検証のためにデータを分割する方法について混乱しています。分類のためのアンサンブル学習フレームワークがあると仮定します。最初のレイヤーには、svm、決定木などの分類モデルが含まれています。 2番目のレイヤーには、最初のレイヤーからの予測を組み合わせて最終的な予測を行う投票モデルが含まれています。 5つのフォールドクロス検証を使用する場合、5つのフォールドを次のように使用することを考えています。最初のレイヤーをトレーニングするための3つ折り 2番目のレイヤーをトレーニングするための1つ折りテスト用に1つ折りこれは正しい方法ですか？第1層と第2層のトレーニングデータは独立している必要がありますか？アンサンブル学習フレームワークが堅牢になるように、それらは独立しているべきだと考えています。私の友人は、第1層と第2層のトレーニングデータは同じであるべきだと提案しています。 1層目と2層目をトレーニングするための4つの折り目テスト用に1つ折りこのようにして、アンサンブル学習フレームワークのより正確なエラーが発生し、単一のトレーニングデータに基づいているため、フレームワークの反復的な調整がより正確になります。さらに、第2層は、独立したトレーニングデータに偏っている場合があります。アドバイスは大歓迎です

20 classification cross-validation ensemble

3

予想される予測エラー-導出

特に2.11および2.12の導出（条件付け、ポイントワイズ最小へのステップ）について、以下の予想予測誤差（ESL）の導出を理解するのに苦労しています。ポインタまたはリンクは大歓迎です。以下に、ESL pgからの抜粋を報告します。18.最初の2つの式は、順番に式2.11と2.12です。ましょX∈RpX∈RpX \in \mathbb{R}^p表す実数値ランダム入力ベクトル、および関節分布を有する実数値ランダム出力変数、。入力値を与えられたを予測するための関数を探します。この理論では、予測でエラーにペナルティを課すために損失関数必要であり、最も一般的で便利なのは2乗エラー損失です：。これは、を選択する基準につながります。Y∈RY∈RY \in \mathbb{R}Pr(X,Y)Pr(X,Y)\text{Pr}(X,Y)f(X)f(X)f(X)YYYXXXL （Y 、F （X ）） L(Y,f(X))L(Y,f(X))L(Y,f(X))L(Y,f(X))=(Y−f(X))2L(Y,f(X))=(Y−f(X))2L(Y,f(X))=(Y-f(X))^2fff EPE(f)=E(Y−f(X))2=∫[y−f(x)]2Pr(dx,dy)EPE(f)=E(Y−f(X))2=∫[y−f(x)]2Pr(dx,dy) \begin{split} \text{EPE}(f) &= \text{E}(Y - f(X))^2\\ & = \int [y - f(x)]^2 \text{Pr}(dx, dy) \end{split} 予想される（2乗）予測誤差。条件付けることにより、EPEを次のように記述できます。XXX EPE(f)=EXEY|X([Y−f(X)]2|X)EPE(f)=EXEY|X([Y−f(X)]2|X) \text{EPE}(f) = \text{E}_X \text{E}_{Y|X}([Y-f(X)]^2|X) EPEをポイント単位で最小化するだけで十分であることがわかります。 f(x)=argmincEY|X([Y−c]2|X)f(x)=argmincEY|X([Y−c]2|X) f(x) = \text{argmin}_c \text{E}_{Y|X}([Y-c]^2|X) 解決策は f(x)=E(Y|X=x)f(x)=E(Y|X=x) f(x) = \text{E}(Y|X=x) 条件付き期待値、回帰関数とも呼ばれます。

20 regression prediction error

1

遠隔監視：監視あり、半監視、またはその両方？

「遠隔監視」とは、弱くラベル付けされたトレーニングセットが与えられると分類器が学習される学習スキームです（トレーニングデータはヒューリスティック/ルールに基づいて自動的にラベル付けされます）。ラベル付きデータがヒューリスティック/自動ラベル付けされている場合、教師あり学習と半教師あり学習の両方にこのような「遠隔監視」を含めることができると思います。ただし、このページでは、「遠隔監視」は「半監視学習」と定義されます（つまり、「半監視」に限定されます）。私の質問は、「遠隔監視」はもっぱら準監視を指しているのでしょうか？私の意見では、教師あり学習と半教師あり学習の両方に適用できます。信頼できる参照があれば提供してください。

20 machine-learning data-mining dataset references unsupervised-learning

1

分類でトレーニングデータを生成するための層別サンプリングとランダムサンプリングの利点

元のデータセットを分類用のトレーニングとテストセットに分割するときに、ランダムサンプリングではなく層別サンプリングを使用する利点があるかどうかを知りたいと思います。また、層化サンプリングは、ランダムサンプリングよりも分類器により多くのバイアスを導入しますか？データ準備に層化サンプリングを使用したいアプリケーションは、元のデータセットのでトレーニングされたRandom Forests分類器です。分類器の前に、クラスのサイズのバランスをとる合成サンプル生成（SMOTE [1]）のステップもあります。2323\frac{2}{3} [1] Chawla、Nitesh V.、他「SMOTE：合成マイノリティオーバーサンプリングテクニック。」Journal of Artificial Intelligence Research 16（2002）：321-357。

20 classification cross-validation random-forest train stratification

1

xgboostのオーバーフィットに関する議論

私のセットアップは次のとおりです。「適用された予測モデリング」のガイドラインに従っています。したがって、私は相関する特徴をフィルタリングし、次のようになりました：トレーニングセットの4900データポイントとテストセットの1600データポイント。 26個の機能があり、ターゲットは連続変数です。 caretパッケージを使用してモデルをトレーニングするために、5倍の交差検証を適用します。MARSモデルを適用すると、トレーニングセットとテストセットで平均絶対誤差（MAE）が約4になります。ただし、xgboost（ツリーアルゴリズムまたは線形アルゴリズム）を適用すると、トレーニングセットで0.32（！）、テストセットで2.4のようなものが得られます。したがって、テストエラーがトレーニングエラーの8倍である場合、次のように言います。トレーニングデータをオーバーフィットしました。それでも、テストでは小さなエラーが発生します。 xgboostで次のパラメーターを使用します。 nrounds = 1000そしてeta = 0.01（nroundを増やしてイータを減らすと助けになるかもしれませんが、メモリが不足し、実行時間が長すぎます） max_depth = 16：他の投稿とデフォルトの6を比較すると、これは大きく見えますが、問題はかなり複雑です-この場合、16は大きすぎません。 colsample_bytree = 0.7、subsample = 0.8およびmin_child_weight = 5：これを行うと、オーバーフィットを減らします。 max_depthを減らすと、トレーニングとテストエラーが近づきますが、それでも大きなギャップがあり、テストエラーは大きくなります（3を少し上回る）。線形ブースターを使用すると、最適なパラメーターでほぼ同じトレインとテストエラーが得られます。 lambda = 90 および `alpha = 0：交差検定により検出され、ラムダはオーバーフィットを防ぐはずです。 colsample_bytree = 0.8、subsample = 0.8およびmin_child_weight = 5：これを行うと、オーバーフィットを減らします。私の感覚では、xgboostはまだオーバーフィットしますが、トレーニングエラーとリアルタイムテスト（xgboostモデルとそれらのアンサンブルを実際に4日間使用しました）で確認できる限り、問題ありません（エラーはテストエラーよりも大きくなりますが、機能やその他の変数の予測については実生活により多くの不確実性があります。あなたはどう思いますか：（可能な場合）実生活のパフォーマンスが優れている場合、オーバーフィットを受け入れることができますか？私の設定ではxgboostはオーバーフィットする傾向がありますか？

20 machine-learning boosting overfitting

4

CNNを使用して1D信号を分類することをお勧めしますか？

私は睡眠段階の分類に取り組んでいます。私はこのトピックに関するいくつかの研究記事を読み、それらの多くはSVMまたはアンサンブル法を使用しました。たたみ込みニューラルネットワークを使用して1次元EEG信号を分類するのは良い考えですか？私はこの種の仕事に慣れていない。何か間違ったことを聞いたらご容赦ください。

20 neural-networks svm conv-neural-network signal-processing

1

SHAP（Shapley Additive Explanation）とLIME（Local Interpretable Model-Agnostic Explanations）の比較

私は2つのポピュラーな事後モデルの解釈可能性のテクニックについて読んでいます：LIMEとSHAP これら2つの手法の主な違いを理解するのに苦労しています。 SHAPの背後にある頭脳であるScott Lundbergを引用すると： SHAP値には、LIMEのブラックボックスローカル推定の利点がありますが、ゲーム理論からの一貫性とローカル精度についての理論的保証もあります（他の統合方法からの属性）私はこの「ゲーム理論からの一貫性と局所的精度に関する理論的保証」が何であるかを理解するのに苦労しています。SHAPはLIMEの後に開発されたので、LIMEが対処できないいくつかのギャップを埋めると思います。それらは何ですか？シャプレー推定の章のクリストフ・モルナーの本は次のように述べています。予測と平均予測の違いは、インスタンスの特徴値-シェイピー効率プロパティにかなり分散しています。このプロパティは、Shapley値をLIMEなどの他のメソッドとは別に設定します。ライムは、効果を完全に分配することを保証しません。Shapleyの値が完全な説明を提供する唯一の方法になる可能性がありますこれを読んで、SHAPはローカルではなく、データポイントのグローカルな説明であるという感覚が得られます。私はここで間違っている可能性があり、上記の引用が何を意味するかについての洞察が必要です。私の質問を要約すると、LIMEはローカルの説明を生成します。SHAPの説明はLIMEの説明とどのように異なりますか？

20 model-interpretation shapley-value lime

1

Metropolis-Hastingsの代わりにGibbsサンプリングを使用するのはいつですか？

MCMCアルゴリズムにはさまざまな種類があります。メトロポリス・ヘイスティングスギブス重要性/拒否サンプリング（関連）。 Metropolis-Hastingsの代わりにGibbsサンプリングを使用するのはなぜですか？メトロポリス・ヘイスティングスよりもギブス・サンプリングの方が推論が扱いやすい場合があると思いますが、詳細については明確ではありません。

20 bayesian simulation mcmc gibbs metropolis-hastings

1

ロジスティック回帰の調整済みオッズ比を理解するのに役立ちます

私は論文でロジスティック回帰の使用を理解しようとして苦労してきました。ここで利用可能な論文は、白内障手術中の合併症の確率を予測するためにロジスティック回帰を使用しています。私を混乱させているのは、以下のように説明されているベースラインにオッズ比1を割り当てるモデルを示していることです。リスクプロファイルがすべてのリスクインジケータの参照グループに含まれていた患者（つまり、表1のすべてについて調整されたOR = 1.00）は、「ベースラインリスクプロファイル」を持っていると見なされ、ロジスティック回帰モデルは「ベースライン予測確率」を示しますPCRまたはVLまたは両方= 0.736％の場合。そのため、0.00736の確率は1のオッズ比で表されます。確率からオッズ比への変換に基づいて：、これは1：。 0.00741=0.00736o=p1−po=p1−po=\frac{p}{1-p}0.00741=0.007361−0.007360.00741=0.007361−0.007360.00741=\frac{0.00736}{1-0.00736} さらに複雑になります。ベースラインとは異なる値を持つ複数の共変量を表す複合オッズ比を使用して、予測リスクを計算します。 ...表1の合成ORは1.28 X 1.58 X 2.99 X 2.46 X 1.45 X 1.60 = 34.5であり、図1のグラフから、このORはPCRまたはVLまたはその両方の予測確率に対応することがわかります約20％論文が例として示している値に到達する唯一の方法は、ベースラインの確率に次のような複合オッズを掛けることです：。0.2025=(34.50 × 0.00736)1 + (34.50 × 0.00736)0.2025=(34.50 × 0.00736)1 + (34.50 × 0.00736)0.2025=\frac{(34.50\ \times\ 0.00736)}{1\ +\ (34.50\ \times\ 0.00736)} ここで何が起こっているのでしょうか？0.5ではないベースライン確率にオッズ比1を割り当てるためのロジックは何ですか？私が上で思いついた更新式は、論文の例にふさわしい確率を考え出しますが、これは私が期待するオッズ比の直接的な乗算ではありません。それは何ですか？

20 logistic odds-ratio

2

極端な学習マシン：それは何ですか？

エクストリームラーニングマシン（ELM）パラダイムについて1年以上考え、実装し、使用してきましたが、長くすればするほど、それが本当に良いことだとは思わなくなります。しかし、私の意見は、引用や新しい出版物を尺度として使用する場合、ホットなトピックのように見える科学コミュニティとは対照的であるようです。 ELMはHuang et。等基本的な考え方はかなり単純です。2層の人工ニューラルネットワークから始めて、最初の層の係数をランダムに割り当てます。これは、通常、バックプロパゲーションによって処理される非線形最適化問題を単純な線形回帰問題に変換します。詳細は、場合、モデルはx∈RDx∈RD\mathbf x \in \mathbb R^D f(x)=∑i=1Nhiddenwiσ(vi0+∑k=1Dvikxk).f(x)=∑i=1Nhiddenwiσ(vi0+∑k=1Dvikxk). f(\mathbf x) = \sum_{i=1}^{N_\text{hidden}} w_i \, \sigma\left(v_{i0} + \sum_{k=1}^{D} v_{ik} x_k \right)\,. 現在、はすべてランダムに選択されていますが、のみが調整されます（二乗誤差損失を最小化するため）。自由度の損失に対する補償として、通常は、かなり多くの隠れノード（つまり、自由パラメーター）を使用することをお勧めします。wiwiw_ivikvikv_{ik}wiwiw_i 別の観点（ニューラルネットワーク側から来た文献で通常宣伝されているものではありません）から見ると、手順全体は単なる線形回帰ですが、基底関数ランダムに選択する場合などは、ϕϕ\phi ϕi(x)=σ(vi0+∑k=1Dvikxk).ϕi(x)=σ(vi0+∑k=1Dvikxk). \phi_i(\mathbf x) = \sigma\left(v_{i0} + \sum_{k=1}^{D} v_{ik} x_k \right)\,. （シグモイド以外の多くの選択肢がランダム関数に使用できます。たとえば、動径基底関数を使用しても同じ原理が適用されます。）この観点からすると、方法全体がほとんど単純化しすぎており、これは、この方法が本当に良い方法であると疑い始める点でもあります（...科学的マーケティングは確かですが）。だから、ここに私の質問があります：私の意見では、ランダム基底関数を使用して入力空間をラスタ化するという考え方は、低次元に適しています。高次元では、合理的な数の基底関数を持つランダム選択を使用して適切な選択を見つけることは不可能だと思います。したがって、ELMは高次元で低下しますか（次元の呪いのため）？この意見を支持/矛盾する実験結果をご存知ですか？リンクされた論文には、メソッドがSVMと同様に実行される27次元回帰データセット（PYRIM）が1つしかありません（一方、逆伝播ANNとの比較を確認したいのですが）より一般的には、ここでELMメソッドに関するコメントをしたいと思います。

20 regression

2

k-meansの収束の証明

割り当てについては、k-meansが有限のステップ数で収束するという証明を提供するように依頼されました。これは私が書いたものです： CCCE(C)=∑xmini=1k∥x−ci∥2E(C)=∑xmini=1k‖x−ci‖2E(C)=\sum_{\mathbf{x}}\min_{i=1}^{k}\left\Vert \mathbf{x}-\mathbf{c}_{i}\right\Vert ^{2}E(C)E(C)E(C) ステップ2は、最も近いクラスター中心で各データポイントにラベルを付けるステップを指します。ステップ3は、平均を取ることによってセンターが更新されるステップです。これは、有限数のステップで収束を証明するには十分ではありません。エネルギーは小さくなり続ける可能性がありますが、エネルギーをあまり変えずに中心点が飛び回る可能性を排除しません。言い換えれば、複数のエネルギー最小値があり、アルゴリズムはそれらの間を飛び回ることができますか？

20 mathematical-statistics k-means

6

10分と15分ごとに実行される2つのバスの最初の待ち時間の期待値

私はインタビューの質問に出くわしました： 10分ごとに来る赤い電車があります。15分ごとに青い電車が出ています。どちらもランダムな時間から開始されるため、スケジュールはありません。ランダムな時間に駅に到着し、最初に来る電車に乗る場合、予想される待ち時間はどれくらいですか？

19 probability random-variable expected-value

2

指数ファミリーの利点：なぜそれを研究して使用する必要があるのですか？

だからここで推論を勉強しています。誰かが指数関数ファミリーの利点を列挙できるようにしたいと思います。指数族とは、f （x | θ ）= h （x ）exp { η （θ ）T （x ）− B （θ ）}として与えられる分布を意味します。f（x | θ ）= h （x ）exp{ η（θ ）T（x ）− B （θ ）}f(x|θ)=h(x)exp⁡{η(θ)T(x)−B(θ)}\begin{align*} f(x|\theta) = h(x)\exp\left\{\eta(\theta)T(x) - B(\theta)\right\} \end{align*} そのサポートはパラメータθθ\theta依存しません。私が見つけたいくつかの利点は次のとおりです。（a）多種多様なディストリビューションが組み込まれています。（b）ネイマン・フィッシャーの定理に従って、自然な十分な統計T（x ）T(x)T(x)提供します。（c）T（x ）T(x)T(x)モーメント生成関数の素晴らしい式を提供することができます。（d）応答と予測子の関係を、応答の条件付き分布から（リンク関数を介して）簡単に分離できます。誰でも他の利点を提供できますか？

19 self-study exponential-family