タグ付けされた質問 「feature-selection」

さらなるモデリングで使用する属性のサブセットを選択する方法と原則

2
ベイズ推定量は選択バイアスの影響を受けない
ベイズ推定量は選択バイアスの影響を受けませんか? 高次元での推定について論じているほとんどの論文、例えば全ゲノム配列データは、しばしば選択バイアスの問題を提起します。選択バイアスは、何千もの潜在的な予測子があるにもかかわらず、選択されるのはごくわずかであり、選択されたいくつかに対して推論が行われるという事実から生じます。したがって、プロセスは2つのステップで行われます。(1)予測子のサブセットを選択します。(2)選択セットに対して推論を実行します。たとえば、オッズ比を推定します。Dawidは、1994年のパラドックスペーパーで、不偏推定量とベイズ推定量に焦点を当てました。彼は問題を単純化して、治療効果かもしれない最大の効果を選択する。 次に、公平な推定者は選択バイアスの影響を受けると彼は言います。彼は例を使用しました: 次にZi∼N(δi,1),i=1,…,NZi∼N(δi,1),i=1,…,N Z_i\sim N(\delta_i,1),\quad i=1,\ldots,N ZiZiZ_iはに対してバイアスされ。ましょう 、推定 (但し付勢されているが確かに)\ max \ {\ delta_1、\ delta_2、\ ldots、\ delta_N \}の場合。このステートメントは、ジェンセンの不等式で簡単に証明できます。私たちは知っていたならばそのため、私は_ {\最大}、最大のインデックス\ delta_iは、我々だけで使用するZ_を{I _ {\最大}}公平であるその推定量として。しかし、これがわからないため、代わりに(積極的に)バイアスされる\ gamma_1(\ mathbf {Z})を使用します。δiδi\delta_iZ=(Z1,Z2,…,ZN)TZ=(Z1,Z2,…,ZN)T\mathbf{Z}=(Z_1,Z_2,\ldots,Z_N)^Tγ1(Z)=max{Z1,Z2,…,ZN}γ1(Z)=max{Z1,Z2,…,ZN} \gamma_1(\mathbf{Z})=\max\{Z_1,Z_2,\ldots,Z_N\} max{δ1,δ2,…,δN}max{δ1,δ2,…,δN}\max\{\delta_1,\delta_2,\ldots,\delta_N\}imaximaxi_{\max}δiδi\delta_iZimaxZimaxZ_{i_{\max}}γ1(Z)γ1(Z)\gamma_1(\mathbf{Z}) しかし、Dawid、Efron、および他の著者の懸念事項は、ベイズの推定者は選択バイアスの影響を受けないということです。を優先する場合、たとえば、ベイズ推定量はによって与えられ ここで、、は標準ガウスです。δiδi\delta_iδi∼g(.)δi∼g(.)\delta_i\sim g(.)δiδi\delta_iE{δi∣Zi}=zi+ddzim(zi)E{δi∣Zi}=zi+ddzim(zi) \text{E}\{\delta_i\mid Z_i\}=z_i+\frac{d}{dz_i}m(z_i) m(zi)=∫φ(zi−δi)g(δi)dδim(zi)=∫φ(zi−δi)g(δi)dδim(z_i)=\int \varphi(z_i-\delta_i)g(\delta_i)d\delta_iφ(.)φ(.)\varphi(.) 私たちは、新しい推定定義する場合はとして 何でもあなたが推定するのに選択しとは、選択がに基づいていた場合 と同じなります。これは、がで単調であるです。我々はまた、知っている shrinkes用語とゼロに向かって、δimaxδimax\delta_{i_{\max}}γ2(Z)=max{E{δ1∣Z1},E{δ2∣Z2},…,E{δN∣ZN}},γ2(Z)=max{E{δ1∣Z1},E{δ2∣Z2},…,E{δN∣ZN}}, \gamma_2(\mathbf{Z})=\max\{\text{E}\{\delta_1\mid Z_1\},\text{E}\{\delta_2\mid Z_2\},\ldots,\text{E}\{\delta_N\mid Z_N\}\}, iiiδimaxδimax\delta_{i_{\max}}γ1(Z)γ1(Z)\gamma_1(\mathbf{Z})iiiγ2(Z)γ2(Z)\gamma_2(\mathbf{Z})γ2(Z)γ2(Z)\gamma_2(\mathbf{Z})ZiZiZ_iE{δi∣Zi}E{δi∣Zi}\text{E}\{\delta_i\mid Z_i\}ZiZiZ_iddzim(zi)ddzim(zi)\frac{d}{dz_i}m(z_i)これにより、の正のバイアスの一部が減少し。しかし、ベイズ推定量は選択バイアスの影響を受けないと結論付けるにはどうすればよいでしょうか。本当にわかりません。ZiZiZ_i

1
ベイジアンスパイクおよびスラブとペナルティ付きメソッド
私はBSTS Rパッケージに関するSteven Scottのスライドを読んでいます(ここで見つけることができます:スライド)。 ある時点で、構造的時系列モデルに多くのリグレッサを含めることについて話すとき、彼は回帰係数のスパイクとスラブの事前分布を導入し、それらはペナルティ付き手法と比較して優れていると述べています。 スコット氏は、100個の予測子を含むデータセットの例を参照します。 ペナルティ付きメソッドは、どの変数が含まれる/除外されるかについて単一の決定を行います。つまり、予測子の1つのサブセット、つまり可能なものの中から1つのモデルを決定します。210021002^{100} "なげなわ(および関連する)事前分布はスパースではなく、モードでスパース性を誘導しますが、事後分布では誘導しません" この時点で、彼はスパイクとスラブの事前分布を紹介します。 私は直感を得たと思いますが、それについて確認したいと思います。 それらは、基本的にブルートフォースアプローチを使用して、含めることができるリグレッサの各サブセットをテストするという意味で優れていますか? 欠点はそうすることで計算時間ですか? 「なげなわ(および関連)...事後分布ではない」と言うとき、彼は何を意味していると思いますか?

1
分類タスクで機能選択が重要なのはなぜですか?
特徴選択について学んでいます。なぜそれがモデル構築にとって重要かつ有用であるのかを理解できます。しかし、教師あり学習(分類)タスクに焦点を当てましょう。分類タスクで機能選択が重要なのはなぜですか? 特徴の選択と教師あり学習へのその使用について書かれた多くの文献を見ていますが、これは私を困惑させます。機能の選択とは、どの機能を破棄するかを特定することです。直感的には、一部の機能を破棄することは自己破壊的なようです。それは情報を破棄することです。情報を投げても役に立たないようです。 一部の機能を削除しても効果がある場合でも、一部の機能を破棄して残りを監視あり学習アルゴリズムにフィードする場合、監視あり学習アルゴリズムに処理を任せるのではなく、なぜ自分で実行する必要があるのでしょうか。一部の機能が役に立たない場合、適切な教師あり学習アルゴリズムが暗黙のうちにそれを発見し、その機能を使用しないモデルを学習すべきではありませんか? したがって、直感的には、機能の選択が役に立たず、場合によっては害を及ぼす可能性がある無意味な演習になると予想していました。しかし、それが非常に広く使用され、記述されているという事実は、私の直感に欠陥があると私に疑わせます。教師あり学習を行うときに、機能の選択が有用かつ重要である理由を誰かが直感的に理解できるでしょうか。なぜ機械学習のパフォーマンスが向上するのですか?それは私が使用する分類器に依存しますか?

1
カイ二乗検定はどのような特徴選択に使用できますか?
ここで私は、教師あり学習での結果選択に関する特徴選択にカイ二乗検定を使用するために他の人が一般的に何をするかについて尋ねています。私が正しく理解している場合、彼らは各機能と結果の間の独立性をテストし、各機能のテスト間のp値を比較しますか? ではhttp://en.wikipedia.org/wiki/Pearson%27s_chi-squared_test、 ピアソンのカイ2乗検定は、カテゴリデータのセットに適用される統計的検定であり、セット間に観測された差が偶然に生じた可能性を評価します。 ... 独立性のテストでは、分割表で表された2つの変数のペアの観測値が互いに独立しているかどうかを評価します(たとえば、国籍が異なる応答をポーリングして、国籍が応答に関連しているかどうかを確認します)。 では、独立性がテストによってテストされる2つの変数は、カテゴリカルまたは離散(カテゴリカル以外の順序付けを許可)でなければならないが、連続ではないのでしょうか。 http://scikit-learn.org/stable/modules/feature_selection.html、彼ら アイリスデータセットに対してテストを実行して、2つの最良の特徴のみを取得します。χ2χ2\chi^2 虹彩データセットは、すべての機能が大切数値と連続しており、そして結果は、クラスラベル(カテゴリ)です。カイ二乗独立性検定は、連続特徴にどのように適用されますか? データセットにカイ二乗独立検定を適用するには、最初にビニング(つまり、最初に特徴の連続ドメインをビンに離散化し、次に特徴をビン内の特徴の値の出現で置き換える)により、連続特徴を離散特徴に変換しますか? )? いくつかのビンでの発生は多項式の特徴(各ビンで発生するかしないかのどちらか)を形成するため、カイ2乗独立検定をそれらに適用できます。 ところで、私はカイ二乗独立検定をあらゆる種類の機能と結果に適用できますか? 結果の部分では、分類だけでなく、カイ二乗独立検定、連続結果をビニングすることにより、回帰の機能も選択できます。 scikit学習サイトにも書いてあります 各非負の特徴とクラスの間のカイ2乗統計を計算します。 このスコアが含まれている必要がありますXからテストカイ二乗統計値の最高値は、とn_features機能を選択するために使用することができる唯一の非負のようにブール値や周波数などの機能 (文書分類では例えば、用語カウント)、に対するクラス。 テストで非負の機能が必要なのはなぜですか? 特徴に兆候はないが、カテゴリー的または離散的である場合、テストをそれらに適用できますか?(私のパート1を参照) 特徴が否定的である場合、それらのドメインを常にビニングし、それらをその出現に置き換えることができます(虹彩データセットにテストを適用するために私が推測するのと同じように、パート2を参照)。 注:Scikit Learnは一般的な原則に従っていると思います。それが私がここで求めていることです。そうでない場合は、それでも大丈夫です。

6
教師なし学習で特徴選択を実行するRまたはPythonのメソッド[終了]
閉まっている。この質問はトピックから外れています。現在、回答を受け付けていません。 この質問を改善してみませんか? 質問を更新することがありますので、上のトピッククロス検証済みのため。 2年前休業。 データ内の重要でない/重要な機能を破棄/選択するためにR / Pythonで利用可能なメソッド/実装は何ですか?データにラベルがありません(監視なし)。 データには、タイプが混在する約100の特徴があります。一部は数値ですが、その他はバイナリ(0/1)です。

2
分類問題におけるクラス分離可能性の測定
線形判別学習者におけるクラス分離可能性の良い尺度の例は、フィッシャーの線形判別比です。機能セットがターゲット変数間の適切なクラス分離を提供するかどうかを判断するために他に役立つメトリックはありますか?特に、ターゲットクラスの分離を最大化するための適切な多変量入力属性を見つけることに関心があり、優れた分離可能性を提供するかどうかをすばやく判断するための非線形/ノンパラメトリック測定値があると便利です。

1
異常検出のための自動機能選択
異常検出の機能を自動的に選択する最良の方法は何ですか? 私は通常、異常検出を専門家が機能を選択するアルゴリズムとして扱います。重要なのは出力範囲(「異常な入力-異常な出力」など)なので、多くの機能を組み合わせても、はるかに小さなサブセットを思い付くことができます。機能。 ただし、一般的には機能リストが膨大になる可能性があると仮定すると、おそらく自動学習が望ましい場合があります。私が見る限り、いくつかの試みがあります: サポートベクトルデータ記述を一般化する「異常検出の自動機能選択」(pdf) 「ラフセット理論を使用した高速なホストベースの侵入検知システム」(PDFはありませんか?)ラフセット理論を使用していると思います 統計的手法を用いた「敵意のあるネットワークトラフィックの異常検出のための学習ルール」(pdf、ビデオ) だから今私は誰かが言うことができるのだろうか-異常検出と本当に大きな(数百?)機能セットを想定: それらの巨大な機能セットはまったく意味がありますか?機能の設定を、たとえば、数十個に減らすだけでいいのではないでしょうか。それだけです。 巨大な機能セットが理にかなっている場合、上記のアプローチのどれがより良い予測を与えるでしょう、そしてなぜですか?記載されていないものはありますか? クラスタリング/ランク付けなどによる次元削減や機能構築などと比較して、より良い結果が得られるのはなぜですか?

1
R / mgcv:なぜte()とti()テンソル積が異なる表面を生成するのですか?
のmgcvパッケージにRは、テンソル積の相互作用をフィッティングするための2つの関数がte()ありti()ます。私は2つの作業の基本的な分業を理解しています(非線形の相互作用を当てはめるか、この相互作用を主効果と相互作用に分解するか)。私が理解していないのは、なぜte(x1, x2)、そしてti(x1) + ti(x2) + ti(x1, x2)(わずかに)異なる結果を生成するのかということです。 MWE(から適応?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

2
ソフトしきい値となげなわペナルティ
私はこれまでに高次元のデータセットを使用したペナルティ付き多変量解析で理解したことを要約しようとしていますが、ソフトしきい値対ラッソ(または)ペナルティの適切な定義を得るのに苦労しています。L1L1L_1 より正確には、スパースPLS回帰を使用して、ゲノムデータを含む2ブロックのデータ構造を分析しました(一塩基多型、ここでは、範囲が{0,1,2}のマイナーアレルの頻度を数値変数と見なします)。連続的な表現型(性格特性または脳の非対称性を定量化するスコア、連続変数としても扱われます)。アイデアは、最も影響力のある予測因子(ここでは、DNA配列の遺伝的変異)を分離して、個体間の表現型の変異を説明することでした。 私は当初、罰則付きのPLS回帰と正則化されたCCAを特徴とするmixOmics Rパッケージ(以前はintegrOmics)を使用していました。Rコードを見ると、予測子の「スパース性」は、番目のコンポーネント、(アルゴリズム)に最も高い負荷(絶対値)を持つ上位変数を選択することによって簡単に誘導されることがわかりました。は反復であり、コンポーネントの変数の負荷を計算し、各反復で予測子ブロックを収縮します。概要については、スパースPLS:Omicsデータを統合するときの変数の選択を参照してください)。逆に、S。Keleşが共同で作成したsplsパッケージ(i i = 1 、… 、k k L 1kkk私iii = 1 、… 、ki=1,…,ki=1,\dots, kkkk同時次元削減し、変数選択のための回帰スパース部分最小二乗これらの著者によって行われたアプローチのより正式な説明については、)実装変数処罰のための-penalization。L1L1L_1 厳密な「全単射」、つまりソフトしきい値に基づく反復的な特徴選択と正則化の間に厳密な「全単射」があるかどうかは私には明らかではありません。だから私の質問は:2つの間に数学的な関連はありますか?L1L1L_1 参考文献 Chun、H.およびKelȩs、S.(2010)、同時次元削減と変数選択のためのスパース部分最小二乗法。王立統計学会誌:シリーズB、72、3-25。 Le Cao、K.-A.、Rossouw、D.、Robert-Granie、C.、and Besse、P.(2008)、A Sparse PLS for Variable Selection when Integrating Omics Data。遺伝学および分子生物学における統計的応用、7、第35条。

1
尾根となげなわの両方が別々にうまく機能するが、異なる係数を生成する場合の結果の解釈方法
LassoとRidgeの両方で回帰モデルを実行しています(0〜5の範囲の離散結果変数を予測するため)。モデルを実行する前に、のSelectKBestメソッドを使用scikit-learnして、機能セットを250から25に減らします。初期の特徴選択を行わないと、ラッソとリッジの両方で精度スコアが低くなります(サンプルサイズが600と小さいためである可能性があります)。また、一部の機能は相互に関連していることに注意してください。 モデルを実行した後、LassoとRidgeの予測精度はほぼ同じであることがわかります。ただし、係数の絶対値で並べ替えた後、最初の10個のフィーチャをチェックすると、最大で%50のオーバーラップがあることがわかります。 つまり、機能の重要性が各方法で割り当てられていることを考えると、選択したモデルに基づいてまったく異なる解釈をする可能性があります。 通常、機能はWebサイトでのユーザーの行動のいくつかの側面を表します。そのため、予測能力が高い機能(ユーザーの行動)と弱い機能(ユーザーの行動)を強調して、調査結果を説明したいと思います。しかし、今のところどうすればいいのかわかりません。モデルの解釈にはどのようにアプローチすればよいですか?たとえば、両方を組み合わせて重複するものを強調表示する必要がありますか、それとも解釈性が向上するので、投げ縄を使用する必要がありますか?

3
ステップワイズ回帰の利点は何ですか?
私は問題への私のアプローチの多様性のために、段階的回帰を実験しています。だから、私は2つの質問があります: ステップワイズ回帰の利点は何ですか?その具体的な長所は何ですか? ステップワイズ回帰を使用して特徴を選択し、選択したすべての特徴をまとめて通常の回帰を適用するハイブリッドアプローチについてどう思いますか?

2
異常検出:使用するアルゴリズムは?
コンテキスト:私は、臨床データを分析して、タイプミスの可能性がある妥当ではないデータを除外するシステムを開発しています。 これまでに行ったこと: 妥当性を定量化するために、これまでの私の試みは、データを正規化し、セットD(=トレーニングセット)の既知のデータポイントまでの距離に基づいてポイントpの妥当性値を計算することでした: plausibility(p)=∑q∈DGauss(distance(p,q))plausibility(p)=∑q∈DGauss(distance(p,q))\text{plausibility}(p)=\sum_{q\in D}\text{Gauss}(\text{distance}(p,q)) その定量化により、妥当なデータと妥当でないデータを区別するしきい値を選択できます。私はpython / numpyを使用しています。 私の問題: このアルゴリズムは、独立した次元を検出できません。理想的には、レコードについて知っていることなら何でもアルゴリズムに入れて、次元Xがレコードの妥当性に影響を及ぼさないことをそれ自体で見つけることができます。 このアルゴリズムは、ブール値や選択入力などの離散値には実際には機能しません。それらは連続値にマッピングできますが、選択1が選択3よりも選択2に近いというのは直観に反しています。 質問: このタスクにはどのようなアルゴリズムを検討する必要がありますか?最近傍に基づく、クラスタリングに基づく、および統計的アプローチを含む多くのオプションがあるようです。また、この複雑さの異常検出に関する論文を見つけるのも困難です。 アドバイスは大歓迎です。 [編集]例: データが人の身長、人の体重、タイムスタンプで構成されているとしましょう。つまり、3Dデータです。体重と身長は相関していますが、タイムスタンプは完全に独立しています。ユークリッド距離を考慮する場合、交差検証データのほとんどに適合するように小さなしきい値を選択する必要があります。タイムスタンプは他のディメンションとまったく相関しないため、レコードが妥当であるかどうかを判断することは重要ではないため、アルゴリズムはタイムスタンプディメンションを無視するのが理想的です。どんなタイムスタンプももっともらしいです。 一方、タイムスタンプが重要な例を構成することができます。たとえば、フィーチャXの値Yは、特定の日付より前ではなく特定の日付より後に測定された場合に妥当である可能性があります。

1
ディシジョンツリーの変数(機能)スケーリングと変数(機能)の正規化(調整)は、どの実装で必要ですか?
多くの機械学習アルゴリズムでは、特徴スケーリング(別名変数スケーリング、正規化)が一般的な前処理ステップですWikipedia-特徴スケーリング -この質問は間近でした質問#41704-正規化と特徴スケーリングはどのように、そしてなぜ機能するのですか? ディシジョンツリーに関して特に2つの質問があります。 機能のスケーリングを必要とする決定木の実装はありますか?私は、ほとんどのアルゴリズムの分割基準がスケーリングに無関心であるという印象を受けています。 次の変数を検討してください:(1)単位、(2)時間、(3)時間あたりの単位-意思決定ツリーに入力するときにこれらの3つの変数を「そのまま」にしておくか、何らかのタイプの競合に遭遇するのが最善ですか「正規化された」変数(3)は(1)と(2)に関連付けられるため、つまり、3つの変数すべてを組み合わせてこの状況を攻撃しますか、それとも通常は3つの変数の組み合わせを選択するか、単に「正規化/標準化」機能(3)を使用しますか?

3
特徴選択は、トレーニングデータのみ(またはすべてのデータ)で実行する必要がありますか?
特徴選択は、トレーニングデータ(またはすべてのデータ)に対してのみ実行する必要がありますか?私はGuyon(2003)やSinghi and Liu(2006)などのいくつかのディスカッションと論文を読みましたが、正しい答えについてはまだわかりません。 私の実験のセットアップは次のとおりです: データセット:50人の健康なコントロールと50人の病気の患者(病気の予測に関連する可能性のある200の機能)。 タスクは、利用可能な機能に基づいて疾患を診断することです。 私がすることは データセット全体を取り、特徴選択(FS)を実行します。今後の処理のために選択した機能のみを保持します テストとトレーニングに分割し、トレーニングデータと選択した機能を使用して分類子をトレーニングします。次に、分類子をテストデータに適用します(ここでも、選択した機能のみを使用します)。Leave-one-out検証が使用されます。 分類精度を取得する 平均化:1)〜3)をN回繰り返します。(100)。N=50N=50N=50 データセット全体でFSを実行するとある程度のバイアスが生じる可能性があることに同意しますが、私の意見では、平均化(ステップ4)中に「平均化」されるということです。あれは正しいですか?(精度の差異は)&lt;2%&lt;2%<2\% 1 Guyon、I.(2003) "An Introduction to Variable and Feature Selection"、The Journal of Machine Learning Research、Vol。1 3、pp。1157-1182 2 Singhi、SKおよびLiu、H.(2006)「分類学習のための特徴サブセット選択バイアス」、Proceeding ICML '06 Proceedings on the 23rd International Conference on Machine Learning、pp。849-856

1
LASSOは共線予測子の中からどのように選択するのですか?
GLM LASSOモデルが相関性の高い予測子のグループから特定の予測子を選択する理由と、最良のサブセット機能選択とは異なる方法で予測する理由を直感的に探しています。 Tibshirani 1996の図2に示されているLASSOの形状から、LASSO がより大きな分散を持つ予測子を選択すると信じています。 ここで、ロジスティック回帰モデルの2つの予測子を取得するために10倍のCVで最良のサブセット選択を使用し、これらの2つの予測子が最適(0-1損失の意味)であるという合理的な事前知識があるとします。 LASSOソリューションは、予測誤差が大きい、あまり簡潔ではない(5つの予測子)ソリューションを優先します。直感的に、違いが生じる原因は何ですか?LASSOが相関予測子の中から選択する方法が原因ですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.