「統計学習の要素」から表18.1を再現

統計学習の要素の表18.1は、14クラスのデータセットでのいくつかの分類器のパフォーマンスをまとめたものです。このようなマルチクラス分類問題について、新しいアルゴリズムを投げ縄およびエラスティックネットと比較しています。

glmnetバージョン1.5.3（R 2.13.0）を使用すると、テーブル内のポイント7（ペナルティ化された多項式）を再現できません。表では、使用される遺伝子の数は269で、テストエラーは13 54.使用されるデータは、この14癌マイクロアレイデータセットです。私が試したものは何でも、170-180遺伝子の近傍で使用し、54のうち16のテストエラーで最高のパフォーマンスモデルを取得します。 $L_1$

セクション18.3の654ページの冒頭で、データの前処理について説明していることに注意してください。

私は著者に連絡しましたが、これまでのところ返答はありませんでしたが、誰かがテーブルの再現に問題があることを確認できるか、テーブルの再現方法に関する解決策を提供できるかどうかを尋ねました。

classification lasso glmnet

— NRH
ソース

glmnetは最近かなりの変化を遂げており、過去に数値にいくつかの問題がありました。おそらくこれが原因ですか？著者に連絡してからどのくらいですか？現在のバージョンは1.7であり、約1週間前にCRANにアップロードされました。

— 枢機

@ cardinal、glmnetで最後の実験を行ってから約4週間でしたが、ESLのテーブルと一致しない同様の結果を生成する別の実装もあります。テーブルは間違いなく古いため、私の推測ではテーブルは正しくありませんが、確かに知っておくといいでしょう。

— -NRH

私はこれらのセクションを非常に簡単に読みましたが、頭に浮かんだ疑問の1つは、661ページ（3回目の印刷）の（18.19）で収縮パラメーターを選択するためのクロス検証の方法です。何か案が？たぶん私はそれを見逃したか、それは他の場所で説明されていますか？それは、分析を再現しようとする試みがアプローチの違いに敏感になる可能性が高い場所のようです。

— 枢機

@cardinal、これに興味を持ってくれてありがとう。CVが違いを生むことは間違いありませんが、作成者は実際にWebページのCVに使用されるサブセット（インデックス）をデータと共に持っています。とにかく、CVは最適なペナルティパラメーターlambdaの選択にのみ使用され、その後、トレーニングデータセット全体がモデルの適合に使用され、その後、テストデータで評価されます。したがって、たとえCVステップが異なるラムダを選択しても、そのラムダはトレーニングデータのソリューションパス上にあり、それを見つけることができません

— ...-NRH

本の Rパッケージを確認しましたか？すべてのデータセット、関数、およびそこで使用されるほとんどのスクリプトが含まれています...

— user603
ソース

よい試み。はい、パッケージを確認しましたが、すべてのデータ、関数、およびほとんどのスクリプトが含まれていると主張するのは誇張です。完全ではなく、問題のデータセットが含まれていません。

— NRH