小サンプル臨床研究における機械学習技術の応用


15

目的が分類コンテキストで興味深い予測因子を分離することである場合、ランダムフォレストやペナルティ付き回帰(ペナルティ付き回帰(L1またはL2ペナルティ、またはそれらの組み合わせ))などの機械学習手法を小規模サンプル臨床研究に適用することについてどう思いますか?モデルの選択に関する問題ではなく、変数の効果/重要性の最適な推定値を見つける方法についても質問していません。強力な推論を行うつもりはありませんが、多変量モデリングを使用するだけであるため、各予測変数を一度に1つずつ対象の結果に対してテストすることを避け、それらの相互関係を考慮に入れます。

この特定の極端なケースで、そのようなアプローチが既に適用されているのかと思っていました。たとえば、10〜15のカテゴリ変数または連続変数のデータを持つ20〜30の被験者です。それは正確にはないnp場合、私はここでの問題は、(多くの場合、うまくバランスされていない)私たちが説明しようとするクラスの数に関係していると思うし、(非常に)小さなN。私はバイオインフォマティクスの文脈でこのトピックに関する膨大な文献を知っていますが、心理測定的に測定された表現型を用いた生物医学研究に関連する参考文献は見つかりませんでした(例:神経心理学的アンケートを通して)。

関連する論文へのヒントや指針はありますか?

更新

この種のデータを分析するためのその他のソリューション、たとえばC4.5アルゴリズムまたはその派生物、アソシエーションルールメソッド、および教師付きまたは半教師付き分類のためのデータマイニング手法を受け入れています。


明確にするために、あなたの質問は設定ではなくデータのサイズに関するものです、正しいですか?
シェーン

まさに、「最小の」n(多くの変数に対する)についての参照があるのか​​、あるいはより正確には、そのような極端な場合に交差検証手法(またはRFのようなリサンプリング戦略)が有効であるのか疑問に思う。
-chl

回答:


7

これはバイオインフォマティクス/機械学習以外でも使用されていませんが、おそらくあなたが最初のものになるかもしれません:)

バイオインフォマティクスからの小標本法の代表例として、L1正則化を使用したロジスティック回帰は、パラメーターの数が観測数の指数関数である場合に適切に適合し、非漸近信頼区間はChernoffタイプの不等式(つまり、たとえば、Dudik(2004))。Trevor Hastieは、これらの方法を適用して遺伝子相互作用を特定する研究を行ってきました。以下の論文では、彼はこれを使用して、2200の観測値のサンプルに適合する310,637の調整可能なパラメーターを持つモデルからの重要な効果を特定します。

「投げ縄で罰せられたロジスティック回帰によるゲノムワイド関連解析。」著者:ヘイスティ、T; ソベル、E; ウー、T.T; チェン、Y。F; Lange、K Bioinformatics Vol:25 Issue:6 ISSN:1367-4803 Date:03/2009 Pages:714-721

Victoria Stoddenによる関連プレゼンテーション(観測よりも多くの変数を持つモデル選択


はい、ウー等。2009年は素晴らしい論文です。ちなみに、私は過去2年間、GWASとMLに取り組んできました。今、私は臨床研究に戻りたいと思っています。そこでは、ほとんどの場合、不完全な測定値、欠落データ、そしてもちろん、物理学者の観点から興味深い変数がたくさんあります。
chl

ところで、私はこの質問について考えさせられた論文に出会ったばかりです...機械学習の論文で信頼区間について話すことは非常にまれですが、ここに注目すべき例外がありますncbi.nlm.nih.gov/pubmed/19519325
Yaroslav Bulatov

追加のリンクをありがとう。それでも私にとって問題は、小さなと異種の予測子にあります。ように私には思えるのn « p個の場合は、現在ますます、遺伝学における神経画像研究をよく研究された、またはときに我々は間の指数関数的な関係を前提とすることができ、NPが、現時点では、私は関連性や予測力の証拠を発見したことはありません私が提示した特定の研究におけるブースティングの。私は現在、MCシミュレーションを実行して、この場合のRFとスパース回帰のパフォーマンスを確認しています。この方向での進展をすべてお知らせします。nnpnp
chl

これは非常に興味深い質問です。ブログ投稿でこれらの記事や他の記事をいくつか集めました(気にしないでください)。他にもいくつかあると思います。
アンドリュー

5

15個の予測変数と20個のサンプルサイズを使用した探索的解析の結果の一般化については、ほとんど自信がありません。

  • パラメーター推定の信頼区間は大きくなります。たとえば、n = 20でr = .30の95%信頼区間は-0.17〜0.66です。
  • 探索的でデータ駆動型の方法で複数の予測子を使用すると、問題が複雑になる傾向があります。

そのような状況では、私のアドバイスは一般的に分析を二変量関係に限定することです。あなたがベイジアンの視点をとるなら、私はあなたの以前の期待がデータよりも重要でないとしても平等であると言います。


4

一般的な経験則の1つは、分類器に調整可能なパラメーターがあるため、少なくとも10倍のトレーニングデータインスタンス(テスト/検証データなどは言うまでもなく)を使用することです。適切なデータだけでなく、代表的データも必要になるという問題があることに留意してください。最後に、この決定を行う際に非常に多くの変数があるため、体系的なルールはありません。Hastie、Tibshirani、およびFriedman が統計学習の要素で述べているように(第7章を参照):

どのくらいのトレーニングデータで十分かという一般的なルールを与えるのは難しすぎます。とりわけ、これは基礎となる関数の信号対雑音比、およびデータに適合するモデルの複雑さに依存します。

この分野に慣れていない場合は、Encyclopedia of Biomedical Engineeringのこの短い「パターン認識」ペーパーを読むことをお勧めします。


ありがとう!Hastieの本とC. Bishopの本(パターン認識と機械学習)があります。このような小さなnは、偽りまたは信頼できない(ジェロミーアングリムのコメントを参照)関連付けにつながることを知っています。ただし、Breimanによって実装されたRFアルゴリズムは、ツリーが成長するたびに(私の場合は3または4)限られた数の機能に対処することを可能にし、OOBエラー率はかなり高いですが(これは予想されるべきです)変数の重要性から、2変量テスト(置換テスト)を使用して同様の結論に達すると結論付けられました。
chl

1
親指のルールは、主に、L2のような古典的方法に適用される最大尤度を正則、L1は、調整可能なパラメータの数が観測数(すなわち、ミロスラフDudik 2004 COLT紙)に指数関数的である場合の方法を効果的に学ぶことができる正則
ヤロスラフBulatov

3

その場合、RFが機能し、その重要度の指標はかなり洞察力があることを保証できます(標準(n << p)のような誤解を招く重要でない属性の大きな尾は存在しないため)。同様の問題を扱った論文を今思い出すことはできませんが、探します。


1
ありがとう!私は先月、IVth EAM-SMABSカンファレンスに出席していましたが、スピーカーの一人が生物医学研究におけるMLの応用を発表しました。残念ながら、これは、N〜300人の被験者とp = 10の予測因子を使用したやや「標準的な」研究でした。彼は医学統計に論文を提出しようとしています。私が探しているのは、単に記事/参考資料です。結果の一般化可能性はそれほど問題ではない、外来患者などの標準的な臨床研究。
chl

ついに論文を見つけましたか?
chl

@chlまだ; しかし、リマインダーをありがとう。

急いでいるわけではありません:)自分で面白いものを見つけられませんでした。多分Pubmedは、この特定のケースに適した検索エンジンではありません
...-chl

@chlこれも私の問題です。実際、n << pは生物医学データの同義語になったようです。

0

離散入力がある場合、以前の入力が与えられた場合、バイナリ入力の欠損値を予測するプログラムを作成しています。「1 of 6」などの任意のカテゴリは、バイナリビットに変換でき、正常に機能します。それは影響しません。

私が書いているアルゴリズムの目的は、数学的に可能な限り速く学習することです。その結果、時間と空間の複雑さは非常に低くなります(O(4 ^ N)についての空間の複雑さ!)。

しかし、そのためには、状態がビットベクトルとして表現できるシステムに対して、本質的に1回限りの学習が行われます。たとえば、全加算器には8つの異なる入力状態があります。アルゴリズムは、たった8つの異なるトレーニングサンプルの後、完全な加算器を完全に学習します。それだけでなく、答えを与えて質問を予測させることも、答えの一部と質問の一部を与えて残りを記入させることもできます。

入力データに大量のビットがある場合、かなりの計算とメモリを集中的に使用します。しかし、サンプルが非常に少ない場合、または設計目標がそうである場合、可能な限り最良の予測に近づきます。

ビットが不明なビットベクトルを含むビットベクトルでトレーニングします。予測を取得するには、同様に、ビットベクトル、未知のビット、予測するビットを入力します。

ここで利用可能なソースコード:https : //sourceforge.net/p/aithroughlogiccompression/code/HEAD/tree/BayesianInferenceEngine/src/_version2/

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.