縦断データの機械学習手法


11

縦断的データをモデル化するための機械学習技術(教師なし)があるかどうか疑問に思いましたか?私は常に混合効果モデル(主に非線形)を使用してきましたが、これを(機械学習を使用して)実行する他の方法があるかどうか疑問に思っていました。

機械学習とは、ランダムフォレスト、分類/クラスタリング、決定木、さらには深層学習などを意味します。


「機械学習」の意味を教えてください。適切な層別化の後、LMEをブーストできます。それは実際にはかなり斬新です!
usεr11852

@usεr11852、質問にもう少し説明を追加しました。うまくいけば、これでもう少し明確になります。
John_dydx

ああ...ブースティングはあなたの定義によるとMLではありません。わかりやすく説明してくれてありがとう。うまくいけばすぐに注目されるでしょう。
usεr11852

...そしてブーストも。
John_dydx

3
この質問はかなりあいまいなようです。「機械学習」は広義の用語であり、「ランダムフォレスト、分類/クラスタリング、決定木、さらにはディープラーニングなど」のカテゴリも含まれます。かなり広いです。興味のある明確なアプリケーションはありますか?たとえば、二分法の出力を分類する必要がある場合は、ロジスティック混合効果モデルまたはロジスティックGEEを使用できます。機械学習と統計モデルは必ずしも異なるものではありません。
Jon

回答:


7

1人の被験者からの複数の観察がある場合(たとえば、同じ患者からの複数の訪問)、「患者ID」は「グループ化」変数です。同じ患者からの訪問がトレーニングデータとテストデータの両方に表示されないように、モデルの評価中は注意が必要です。これらは相関しており、分類子の精度が高くなるためです。

クロスバリデーションsklearnのドキュメントには、グループ化されたデータのためのクロスバリデーションイテレータを持っています。GroupKFoldLeaveOneGroupOut、およびLeavePGroupsOutを参照してください。

さらに良いことに、リカレントニューラルネットワークまたは非表示マルコフモデルを試してください。


4

時間を表す特徴を追加するなど、縦断性を表す特徴を追加するだけで、標準的な機械学習手法で縦断をモデル化できます。または、グループ、メンバーなどのメンバーシップを示す機能(パネルデータの場合)。

機能の作成/抽出で創造的である場合、MLアルゴリズムで何でもモデル化できます。


1
@PhlippePro、私はこの答えについて少し混乱しています。(1)トレーニングセットに含まれていない人を予測したい場合はどうしますか?あなたはあなたのトレーニングセットのそれらの係数しか持っていませんね?(2)人に対応する機能を追加すると、データセットに100,000人の人がいると仮定して、最大100,000個の新しいダミー変数が追加される場合があります。これらの新機能は、元の機能と一緒にぴったり合うでしょうか?
user0

(1)予測したい人物がトレーニングデータセットにない場合は、「人物機能」を使用できません。これは正しいことです。(2)ダミー機能を作成する代わりに、「カテゴリ」機能を1つ作成できます(たとえば、Rでas.factorを使用してカテゴリ機能として指定します)。いくつかのアルゴリズムは非常に多くのカテゴリを処理できないため(たとえば、randomForestは約50しか処理できない)、実際にそれらをダミー変数として指定する必要があり、指摘したように多くの機能を(あまりに)取得できます。
PhilippPro 2017年

MLはそれほど簡単には縦断データに変換されません
Aksakal
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.