私は現在、ゲノミクスのロジスティック回帰モデルに取り組んでいます。共変量として含めたい入力フィールドの1つはgenes
です。既知の遺伝子は約24,000あります。計算生物学にはこのレベルの変動性を持つ多くの機能があり、数十万のサンプルが必要です。
- もし
LabelEncoder()
24K遺伝子なら - そして
OneHotEncoder()
それら...
24,000列は、2.2 GHzクアッドコアi7 CPUに対してケラスのトレーニング時間を無理にするのでしょうか?
もしそうなら、私がこれで取ることができるエンコーディングへの異なるアプローチはありますか?
どういうわけか、モデルのレイヤーをこの機能専用にする必要がありますか?
これは、24Kの入力ノードが必要であることを意味しますか?