入力画像の特定の特徴の場所など、入力が非常にまばらです。さらに、各機能は複数の検出を行うことができます(これがシステムの設計に影響するかどうかは不明です)。これは、その機能の存在を表すONピクセルを備えたkチャネル「バイナリイメージ」として提示するものとします。逆も同様です。このような入力は非常にまばらにバインドされていることがわかります。
それでは、ニューラルネットでスパースデータ、特に検出/位置を表すデータを使用する場合の推奨事項はありますか?
これは興味深い質問です。質問への回答が見つかった場合は、質問への回答を検討してください。それ以外の場合は、対処しようとしている問題に関するより詳細な情報で質問を修正してください。また、行列のスパースの密度。
—
NULL