1
フィードフォワードネットワーク上でリカレントニューラルネットワークを使用するための数学的な正当化
シーケンシャルデータを処理するときに、フィードフォワードネットワークよりもRNNが優れていることの背後に数学的な理由があるかどうか疑問に思い、理解しようとしました。たとえば、時系列、HMMなどをモデル化する場合。シーケンスの長さは固定されているが、非常に大きいと仮定します。 直感的には、RNNが状態変数の現在の時刻までの関連情報を記憶し、それを使用して現在の入力基づいて状態をに更新できることは明らかです。たとえば、フィードフォワードネットワークを使用してをモデルする場合、ごとに入力ノードを用意し、それらを合計してを取得する必要がありが、RNNではは単一の入力ノードが必要であり、状態は合計ます。tttht−1ht−1h_{t-1}hthth_txtxtx_tYt=Xt+Xt−1+…+X0Yt=Xt+Xt−1+…+X0Y_t=X_t+X_{t-1}+\ldots+X_0XiXiX_iYtYtY_tXtXtX_tXt−1+…+X0Xt−1+…+X0X_{t-1}+\ldots+X_0 上記の例はかなり基本的なものですが、RNNの複雑さ(ノード数、深さ)は、フィードフォワードの場合に比べてはるかに少ないことを示しています。 フィードフォワードでは取得できないが、RNNで十分に近似できる関数のファミリの例を誰かが提供できますか?これに言及する参考文献もまた高く評価されます。