CNN(畳み込みニューラルネットワーク)を使用してドキュメントを分類しようとしています。短いテキスト/文のCNNは多くの論文で研究されています。ただし、長いテキストやドキュメントにCNNを使用した論文はないようです。
私の問題は、ドキュメントの機能が多すぎることです。私のデータセットでは、各ドキュメントに1000を超えるトークン/単語があります。各例をCNNに送るために、word2vecまたはgloveを使用して各ドキュメントをマトリックスに変換し、大きなマトリックスを作成します。各行列の高さはドキュメントの長さで、幅は単語埋め込みベクトルのサイズです。私のデータセットには9000を超える例があり、ネットワークのトレーニングに長い時間がかかり(1週間)、パラメーターの微調整が難しくなっています。
別の特徴抽出方法は、単語ごとにワンホットベクトルを使用することですが、これにより非常にスパース行列が作成されます。そしてもちろん、この方法では、以前の方法よりもトレーニングに時間がかかります。
それで、大きな入力行列を作成せずに特徴を抽出するためのより良い方法はありますか?
また、可変長のドキュメントをどのように処理する必要がありますか?現在、ドキュメントを同じ長さにするために特別な文字列を追加していますが、これは良い解決策ではないと思います。