CNNを使用して抽出した特徴をRNNに渡す方法は?
以下のような単語画像があります。 256x64画像だとしましょう。私の目的は、画像からテキストを抽出することです73791096754314441539。これは、基本的にOCRが行うことです。 画像から単語を認識できるモデルを作ろうとしています。 私が言葉を言っているとき、それは次のいずれかであることができます: 辞書の単語、非辞書の単語 az、AZ、特殊文字を含む spaces 以下のようにテンソルフローでモデル(会社のポリシーによりスニペット)を作成しました: inputs = tf.placeholder(tf.float32, [common.BATCH_SIZE, common.OUTPUT_SHAPE[1], common.OUTPUT_SHAPE[0], 1]) # Here we use sparse_placeholder that will generate a # SparseTensor required by ctc_loss op. targets = tf.sparse_placeholder(tf.int32) # 1d array of size [batch_size] seq_len = tf.placeholder(tf.int32, [common.BATCH_SIZE]) model = tf.layers.conv2d(inputs, 64, (3,3),strides=(1, 1), padding='same', …