最新の分類子では解決できないビデオ内の強調表示されたオブジェクトにユーザーにラベルを付ける
最先端のビデオ分類子を作成します。GoogleのYouTube-8Mでトレーニングすることもできますビデオトレーニングデータでトレーニングすることもできます。ただし、継続的にオリジナルの動画もフィードする必要があります。
可能な限り多くのオブジェクトに分類ラベルを付けます。オブジェクトとして認識できるが、ラベルを付けることができないオブジェクトを分離します。
オブジェクトの概要を示すビデオを出力します。できればGIFで、フォームに簡単に埋め込むことができます。
これらの100については、オブジェクトが何であるかを100人のユーザーに尋ねます。ユーザーの90%がオブジェクトの名前に同意する場合は、そのビデオをキャプチャセットに追加します。これを事前トレーニング済みセットと呼びます。
ユーザーが認証を必要とするたびに、事前トレーニング済みのセットではなく、ハイライトされたオブジェクトの1つを動画で見せます。画像の表示が100未満の場合は、ラベルを記録し、事前トレーニング済みのセットから別のラベルをユーザーに提供します。彼らがそれを正しく理解している場合は、それらを通過させます。そうでない場合は、事前訓練されたセットから別のものを提供します。
事前トレーニングを受けていない動画の表示回数が100を超え、キャプチャユーザーの90%以上が同意したら、その動画をトレーニング後のセットに追加します。
時間の経過とともに、事前トレーニング済みのセットをゆっくりと取り外します。トレーニング後のセットの各ビデオに有効期限を設定し、有効期限が切れた後に削除して、何度も使用されないようにします。
理想的には、このプロセスは常にビデオ分類子を改善し、最新の状態に保ち、他の分類子よりもわずかに先に進みます。おそらく、他の分類子に対してこの分類子を特化するために、あまり一般的でない単語やオブジェクト、より難解なものを優先することもできます。
画像ラベリングについても同じことができますが、AIの進歩を考えると、ビデオ分類器の有用性はおそらく長く続きます。
しかし厳密に言えば、いくつかの量子的な手口を除けば、いつの日か外部のAIシステムによって解決されないキャプチャシステムはありません。
(編集:ああ、私はあなたが特に「テキストキャプチャ」と言ったことに気づきました。それがあなたが意味するものであるなら、私はテキスト分類に多くの謎が残っているとは思いません。コンピューターはおそらく人間よりも優れた画像からテキストを収集できるでしょう。しかし、技術的には、上記のキャプチャシステムの入力はテキストです。)