人の趣味の良い写真、水着の写真、ヌード写真、ポルノの描写の違いを判断するための画像とコンテンツの分析...私が知っている限りでは、ソフトウェアだけでできるほど洗練されたものはありません。
@ammoQがコメントで示唆したように、幸いクラウドソーシングはここで役立つはずです。しかし、4chanや他のフォーラムのメンバーは、投稿されているボタン、フレーム、広告などの一般的なWebグラフィックなど、膨大な数のポルノ以外の画像を高く評価するとは思わない。
私の推奨は、Amazon Mechanical Turkなどの既存のクラウドソーシングソリューションを調べることです。(ただし、利用規約ではポルノコンテンツの関与が明示的に禁止されている場合があるため、別の解決策を見つけるか、独自の解決策を展開する必要がある場合があります。)
クラウドソーシングを実行可能にするために、ソフトウェアは次の一部またはすべてを実行する準備ができている必要があります。
- コンテンツを元のコンピューターにリンクする情報を保存する
- インベントリ全体で正確な重複を特定し、それらを削除します(ただし、元の情報は保持されます)
- 画像をある次元、おそらく320x200にダウンサンプリングします。これにより、不必要な詳細を保持したり、ストレージスペース/帯域幅を無駄にしたりすることなく画像のコンテンツを識別できます。
- 一定の間隔でビデオコンテンツの静止画像を作成し、同じダウンサンプリングルールを適用する
最後に、元の画像とビデオコンテンツを表す縮小画像のデータベースは、会社の行動規範に従ってユーザー(またはリソースがある場合は指定されたチーム)によってチェックされます。プログラムまたはインターフェイスは、一度に1つの画像、またはサムネイルの画面を表示する場合があります。これは、正確な情報を取得するのに最適と思われるものは何でも表示されます。
画像の作成元のコンピューターの身元は、絶対に秘密であり、データを評価する人には知られてはなりません。さらに、ランダム化する必要があり、各イメージはおそらくバイアスを除去するために複数回チェックされます。
同じ手法をテキストに使用することもできますが、最初にキーワードランキングによってコンテンツをスコアリングし、クラウドソースレビューからテキストの大部分を削除することができます。もちろん、長い文書を分類することは、画像を分類するよりも時間がかかります。