誰かがイメージを好きになる確率


11

次の問題があります。
-N人の
セット-K画像のセット
-各人がいくつかの画像を評価します。人は画像が好きでも好まなくてもかまいません(これらは唯一の2つの可能性です)。-問題は、特定の画像が好きな人がいる可能性を計算する方法です。

私の直感を示す例を挙げます。
N = 4
K = 5
+は、画像が好きであることを意味します
- 画像が好きではない
ことを意味します0は、画像について質問されていないことを意味し、その値は予測されます

x 1 2 3 4 5    
1 + - 0 0 +   
2 + - + 0 +  
3 - - + + 0  
4 - 0 - - -

人物1はおそらく画像3が好きで、人物2は好みが似ており、人物2は画像3が好きです。
人物4はおそらく画像2が好きではないでしょう。

そのような可能性を計算するために使用できるよく知られた方法はありますか?


私の経験が限られているため、正確な答えを出すことはできません。ただし、ロジットではパネルデータを使用できる(個人内および個人間のサンプルのバリエーションを考慮しているため)と考えています。たぶん、他の人がこれについて詳しく説明することができます...
10:20

小さな例は非常に便利ですが、実際のデータセットはもっと大きいと思います。どのくらい大きい、すなわち(おおよそ)実際のNkはどれくらい大きいですか?
2010

Nとkは巨大になる可能性がありますが、計算能力は問題ではありません。
Tomek Tarczynski、

回答:



6

これは機械学習にとって良い問題のようですので、この方法のグループに集中します。

まず、最も明白なアイデアはkNNアルゴリズムです。そこで、最初に視聴者間の類似度を計算し、次に、類似したユーザーがキャストしたこの写真の平均投票で欠落投票を予測します。詳細については、Wikipediaを参照してください。

別のアイデアは、このデータに監視されていないランダムフォレストを成長させ(いずれにせよ、画像または人物の属性を使用して、より適切な方法で)、フォレスト構造に基づいて欠落データを補完することです。メソッド全体が実装され、R randomForestパッケージに記述されていrfImputeます。関数を探します。

最後に、問題を単純な分類タスクに再構成できます。たとえば、行列の各ゼロのオブジェクトを作成し、いくつかの合理的な記述子(平均的な視聴者の投票、平均的な画像の投票、最も多い投票、2番目に多い投票など)を考えてみてください。 。同様のビューアー、画像と同じ、おそらくいくつかの外部データ(画像の平均色相、有権者の年齢など)そして、このデータ(SVM、RF、NBなど)でさまざまな分類子を試してください。

より複雑な可能性もいくつかあります。概要については、Netflix賞の課題(これは同様の問題でした)の解決策を探すことができます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.