推奨システムの行列因子分解について学習しており、この用語latent features
が頻繁に出現するのを見ていますが、それが何を意味するのか理解できません。機能が何であるかは知っていますが、潜在的な機能の概念がわかりません。説明してください。または、少なくともそれについて読むことができる紙/場所を指し示しますか?
推奨システムの行列因子分解について学習しており、この用語latent features
が頻繁に出現するのを見ていますが、それが何を意味するのか理解できません。機能が何であるかは知っていますが、潜在的な機能の概念がわかりません。説明してください。または、少なくともそれについて読むことができる紙/場所を指し示しますか?
回答:
潜在的な特徴は、単純化を犠牲にして、「隠された」特徴であり、観察された特徴と区別します。潜在的特徴は、行列因子分解を使用して観測された特徴から計算されます。例としては、テキストドキュメント分析があります。文書から抽出された「単語」は機能です。単語のデータを因数分解すると、「トピック」を見つけることができます。「トピック」は、意味的に関連する単語のグループです。低ランクの行列分解は、いくつかの行(観測された特徴)をより小さな行セット(潜在的な特徴)にマッピングします。詳細に説明すると、この文書では、[帆船、スクーナー、ヨット、汽船、巡洋艦]などの特徴(単語)を観察できます。
[帆船、スクーナー船、ヨット、汽船、巡洋艦、...]-> [船、船]
基本的な考え方は、潜在的な特徴は、観察された特徴の意味的に関連する「集合体」であるということです。大規模で高次元のノイズの多い観測対象物がある場合、潜在的な特徴に基づいて分類器を構築することは理にかなっています。
これはもちろん、概念を解明するための簡単な説明です。正確な説明については、Latent Dirichlet Allocation(LDA)または確率的Latent Semantic Analysis(pLSA)モデルの詳細を参照してください。
(MxN)
M
N
次に、あなたの行列は導入を経て、「因数分解」することができますK
:代わりに1つの行列の次の2つ持っているように、「潜在的な要因を」(MxK)
--forユーザーを、そして(KxN)
-アイテムのために、行列の乗算は、その元の行列を生成します。
最後に、あなたの質問:行列分解の潜在的な特徴は何ですか?これらはK
ユーザーの嗜好や推奨アイテムの未知の機能()であるため、これら2つのマトリックスが乗算されると、既知の推奨のマトリックスが生成されます。特定の重み(特定の機能に対するユーザー設定および特定のアイテムの機能の量)は、いわゆる最小二乗アルゴリズムと呼ばれる方法で定義されます。詳細については、こちらを参照してください。
ように私には思えるの潜在機能が基準を記述するために使用される用語であるエンティティを分類することによって、他の言葉で、その構造により、フィーチャー(特徴)、彼らは代わりに、含まれているクラス彼らが属するが。ここでの「潜在」という言葉の意味は、社会科学での意味に最も似ている可能性が高く、非常に一般的な用語である潜在変数(http://en.wikipedia.org/wiki/Latent_variable)は観測不可能な変数(概念)を意味します。
次の論文のセクション「はじめに」は、潜在的な特徴の意味と社会科学現象のモデリングにおける使用についての適切な説明を提供します:http : //papers.nips.cc/paper/3846-nonparametric-latent-feature-models-for-リンクprediction.pdf。
別の例として、Netflixセットアップのようなユーザーの映画評価マトリックスの場合を考えてみましょう。これは巨大なスパース行列になり、処理が困難になります。
各ユーザーではなく、我々は異なるに属している映画のカテゴリのような単一の潜在機能格納することができ、すべての映画の評価収納の、のSF映画や恋愛映画のような特定の嗜好などですからを持っていることに注意してくださいジャンルの SF映画:たとえばをまたはロマンス、各カテゴリの好みを定量化するもの。これらは潜在機能と呼ばれ、映画リスト全体を保存するのではなく、好みの本質をキャプチャします。
もちろんこれは近似値になりますが、逆に言えば、保存するものはほとんどありません。