統計とビッグデータ ensemble

2

推奨システムの行列因数分解モデルは、潜在的な特徴の数をどのように決定するのですか？

私は、単純なユーザーアイテム、評価推奨システムのための行列因数分解手法を設計しようとしています。これについて2つの質問があります。最初に、映画の推奨のための行列因数分解手法について見た単純な実装で、作成者は潜在特徴の次元を初期化し、2つの潜在特徴のユーザーマトリックスとアイテムマトリックスのKと呼びましょう。定数Kを2としましょう。彼の潜在的な特徴行列PとQのNXKとMXKでした。Rは、NXM次元（NユーザーとMアイテム）で近似しようとしている元のユーザーアイテム評価マトリックスです。だから私の質問は、この場合に定数に設定するのではなく、どのようにして最適な「K」（潜在的な特徴の数）を決定するのですか？また、特定のユーザーの平均評価、ユーザーの性別、user_locationなど、私のデータセットに既にあるユーザーまたはアイテムの情報を、最終的な推奨を行いながら、行列分解のこの結果に組み込む方法もあります（私は推測）多分、他のコンテンツベースのフィルタリングモデルで表されるユーザーとアイテムの情報との混合モデルと、行列因数分解モデルが機能するでしょうか？） 1>最初の質問は、潜在的な特徴の最適な数をどのように決定するかですK 2>行列因数分解とコンテンツベースのフィルタリングの混合モデルを実装する最近の文献を知っている人はいます（人口統計情報を表す唯一の方法だと思うので）共通機能スペース内のユーザーとアイテムの数。）

8 recommender-system matrix-decomposition parameterization ensemble

2

ブースティングの基本分類子

AdaBoostなどのブースティングアルゴリズムは、複数の「弱い」分類子を組み合わせて、単一のより強力な分類子を形成します。理論的には、基本分類子でブースティングが可能であるはずですが、実際には、ツリーベースの分類子が最も一般的であるようです。どうしてこれなの？ツリー分類子のどのプロパティがこのタスクに最適ですか？ブースティングのメリットが大きい他の基本分類子はありますか？分類の問題を念頭に置いて質問しますが、回帰アプリケーションに関する回答にも興味があります。

8 machine-learning boosting ensemble

3

アンサンブル分類器で分類はどのようにマージされますか？

アンサンブル分類器は、構成要素である分類器の予測をどのようにマージしますか？明確な説明が見つからない。私が見つけたいくつかのコード例では、アンサンブルは予測を平均化するだけですが、これがどのようにして「より良い」全体的な精度を実現できるかはわかりません。次のケースを考えてください。アンサンブル分類子は、10個の分類子で構成されています。1つの分類子の精度は、データサブセットXの時間の100％、それ以外の時間はすべて0％です。他のすべての分類子の精度は、データサブセットXでは0％、その他の場合はすべて100％です。分類器の精度が無視される平均化式を使用すると、集団分類器の精度はせいぜい50％になります。これは正しいですか、それとも何か不足していますか？N個の潜在的に無知な分類子から平均予測を取得すると、特定のドメインの専門家である単一の分類子よりも優れた予測を作成できる可能性があります。

8 machine-learning bayesian random-forest naive-bayes ensemble

タグ付けされた質問 「ensemble」

タグ付けされた質問「ensemble」