タグ付けされた質問 「recommender-system」

推奨エンジンは、ユーザーが特定の商品(映画、本、歌など)をどれだけ楽しむかを予測し、推奨を行います。オンラインベンダーは、新しい購入を提案するためによく使用します。


2
推奨システムの行列因数分解モデルは、潜在的な特徴の数をどのように決定するのですか?
私は、単純なユーザーアイテム、評価推奨システムのための行列因数分解手法を設計しようとしています。これについて2つの質問があります。 最初に、映画の推奨のための行列因数分解手法について見た単純な実装で、作成者は潜在特徴の次元を初期化し、2つの潜在特徴のユーザーマトリックスとアイテムマトリックスのKと呼びましょう。定数Kを2としましょう。彼の潜在的な特徴行列PとQのNXKとMXKでした。Rは、NXM次元(NユーザーとMアイテム)で近似しようとしている元のユーザーアイテム評価マトリックスです。だから私の質問は、この場合に定数に設定するのではなく、どのようにして最適な「K」(潜在的な特徴の数)を決定するのですか? また、特定のユーザーの平均評価、ユーザーの性別、user_locationなど、私のデータセットに既にあるユーザーまたはアイテムの情報を、最終的な推奨を行いながら、行列分解のこの結果に組み込む方法もあります(私は推測)多分、他のコンテンツベースのフィルタリングモデルで表されるユーザーとアイテムの情報との混合モデルと、行列因数分解モデルが機能するでしょうか?) 1>最初の質問は、潜在的な特徴の最適な数をどのように決定するかですK 2>行列因数分解とコンテンツベースのフィルタリングの混合モデルを実装する最近の文献を知っている人はいます(人口統計情報を表す唯一の方法だと思うので)共通機能スペース内のユーザーとアイテムの数。)

3
SPSSを使用した2x3混合設計ANOVAの事後テスト?
実験中に3回評価された10人の参加者の2つのグループがあります。グループ間および3つの評価全体の違いをテストするために、group(コントロール、実験)、time(最初、2、3)、およびを使用して2x3混合設計ANOVAを実行しましたgroup x time。両方timeとgroup有意な相互作用があったほか、重大な結果group x time。 グループメンバーシップに関しても、3回の評価の違いをさらにチェックする方法をよく知りません。実際、最初は、ANOVAのオプションで、ボンフェローニの補正を使用してすべての主要な効果を比較することだけを指定しました。しかし、この方法で、グループを区別せずに、サンプル全体の時間の違いをこのように比較したことに気付きましたね。 したがって、可能な解決策を見つけるためにインターネットでたくさん検索しましたが、結果はほとんどありませんでした。私と同じようなケースは2つしか見つかりませんでしたが、解決策は逆です! 記事では、混合設計の後、著者らは被験者ごとに1つずつ、2回の反復測定ANOVAを事後的に実行しました。このようにして、2つのグループは修正なしで個別に分析されます。 インターネットのガイドでは、混合ANOVAの実行中に、SPSS構文のCOMPARE(time) ADJ(BONFERRONI)直後にを手動で追加すると述べています/EMMEANS=TABLES(newgroup*time)。このように、3つの時間はグループごとに個別に比較されます。ボンフェローニ補正を使用すると、私は正しいのでしょうか。 どう思いますか?どちらが正しい方法でしょうか?
8 anova  mixed-model  spss  post-hoc  bonferroni  time-series  unevenly-spaced-time-series  classification  normal-distribution  discriminant-analysis  probability  normal-distribution  estimation  sampling  classification  svm  terminology  pivot-table  random-generation  self-study  estimation  sampling  estimation  categorical-data  maximum-likelihood  excel  least-squares  instrumental-variables  2sls  total-least-squares  correlation  self-study  variance  unbiased-estimator  bayesian  mixed-model  ancova  statistical-significance  references  p-value  fishers-exact  probability  monte-carlo  particle-filter  logistic  predictive-models  modeling  interaction  survey  hypothesis-testing  multiple-regression  regression  variance  data-transformation  residuals  minitab  r  time-series  forecasting  arima  garch  correlation  estimation  least-squares  bias  pca  predictive-models  genetics  sem  partial-least-squares  nonparametric  ordinal-data  wilcoxon-mann-whitney  bonferroni  wilcoxon-signed-rank  traminer  regression  econometrics  standard-error  robust  misspecification  r  probability  logistic  generalized-linear-model  r-squared  effect-size  gee  ordered-logit  bayesian  classification  svm  kernel-trick  nonlinear  bayesian  pca  dimensionality-reduction  eigenvalues  probability  distributions  mathematical-statistics  estimation  nonparametric  kernel-smoothing  expected-value  filter  mse  time-series  correlation  data-visualization  clustering  estimation  predictive-models  recommender-system  sparse  hypothesis-testing  data-transformation  parametric  probability  summations  correlation  pearson-r  spearman-rho  bayesian  replicability  dimensionality-reduction  discriminant-analysis  outliers  weka 

2
レコメンダーシステムでリコールを測定することは意味がありますか?
私は、(映画のランキングや多くのユーザーの何であれ)ユーザーが視聴する10のおすすめの映画のリストを作成する推奨システムを構築していると仮定します。私がいくつかの大きな映画アイテムのプールと、ユーザーが実際に視聴することに決めた映画と一緒にユーザーの評価のログがあるとします。したがって、このデータセットを使用してシステムを評価したいと思います。 これらの「いくつかの良いアイテムを提案する」タスクは通常、精度、再現率、F1スコアを使用して評価されることを文献で確認しました(たとえば[1]を参照)。特に「10での精度」に興味があると思います。しかし、私が上記のシナリオでこれらの測定値をどのように計算するか(またはそれらが意味をなすかどうか)はよくわかりません。 どうやら、好ましいのは、サンプルを「トレーニング」と「テスト」の部分にランダムに分割することです。次に、トレーニングデータをアルゴリズムにフィードして、10個の予測のリストを作成できるようにします。 正確な並べ替えが意味をなすようになったので、10個の予測から、テストデータでユーザーが見た映画に実際にどれだけあるかを確認できます。 ただし、思い出してください。ユーザーがテストデータで多数の映画を視聴した場合、たとえば50程度です。「良い」リコールスコアを取得する方法はありません。これは、私のシステムが10本の映画しか制作しないように制限されており、最大で1/5 = 0.2のリコールしか得られないためです。 または、ユーザーの「次に視聴した10本の」映画を推測するためだけにテストを制限すると(「完全な再現」が得られる可能性があるため)、精度と再現は常にまったく同じ数になります(推奨数とユーザーに関連する数は同じで、精度と再現率も常に同じです)。 私は何か間違ったことをしていますか?または、これらのメトリックは、検討中のシナリオではあまり意味がありませんか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.