タグ付けされた質問 「recommender-system」

レコメンダーシステムに関するすべて

4
潜在的な特徴の意味?
推奨システムの行列因子分解について学習しており、この用語latent featuresが頻繁に出現するのを見ていますが、それが何を意味するのか理解できません。機能が何であるかは知っていますが、潜在的な機能の概念がわかりません。説明してください。または、少なくともそれについて読むことができる紙/場所を指し示しますか?


2
共同フィルタリングを使用した追加機能を備えた映画の推奨
協調フィルタリングを使用して推奨システムを構築しようとしています。私はいつもの[user, movie, rating]情報を持っています。「言語」や「映画の長さ」などの追加機能を組み込みたいです。このような問題にどのようなテクニックを使用できるかはわかりません。 python / Rの参照またはパッケージを提案してください。

2
Mahoutのアイテムベースとユーザーベースの推奨の違い
ユーザーベースの推奨事項とアイテムベースの推奨事項がどれだけ正確に異なるかを知りたい。 それを定義します ユーザーベース:同様のユーザーを見つけてアイテムを推奨します。多くの場合、ユーザーの動的な性質のため、これをスケーリングするのは困難です。 アイテムベース:アイテム間の類似性を計算し、推奨事項を作成します。通常、アイテムはあまり変化しないため、多くの場合、オフラインで計算できます。 しかし、2種類の推奨事項がありますが、私が理解しているのは、これらの両方が何らかのデータモデル(たとえば、1,2または1,2、.5としてitem1、item2、valueまたはuser1、user2、valueが値ではない場合)必須)そして、選択した類似度測定値とリコメンダービルトイン関数としてすべての計算を実行し、同じデータに対してユーザー/アイテムベースの推奨の両方を実行できます(これは正しい仮定ですか??)。 したがって、これら2つのタイプのアルゴリズムがどのように正確にどの側面で異なるかを知りたいと思います。

2
プリファレンスマッチングアルゴリズム
次の問題の解決策を構築する必要がある場所で作業しているこのサイドプロジェクトがあります。 私は2つのグループの人々(クライアント)を持っています。グループAはB決まった製品を購入し、グループは売却するつもりですX。製品は、一連の属性を持っているx_i、と私の目的は、間の取引を促進することであるAとB自分の好みを照合することによってを。主なアイデアはA、Bその製品が彼のニーズにより適しているか、その逆の対応する各メンバーを指摘することです。 問題の複雑な側面: 属性のリストは有限ではありません。バイヤーは非常に特定の特性またはある種のデザインに興味があるかもしれませんが、これは人口の間ではまれであり、私は予測できません。以前にすべての属性をリストすることはできません。 属性は、連続、バイナリ、または数量化不可能(例:価格、機能、デザイン); この問題にアプローチし、自動化された方法で解決する方法に関する提案はありますか? また、可能であれば、他の同様の問題への参照も歓迎します。 素晴らしい提案!私が問題にアプローチすることを考えている方法との多くの類似点。 属性のマッピングに関する主な問題は、製品を説明する詳細レベルが各バイヤーに依存することです。車の例を見てみましょう。製品「車」には、性能、機械的構造、価格など、さまざまな属性があります。 安い車か電気自動車が欲しいだけだとしよう。わかりました。この製品の主な機能を表しているため、マッピングは簡単です。しかし、たとえば、デュアルクラッチトランスミッションまたはキセノンヘッドライトを搭載した車が欲しいとしましょう。データベースにはこの属性を持つ多くの車が存在する可能性がありますが、それらを探している人がいるという情報の前に、売り手にこのレベルの詳細を製品に入力するように頼みません。そのような手順では、すべての売り手がプラットフォームで自分の車を売ろうとする複雑で非常に詳細なフォームに記入する必要があります。うまくいきません。 しかし、それでも、私の課題は、検索で必要なだけ詳細になり、良い一致をすることです。したがって、私が考えているのは、潜在的な売り手のグループを絞り込むために、おそらく誰にでも関係のある製品の主要な側面をマッピングすることです。 次のステップは「洗練された検索」です。あまりにも詳細なフォームを作成しないようにするために、買い手と売り手に仕様のフリーテキストを書くよう依頼することができます。そして、いくつかの単語照合アルゴリズムを使用して、可能な一致を見つけます。売り手は買い手が必要とするものを「推測」できないため、これは問題の適切な解決策ではないことを理解していますが。しかし、私を近づけるかもしれません。 提案された重み付け基準は素晴らしいです。これにより、売り手が買い手のニーズと一致するレベルを定量化できます。ただし、各属性の重要性はクライアントごとに異なるため、スケーリング部分は問題になる可能性があります。何らかのパターン認識を使用するか、各購入者に各属性の重要度を入力するように依頼することを考えています。

1
LSTMセルはいくつ使用すればよいですか?
使用する必要があるLSTMセルの最小、最大、および「妥当な」量に関する経験則(または実際の規則)はありますか?具体的には、TensorFlowとプロパティのBasicLSTMCellに関連していnum_unitsます。 私が定義する分類問題があると仮定してください: t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples たとえば、トレーニングの例の数は次の数よりも多い必要がありますか? 4*((n+1)*m + m*m)*c cセルの数はどこですか?これに基づいています:LSTMネットワークのパラメーターの数を計算する方法?私が理解しているように、これはパラメータの総数を与えるはずであり、トレーニング例の数よりも少なくなければなりません。
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

3
Python用のすぐに使える優れた言語モデルはありますか?
私はアプリケーションのプロトタイプを作成していますが、生成されたいくつかの文の複雑さを計算するための言語モデルが必要です。 すぐに使用できるPythonのトレーニング済み言語モデルはありますか?のような単純なもの model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 一部のフレームワークを確認しましたが、必要なものが見つかりませんでした。私は次のようなものを使用できることを知っています: from nltk.model.ngram import NgramModel lm = NgramModel(3, brown.words(categories='news')) これはブラウンコーパスの優れたチューリング確率分布を使用していますが、1bワードデータセットなどの大きなデータセットで巧妙に作成されたモデルを探していました。一般的なドメイン(ニュースだけでなく)の結果を実際に信頼できるもの
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 


3
科学計算に最適な言語[終了]
閉じた。この質問はより集中する必要があります。現在、回答を受け付けていません。 この質問を改善したいですか?この投稿を編集するだけで1つの問題に焦点を当てるように質問を更新します。 5年前に閉鎖されました。 ほとんどの言語では、いくつかの科学計算ライブラリが利用できるようです。 Pythonは Scipy Rust 持っている SciRust C++持っているなど、いくつかのViennaCLとArmadillo Java持っているJava NumericsとColtだけでなく、他のいくつかの 以下のような言語は言うまでもありませんRし、Julia科学技術計算のために明示的に設計されています。 非常に多くのオプションを使用して、タスクに最適な言語をどのように選択しますか?さらに、どの言語が最もパフォーマンスが高くなりますか?PythonそしてR宇宙の中で最も牽引力を持っているように見えるが、それは、より良い選択となるように、論理的にコンパイルされた言語がそうです。そして、これまでに何よりも優れているFortranでしょうか?さらに、コンパイルされた言語はGPUアクセラレーションを備えている傾向がありますが、インタープリター言語はそうではRありPythonません。言語を選択するときは何を考慮すればよいですか。また、ユーティリティとパフォーマンスのバランスが最も良い言語はどれですか。また、私が見逃した重要な科学計算リソースを持つ言語はありますか?
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

1
Spark ALS:新規ユーザーに推奨
質問 SparkでトレーニングされたALSモデルで新しいユーザーの評価を予測するにはどうすればよいですか?(新規=トレーニング時間中には表示されません) 問題 私はここで公式のSpark ALSチュートリアルに従っています: http://ampcamp.berkeley.edu/big-data-mini-course/movie-recommendation-with-mllib.html まともなMSEで良いレコメンダーを構築できますが、新しいデータをモデルに入力する方法に苦労しています。このチュートリアルでは、トレーニング前に最初のユーザーの評価を変更していますが、これは実際にはハックです。彼らは次のヒントを与えます: 9.2。行列係数の増加: このチュートリアルでは、トレーニングセットに評価を追加します。推奨事項を取得するためのより良い方法は、最初に行列因数分解モデルをトレーニングしてから、評価を使用してモデルを拡張することです。これが面白そうに思える場合は、MatrixFactorizationModelの実装を確認し、新しいユーザーと新しい映画のモデルを更新する方法を確認できます。 ただし、この実装は私にはまったく役立ちません。理想的には、私は次のようなものを探しています: predictions = model.predictAllNew(newinput) しかし、そのような方法は存在しません。元のRDDを変更することもできますが、モデルを再トレーニングする必要があるため、それも理想的なソリューションではありません。きっともっとエレガントな方法があるに違いない? 私が今いるところ: 新しいベクトルの潜在的な表現を見つける必要があると思います。元の論文によると、次のように計算できます。 バツあなた= (YTCあなたY+ λのI)− 1YTCあなたp (u )バツあなた=(YTCあなたY+λ私)−1YTCあなたp(あなた)X_u = (Y^T C^u Y + \lambda I)^{-1} Y^T C^u p(u) CあなたCあなたC^u 私の現在の試み: V = model.productFeatures().map(lambda x: (x[1])).collect() #product latent matrix Y Cui = alpha * np.abs(newinput) Cui = …

3
数学の畳み込みとCNNの関係
畳み込みの説明を読んである程度理解しました。誰かがこの操作がたたみ込みニューラルネットのたたみ込みにどのように関連しているかを理解するのを手伝ってくれませんか?gウェイトをかけるフィルターのような機能ですか?
10 machine-learning  neural-network  deep-learning  cnn  convolution  machine-learning  ensemble-modeling  machine-learning  classification  data-mining  clustering  machine-learning  feature-selection  convnet  pandas  graphs  ipython  machine-learning  apache-spark  multiclass-classification  naive-bayes-classifier  multilabel-classification  machine-learning  data-mining  dataset  data-cleaning  data  machine-learning  data-mining  statistics  correlation  machine-learning  data-mining  dataset  data-cleaning  data  beginner  career  python  r  visualization  machine-learning  data-mining  nlp  stanford-nlp  dataset  linear-regression  time-series  correlation  anomaly-detection  ensemble-modeling  data-mining  machine-learning  python  data-mining  recommender-system  machine-learning  cross-validation  model-selection  scoring  prediction  sequential-pattern-mining  categorical-data  python  tensorflow  image-recognition  statistics  machine-learning  data-mining  predictive-modeling  data-cleaning  preprocessing  classification  deep-learning  tensorflow  machine-learning  algorithms  data  keras  categorical-data  reference-request  loss-function  classification  logistic-regression  apache-spark  prediction  naive-bayes-classifier  beginner  nlp  word2vec  vector-space-models  scikit-learn  decision-trees  data  programming 

3

3
ユーザーがすべてのアイテムの一部しか表示できない状況での推奨エンジンは何ですか?
ドキュメント管理システムにレコメンデーション機能を追加したい。ほとんどの会社のドキュメントが保存されているサーバーです。従業員はWebインターフェイスを閲覧し、必要なドキュメントをクリックしてダウンロード(またはオンラインで読む)します。 各従業員は、すべてのドキュメントのサブセットにのみアクセスできます。 私の目標:チームメイトが最近開いたドキュメント、または開いたばかりのドキュメント、または読みたいものの付属文書として機能するスプレッドシートを従業員にお勧めします。 公開データには多くの推奨エンジンがあります(すべてのNetflixユーザーはすべての映画を見ることができます)が、ここでの状況は特別です:各従業員はすべてのドキュメントの一部のみにアクセス許可を持っていますが、Netflixではすべてのユーザーがすべての映画にアクセスできます。 例:Employee1はDocumentAを読み取ることができますが、DocumentBを読み取ることはできません。Employee2は両方を読み取ることができ、Employee3はいずれも読み取ることができません。 もちろん、私は彼女/彼女がアクセスできない文書を従業員に推薦してはなりません。さらに、ドキュメントへのアクセス権を持つ従業員のコンテキストでのみ、ドキュメントの人気を検討する必要があると思います。状況をさらに複雑にするために、従業員はプロジェクトから別のプロジェクトに移動する場合があり、アクセスできるドキュメントに影響を与えます。 この種の問題に名前はありますか? 精度/効率を損なうことなく、より一般的な種類の問題に削減できますか? そうでない場合、どのようなアプローチがこの種の問題に適していますか? 注:Netflixのような推奨エンジンでは十分ではありません。50のビューを持つドキュメントは、10人の従業員(私を含む)だけがアクセスできる場合は目立つはずですが、10万人の従業員がアクセスできる場合は目立ちません。 必要に応じて、いくつかのデータの詳細を以下に示します。平均的な会社には1000人の従業員がいて、約10000のドキュメントがあり、従業員は1日あたり約5つのドキュメントをクリックします。各プロジェクトには、平均して10人の従業員がアクセスし、約100のドキュメントがあります。各従業員は、平均5つのプロジェクトに並行して取り組んでいます。

2
協調フィルタリングのベンチマークデータセット
協調フィルタリングの新しいアルゴリズムをテストしたいのですが。典型的な使用例は、特定のユーザーと同様のユーザーの好みに基づいて映画を推薦することです。 研究者がアルゴリズムのテストによく使用する一般的なベンチマークデータセットは何ですか?コンピュータービジョンでは、人々がMNISTまたはCIFARを頻繁に使用することを知っていますが、協調フィルタリングのための同様のデータセットを見つけていません。

2
Amazonでのユーザーの購入行動をモデル化する方法は?
データサイエンスの最後のコースプロジェクトでは、次のことを提案しました。 与えるアマゾンのレビューデータセットを、私たちは、Amazonに広告を配置するための戦略的な位置を決定するアルゴリズム(約パーソナライズページランクに基づいてthatsの)を思い付くする予定。たとえば、Amazonには何百万もの商品があります。そして、データセットは、どの製品が関連しているか、どの製品がまとめられ、一緒に表示されたかなどのアイデアを提供します(この情報も表示および購入されたこの情報を使用してグラフを作成できます)。 14年。これらすべての情報を使用して、Amazonで製品を評価/ランク付けします。あなたは、Amazonのベンダーであり、製品ページへのトラフィックを改善したいと考えています。当社のアルゴリズムは、最大のトラフィックを引き出すことができるように広告を配置できるグラフ内の戦略的位置を特定するのに役立ちます。 今、私たちの教授の質問は、実際のユーザーなしでアルゴリズムをどのように検証するのですか?私たちは言った- ユーザーの固定セットをモデル化できます。一部のユーザーは、第1ホップまたは第5ホップよりも頻繁に第3ホップをフォローalso_boughtしてalso_viewedリンクします。そこにユーザーの行動は通常分散されます。他の一部のユーザーは、最初のホップを超えて移動することはほとんどありません。この一連のユーザーの行動は指数関数的に分散されます。 私たちの教授は言った-ユーザーがどのようなディストリビューションをフォローしても、ユーザーは同様の製品のリンクを使用してナビゲートしています。また、ランク付けアルゴリズムは、類似性b / w 2製品を考慮して製品をランク付けします。そのため、この検証アルゴリズムを使用するのはちょっと簡単cheatingです。アルゴリズムに対してより現実的で直交する、他のユーザーの動作が付属しています。 ユーザーの行動をモデル化する方法に関するアイデアはありますか?アルゴについての詳細を提供させていただきます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.