タグ付けされた質問 「dataset」

データセットは、データのコレクションであり、多くの場合、表形式またはマトリックス形式です。このタグはデータリクエスト用ではありません(「どこでデータセットを見つけることができますか」など)-> OpenDataを参照

3
NASDAQ取引データ
練習する株式データを見つけようとしていますが、これに適したリソースはありますか?私はこれを見つけました:ftp : //emi.nasdaq.com/ITCH/ですが、現在の年しかありません。 私はすでにプロトコルを解析する方法を持っていますが、比較するためにいくつかのデータが欲しいです。価格、取引、日付の統計情報がある限り、同じ形式である必要はありません。

1
HDF5は、別個のpythonプロセスによって同時に確実に読み書きできますか?
このプロジェクトのデータセット全体が含まれる単一のHDF5ファイルにライブデータを経時的に記録するスクリプトを書いています。私はPython 3.6を使用clickしていて、データの収集に使用するコマンドラインツールを作成することにしました。 私の懸念は、データ収集スクリプトがHDF5ファイルに書き込んでいて、まだ作成されていないMLアプリケーションが同じファイルからデータを読み取ろうとするとどうなるかです。 私はHDF5パラレルI / Oに関するHDFグループのドキュメントを調べましたが、それではあまりわかりませんでした。
9 python  dataset 

2
協調フィルタリングのベンチマークデータセット
協調フィルタリングの新しいアルゴリズムをテストしたいのですが。典型的な使用例は、特定のユーザーと同様のユーザーの好みに基づいて映画を推薦することです。 研究者がアルゴリズムのテストによく使用する一般的なベンチマークデータセットは何ですか?コンピュータービジョンでは、人々がMNISTまたはCIFARを頻繁に使用することを知っていますが、協調フィルタリングのための同様のデータセットを見つけていません。

2
Amazonでのユーザーの購入行動をモデル化する方法は?
データサイエンスの最後のコースプロジェクトでは、次のことを提案しました。 与えるアマゾンのレビューデータセットを、私たちは、Amazonに広告を配置するための戦略的な位置を決定するアルゴリズム(約パーソナライズページランクに基づいてthatsの)を思い付くする予定。たとえば、Amazonには何百万もの商品があります。そして、データセットは、どの製品が関連しているか、どの製品がまとめられ、一緒に表示されたかなどのアイデアを提供します(この情報も表示および購入されたこの情報を使用してグラフを作成できます)。 14年。これらすべての情報を使用して、Amazonで製品を評価/ランク付けします。あなたは、Amazonのベンダーであり、製品ページへのトラフィックを改善したいと考えています。当社のアルゴリズムは、最大のトラフィックを引き出すことができるように広告を配置できるグラフ内の戦略的位置を特定するのに役立ちます。 今、私たちの教授の質問は、実際のユーザーなしでアルゴリズムをどのように検証するのですか?私たちは言った- ユーザーの固定セットをモデル化できます。一部のユーザーは、第1ホップまたは第5ホップよりも頻繁に第3ホップをフォローalso_boughtしてalso_viewedリンクします。そこにユーザーの行動は通常分散されます。他の一部のユーザーは、最初のホップを超えて移動することはほとんどありません。この一連のユーザーの行動は指数関数的に分散されます。 私たちの教授は言った-ユーザーがどのようなディストリビューションをフォローしても、ユーザーは同様の製品のリンクを使用してナビゲートしています。また、ランク付けアルゴリズムは、類似性b / w 2製品を考慮して製品をランク付けします。そのため、この検証アルゴリズムを使用するのはちょっと簡単cheatingです。アルゴリズムに対してより現実的で直交する、他のユーザーの動作が付属しています。 ユーザーの行動をモデル化する方法に関するアイデアはありますか?アルゴについての詳細を提供させていただきます。

4
テキスト分類子トレーニングデータセットを提案する
テキスト分類子のトレーニングに使用できる自由に利用できるデータセットはどれですか? 私たちは、ユーザーに最も関連するコンテンツを推奨することでユーザーエンゲージメントを強化しようとしているため、事前定義された単語のバッグに基づいてコンテンツを分類した場合、すでに分類されたランダムな数の投稿に関するフィードバックを得ることで、ユーザーに魅力的なコンテンツを推奨できると考えました前。 この情報を使用して、これらのクラスでラベル付けされたパルスを彼に推奨できます。しかし、コンテンツに関連しない定義済みの単語のバッグを使用した場合、特徴ベクトルはゼロでいっぱいになることもわかりました。また、カテゴリはコンテンツに関連していない可能性があります。これらの理由により、コンテンツを分類せずにクラスタリングする別のソリューションを試しました。 ありがとう:)


1
レコメンダーシステムでトレーニング/テストを分割する方法
私はMovieLens10Mデータセットを使用して、ユーザーの評価を予測しています。アルゴリズムを公平に評価したい場合、トレーニングデータとテストデータをどのように分割すればよいですか? デフォルトでは、データはトレーニングとテストセットに分割されていると思います。「テスト」には、トレーニングセットでこれまで見られなかった映画が含まれています。モデルが各映画をトレーニングセットで少なくとも1回見たことが必要な場合、データをどのように分割すればよいですか?すべてのデータについて各ユーザーのN個を除くすべての評価を取得し、保留されているNxUser_num評価のパフォーマンスを評価する必要がありますか?

2
TwitterのRを使用して大規模なデータセットを保存する最良の方法は?
RのtwitteRライブラリを使用してTwitterから大量のデータセット(つまり、数日前のツイートデータ)を取得することを目的とするプロジェクトに取り組んでいます。私のマシンには8 GBのメモリしかないため、ツイートを保存することが困難です。1日取得するように設定する前でも、メモリが不足しています。RAMに保存せずにツイートをディスクに直接保存できる方法はありますか?古いツイートを取得する必要があるため、ストリーミングAPIを使用していません。
8 r  dataset 

3
データのロギング中のインタラクティブグラフ
私はグラフを作成し、ライブ/継続的に測定されたデータをインタラクティブに調査したいと考えています。非常に多くのオプションがあり、plot.lyが最もユーザーフレンドリーです。Plot.lyには、素晴らしく使いやすいUI(簡単にスケーラブル、パン、簡単にズーム/画面に合わせる)がありますが、収集する大量のデータを処理できません。誰かが代替案を知っていますか? 私はMATLABを持っていますが、これを同時に実行して同時に開発を行うための十分なライセンスがありません。私はLabVIEWが素晴らしい選択肢になることを知っていますが、それは現在非常に費用がかかります。 前もって感謝します!

1
指定された変数に直交する(相関しない)予測を生成する
私が持っているXマトリックス、y変数、および他の変数をORTHO_VAR。私はをy使用して変数を予測する必要がありますXが、そのモデルからの予測は、可能な限りORTHO_VAR相関する一方で、直交する必要がありますy。 私は予測がノンパラメトリックな方法で生成されることを望みxgboost.XGBRegressorますが、どうしても必要な場合は線形法を使用できます。 このコード: import numpy as np import pandas as pd from sklearn.datasets import make_regression from xgboost import XGBRegressor ORTHO_VAR = 'ortho_var' TARGET = 'target' PRED = 'yhat' # Create regression dataset with two correlated targets X, y = make_regression(n_features=20, random_state=245, n_targets=2) indep_vars = ['var{}'.format(i) for i in range(X.shape[1])] # …
8 correlation  machine-learning  dataset  logistic-regression  prediction  linear-regression  prediction  dummy-variables  neural-network  image-classification  python  k-nn  python  neural-network  neural-network  deep-learning  keras  tensorflow  image-classification  tensorflow  reinforcement-learning  policy-gradients  machine-learning  decision-trees  neural-network  overfitting  data-analysis  metric  python  scikit-learn  distance  scipy  machine-learning  python  scikit-learn  decision-trees  logistic-regression  keras  image-classification  implementation  machine-learning  python  scikit-learn  random-forest  decision-trees  machine-learning  feature-selection  feature-engineering  word2vec  word-embeddings  natural-language-process  scikit-learn  time-series  clustering  k-means  python  cross-validation  pyspark  statistics  cross-validation  multiclass-classification  evaluation  machine-learning  nlp  machine-translation  neural-network  deep-learning  keras  tensorflow  image-classification  machine-learning  python  similarity  distance  lstm  text  named-entity-recognition  machine-learning  keras  optimization  gan  learning-rate  neural-network  data-mining  dataset  databases  books  neural-network  rnn 

1
データセットの密度をどのように計算しますか?
協調フィルタリングについて詳しく調べています。本当に興味深い論文の1つは、「協調フィルタリングアルゴリズムの比較研究」http://arxiv.org/pdf/1205.3193.pdfです。 使用するCFアルゴリズムを選択するために、論文ではデータセットの密度を参照しています。データセットの密度を実際に計算する方法については説明していません。 それで、上記の論文の文脈では、誰でも私にデータセットの密度を計算する方法を説明するのを手伝ってくれる?この紙は、1〜5%の範囲の密度を定期的に参照しています。

4
役職の類似性
IT分野の役職間のメトリックを定義しようとしています。このため、同じ役職で一緒に表示されない役職の単語間のいくつかのメトリックが必要です。たとえば、単語間のメトリック シニア、プライマリ、リード、ヘッド、VP、ディレクター、スタッフ、プリンシパル、チーフ、 または言葉 アナリスト、エキスパート、モデラー、研究者、科学者、開発者、エンジニア、建築家。 どのように私はそれらの距離でそのような可能な単語をすべて得ることができますか?

1
多言語感情コーパスについて
各記事にポジティブ、ニュートラル、ネガティブのラベルが付けられた複数の言語のニュース記事(機械学習実験では1言語あたり100k以下)の感情コーパスをコンパイルしたいと考えています。私は高低を検索しましたが、このようなものはありませんでした。私はすでに各言語のニュース記事を持っています。 コミュニティへの私の質問は、これを可能な限り正確に達成するにはどうすればよいですか? 私は最初にMechanical Turkを見ていた。そこでは、各記事に手動でラベルを付けるために人々を雇うことができる。そして、これは前進する最善の方法かもしれませんが、高価です。 次に、感情分析を行う既存の人気のあるすべてのライブラリ(既にMechanical Turkを使用しているものもある)(AFINN、Bing Liu、MPQA、VADER、TextBlobなど)について考えました。 センチメントのアイデア 私の現在のアイデアは、これらのライブラリのいくつか(たとえば、AFINN、次にTextBlob、次にVADER)で各ニュース記事を実行し、3つのライブラリすべてがコーパスに受け入れられているにもかかわらず、満場一致でポジティブ、ネガティブ、ニュートラルを示す記事についてです。それはかなり強力で合理的な検証プロセスのように見えますか? 言語のアイデア 次の問題は言語自体に関係しています。上記の3 libパイプラインは英語で問題なく実行できます。ただし、これらのライブラリは他の多くの言語(スペイン語、ドイツ語、中国語、アラビア語、フランス語、ポルトガル語など)を均一にサポートしていません。それらを英語に変換し、上記の既存の3 libパイプラインを介して送信するためのAPI。多くの記事のセマンティクスが失われることは確かです。しかし、私の期待は、十分な記事が十分に翻訳され、一部が3 libパイプラインを通過することです。 このトリプルブラインド感情パイプを使用してニュース記事を翻訳および送信すると、10万のコーパスが必要になり、1万の結果が得られる可能性があることを知っています。私はそれで大丈夫です。精度と価格が私の懸念事項です。より多くのデータを簡単に取得できます。 ニュース記事の感情コーパスを達成するためのより正確な方法は何ですか。このようなコーパスを組み立てるための既存のベストプラクティスはありますか?

1
分類の課題に使用されるImageNet ILSVRC 2012データを取得するにはどうすればよいですか?
画像のネット結果の一部を再現できるかどうかを確認したいと思います。しかし、ILSVRC 2012(またはそれ以降)の分類の課題でトレーニング/テストに使用されたデータ(URLのリスト)が見つかりませんでした。http://www.image-net.org/download-imageurlsしか見つかりませんでした。 ImageNet ILSVRC 2012(またはそれ以降)の分類の課題に使用されるデータはどこにありますか?

3
多数の値に対する1つのホットエンコーディング
カテゴリ変数が取り得る値の数が多い場合、1つのホットエンコーディングをどのように使用しますか? 私の場合は56の値です。そのため、通常の方法のように、トレーニングデータセットに56列(56バイナリフィーチャ)を追加する必要があります。これにより、複雑さが大幅に増加し、トレーニング時間が増加します。 それでは、このような場合にどのように対処しますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.