データサイエンス dataset

6

私はデータマイニングのCSマスター学生です。私のスーパーバイザーは、分類器を実行したり、データセットを使用したりする前に、データを完全に理解し、データがクリーンで正しいことを確認する必要があると言いました。私の質問：データセットを理解するためのベストプラクティスは何ですか（数値属性と名義属性を持つ高次元）？データセットがクリーンであることを確認するためのプラクティス？データセットの値が間違っていないことを確認する方法

13 statistics dataset

2

トレーニングおよびテストデータの変数が大文字で定義されているのはなぜですか（Python）。

この質問がこのサイトで最も適切であることを願っています... Pythonでは、通常、クラス名は最初の文字として大文字を使用して定義されます。次に例を示します。 class Vehicle: ... しかし、機械学習の分野では、しばしば回は訓練し、試験データは以下のように定義されているXとY-ではないxとy。たとえば、私は現在Kerasでこのチュートリアルを読んでいますが、変数としてXおよびYを使用しています： from sklearn import datasets mnist = datasets.load_digits() X = mnist.data Y = mnist.target なぜこれらは大文字として定義されているのですか？これらの変数を定義するために大文字を使用する方が良いという、機械学習分野の間に（少なくともPythonでは）慣例はありますか？あるいは、人々は機械学習で大文字と小文字の変数を区別しますか？実際、同じチュートリアルが後でこれらの変数を次のように区別します。 from sklearn.cross_validation import train_test_split train_X, test_X, train_y, test_y = train_test_split(X, Y, train_size=0.7, random_state=0)

13 python dataset

4

大きなカテゴリ値のホットエンコーディングの代替手段の1つ？

こんにちは1600カテゴリを超える大きなカテゴリ値を持つデータフレームがあります。1600列を超えないように代替手段を見つける方法はありますか。私はこれを興味深いリンクの下に見つけましたhttp://amunategui.github.io/feature-hashing/#sourcecode しかし、彼らは私が望まないクラス/オブジェクトに変換しています。さまざまな機械学習モデルでテストできるように、最終出力をデータフレームとして必要ですか？または、生成された行列を使用して、ロジスティック回帰またはXGBoost以外の他の機械学習モデルをトレーニングする方法はありますか？とにかく実装できますか？

13 machine-learning dataset dimensionality-reduction encoding

2

データの不均衡を処理する必要があるのはなぜですか？

データの不均衡に対処する必要がある理由を知る必要があります。私はそれをどのように扱うか、アップサンプリングまたはダウンサンプリング、またはSmoteを使用することで問題を解決するためのさまざまな方法を知っています。たとえば、100のうち1％のまれな疾患があり、トレーニングセットに50/50サンプルのバランスのとれたデータセットを使用することに決めたとします。疾患？比率が100分の1であっても。データの不均衡に対処する必要があるのはなぜですか？バランスを設定するための推奨比率は何ですか

12 classification dataset sampling class-imbalance

2

航空運賃-競争力のある価格設定行動と価格の相関関係を検出するには、どのような分析を使用する必要がありますか？

航空会社の価格設定行動、特に競合他社の価格設定に対する航空会社の反応を調査したいと思います。より複雑な分析についての私の知識はかなり限られていると言えますが、データの全体的なビューを収集するために、ほとんどすべての基本的な方法を実行しました。これには、類似のパターンを識別するのにすでに役立つ簡単なグラフが含まれます。SAS Enterprise 9.4も使用しています。しかし、私はより多くの数値ベースのアプローチを探しています。データセット私が使用している（自己）収集データセットには、約54.000の運賃が含まれています。すべての運賃は、毎日（毎晩00:00）60日以内に収集されました。したがって、その時間枠内のすべての運賃は、運賃の利用可能日および運賃の回収日までに通過するフライトの出発日を条件としてnnn回発生します。（フライトの出発日が過去の場合、フライトの運賃を徴収することはできません）基本的に次のように見える書式なし：（偽のデータ） +--------------------+-----------+--------------------+--------------------------+---------------+ | requestDate | price| tripStartDeparture | tripDestinationDeparture | flightCarrier | +--------------------+-----------+--------------------+--------------------------+---------------+ | 14APR2015:00:00:00 | 725.32 | 16APR2015:10:50:02 | 23APR2015:21:55:04 | XA | +--------------------+-----------+--------------------+--------------------------+---------------+ | 14APR2015:00:00:00 | 966.32 | 16APR2015:13:20:02 | 23APR2015:19:00:04 | XY | +--------------------+-----------+--------------------+--------------------------+---------------+ | 14APR2015:00:00:00 | 915.32 …

12 data-mining dataset regression correlation visualization

4

ウェブ上の大きなデータセットをAWS S3に直接ダウンロードする

大規模なデータセットをURLからAmazon S3にインポートできるかどうか誰かが知っていますか？基本的に、私は巨大なファイルをダウンロードして、それをWebポータルからS3に再アップロードしないようにします。ダウンロードURLをS3に提供し、ファイルシステムにダウンロードされるのを待ちたいだけです。簡単なことのように思えますが、ドキュメントが見つかりません。

12 dataset aws

1

LSTMセルはいくつ使用すればよいですか？

使用する必要があるLSTMセルの最小、最大、および「妥当な」量に関する経験則（または実際の規則）はありますか？具体的には、TensorFlowとプロパティのBasicLSTMCellに関連していnum_unitsます。私が定義する分類問題があると仮定してください： t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples たとえば、トレーニングの例の数は次の数よりも多い必要がありますか？ 4*((n+1)*m + m*m)*c cセルの数はどこですか？これに基づいています：LSTMネットワークのパラメーターの数を計算する方法？私が理解しているように、これはパラメータの総数を与えるはずであり、トレーニング例の数よりも少なくなければなりません。

12 rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

3

Python用のすぐに使える優れた言語モデルはありますか？

私はアプリケーションのプロトタイプを作成していますが、生成されたいくつかの文の複雑さを計算するための言語モデルが必要です。すぐに使用できるPythonのトレーニング済み言語モデルはありますか？のような単純なもの model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 一部のフレームワークを確認しましたが、必要なものが見つかりませんでした。私は次のようなものを使用できることを知っています： from nltk.model.ngram import NgramModel lm = NgramModel(3, brown.words(categories='news')) これはブラウンコーパスの優れたチューリング確率分布を使用していますが、1bワードデータセットなどの大きなデータセットで巧妙に作成されたモデルを探していました。一般的なドメイン（ニュースだけでなく）の結果を実際に信頼できるもの

11 python nlp language-model r statistics linear-regression machine-learning classification random-forest xgboost python sampling data-mining orange predictive-modeling recommender-system statistics dimensionality-reduction pca machine-learning python deep-learning keras reinforcement-learning neural-network image-classification r dplyr deep-learning keras tensorflow lstm dropout machine-learning sampling categorical-data data-imputation machine-learning deep-learning machine-learning-model dropout deep-network pandas data-cleaning data-science-model aggregation python neural-network reinforcement-learning policy-gradients r dataframe dataset statistics prediction forecasting r k-means python scikit-learn labels python orange cloud-computing machine-learning neural-network deep-learning rnn recurrent-neural-net logistic-regression missing-data deep-learning autoencoder apache-hadoop time-series data preprocessing classification predictive-modeling time-series machine-learning python feature-selection autoencoder deep-learning keras tensorflow lstm word-embeddings predictive-modeling prediction machine-learning-model machine-learning classification binary theory machine-learning neural-network time-series lstm rnn neural-network deep-learning keras tensorflow convnet computer-vision

2

機械学習モデルをトレーニングするのに十分な量のデータはありますか？

私はしばらくの間機械学習とバイオインフォマティクスに取り組んできましたが、今日、データマイニングの主な一般的な問題について同僚と会話しました。私の同僚（機械学習のエキスパート）は、彼の意見では、機械学習の間違いなく最も重要な実用的な側面は、機械学習モデルをトレーニングするのに十分なデータを収集したかどうかを理解する方法だと述べました。私はこの側面をそれほど重視していなかったので、この発言は私を驚かせました... その後、インターネットで詳細情報を探したところ、FastML.comのレポートで、この投稿は経験則として、機能の約10倍のデータインスタンスが必要であることがわかりました。 2つの質問： 1-この問題は機械学習に特に関連していますか？ 2 - 10倍の作業を支配ですか？このテーマに関連する他のソースはありますか？

11 machine-learning data-mining dataset data-cleaning data

4

株式の時価総額および毎日の売上高データはどこでダウンロードできますか？

過去の株価データを提供するソースはたくさんありますが、OHLCフィールドとボリュームおよび調整済み終値のみを提供しています。また、私が見つけたいくつかの出典は時価総額データセットを提供していますが、それらは米国株に制限されています。Yahoo Financeはこのデータをオンラインで提供していますが、ダウンロードするオプションはありません（または私が知っているものはありません）。ティッカー名を使用して国のさまざまなトップ証券取引所に属する株式のこのデータをどこでダウンロードできますか？ Yahoo FinanceやGoogle Financeからダウンロードする方法はありますか？過去10年間のデータが必要なので、これを行うスクリプトまたはAPIが必要です。

11 dataset

3

データセットを不均衡と見なす必要があるのはいつですか？

データセット内の正と負の例の数が不均衡な状況に直面しています。私の質問は、データセットである種のバランシングを強制するために大きなカテゴリをサブサンプリングする必要があるときを教えてくれる経験則がありますか？例：正の例の数が1,000で負の例の数が10,000の場合、データセット全体で分類器をトレーニングする必要がありますか、それとも負の例をサブサンプリングする必要がありますか？ 1,000の正の例と100,000の負の例についても同じ質問です。 10,000人が肯定的で1,000人が否定的である場合も同じ質問です。等...

10 classification dataset sampling class-imbalance

3

ネットワーク分析のクラシックデータセット

機械学習の分類/回帰タスクには、いくつかの古典的なデータセットがあります。最も人気のあるものは：アイリスフラワーデータセット ; タイタニックデータセット ; モータートレンドカー ; 等しかし、誰もがネットワーク分析/グラフ理論のための同様のデータセットを知っていますか？より具体的- 比較/評価/学習のためのゴールド標準データセットを探しています：中心性対策; ネットワーククラスタリングアルゴリズム。公開されているネットワークやグラフの膨大なリストは必要ありませんが、実際に知っておくべきデータセットがいくつかあります。編集：「ゴールドスタンダードデータセット」に正確な機能を提供することは非常に困難ですが、ここではいくつかの考えを示します。実際のクラシックデータセットは次の基準を満たす必要があると思います。記事や教科書の複数の参照; 有名なネットワーク分析ソフトウェアパッケージに含まれています。十分な存在時間; グラフ分析に関する多くのコースでの使用。私の関心分野については、頂点のラベル付きクラス、および/または事前計算された（または事前定義された）「オーソリティスコア」（つまり、中心性推定）も必要です。この質問をした後、私は検索を続けました、そしてここにいくつかの適切な例があります： Zacharyの空手クラブ：1977年に導入され、1.5K回以上引用され（Google Scholarによる）、頂点にはFaction属性があります（これはクラスタリングに使用できます）。 Erdos Collaboration Network：残念ながら、このネットワークはデータファイルの形式で見つかりませんが、かなり有名で、誰かが数学者の専門データでネットワークを充実させれば、クラスタリングアルゴリズムのテストにも使用できます。

10 dataset graphs

3

数学の畳み込みとCNNの関係

畳み込みの説明を読んである程度理解しました。誰かがこの操作がたたみ込みニューラルネットのたたみ込みにどのように関連しているかを理解するのを手伝ってくれませんか？gウェイトをかけるフィルターのような機能ですか？

10 machine-learning neural-network deep-learning cnn convolution machine-learning ensemble-modeling machine-learning classification data-mining clustering machine-learning feature-selection convnet pandas graphs ipython machine-learning apache-spark multiclass-classification naive-bayes-classifier multilabel-classification machine-learning data-mining dataset data-cleaning data machine-learning data-mining statistics correlation machine-learning data-mining dataset data-cleaning data beginner career python r visualization machine-learning data-mining nlp stanford-nlp dataset linear-regression time-series correlation anomaly-detection ensemble-modeling data-mining machine-learning python data-mining recommender-system machine-learning cross-validation model-selection scoring prediction sequential-pattern-mining categorical-data python tensorflow image-recognition statistics machine-learning data-mining predictive-modeling data-cleaning preprocessing classification deep-learning tensorflow machine-learning algorithms data keras categorical-data reference-request loss-function classification logistic-regression apache-spark prediction naive-bayes-classifier beginner nlp word2vec vector-space-models scikit-learn decision-trees data programming

3

Tensorflowでバッチ内積を行う方法は？

2つのテンソルがありa:[batch_size, dim] b:[batch_size, dim]ます。バッチ内のすべてのペアに対して内積を行い、を生成c:[batch_size, 1]しc[i,0]=a[i,:].T*b[i,:]ます。どうやって？

10 tensorflow scikit-learn svm cross-validation feature-selection bayesian machine-learning decision-trees parameter-estimation neural-network convnet neural-network regularization visualization machine-learning similarity python pandas indexing r data-cleaning machine-learning predictive-modeling data-cleaning recommender-system python sequential-pattern-mining software-recommendation r visualization gaussian distribution machine-learning data-mining bigdata apache-hadoop predictive-modeling logistic-regression sampling machine-learning regression feature-selection mongodb neural-network inception machine-learning classification dataset databases logistic-regression deep-learning backpropagation classification data-mining multilabel-classification text-mining data-cleaning unsupervised-learning anomaly-detection python r python pandas

2

線形回帰、ディシジョンツリー、またはランダムフォレスト回帰を選択するのはいつですか？[閉まっている]

休業。この質問には、より焦点を当てる必要があります。現在、回答を受け付けていません。この質問を改善してみませんか？質問を更新して、この投稿を編集するだけで1つの問題に焦点を当てます。 4年前休業。私はプロジェクトに取り組んでおり、どのアルゴリズムを選択するかを決定するのが困難ですregression。私は1つを選ぶ必要がありますどのような条件の下で知りたいlinear regressionか、Decision Tree regressionまたはRandom Forest regression？上記のツリーの中で特定のアルゴリズムに移行することを決定するデータの特定の特性はありますか？決定を下すためにデータセットを調べる必要がある特性は何ですか？そして、もう一つが選択になるだろういくつかの理由があるdecision treeかrandom forest、アルゴリズム同じ正しさをすることによって達成することができたとしてもはlinear regression？

10 machine-learning algorithms random-forest linear-regression decision-trees machine-learning predictive-modeling forecast r clustering similarity data-mining dataset statistics text-mining text-mining data-cleaning data-wrangling machine-learning classification algorithms xgboost data-mining dataset dataset regression graphs svm unbalanced-classes cross-validation optimization hyperparameter genetic-algorithms visualization predictive-modeling correlation machine-learning predictive-modeling apache-spark statistics normalization apache-spark map-reduce r correlation confusion-matrix r data-cleaning classification terminology dataset image-classification machine-learning regression apache-spark machine-learning data-mining nlp parsing machine-learning dimensionality-reduction visualization clustering multiclass-classification evaluation unsupervised-learning machine-learning machine-learning data-mining supervised-learning unsupervised-learning machine-learning data-mining classification statistics predictive-modeling data-mining clustering python pandas machine-learning dataset data-cleaning data bigdata software-recommendation

タグ付けされた質問 「dataset」

タグ付けされた質問「dataset」