タグ付けされた質問 「dataset」

データセットのリクエストは、このサイトではトピックから外れています。このタグは、データセットの作成、処理、または保守に関する質問に使用します。

3
最小限のメモリを使用してデータをトレーニングする最も効率的な方法は何ですか?
これは私のトレーニングデータです:200,000例x 10,000機能。したがって、私のトレーニングデータマトリックスは-200,000 x 10,000です。 各例の機能を生成するときに、すべてのデータセットを1つずつ(1つずつ)保存することで、メモリの問題なしにこれをフラットファイルに保存できました。 しかし、今、私がMilk、SVM light、またはその他の機械学習アルゴリズムを使用すると、すべてが1つずつトレーニングするのではなく、トレーニングデータ全体をメモリにロードしようとします。ただし、RAMが8 GBしかないので、この方法で進めることはできません。 とにかく、アルゴリズムを1つのデータセットごとにトレーニングできることを知っていますか?つまり、トレーニング中にいつでも1つのデータセットをメモリにロードするだけです。

3
さまざまな国での子供の統計教育?
世界のさまざまな国で子供たちがどのレベルの統計を学んでいるのか知りたいです。これに関して何が起こっているかを明らかにするデータ/リンクを提案していただけませんか? 始めます。イスラエル:多かれ少なかれ高度な数学の研究を行っている学生-平均、sd、ヒストグラム、正規分布、非常に基本的な確率。
10 dataset  teaching 


2
バケット化とは何ですか?
私は、機械学習の「バケット化」について、運が悪ければ明確な説明を探して回りました。これまで私が理解しているのは、バケット化は、連続する値の範囲が1つの離散値に置き換えられるデジタル信号処理の量子化に似ているということです。これは正しいです? バケット化を適用することの長所と短所(情報を失うことによる明らかな影響以外)は何ですか?バケット化の適用方法に関する経験則はありますか?機械学習を適用する前にバケット化を適用するためのガイドライン/アルゴリズムはありますか?


2
教えるための良いPCAの例
私はエンジニア、社会科学者、コンピュータープログラマーのクラスに線形代数を教えています。特異値分解を行ったばかりで、あと1日残っているので、特異値分解と主成分分析の関係について話そうと思いました。私は講義の理論の部分をうまく書いていますが、使用する良い例を見つけるのに苦労しています。ここに制約があります: 写真を見せたいです。理想的には、グラフィックス自体がうまく機能する必要があります。散布図の軸とデータポイントにラベルを付ける必要があります。英語の単語はラテン語の種名よりも優れています。 調査中の質問は興味深いはずです。ナイジェリアの魚の形態は重要ですが、クラスの注意を引くには良い方法ではありません。 前の箇条書きとは対照的に、人種の違いについては何もありません。知能テストについては何もありません。それは数学的手法とは何の関係もない活発な議論につながるでしょう。 数学的分析方法は、基本的に純粋なPCAである必要があります。DW-NOMINATEプロジェクトは素晴らしいものですが、PCAを開始点として使用し、その後にはるかに複雑な山登りアルゴリズムが続きます。 これは簡単だと思います。データを収集する時間があれば、私ができる12の楽しい分析プロジェクトを簡単に思いつくことができます。典型的な犬の品種の物理的特性を数十回測定し、PCAが「羊犬」のクラスターを見つけられるかどうかを確認します。Etcetera、etcetera ...私はそれを誇示できるように、すでに仕事をした人を探しています。 ここのタイムラインはかなりタイトだと思います。明日の午後(月曜日)に講義します。私は週末のほとんどをPCAのさまざまな興味深い分野での調査に費やし、それらが適切でないことを何度も繰り返し発見しました。
10 pca  dataset  teaching 

3
回帰を使用してデータ範囲外に投影しますか?大丈夫?時々大丈夫?
データ範囲外に投影するために回帰を使用することについてどう思いますか?線形またはべき乗モデルの形状に従うことが確かな場合、モデルはデータ範囲を超えて有用ではないでしょうか?たとえば、私は価格によって駆動されるボリュームを持っています。私は信じているデータ範囲外の価格を予測できるはずです。あなたの考え? VOL PRICE 3044 4.97 2549 4.97 3131 4.98 2708 4.98 2860 4.98 2907 4.98 3107 4.98 3194 4.98 2753 4.98 3228 4.98 3019 4.98 3077 4.99 2597 4.99 2706 4.99 3000 4.99 3022 4.99 3084 4.99 3973 4.99 3675 4.99 3065 4.99 3407 4.99 2359 4.99 2802 4.99 2589 …

2
リレーショナルデータからの学習
設定 多くのアルゴリズムは単一のリレーションまたはテーブルで動作しますが、実際のデータベースの多くは情報を複数のテーブルに格納します(Domingos、2003)。 質問 どのタイプのアルゴリズムが複数の(リレーショナル)テーブルからうまく学習しますか。特に、回帰と分類のタスクに適用可能なアルゴリズムに興味があります(リンク分析などのネットワーク分析指向のアルゴリズムではありません)。 以下にリストされているいくつかのアプローチを認識しています(しかし、いくつかのアプローチが欠けていることは確かです): マルチリレーショナルデータマイニング(MRDM)(Dzeroski、2002年) 帰納論理プログラミング(ILP)(Muggleton、1992) 統計的関係学習(SRL)(Getoor、2007年) Džeroski、S.(2003)。マルチリレーショナルデータマイニング:はじめに。ACM SIGKDD Explorationsニュースレター。 Getoor、Lise、およびBen Taskar編。統計的関係学習の紹介。MITプレス、2007年。 S.マグルトンとC.フェン 論理プログラムの効率的な導入。アルゴリズム学習理論に関する最初の会議の議事録、368–381ページ。オームシャ、東京、1990年。

1
観測されたイベントと期待されたイベントを比較する方法は?
4つの可能なイベントの頻度の1つのサンプルがあるとします。 Event1 - 5 E2 - 1 E3 - 0 E4 - 12 そして、私は自分のイベントの発生が予想される確率を持っています: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 4つのイベントの観測頻度の合計(18)を使用して、イベントの予想頻度を計算できますか? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

2
自分の機械学習実装のテストに役立つデータセットはどこにありますか?[閉まっている]
閉まっている。この質問はトピックから外れています。現在、回答を受け付けていません。 この質問を改善してみませんか? 質問を更新することがありますので、話題のクロス検証済みのため。 5年前休業。 現在、自分でいくつかの機械学習アルゴリズムを実装しようとしています。それらの多くはデバッグが難しいという厄介な特性を持っています。いくつかのバグはプログラムをクラッシュさせませんが、意図したとおりに機能せず、アルゴリズムがより弱い結果をもたらすように見えます。 いくつかの小さなデータセットがあり、「アルゴリズムXがY回の反復で機能し、このデータセットで結果Zがあった」という追加情報があった場合など、実装への自信を高める何らかの方法が欲しいのですが、それは非常に役立ちます。そのようなデータセットについて聞いたことがありますか?
9 dataset 

1
統計的有意性を定量化する方法は?
私は統計学に比較的慣れていないので、私の質問は完全に誤解されているかもしれません。私は自分のアルゴリズムを他のものと比較してテストしています。出力は同一ではありませんが、違いが「統計的に取るに足らない」ことを示したいと思います。私の主張をするために、これをどのように定量化できますか?

4
自己相関およびニューラルネットワークにMatlabを使用する場合、時系列データのギャップ/ NaNを処理する方法は?
時系列の測定(高さ-1次元シリーズ)があります。観測期間中、いくつかの時点で測定プロセスがダウンしました。したがって、結果のデータは、データにギャップがあったNaNのベクトルです。これは、MATLABを使用して、自己相関の計算(autocorr)とニューラルネットワークの適用()の際に問題を引き起こしていますnnstart。 これらのギャップ/ NaNはどのように処理されるべきですか?これらをベクターから削除するだけですか?または、それらのエントリを補間された値に置き換えますか?(もしそうなら、MATLABでどうやって)

7
クラスタリングアルゴリズムの特性を示すための2D人工データの検索
さまざまな分布と形式に従う2次元のデータポイント(各データポイントは2つの値(x、y)のベクトル)のデータセットを探しています。そのようなデータを生成するコードも役立ちます。それらを使用して、いくつかのクラスタリングアルゴリズムが実行する方法をプロット/視覚化したいと思います。ここではいくつかの例を示します。 星のような雲データ 4つのクラスター、1つは分離可能 スパイラル(クラスターなし) 指輪 2つのかろうじて分離された雲 らせんを形成する2つの平行なクラスター ...など

7
データ視覚化の例、教育、研究用のデータセット
私が研究しているいくつかのdatavis手法をテストするために使用できる既存のデータセットを検索しています。 私はRに含まれているようないくつかのリソースを知っています(試してみるplot(Orange)か、ここを参照してください)。 しかし、私はそれを一歩前進させたいと思います: 視覚化ツールをテストするのに最適な実際のデータセットはどれですか? 学術論文やdatavisに関する教育用スライドで使用したデータセットはどれですか。 グラフ化の利点を示す実例の中で最も良い例はどれですか。

2
データのROC曲線を計算する
そのため、ハミング距離を使用して生体認証特性から個人を認証しようとしている16のトライアルがあります。しきい値は3.5に設定されています。私のデータは以下であり、トライアル1のみが真陽性です。 Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 私の混乱のポイントは、このデータからROC曲線(FPR対TPR OR FAR対FRR)を作成する方法が本当にわからないということです。どちらでもかまいませんが、どうやって計算するのか混乱しています。任意の助けいただければ幸いです。
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.