統計とビッグデータ dataset

2

私はひどく不均衡なデータに取り組んでいます。文献では、いくつかの方法を使用して、再サンプリング（オーバーサンプリングまたはアンダーサンプリング）を使用してデータのバランスを再調整しています。2つの優れたアプローチは次のとおりです。 SMOTE：合成マイノリティオーバーサンプリングTEchnique（SMOTE） ADASYN：不均衡学習のための適応合成サンプリングアプローチ（ADASYN） ADASYNを実装したのは、その適応性とマルチクラス問題への拡張の容易さからです。私の質問は、ADASYN（またはその他のオーバーサンプリング手法）によって生成されたオーバーサンプリングデータをテストする方法です。前述の2つの論文では、彼らがどのように実験を行ったかは明らかではありません。2つのシナリオがあります。 1-データセット全体をオーバーサンプリングし、それをトレーニングセットとテストセットに分割します（または相互検証）。 2-元のデータセットを分割した後、トレーニングセットのみでオーバーサンプリングを実行し、元のデータテストセットでテストします（クロス検証で実行できます）。最初のケースでは、結果はオーバーサンプリングを行わない場合よりもはるかに優れていますが、オーバーフィットがあるかどうか心配です。2番目の場合、結果はオーバーサンプリングなしの場合よりわずかに良く、最初の場合よりもはるかに悪いです。しかし、2番目のケースに関する懸念は、少数クラスのすべてのサンプルがテストセットに送られた場合、オーバーサンプリングでは利点が得られないことです。そのようなデータをテストする他の設定があるかどうかはわかりません。

18 classification dataset resampling unbalanced-classes oversampling

6

プールされた断面データとパネルデータの違いは何ですか？

彼らはとても似ているようです。それらは同じものですが、単に異なる名前と呼ばれていますか？

18 regression dataset econometrics

2

95パーセンタイルの計算：正規分布、R分位、およびExcelアプローチの比較

次のデータセットで95パーセンタイルを計算しようとしていました。私はそれを行うためのいくつかのオンライン参照に出会いました。アプローチ1：サンプルデータに基づく最初のものは得ることが私に語っTOP 95 Percent選択し、次にデータセットのをし、MINまたはAVG結果セットの。次のデータセットに対してこれを行うと、次のことがわかります。 AVG: 29162 MIN: 0 アプローチ2：正規分布を仮定二つ目は、第95パーセンタイルは約2標準偏差の平均を上回っている（私は理解している）と私が実行したことを言います： AVG(Column) + STDEV(Column)*1.65: 67128.542697973 アプローチ3：R分位点以前Rは95パーセンタイルを取得していました。 > quantile(data$V1, 0.95) 79515.2 アプローチ4：Excelのアプローチ最後に、私はこれに出会いました。それはExcelがそれをどのように行うかを説明しています。メソッドの概要は次のとおりです。 N順序付けられた値のセットと{v[1], v[2], ...}、pthパーセンタイルを計算するための要件が与えられたら、次の手順を実行します。計算する l = p(N-1) + 1 l整数と小数のコンポーネントに分割l = k + d 必要な値を次のように計算します V = v[k] + d(v[k+1] - v[k]) この方法は私に与えます 79515.2 Rの値は正しいと信じていますが、値は一致しません（ecdfプロットからも観察しました）。私の目標は、特定のデータセットから95番目のパーセンタイルを（AVGおよびSTDEV関数のみを使用して）手動で計算することであり、ここで何が起こっているのか実際にはわかりません。誰かが私が間違っている場所を教えてもらえますか？ 93150 93116 …

17 r dataset quantiles sql

6

大きなテキストコーパスはどこにありますか？[閉まっている]

閉まっている。この質問はトピック外です。現在、回答を受け付けていません。この質問を改善したいですか？質問を更新して、相互検証のトピックになるようにします。 6年前に閉鎖されました。ダウンロードする大きな（1000を超える）テキストコーパスを探しています。できれば世界のニュースやある種の報告書を使って。私は特許を持つものを見つけました。助言がありますか？

16 dataset

4

統計分析の特定の側面を説明するのに適したデータセットは何ですか？

これは主観的なものであることに気づきましたが、お気に入りのデータセットとそれらが興味深いと思うものについて話すのはいいと思いました。そこには豊富なデータがあり、すべてのAPI（例：Datamob）と従来のデータセット（例：R data）について、非常に興味深い応答が得られると思います。たとえば、「ボストンハウジング」データセット（不幸な影響にもかかわらず）などのデータセットと、その汎用性のための「mtcars」が常に好きでした。教育学の観点から、それらを使用した多種多様な統計手法のメリットを示すことができます。Anderson / Fisherのアヤメのデータセットは、常に私の心の中にあります。考え？

16 dataset

5

トレーニングデータを増やすと、システム全体の精度にどのような影響がありますか？

トレーニングデータを増やすとシステム全体が改善される状況では、可能な例で誰かが私に要約することはできますか？トレーニングデータを追加すると、データが過剰に適合し、テストデータの精度が低下する可能性があることをいつ検出しますか？これは非常に非特定の質問ですが、特定の状況に固有の質問に答えたい場合は、そうしてください。

15 machine-learning classification dataset precision-recall

4

無料の公益データのホスティング？[閉まっている]

閉まっている。この質問はトピック外です。現在、回答を受け付けていません。この質問を改善したいですか？質問を更新して、相互検証のトピックになるようにします。 4年前に閉鎖されました。 http://data.barrycarter.info/に多くのステーションの時間ごとおよび日ごとの温度レポートがあります。ダウンロードすることを推奨しますが、6.6Gでは多くの帯域幅を消費します。「公益」データを無料でホストするサービスはありますか？ http://aws.amazon.com/publicdatasetsについて知っていますが、そのデータにアクセスするにはAmazon EC2アカウントが必要です。

15 dataset

3

データ増強と訓練検証分割の方法

機械学習を使用して画像分類を行っています。トレーニングデータ（画像）があり、そのデータをトレーニングセットと検証セットに分割するとします。また、ランダムな回転とノイズ注入によってデータを増強します（元の画像から新しい画像を生成します）。拡張はオフラインで行われます。データ増強を行う正しい方法はどれですか？最初にデータをトレーニングセットと検証セットに分割し、次にトレーニングセットと検証セットの両方でデータ拡張を行います。最初にデータをトレーニングセットと検証セットに分割してから、トレーニングセットでのみデータの拡張を行います。最初にデータのデータ増強を行い、次にデータをトレーニングと検証セットに分割します。

14 machine-learning classification cross-validation dataset data-augmentation

6

Rで識別子によってグループ化されたデータフレームの最初の行を取得する高速な方法[終了]

閉まっている。この質問はトピック外です。現在、回答を受け付けていません。この質問を改善したいですか？質問を更新して、相互検証のトピックになるようにします。 2年前に閉店。個人ごとに複数の観測があるときに年齢と性別を取得するときのように、データセットの最初の行のみを識別子でグループ化する必要がある場合があります。Rでこれを行うための高速（または最速）の方法は何ですか？下のaggregate（）を使用しましたが、もっと良い方法があると思います。この質問を投稿する前に、Googleで少し検索し、ddplyを見つけて試しましたが、非常に遅く、データセット（400,000行×16列、7,000の一意のID）でメモリエラーが発生したことに驚きましたが、aggregate（）バージョンかなり速かった。 (dx <- data.frame(ID = factor(c(1,1,2,2,3,3)), AGE = c(30,30,40,40,35,35), FEM = factor(c(1,1,0,0,1,1)))) # ID AGE FEM # 1 30 1 # 1 30 1 # 2 40 0 # 2 40 0 # 3 35 1 # 3 35 1 ag <- data.frame(ID=levels(dx$ID)) ag <- merge(ag, …

14 r dataset aggregation plyr

5

トレーニングデータセットのみで探索的データ分析を行う方が良いでしょうか？

データセットに対して探索的データ分析（EDA）を行っています。次に、いくつかの機能を選択して、従属変数を予測します。問題は、トレーニングデータセットのみでEDAを実行する必要があるかどうかです。または、トレーニングデータセットとテストデータセットを結合し、それらの両方でEDAを実行し、この分析に基づいて機能を選択する必要がありますか？

14 dataset feature-selection feature-construction eda

2

k分割交差検証は、トレーニング/検証/テストセットのコンテキストでどのように適合しますか？

私の主な質問は、k-foldクロス検証がトレーニング/検証/テストセット（このようなコンテキストにまったく当てはまる場合）のコンテキストにどのように適合するかを理解しようとすることです。通常、人々はデータをトレーニング、検証、およびテストセットに分割することを話します。たとえば、Andrew Ngのコースごとに60/20/20の比率で-モデルトレーニングの最適なパラメーターを識別するために検証セットが使用されます。ただし、データ量が比較的少ない場合に、より代表的な精度測定値を取得するためにk分割交差検証を使用したい場合、k分割交差検証を実行すると、この60/20/20分割が正確に行われます。シナリオ？たとえば、実際にトレーニングセットとテストセット（データの80％）を組み合わせ、それらに対してk分割交差検証を行って精度測定値（明示的な「テストセット」を持つことで効果的に破棄）を取得することを意味しますか？もしそうなら、どのトレーニング済みモデルを使用しますか？たとえば、aとbの考えられる答えの1つは、おそらくベストフォールドモデルを使用することです。

14 cross-validation dataset overfitting

4

臨床試験に関する生データはどこにありますか？[閉まっている]

閉まっている。この質問はトピック外です。現在、回答を受け付けていません。この質問を改善したいですか？質問を更新して、相互検証のトピックになるようにします。 2年前に閉店。私は修士課程の学生の期末試験のために臨床試験に関する生データを使用したいと思います。これらのデータは、試験が完了している限り（フェーズ1〜4）、あらゆる種類の分子を扱うことができます。このような無料のデータセットをWebのどこで見つけることができるか考えていますか？ありがとうございました。

13 dataset teaching clinical-trials

2

頻度表を値のベクトルに変換する方法は？

RまたはExcelを使用して、頻度テーブルを値のベクトルに変換する最も簡単な方法は何ですか？たとえば、次の頻度表をどのように変換しますか Value Frequency 1. 2 2. 1 3. 4 4. 2 5. 1 次のベクトルに？ 1, 1, 2, 3, 3, 3, 3, 4, 4, 5

13 r dataset excel

4

サンプルから2つの母集団を分離する

1つのデータセットから2つのグループの値を分離しようとしています。母集団の1つは正規分布しており、サンプルのサイズの少なくとも半分であると想定できます。2番目の値は、最初の値よりも低いか高いです（分布は不明です）。私がやろうとしているのは、通常の分布人口を他の人口から囲む上限と下限を見つけることです。私の仮定は出発点を提供します：サンプルの四分位範囲内のすべてのポイントは、正規分布の母集団からのものです。私は、それらが通常の分布の母集団の3 st.devに収まらないまで、残りのサンプルからそれらを取得する外れ値をテストしようとしています。これは理想的ではありませんが、十分に妥当な結果が得られるようです。私の仮定は統計的に正しいですか？これについて行くためのより良い方法は何でしょうか？誰かタグを修正してください。

13 dataset outliers expectation-maximization

4

データを集約して分析する最良の方法

最近、機械学習とデータ分析を自分で教え始めたので、大量のデータを作成してクエリを実行する必要性に直面しています。私は自分の職業生活や個人生活で収集してきたデータを取得して分析したいと思いますが、次のことを行うための最良の方法がわかりません。このデータをどのように保存する必要がありますか？エクセル？SQL？？初心者がこのデータを分析しようとする良い方法は何ですか？私はプロのコンピュータープログラマーですので、複雑さはプログラムを書くことではなく、データ分析の分野に多少なりとも特有です。編集：私のあいまいさをおologiesび申し上げます。最初に何かについて学び始めたとき、あなたが知らないことを知るのは難しいですよね？;）そうは言っても、私の目標はこれを2つの主要なトピックに適用することです。ソフトウェアチームのメトリクス（アジャイルの速度、リスクの定量化、xポイントのストーリーポイントが与えられた場合に反復が正常に完了する可能性を考える）機械学習（例：特定のモジュールのセットでシステム例外が発生しました。フィールドでモジュールが例外をスローする可能性、そのコスト、データが改善する重要なモジュールについて教えてくれること私は自分の支出に見合う最高の価値を持ち、データの読み込みを開始するためにユーザーが次に使用するシステムの部分を予測します）。

13 data-mining dataset eda

タグ付けされた質問 「dataset」

タグ付けされた質問「dataset」