タグ付けされた質問 「dataset」

データセットのリクエストは、このサイトではトピックから外れています。このタグは、データセットの作成、処理、または保守に関する質問に使用します。

2
トレーニングデータは不均衡ですが、検証セットも同じですか?
10000の正の例と50000の負の例で構成されるデータにラベルを付け、合計60000の例を示しています。明らかに、このデータは不均衡です。 ここで、検証セットを作成し、データの10%を使用して作成したいとします。私の質問は次のとおりです: 検証セットが不均衡であることを確認する必要がありますか(トレーニングセットの真の分布への同意として)、または検証セットが均衡していることを確認する必要がありますか?したがって、たとえば、私の検証セットは、 10%の正の例+ 10%の負の例で、1000 +および5000-の例を示します。(この検証セットは、元のデータの不均衡を反映しています)。 または、検証セットは、たとえば10%が正で1000+を与え、(10/5 = 2%)が負で1000-の例も与えられるようにすべきでしょうか? (テストセットについても同じ質問です)。 不均衡なデータでトレーニングする方法については多くの方法があるようですが、私の検証セットが元の不均衡を反映すべきかどうかについてのベストプラクティスを見つけるための場所はどこにもありません。最後に、相互検証は行っていません。単一の検証セットとニューラルネットワークを使用します。 ありがとう!

5
量的データ、質的データ、またはその両方の公称、序数、およびバイナリですか?
私はデータ型を取り巻いていて、いくつかの助けが必要です: 上記の画像(ここから取得)を見ると、次のようなデータ型があります。 定量的(離散、連続) 定性的(名詞(N)、序数(O)、二項(B))。 しかし、次の写真(ここから)を見ると、カテゴリは次のとおりです。 定量的(離散(NOB)) 定性 1つの画像は定性的にNOBがあり、もう1つの画像は定性的にNOBです。どちらが正しいか?


1
過剰適合を測定して回避するためのベストプラクティスは?
株式市場向けの自動取引システムを開発しています。大きな課題は過剰適合です。過剰適合を測定して回避する方法を説明するリソースをいくつか推奨できますか? 私はトレーニング/検証セットから始めましたが、検証セットは常に汚染されています。 また、市場は常に変化しているため、時系列データも常に変化しています。これをどのように測定し、目に見えないデータで一貫した結果が得られる可能性を判断しますか? ありがとう。

1
このデータに不正なフラグを立てますか?
4つの繰り返しと23の処理を含むランダム化されたブロック設計からいくつかのデータが与えられたとしましょう。データを最初に検査した後、8つの処理ですべての繰り返しが同一であることがわかりますが、これは明らかに誤りです。問題を報告した後、データの「正しいバージョン」を後で送信するデータの責任者からの混乱が原因であることが通知されます。データの修正バージョンは次のようになります。 治療担当者の値 A 1 5727.000 A 2 5400.000 A 3 5800.000 A 4 5473.000 B 1 4618.000 B 2 4844.000 B 3 4966.000 B 4 4496.000 ... Z 1 4329.345 Z 2 4597.275 Z 3 4833.246 Z 4 4199.098 そのようなデータで私の注意を引く最初のことは、問題が報告された8つの処理のみに小数部がないことです(残りの処理はすべて問題ありません)。したがって、私はそれらをより詳しく見て、処理内のサンプル平均から各観測値を差し引くことを決定し、次のようなものを見つけます 治療担当者値デルタ A 1 5727.000 +127 A 2 5400.000 -200 A …

2
外れ値の検出に関する問題
Andrew Gelmanはブログ投稿でこう書いています: ステップワイズ回帰は、外れ値の検出や円グラフなど、これらの1つです。統計学者の間では人気が高いように見えますが、統計学者はちょっと冗談だと考えています。 円グラフへの参照を理解しましたが、Gelmanによると、統計学者が異常値の検出を軽視しているのはなぜですか?それは人々が彼らのデータを過剰に剪定することを引き起こすかもしれないということだけですか?

2
ハムスターの車輪回転データの分析
この質問を投稿する前に、私はこのスタックの他の質問を閲覧しましたが、これはおそらくそれを読む人にとっては公園の散歩になるでしょう!しかし、このスタックの説明にはデータ分析と視覚化が含まれているので、これが正しい場所にあることを願っています! </ preapology> 私は磁石とリードセンサーを備えたRaspberry Piを使用して、ハムスターが夜に起きていることを記録しています。Piは各回転を次のように記録します。 2014-09-04 00:20:04.987819,1 2014-09-04 00:20:16.219891,2 2014-09-04 00:20:17.260086,3 2014-09-04 00:20:20.031204,4 2014-09-04 00:20:20.907755,5 ... それは私がいくつかの助けをして欲しいデータで何かをすることになるときです。Piが生成する毎日の分析の例を次に示します。 こんにちはパパ! 昨夜、私は00:20に車に乗り、04:51に就寝しました(もちろん休憩あり)。ホイールから離れるのに最も長くかかったのは、03:05-03:31の26分間でした。 4時間31分の間にホイールを11,903回周回しました!車輪の直径は18cmなので、18⋅⋅11903/100≈6,731メートル移動したことになります。それは4.18マイルです! ラブビスケットx 次のようなデータの簡単なグラフも作成しました。 また、彼が最もアクティブな時間を確認するために、1時間ごとの分析を行うことも考えました。 私の存在しない統計的知識を考えると、それは私が考えることができるすべてです。他に何かできることはありますか?(分析と視覚化の両方に関して)。追加のデータをキャプチャする必要がある場合は問題ありません。 アクティグラフィー追跡の開始を示すために編集されました


2
切り捨てられたデータの尤度関数
切り捨てられたデータの可能性の概念と導出を理解するのに少し問題があります。 たとえば、分布からのサンプルに基づいて尤度関数を検索したいが、分布からサンプルを取得する場合、切り捨てられた値を観察します(カットオフがあるMMM場合、つまり任意のMxi>Mバツ私>Mx_{i}>Mとして記録されます):MMM x1,x2,M,x3,M,x4,x5,...,x10バツ1、バツ2、M、バツ3、M、バツ4、バツ5、。。。、バツ10 x_{1}, x_{2}, M, x_{3}, M, x_{4}, x_{5}, ..., x_{10} 場所の数 MMM値はmメートルmです。次に、可能性はおそらく以下によって与えられます: L(x;θ)=∏10i=1f(xi;θ)∗[P(X>M)]mL(バツ;θ)=Π私=110f(バツ私;θ)∗[P(バツ>M)]メートルL(x;\theta) = \prod_{i=1}^{10}f(x_{i};\theta)*[P(X>M)]^{m} これがそうである理由の説明/証明、非常に重要なのはなぜ2番目の要素がそうであるのかを私は非常に感謝します。可能であれば直感的かつ数学的に。よろしくお願いします。

1
ベイズの定理を使用する場合の信頼区間
いくつかの条件付き確率と、95%の信頼区間を計算しています。私のケースの多くでは、(分割表からの)試行からのx成功の単純なカウントがあるnため、で提供さbinom.confint(x, n, method='exact')れてRいるような二項信頼区間を使用できます。 しかし、他の場合では、そのようなデータがないので、ベイズの定理を使用して、持っている情報から計算します。たとえば、イベントおよび与えられた場合:baaabbb P(a | b )= P(B |)⋅ P(a )P(b )P(a|b)=P(b|a)⋅P(a)P(b) P(a|b) = \frac{P(b|a) \cdot P(a)}{P(b)} \ textrm {binom.confint}(\#\ left(b \ cap {} a)、\#(a)\ right)を使用してP(b | a)の周りの95%信頼区間を計算でき、比率P(a)/ P(b)を周波数比\#(a)/ \#(b)として。この情報を使用してP(a | b)の周囲の信頼区間を導出することは可能ですか?P(b | a )P(b|a)P(b|a)binom.confint(#(B ∩a )、#(a ))binom.confint(#(b∩a),#(a))\textrm{binom.confint}(\#\left(b\cap{}a),\#(a)\right)P(a )/ P(b )P(a)/P(b)P(a)/P(b)#(a )/#(b )#(a)/#(b)\#(a)/\#(b)P(a | b )P(a|b)P(a|b) ありがとう。

1
素敵な要約表を生成する方法は?
Rがsummary()関数から得たデータをテーブルに表示して、簡単に共有できるようにしたいと考えています。私は現在summary()コンソールで実行していて、スクリーンショットを撮っていますが、すべてのグラフと同じように、これを素敵なテーブルとして生成したいです。何か案は?

2
コンピュータゲームデータセット
私はコンピュータゲームのデータセットを探していましたが、これまではWoWの「アバター履歴」データセットしか見つけることができませんでした。 他のジャンルのために、他に興味深いデータセットはありますか?

1
このグラフの線の周りのぼかしはどういう意味ですか?
私は次のコマンドを使用してggplot2をいじって、データに行を合わせました。 ggplot(data=datNorm, aes(x=Num, y=Val)) + geom_point() + stat_summary(fun.data = "mean_cl_boot", geom="errorbar", colour="red", width=0.8) + stat_sum_single(median) + stat_sum_single(mean, colour="blue") + geom_smooth(level = 0.95, aes(group=1), method="lm") 赤い点は中央値、青は平均値、垂直の赤い線はエラーバーを示します。最後のステップとして、geom_smooth線形平滑化を使用して線をフィットするために使用しましたmethod="lm"。ラインに沿って、ラインの周りにも鈍い色合いが生成されました。ドキュメントから削除する方法を見つけましたが、オフにするために使用したオプションは次のとおりです。 se: display confidence interval around smooth? 誰かが私が線の周りの陰から理解すべきことを教えてもらえますか?具体的には、解釈の仕方を理解しようとしています。それはおそらくその行に適したものであるに違いありませんが、追加の情報は私にとって非常に役立つでしょう。助言がありますか?

1
ノイズを伴うデータ拡張を使用したより高いオーバーフィッティング?
私はオーディオ分類のニューラルネットワークをトレーニングしています。 UrbanSound8Kデータセット(Model1)でトレーニングした後、入力に追加されたノイズの異なるレベルが予測精度にどのように影響したかを評価したいと思いました。ベースライン精度モデル1 = 65% 予想通り、ノイズのレベルが高くなると精度が低下しました。 次に、ノイズを使用したデータ拡張(Model2)を実行することにしました。それで、データセットを取り、同じファイルで複製しましたが、ピンクノイズ(+0 dB SNR)を追加しています。 (私が)予想したように、全体的な精度が向上し(非常にわずかですが、0.5%)、ネットワークは入力のノイズ破損に対してより堅牢になりました。 しかしながら!私が予期していなかったことの1つは、ノイズのある破損のない入力(検証入力)のみを予測すると、ネットワークの精度が低下することでした。どういうわけか、それはクリーンな入力に適合しすぎているため、これらのオーディオの予測精度が低下しています。 したがって、Model2は数値で予測すると、ノイズの多い入力では69%の精度(必ずしも訓練されたのと同じノイズではない)で予測し、クリーンな入力では47%の精度で予測します。 この結果について何か説明や直感はありますか? ネットワークは、ますます多様なトレーニングデータを持っているため、より有意義な機能を学習するだろうと期待していました。ノイズの多い入力にオーバーフィットする方が難しいと思いますが、それでも主にクリーンな入力にオーバーフィットした理由がわかりません。 -------------------------------------------------編集1 ------------------------------------------------- --------------- 役立つかもしれない別の情報: ノイズがほとんどないノイズの多い入力でModel2を評価する場合でも、ネットワークはクリーンな入力(耳へのノイズがほとんどない入力とほとんど同じ)の場合よりもパフォーマンスが優れています。

3
同じ分布の2つのデータセットを使用しているときに、いつデータを正規化するのですか?
2つのデータセットD1とD2があるとします。両方とも同じ基礎となる分布Xからサンプリングされています。ニューラルネットワークをトレーニングするためにそれらを使用したいと思います。特徴はすべて範囲[0;の符号なし整数です。2 ^ 64]。 機能のスケールが大きく異なるため、シグモイド関数と組み合わせてzスコアの正規化を使用することにしました。つまり、Zスコアの正規化されたデータをロジスティック関数に送り、特徴を[0; 1]範囲。 この時点では、どの時点でデータを正規化するかわかりません。 1.)D1を使用して、D1のみを考慮して得られるmean_1とstd_dev_1で正規化します。D2のプロセスを繰り返し、mean_2とstd_dev_2を使用して正規化します。次に、2つのデータセットを使用してネットワークを順次トレーニングします。 2.)D1とD2を追加してセットD3を取得し、データセット全体(mean_3とstd_dev_3)を計算して正規化します(D1 + D2)。次に、それを使用してネットワークをトレーニングします。 ここで2つの質問: a)2つの方法で同様の結果が得られますか?D2がD1より後に利用可能になる可能性があり、データセット全体でネットワークを再トレーニングする必要があるかどうかを知る必要があるため、私にとって特に重要です。 b)訓練されたネットワークで推論を行う場合、新しい入力を正規化するためにどのパラメーターを使用する必要がありますか?たとえば、mean_3とstd_dev_3を使用する必要がありますか? 編集:2つのデータセットの組み合わせの平均と標準偏差は、元のデータセットの平均と標準偏差から計算できることがわかりました。つまり、(理論的には)それらを順次トレーニングし、それらの分布パラメーターを組み合わせて推論の入力を正規化することができます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.