タグ付けされた質問 「dataset」

データセットのリクエストは、このサイトではトピックから外れています。このタグは、データセットの作成、処理、または保守に関する質問に使用します。

3
データにゼロ平均を持たせるという考え方
多くの場合、すべての要素から平均値を削除することで、データセットのディメンション/機能をゼロ平均にする人がいます。しかし、なぜそうするのか理解できませんでしたか?前処理ステップとしてそれを行うことの効果は何ですか?分類のパフォーマンスが向上しますか?データセットについて何か答えることは役に立ちますか?データを理解するために視覚化を行うときに役立ちますか?

2
生データで回帰的なモデ​​ルの仮定をテストする人と、残差でテストする人がいるのはなぜですか?
私は実験心理学の博士課程の学生であり、データの分析方法に関するスキルと知識の向上に努めています。 心理学の5年目まで、私は回帰的モデル(ANOVAなど)が次のことを想定していると考えていました。 データの正常性 データの分散均一性など 私の学部課程では、仮定はデータに関するものであると信じるようになりました。しかし、私の5年目に、私のインストラクターの何人かは、仮定が生データではなく誤差(残差によって推定される)についてであるという事実を強調しました。 最近、私の同僚の何人かと仮定の質問について話していました。同僚も、大学の最後の年にのみ残差の仮定をチェックすることの重要性を発見したことを認めました。 私がよく理解していれば、回帰的なモデ​​ルはエラーを仮定しています。したがって、残差の仮定を確認することは理にかなっています。もしそうなら、なぜ一部の人々は生データの仮定を確認しますか?そのようなチェック手順は、残差をチェックすることで得られるものに近いためでしょうか? 私はこの問題について、同僚や私よりも正確な知識を持っている人たちと議論することに非常に興味を持っています。あなたの答えを前もって感謝します。

4
統計分析用のデータをRに単純に保存する最良の方法[非公開]
閉まっている。この質問はトピック外です。現在、回答を受け付けていません。 この質問を改善したいですか? 質問を更新することがありますので、話題のクロス検証済みのため。 6年前に閉鎖されました。 テキストファイルを使用して、しばらくの間、問題なくRのデータを保存しています。しかし、最近のプロジェクトでは、生のテキストファイルを処理するにはファイルのサイズが大きくなりすぎています。最も簡単な代替手段は何ですか?
12 r  dataset 

1
RのPROC Mixedとlme / lmerの違い-自由度
注:法的な理由で以前の質問を削除する必要があったため、この質問は再投稿です。 SASのPROC MIXED をR lmeのnlmeパッケージの関数と比較していると、やや紛らわしい違いを見つけました。より具体的には、異なるテストの自由度はとの間PROC MIXEDで異なり、lmeなぜだろうと思いました。 次のデータセットから開始します(以下のRコード)。 ind:測定が行われる個人を示す因子 fac:測定が行われる臓器 trt:治療を示す因子 y:連続応答変数 アイデアは、次の単純なモデルを構築することです: y ~ trt + (ind):indランダムな要因として y ~ trt + (fac(ind)):facにネストされたindランダムな要因として、 最後のモデルでは特異性が生じることに注意してください。とのyすべての組み合わせに対しての値は1つだけです。indfac 最初のモデル SASでは、次のモデルを作成します。 PROC MIXED data=Data; CLASS ind fac trt; MODEL y = trt /s; RANDOM ind /s; run; チュートリアルによると、使用しているRの同じモデルnlmeは次のようになります。 > require(nlme) > options(contrasts=c(factor="contr.SAS",ordered="contr.poly")) > m2<-lme(y~trt,random=~1|ind,data=Data) 両方のモデルは、係数とそのSEに対して同じ推定値を与えますがtrt、の効果に対してF検定を実行する場合、異なる自由度を使用します。 SAS …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

4
統計ツールの不適切な使用による費用のかかる結果の例
統計ツールのほとんどのユーザーは、補助的なユーザー(統計に関する正式なトレーニングがほとんど、またはまったくなかった人々)であると思われます。研究者や他の専門家がデータに統計的手法を適用するのは非常に魅力的です。なぜなら、査読付き論文、灰色の文献、ウェブ、または会議でそれを「前に」見たからです。ただし、必要な仮定と統計ツールの制限を明確に理解せずにこれを行うと、誤った結果が生じる可能性があります。多くの場合、エラーは未確認です。 学部生(特に社会科学および自然科学)は、統計的な落とし穴に気付いていないか、これらの落とし穴が取るに足らないものであることがわかります(後者が最もよくあるケースです)。統計ツールの不適切な使用の例は多くの入門レベルのテキストブック、Web、またはStackExchangeで見つけることができますが、有害な結果をもたらした現実の例を見つけるのは困難です。そのために、統計手法の誤用を強調する実世界の例を探しています。 使用される統計的手法は、通常、入門的な統計コース(つまり、推論統計、回帰など)でカバーされます。 最終結果は、費用のかかる結果をもたらしました(ドルの損失、生活への影響、キャリアの粉砕など) このデータは、コースの実例としてすぐに使用できます(目的は、学生に実世界の結果をもたらした実世界の実例を通して作業させることです)。 研究プロジェクトでユニットを適切に定義することの重要性を議論する際に学生に提示したい非統計的な例の1つは、1億2,500万ドルの衛星の損失につながった「メトリックミス」です。これは通常、学生からの:-o要因を呼び出し、永続的な印象を持っているように見えます(少なくとも彼らの短い学業期間を通して)。

2
「きちんとしたデータ」を作成するためのベストプラクティス
Hadley Wickhamは、JSSで昨年、データの操作と分析を実行するためにデータを「最適な」状態にすることについて、「Tidy Data」(リンク)と呼ばれるすばらしい記事を書きました。しかし、私は作業環境で表形式のデータを表示するという点でベストプラクティスは何だったのだろうと思っていましたか?同僚があなたにいくつかのデータを提供するように頼んだとしましょう。そのデータを構造化するときに使用するいくつかの一般的なルールは何ですか?「Tidy Data」のガイドラインは、データ専門家以外の人とデータを共有している場合にも当てはまりますか?明らかに、これは非常にコンテキスト固有ですが、高レベルの「ベストプラクティス」について質問しています。
12 dataset  tables 

2
与えられた応答変数に関する最適なビニング
与えられた応答(ターゲット)バイナリ変数に関して、パラメーターとして間隔の最大数を持つ連続変数の最適なビニング方法(離散化)を探しています。 例:「height」(数値連続)および「has_back_pains」(バイナリ)変数を持つ人々の一連の観察結果があります。高さを最大3つの間隔(グループ)に離散化して、背中の痛みを持つ人々の比率を変えて、アルゴリズムがグループ間の差を最大化するようにします(たとえば、各間隔には少なくともx個の観測値があるという制限があります)。 この問題の明らかな解決策は、決定木(単純な1変数モデル)を使用することですが、Rで「最大分岐数」をパラメーターとして持つ関数を見つけることができません。それらすべてが変数を分割します。 2 gropus(<= x and> x)に。SASマイナーには「最大ブランチ」パラメーターがありますが、私は非商用ソリューションを探しています。 一部の変数には一意の値がわずかしかありません(離散変数として扱うこともできます)が、それらを同様に少数の間隔に離散化したいと考えています。 私の問題に最も近い解決策は、Rのsmbinningパッケージ(パーティパッケージのctree関数に依存)に実装されていますが、2つの欠点があります。間隔の数を設定することはできません(ただし、変更することで回避策を見つけることができます) pパラメータ)。データベクトルの一意の値が10未満の場合は機能しません。とにかく、ここで出力例を見ることができます(カットポイントとオッズ列は重要です): Cutpoint CntRec CntGood CntBad CntCumRec CntCumGood CntCumBad PctRec BadRate Odds LnOdds WoE IV 1 <= 272 9081 169 8912 9081 169 8912 0.1874 0.9814 0.0190 -3.9653 -0.6527 0.0596 2 <= 311 8541 246 8295 17622 415 17207 0.1762 0.9712 …

3
データを使用した実用的なPCAチュートリアル
PCAチュートリアルをインターネットで検索すると、何千もの結果が得られます(ビデオも)。チュートリアルの多くは非常に優れています。しかし、デモに使用できるいくつかのデータセットを使用してPCAが説明される実際的な例を見つけることができません。PCA分析の前後に、簡単にプロットできる小さなデータセット(数千行のデータの10000行ではない)を提供するチュートリアルが必要です。その違い/結果を明確に示すことができます。(約100行と3次元のデータを使用した段階的な実践例はすばらしいと思います)。 何か提案はありますか?

14
名前からどれだけの情報を抽出できますか?
名前:最初に、おそらくミドルネームと姓。 公開されているデータセットを使用して、名前からどれだけの情報をマイニングできるか知りたいです。米国国勢調査データを使用して、低入力(入力によって異なります)の間のどこでも以下を取得できることを知っています。1)性別。2)レース。 たとえばFacebookは、それを正確に使用して、まともなレベルの正確さで、サイトのユーザーの人種分布を見つけました(https://www.facebook.com/note.php?note_id=205925658858)。 他に何が採掘できますか?私は具体的なものを探しているわけではありません。これは私の好奇心を和らげるための非常に自由な質問です。 私の例は米国固有のものなので、名前は米国にいる誰かの名前であると想定します。しかし、他の国で公開されているデータセットを知っている人がいれば、私もそれらを受け入れるだけではありません。 これがこの場所に適しているかどうかはよくわかりません。そうでない場合は、誰かが私をより適切な場所に案内してくれるとありがたいです。 これが面白い質問だといいのですが、これは適切な場所です!

3
巨大なバイナリデータセットをいくつかのカテゴリにクラスター化するには、どのアルゴリズムを使用する必要がありますか?
バイナリデータの大規模な(650K行* 62列)行列(0-1エントリのみ)があります。マトリックスはほとんどスパースです。約8%が満たされます。 それを5つのグループにクラスター化したいと思います。たとえば、1から5までの名前が付けられています。階層的クラスター化を試みましたが、サイズを処理できませんでした。長さ62の650Kビットベクトルを考慮して、ハミング距離ベースのK平均クラスタリングアルゴリズムも使用しました。これらのいずれでも適切な結果が得られませんでした。 助けてください。

3
データの前処理と外れ値の検出手法を扱った優れた本
タイトルが進むにつれ、データの前処理全般、特に外れ値の検出手法を扱った最新の優れた本を知っている人はいますか? 本はそれだけに焦点を合わせる必要はありませんが、前述のトピックを徹底的に扱う必要があります-私は出発点であるものに満足せず、論文のリストを引用し、さまざまな手法の説明が本自体。 欠落データを処理するための手法が望ましいが、必須ではない...

2
データをテストセットとトレーニングセットに分割することは、純粋に「統計」の問題ですか?
私は機械学習/データサイエンスを勉強している物理学の学生なので、この質問が対立を開始することを意味しません:)ただし、物理学部のプログラムの大部分は、ラボ/実験を行うことであり、これは大量のデータを意味します処理と統計分析。しかし、物理学者がデータを処理する方法と、私のデータサイエンス/統計学習ブックがデータを処理する方法との間には、はっきりとした違いがあることに気づきました。 主な違いは、物理実験から得られたデータに回帰を実行しようとすると、回帰アルゴリズムがWHOLEデータセットに適用され、トレーニングセットとテストセットに分割されることがまったくないことです。物理の世界では、R ^ 2または何らかのタイプの疑似R ^ 2が、データセット全体に基づいてモデルに対して計算されます。統計の世界では、データはほとんどの場合80-20、70-30などに分割され、モデルはテストデータセットに対して評価されます。 このデータ分割を決して行わないいくつかの主要な物理実験(ATLAS、BICEP2など)もあるので、物理学者/実験家が統計を行う方法とデータ科学者が行う方法との間に、なぜそんなに頑固な違いがあるのだろうと思います。統計を行います。

1
データ処理エラーはすでに統計分析に「価格が設定されていますか」?
わかりました、公正な警告です。これは数字を含まない哲学的な質問です。エラーが時間の経過に伴ってデータセットに侵入する方法と、それをアナリストがどのように処理する必要があるのか​​、あるいはそれが本当に重要なのかについて、私は多くのことを考えてきました。 背景として、私は7〜8年間でおそらく25人が収集した多くのデータセットを含む長期的な研究で分析を行っています。誰もすべてのデータを一貫した構造に持ってきたことはありません(それが私の仕事です)。私は多くのデータ入力(古いラボノートブックのコピーからの転記)を行っており、他の人が作成した小さな転記エラーを見つけ続けています。また、ほとんどの場合、インクが原因で、読み取りが困難または不可能であるデータエントリを見つけています。時間の経過とともに色あせています。私はコンテキストを使用して、データが何を言っているかについて「最良の推測」をし、私がかなり確実でない場合はデータを完全に指摘します。しかし、データがコピーされるたびに、元のデータが完全に失われるまで、エラーの頻度は必然的に増加するという事実を考え続けます。 したがって、これは私に考えを導きます:機器/測定エラー、および記録エラーに加えて、時間の経過とともに増加し、データの処理が増える基本的な「データ処理エラー」コンポーネントがあります(補足:これはおそらく熱力学の第2法則を説明する別の方法ですよね?データエントロピーは常に増加します)。結果として、データセットのライフヒストリーを説明するために導入されたある種の「訂正」(ボンフェローニ訂正に似たもの)があるのだろうか?言い換えれば、古い、またはコピーされたデータセットは正確性が低いと想定すべきですか?そうであれば、それに応じて調査結果を調整する必要がありますか? しかし、私のもう1つの考えは、エラーはデータ収集とデータ処理の本質的な部分であり、すべての統計テストは実際のデータを使用して開発されているため、おそらくこれらのエラーの原因は分析に「価格が設定されている」でしょうか。 また、注目に値するもう1つの点は、データエラーはランダムであるため、改善するよりも発見の強度を低下させる可能性がはるかに高いということです。つまり、データ処理エラーは、タイプ1エラーではなくタイプ2エラーにつながります。 。したがって、多くのコンテキストでは、古い/疑問のあるデータを使用していても効果が見つかった場合、その効果が本物であるという確信が高まります(データセットへのランダムエラーの追加に耐えるのに十分強力だったため)。したがって、その理由から、おそらく「修正」は逆の方向に進むべきです(「発見」に必要なアルファレベルを上げる)か、単に私たちを困らせないのですか? とにかく、非常に冗長で鈍くて申し訳ありませんが、私はこの質問をより簡潔に尋ねる方法が本当にわかりません。私を支えてくれてありがとう。
10 dataset  error 

2
データのタイプ(名義/順序/間隔/比率)は、変数のタイプと本当に見なされるべきですか?
だから例えばここに私が標準的な教科書から得た定義があります 変数-母集団またはサンプルの特性。例:テストの銘柄または銘柄の価格 データ-実際の観測値 したがって、2列のレポートの場合[名前| 収入]列名は変数であり、実際の観測値{dave | 100K}、{jim | 200K}がデータになります それで、[名前]列が名目データであり、[収入]が比率データであると言えば、ほとんどの教科書のように、データのタイプではなく変数のタイプとしてそれをより正確に説明しませんか?これはセマンティクスかもしれないと私は理解しています。しかし、私はここで何かが足りないのではないかと恐れています。

3
特徴選択は、トレーニングデータのみ(またはすべてのデータ)で実行する必要がありますか?
特徴選択は、トレーニングデータ(またはすべてのデータ)に対してのみ実行する必要がありますか?私はGuyon(2003)やSinghi and Liu(2006)などのいくつかのディスカッションと論文を読みましたが、正しい答えについてはまだわかりません。 私の実験のセットアップは次のとおりです: データセット:50人の健康なコントロールと50人の病気の患者(病気の予測に関連する可能性のある200の機能)。 タスクは、利用可能な機能に基づいて疾患を診断することです。 私がすることは データセット全体を取り、特徴選択(FS)を実行します。今後の処理のために選択した機能のみを保持します テストとトレーニングに分割し、トレーニングデータと選択した機能を使用して分類子をトレーニングします。次に、分類子をテストデータに適用します(ここでも、選択した機能のみを使用します)。Leave-one-out検証が使用されます。 分類精度を取得する 平均化:1)〜3)をN回繰り返します。(100)。N=50N=50N=50 データセット全体でFSを実行するとある程度のバイアスが生じる可能性があることに同意しますが、私の意見では、平均化(ステップ4)中に「平均化」されるということです。あれは正しいですか?(精度の差異は)&lt;2%&lt;2%<2\% 1 Guyon、I.(2003) "An Introduction to Variable and Feature Selection"、The Journal of Machine Learning Research、Vol。1 3、pp。1157-1182 2 Singhi、SKおよびLiu、H.(2006)「分類学習のための特徴サブセット選択バイアス」、Proceeding ICML '06 Proceedings on the 23rd International Conference on Machine Learning、pp。849-856

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.