タグ付けされた質問 「data-cleaning」

4
Rの一貫性のない形式のデータをクリーニングしますか?
統計を行う前に多くのクリーンアップを必要とする厄介な調査データをよく扱います。私はこれをExcelで「手動」で実行していました。Excelの式を使用したり、エントリを1つずつ確認したりすることもありました。これらのタスクの多くをRで実行するスクリプトを作成することで始めました。これは非常に有益でした(実行したことの記録、ミスの可能性の減少、データセットが更新しました)。 しかし、効率的に処理するのが難しいいくつかの種類のデータがまだあります。例えば: > d <- data.frame(subject = c(1,2,3,4,5,6,7,8,9,10,11), + hours.per.day = c("1", "2 hours", "2 hr", "2hr", "3 hrs", "1-2", "15 min", "30 mins", "a few hours", "1 hr 30 min", "1 hr/week")) > d subject hours.per.day 1 1 1 2 2 2 hours 3 3 2 hr 4 4 …
16 r  data-cleaning 

1
重複排除の最先端
レコード重複排除の最新の方法は何ですか?重複排除は、レコードリンケージ、エンティティ解決、ID解決、マージ/パージとも呼ばれます。たとえば、CBLOCK [1]について知っています。 回答にメソッドを実装する既存のソフトウェアへの参照も含まれていれば幸いです。たとえば、Mahoutはキャノピークラスタリングを実装していることを知っています。Luceneを使用するDukeもあります。 重複排除には多くの商用システムがあります。それらがどのように機能し、どれだけ効率的であるかを知ることは価値があるでしょう。 単一のデータセット内の重複排除と、異なるソースからの複数のデータセット間のリンクの両方に興味があります。大量のデータを処理する効率と能力も重要です。 [1] CBLOCK:大規模な重複排除タスクの自動ブロックメカニズム

3
データを再構築/再構築する最良の方法は何ですか?
私は研究室(ボランティア)の研究助手です。私と小さなグループは、大規模な研究から引き出された一連のデータのデータ分析を担当しています。残念なことに、データはある種のオンラインアプリで収集されており、最も使いやすい形式でデータを出力するようにプログラムされていませんでした。 以下の図は、基本的な問題を示しています。これは「リシェイプ」または「リストラクチャリング」と呼ばれると言われました。 質問:1万件以上のエントリがある大規模なデータセットを使用して、写真1から写真2に移動するための最良のプロセスは何ですか?
12 r  excel  data-cleaning 

3
自動データクレンジング
一般的な問題は、MLがデータの質が低いことです:特徴値のエラー、インスタンスの誤分類など。 この問題に対処する1つの方法は、データを手動で調べて確認することですが、他の手法はありますか?(確かにある!) どれがより良いのか、そしてその理由は?

2
実際のデータから「デモ」データを作成:外観を損なうことなく変装
(私は統計学者ではないので、これに何をタグ付けするかはわかりません。これがどのフィールドに該当するかわかりません。さらに適切なタグを追加してください。) 私はデータ分析ソフトウェアを製造している会社で働いています。最新の製品をテストしてデモするための適切なデータセットが必要です。プログラムの出力が無意味になるため、乱数ジェネレータの出力をデータベースに入力することはできません。そのようなデータを取得する最も簡単な方法の1つはクライアントからです。実行した試験からの大量のデータがあります。さて、明らかにクライアントの実際のデータを公開することはできないため、少し変更する必要がありますが、実際のデータのように動作する必要があります。 ここでの目的は、一連のデータを取得し、「ファズ」を適用して、具体的にそれらのデータとして認識されないようにすることです。私の統計理論の記憶自体は少しあいまいなので、皆さんがこれを実行したいと思います。 基本的に、(クライアントから)取得したデータは、それ自体が(国または世界に)存在するすべてのデータのサンプルです。私が知りたいのは、サンプルをクライアントのサンプル母集団を強く代表しなくても、世界の母集団を大まかに代表したままにするために適用できる操作の種類です。 参考までに、私たちが知っている限り、私たちが持っているデータは一般的に大まかな正規(ガウス)分布に従います。 元のデータセットは広く利用可能ではありませんが、理論的にはいくつかの地域固有の特性から認識できます(これらの特性が何であるかは不明であり、誰かが十分なレベルに達しているかどうかは疑わしいですが、場所によって変動が存在することがわかっています)場所へ)。とにかく、実践よりもこの理論に興味があります。操作によって、パラメータXでソースデータセットを特定することが不可能(または少なくとも困難)であるかどうか、誰かが持っているかどうかがわかりますそもそもパラメータX。 私が思いついたアプローチは、読み取り値をさまざまなタイプに分離することです(多くのことを与えることなく、グループは「長さ」または「Xを実行するのにかかる時間」であるとしましょう。)それぞれについて、計算します標準偏差。次に、各値に、(n * stddev)の正と負の値の間にランダムな値を追加します。nは、データが十分に「ファジー」されるまで結果を調整するために使用できる小数です。一部の値は他の値よりも大幅に変動するため、静的範囲(たとえば、元の値の90%から110%の間でランダム)を単に適用したくありませんでした。一部の測定では、平均の10%はほとんど目立たない、しかし他の人ではそれはあなたを深刻な外れ値にします。 これは、元のデータのソースをマスクするのに十分ですか?そうでない場合、どの統計的測定によってデータは依然として識別可能であり、結果のデータを漠然と現実的に保ちながら、それらをどのようにマスクしますか?

3
MLを使用して、非常に不均衡なクラスのデータセットで人間のラベル付けを支援する
人間の注釈を支援するためにMLを使用することには科学的な問題がありますか? 3つのクラスのラベルなしデータセットがあり、500要素のうち1つだけが対象の2つのクラスに属しています。 ラベルは、大多数のクラスのほとんどの要素は、しかしとして、非標識のデータのすべての要素の自明識別できるarn't あり、それは大多数のクラスのほとんどの要素うちのフィルタに使用することができ、簡単なNNで簡単にdectableまでの番号をもたらします100分の1になり、アノテーターの時間を50倍に増やします。ラベル付けされたデータセットは、分類子のトレーニング、テスト、および検証に使用されます。 ただし、これが特に学術的な観点から問題を引き起こす可能性がある理由を予測できます。 人間の注釈の前に使用されたMLのバイアスのために注釈付きデータが代表的でない場合、分類子は一般化するのに苦労する可能性があります 人間が提供する正当なルールに基づいていないMLデータクリーナーを使用すると、データ分析プロセスの最初にブラックボックスが表示されます 非常に普及しているクラスのごく一部に注釈を付けるだけで、データセットが非常に選択的になります。これは、このバイアスの誤用(つまり、望ましい仮説の操作)に対する批判を招くでしょう。 すべての考えを感謝
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.