2つのデータセットを結合することをお勧めしますか?


7

2つの異なる場所(正確には2つの異なる大陸)で記録された被験者の心拍数に関する2つのデータセットがあります。2つの研究実験は、時間の経過に伴う心拍数の変化に基づいて被験者の感情を見つけることを目的としています。被験者の感情を予測するために機械学習を使用していて、各データセットで個別にテストすると、許容できる結果が得られます。ただし、2つのデータセットをマージすると、さらに良い結果が得られます。

ただし、2つのデータセットの組み合わせが許容できるかどうかはわかりません。どういうわけか2つの異なるデータセットを組み合わせているので、統計的バイアスが発生しますか?調査結果をジャーナルペーパーでどのように報告すればよいですか?


1
DS SEへようこそ。最高の1つはgo.aheadです。先に進み、両方のデータセットから取得した固定の検証データセットでスコアを個別に組み合わせて比較して、新しい発見をベンチマークできるようにします
Aditya

@Aditya、私の質問で言ったように、2つのデータセットをすでに組み合わせているので、より良い結果が得られます。私の質問は、データセットを組み合わせることができるかどうかではありません。私の質問は、どういうわけか2つの異なるデータセットを組み合わせているので、これが統計的バイアスを作成しないかどうかです
Lapatrie

回答:


2

モデルの機能として「大陸」または「場所」を追加すると、追加データの結果を取得しながら、バイアスの可能性を制御できます。


有益な提案をありがとうございます。私はこれを行い、それがどのように行われるかを確認します
Lapatrie '30 / 09/30

3

@Super_Johnの発言に加えて、大陸を機能として追加する場合は、少なくとも2さらに多くの機能を持つこともできます。

  • 緯度
  • 経度

また、Source(から df、から dfなどの)を示す別の一時的な列を追加して、色を11st22ndk-means

これで、k-means値が重複しているかどうかをクラスターで確認できるようになりました(監視されていない方法で確認しようとしています)。

(類推は、やをプロットしてからそれらをクラスター化しようとするように、時間(1日24時間)を循環的にクラスター化できるという事実と同等です )sin(x)cos(X)

この回答、 特徴の選択、抽出を見てください


お返事ありがとうございます。私は間違いなく提案されたすべての方法を探索し、最も効果的な方法を更新します。
Lapatrie、2018年

1
これは素晴らしい提案です。フォンデ-これを行うと、データセット間のバイアスを理解でき、バイアスがほとんどまたはまったく見つからない場合(つまり、クラスターが密接に重複している場合)、分析を組み合わせて、モデリングタスクで結合されたデータセットの堅牢性の経験的サポートとして使用できます。 。
Super_John 2018年

@Aditya私はあなたが他の人たちの助けを再開することを望みます:)
メディア

1
他に選択肢はありません!しかし、あなたはそれらを取り戻すことができます!それは結構です:))私はこのコミュニティが好きです!@メディア
Aditya

3

通常、機械学習モデルのトレーニングでは、一般化モデルのトレーニングに使用できるデータが多いほど、ここでは当てはまらない場合があります。

2つのデータセットが完全に異なる環境で収集された場合、それらは完全に異なる分布を持つ可能性があります。この場合、結合されたデータセットでモデルをトレーニングすると、モデルのパフォーマンスが低下する可能性もあります。

私のアドバイスは、各データセットに対して個別に統計分析を行うことです-各データセットの各変数の平均と分散を見つけ、たとえばそれらを比較します。2つのデータセットがかなり類似した分布を持っていることが分析でわかった場合(かなり類似した定義はユーザーに任せます)、2つのデータセットを組み合わせてモデルをトレーニングしても問題ありません。


2

はい、通常、MLを使用すると、より多くのデータを取得でき、結果が向上します。もちろん、異なる母集団からのデータを混合することは危険ですが、それがうまくいけば、正しい道にいます。

より多くのデータを使用すると、モデルのトレーニング中に一般化するのに役立ちます。したがって、両方の母集団からのサンプルに対してモデルをテストでき、良好な結果が得られれば、それを実行できます。


ありがとう。結果を取得したら、投稿を更新します
Lapatrie

1

この議論に追加するために、適切な評価はかなりあなたに教えてくれ、作品を提示するために使用することができます:

  • データセット1のテストセットを作成します。
  • データセット2のテストセットを作成します。
  • データセット1のみ、データセット2のみ、およびデータセット1と2の組み合わせを使用してモデルをトレーニングし、両方のテストセットでのパフォーマンスを評価します。

組み合わせたモデルが個別のモデルよりもはるかに優れている場合は、何かがあり、その可能性のある出版物でそのように報告できると思います。もちろん、どの機械学習モデルを使用するか、関心のあるパフォーマンス測定基準、交差検証をどのように実施するかなど、やる気を起こさせる必要があります...


2
モデルのパフォーマンスを最適化することに焦点を絞っています。問題は、データと実験が何らかの形で異なっていることであり、その出版物は2つの類似しているが異なる実験の間のバイアスを認めるべきです。データセットは組み合わせることができますが、実験間でのバイアスの説明と測定を可能にする解釈のレベルが必要ですが、ソリューションでは許可されていません。
Super_John 2018年

1
テストエラーを調査することにより、バイアスと分散の推定を行うことができますか?さらに、データセット1でトレーニングされ、テストセット2(およびその逆)で評価されたモデルのテスト結果は、多くのことを教えてくれると思いますか?
Archie

1

私があなたの質問に答えようとする前に、私が理解したことを説明します。

シナリオ:2つの異なる大陸で記録された被験者の心拍数の2つのデータセットが利用可能です。

目的:心拍数の経時変化に基づいて被験者の感情を見つける

目的:被験者の感情を分類する

了解しました:

  1. 結果は、個別にトレーニングおよびテストした場合に許容されます。

  2. 2つのデータセットを組み合わせると結果が向上すると仮定します

質問:

  1. 2つのデータセットの組み合わせは受け入れられますか?

2つの大陸の主題が同じであれば、データセットの組み合わせに問題はありません。一連の感情は、同じ被験者間でほとんど同じです

  1. どういうわけか2つの異なるデータセットを組み合わせると、統計的バイアスが発生しますか?

2つのデータセットのサブジェクトが同じである限り、データを追加することで結果を改善できます。

  1. 調査結果をジャーナルペーパーでどのように報告すべきですか?

2つのサンプルに対して仮説検定(ANOVA)を実行できます


非常に詳細な回答をありがとうございました。元の投稿が明確でなかったことを大変申し訳ありません。2つの異なる大陸の主題は同じではありません。ただし、録音の条件は多少似ています(ただし、まったく同じではありません)。
Lapatrie 2018年

1
彼は「目的の2つの研究実験」に言及しているため、おそらく似ていますが、同じ研究実験ではありません。ここでの懸念は、実験における未知の違いの偏りに関係していると思うので、それらを定義することはできますが、「大陸」または「実験ID」がモデルに含まれているか、独立性についてテストされている場合にのみ制御できます。
Super_John 2018年

@FondeLapatrieよろしくお願いします。特定の手順を実行している間、正当化は重要です。ですから、このユースケースについてこれ以上詳しく説明することはできません。決定を下す必要があります。被験者が異なり、実験条件が類似している2つのデータセットを組み合わせるのは正しいことですか。対象(肉食性哺乳類など)が異なる地域のタイガーとホッキョクグマの場合、組み合わせるのは正しいでしょうか。これは単なる例です。私が伝えようとしていることを理解していただければ幸いです。
NRP

@NRPどうもありがとうございます。2つのデータセットのマージに関連する落とし穴とリスクを理解しています。このスレッドでの会話を読んだ後、私の場合、2つのデータセットを組み合わせることが有効だと思います。
Lapatrie、2018年

1
@FondeLapatrieいいね。あなたの成功を祈って!
NRP 2018年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.