データの新しい知識を発見するためのガイドライン


9

私は自分自身または他の誰かに指摘するために何かをプロットします。通常、質問がこのプロセスを開始し、多くの場合、特定の回答を求めている人が希望を示します。

バイアスの少ない方法でデータに関する興味深いことを学ぶにはどうすればよいですか?

今私は大体この方法に従っています:

  1. 要約統計。
  2. ストリップチャート。
  3. 散布図。
  4. 興味深いデータのサブセットで繰り返します。

しかし、それは系統的でも科学的でもないようです。

従うべきではないデータについて明らかにするためのガイドラインや手順はありますか?適切な分析を行ったことをどのように知ることができますか?

回答:


6

探索的データ解析(EDA)のフィールド全体、およびと呼ばれるこのテーマに関する優れた著書あります探索的データ解析ジョン・W・テューキーによっては、。

私はあなたがグラフを使用しているのが好きです-あなたのデータに応じて、役に立つ他の多くのグラフがあります-変​​数の数は?変数の性質(カテゴリ?数値?連続?カウント?序数?)

複数の変数を持つデータにしばしば役立つ1つのグラフは、散布図行列です。

さまざまな種類の外れ値を探すことができますが、これらはしばしば興味深い点です。

しかし、このプロセス全体を本当に体系的かつ科学的にすることができるとは思いません。調査は、体系的で科学的なアプローチを導入する前に行われます。ここで、重要な側面は遊び心だと思います。


(+1)上記の本へのリンクを提供できますか?
steffen

エンジニアリングおよび統計ハンドブックitl.nist.gov/div898/handbook/eda/eda.htmからのEDA 。
セルデン

@Peter Flom 13変数は、2つの入力セットで実行されるプログラムによって生成される2つの出力セットを比較することによって生成されます。プログラムは定期的に実行されます。変数は、序数、カテゴリー、カテゴリー、カテゴリー、カテゴリー、カウント、カウント、カウント、カウント、数値、数値、カウント、およびカウントです。名前は、id、machineA、inputA、machineB、inputB、new、same、missing、newP、missingP、lengthA、lengthB、scoreA、scoreBです。しかし、最新の出力のみを比較するという決定も、私の良い/悪い考えです。
セルデン

この本は実際には探索的データ分析(EDAではなく)と呼ばれています。これはJohn W. Tukeyによるものです(エディションのカバーにEDAというラベルが付いているため、私の記憶が騙されました)リンク:amazon.com/Exploratory-Data-Analysis-John-Tukey/dp / 0201076160 /…
ピーターフロム-モニカの

@seldenまあ、IDはおそらく有用な変数ではありません。2つのカテゴリー変数の間で、モザイクプロットを見ることができます。カテゴリカルと数値の間で、平行箱ひげ図が良い場合があります。
ピーターフロム-モニカの回復

1

時系列データ、つまり時系列データがある場合、「既知」があり、発見を待っているのは「未知」です。たとえば、1,9,1,9,1,5,1,9,1,9のような10期間のデータポイントのシーケンスがある場合、このサンプルに基づいて、合理的に1,9,1,9を期待できます。 、...将来発生します。データ分析が明らかにしていることは、DGFが保持されなかったことを示唆している+ -3シグマの限界内であるにもかかわらず、期間6で「異常な」測定値があることです。Inlier / Outlierのマスクを解除すると、データに関する情報を明らかにすることができます。また、平均値は期待値ではないことにも注意してください。このアイデアは、データが分析される前に未知であった可能性のある平均シフトやローカルタイムトレンドの検出(仮説生成)に簡単に拡張できます。これで、次の10回の測定値も1,9,1,9、1,5,1,9,1,9は、「5」が必ずしも不利ではないことを示唆しています。証明可能な一定でない分散を示す適切なモデルからのエラープロセスを観察すると、次の自然状態の1つを明らかにしている可能性があります。1)特定の時点でパラメーターが変更された可能性があります。2.加重分析(GLS)が必要になる場合があります。3.パワー変換を介してデータを変換する必要がある場合があります。4.実際に誤差の分散をモデル化する必要がある場合があります。毎日のデータがある場合、適切な分析により、一貫性のある/予測可能な動作を反映する各休日の周りに応答のウィンドウ(リード、同時、およびラグ構造)があることが明らかになる可能性があります。また、月の特定の日が大きな影響を与えることや、月曜日の休日の前の金曜日が例外的な活動をしていることを明らかにすることもできます。9は、「5」が必ずしも不利ではないことを示唆しています。証明可能な一定でない分散を示す適切なモデルからのエラープロセスを観察すると、次の自然状態の1つを明らかにしている可能性があります。1)特定の時点でパラメーターが変更された可能性があります。2.加重分析(GLS)が必要になる場合があります。3.パワー変換を介してデータを変換する必要がある場合があります。4.実際に誤差の分散をモデル化する必要がある場合があります。毎日のデータがある場合、適切な分析により、一貫性のある/予測可能な動作を反映する各休日の周りに応答のウィンドウ(リード、同時、およびラグ構造)があることが明らかになる可能性があります。また、月の特定の日が大きな影響を与えることや、月曜日の休日の前の金曜日が例外的な活動をしていることを明らかにすることもできます。9は、「5」が必ずしも不利ではないことを示唆しています。証明可能な一定でない分散を示す適切なモデルからのエラープロセスを観察すると、次の自然状態の1つを明らかにしている可能性があります。1)特定の時点でパラメーターが変更された可能性があります。2.加重分析(GLS)が必要になる場合があります。3.パワー変換を介してデータを変換する必要がある場合があります。4.実際に誤差の分散をモデル化する必要がある場合があります。毎日のデータがある場合、適切な分析により、一貫性のある/予測可能な動作を反映する各休日の周りに応答のウィンドウ(リード、同時、およびラグ構造)があることが明らかになる可能性があります。また、月の特定の日が大きな影響を与えることや、月曜日の休日の前の金曜日が例外的な活動をしていることを明らかにすることもできます。必ずしも厄介なことではありません。証明可能な一定でない分散を示す適切なモデルからのエラープロセスを観察すると、次の自然状態の1つを明らかにしている可能性があります。1)特定の時点でパラメーターが変更された可能性があります。2.加重分析(GLS)が必要になる場合があります。3.パワー変換を介してデータを変換する必要がある場合があります。4.実際に誤差の分散をモデル化する必要がある場合があります。毎日のデータがある場合、適切な分析により、一貫性のある/予測可能な動作を反映する各休日の周りに応答のウィンドウ(リード、同時、およびラグ構造)があることが明らかになる可能性があります。また、月の特定の日が大きな影響を与えることや、月曜日の休日の前の金曜日が例外的な活動をしていることを明らかにすることもできます。必ずしも厄介なことではありません。証明可能な一定でない分散を示す適切なモデルからのエラープロセスを観察すると、次の自然状態の1つを明らかにしている可能性があります。1)特定の時点でパラメーターが変更された可能性があります。2.加重分析(GLS)が必要になる場合があります。3.パワー変換を介してデータを変換する必要がある場合があります。4.実際に誤差の分散をモデル化する必要がある場合があります。毎日のデータがある場合、適切な分析により、一貫性のある/予測可能な動作を反映する各休日の周りに応答のウィンドウ(リード、同時、およびラグ構造)があることが明らかになる可能性があります。また、月の特定の日が大きな影響を与えることや、月曜日の休日の前の金曜日が例外的な活動をしていることを明らかにすることもできます。証明可能な一定でない分散を示す適切なモデルからのエラープロセスを観察すると、次の自然状態の1つを明らかにしている可能性があります。1)特定の時点でパラメーターが変更された可能性があります。2.加重分析(GLS)が必要になる場合があります。3.パワー変換を介してデータを変換する必要がある場合があります。4.実際に誤差の分散をモデル化する必要がある場合があります。毎日のデータがある場合、適切な分析により、一貫性のある/予測可能な動作を反映する各休日の周りに応答のウィンドウ(リード、同時、およびラグ構造)があることが明らかになる可能性があります。また、月の特定の日が大きな影響を与えることや、月曜日の休日の前の金曜日が例外的な活動をしていることを明らかにすることもできます。証明可能な一定でない分散を示す適切なモデルからのエラープロセスを観察すると、次の自然状態の1つを明らかにしている可能性があります。1)特定の時点でパラメーターが変更された可能性があります。2.加重分析(GLS)が必要になる場合があります。3.パワー変換を介してデータを変換する必要がある場合があります。4.実際に誤差の分散をモデル化する必要がある場合があります。毎日のデータがある場合、適切な分析により、一貫性のある/予測可能な動作を反映する各休日の周りに応答のウィンドウ(リード、同時、およびラグ構造)があることが明らかになる可能性があります。また、月の特定の日が大きな影響を与えることや、月曜日の休日の前の金曜日が例外的な活動をしていることを明らかにすることもできます。加重分析(GLS)が必要になる場合があります。3.パワー変換を介してデータを変換する必要がある場合があります。4.実際に誤差の分散をモデル化する必要がある場合があります。毎日のデータがある場合、適切な分析により、一貫性のある/予測可能な動作を反映する各休日の周りに応答のウィンドウ(リード、同時、およびラグ構造)があることが明らかになる可能性があります。また、月の特定の日が大きな影響を与えることや、月曜日の休日の前の金曜日が例外的な活動をしていることを明らかにすることもできます。加重分析(GLS)が必要になる場合があります。3.パワー変換を介してデータを変換する必要がある場合があります。4.実際に誤差の分散をモデル化する必要がある場合があります。毎日のデータがある場合、適切な分析により、一貫性のある/予測可能な動作を反映する各休日の周りに応答のウィンドウ(リード、同時、およびラグ構造)があることが明らかになる可能性があります。また、月の特定の日が大きな影響を与えることや、月曜日の休日の前の金曜日が例外的な活動をしていることを明らかにすることもできます。同時発生および遅延構造)各ホリデー周辺で一貫性のある/予測可能な動作を反映します。また、月の特定の日が大きな影響を与えることや、月曜日の休日の前の金曜日が例外的な活動をしていることを明らかにすることもできます。同時発生および遅延構造)各ホリデー周辺で一貫性のある/予測可能な動作を反映します。また、月の特定の日が大きな影響を与えることや、月曜日の休日の前の金曜日が例外的な活動をしていることを明らかにすることもできます。


0

データマイニングは2つのカテゴリに分類できます。特定の変数に対するデータセット/変数の影響を測定することに関心がある場合、これは教師あり学習と見なされます。目的のない深層探索的学習では、教師なし学習が行われます。

データのグラフ化と統計分析(分布の理解と直感の獲得)が最初のステップです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.