大規模なデータセットを理解するには、どの初期ステップを使用する必要がありますか、またどのツールを使用する必要がありますか?


10

警告:機械学習に関しては、私は完全な初心者ですが、学びたいと思っています。

大規模なデータセットがあり、そのパターンを見つけようとしています。既知の変数、またはデータに含まれているが実際には変数/関連があるとまだ認識していない変数のいずれかと、データ全体に相関がある場合とそうでない場合があります。

これはデータ分析の世界ではおなじみの問題になると思いますので、いくつか質問があります。

  1. 「銀の弾丸」は、このすべてのデータを統計/データ分析プログラムに投入し、関係を見つけようとする既知/未知のパターンを探してデータを処理することです。SPSSは適切ですか、それとも他のアプリケーションが適している可能性がありますか。

  2. Rのような言語を学び、手動でデータを処理する方法を理解する必要があります。何をどのようにデータを分析するかを手動で指定する必要があるので、この関係を見つけるのは簡単ではありませんか?

  3. プロのデータマイナーはこの問題にどのように取り組み、どのような手順を実行しますか?

回答:


11

私はあなたの質問に答えようとしますが、「大きな」は相対的な概念であるため、「大きなデータセット」という用語を使用することは誤解を招きます。詳細を入力する必要があります。入札データを扱っている場合、この事実は、データ分析のための優先ツールアプローチアルゴリズムの選択に影響を与える可能性が最も高くなります。以下のデータ分析についての私の考えがあなたのサブ質問に対処することを願っています。私のポイントの番号がサブ質問の番号と一致しないことに注意してください。ただし、一般的なデータ分析ワークフローを反映していると思います。少なくとも、私がそれをどのように理解しているかです。

1)まず、少なくともある種の概念モデルを念頭に置いておく必要があると思います(または、より適切には、紙の上で)。このモデルは、探索的データ分析(EDA)に役立つはずです。モデルに従属変数(DV)が存在するということは、分析の後半の機械学習(ML)フェーズで、いわゆる監視されたMLと対比されることを意味します。

2)次に、EDAは重要な部分です。IMHO、EDAには、データについての理解を深めるために、記述統計データの視覚化を生成する複数の反復を含める必要があります。このフェーズでは、データセットに関する貴重な洞察が得られるだけでなく、次の重要なフェーズであるデータのクリーニングと変換にも役立ちます。生データを統計ソフトウェアパッケージに投入するだけではそれほど効果はありません。有効な統計分析では、データはクリーンで正確で一貫している必要があります。これは多くの場合、最も時間と労力を要しますが、絶対に必要な部分です。このトピックの詳細については、次のすばらしい論文を読んでください。http://vita.had.co.nz/papers/tidy-data.pdf(ハドリーウィッカムによる)とhttp://cran.r-project.org/doc/contrib/de_Jonge+van_der_Loo-Introduction_to_data_cleaning_with_R.pdf(でEdwin de JongeおよびMark van der Loo)。

3)これで、データのクリーンアップと変換だけでなく、EDAの作業も完了したので、統計に関連するフェーズを開始する準備ができました。そのようなフェーズの1つは、データの基礎となる構造を抽出できる探索的因子分析(EFA)です。多数の変数を含むデータセットの場合、EFAのプラスの副作用は次元削減です。そして、その意味ではEFAは主成分分析(PCA)に似ていますその他の次元削減アプローチでは、EFAはデータが「記述する」現象の概念モデルを洗練し、データセットを理解できるため、より重要であると思います。もちろん、EFAに加えて、前のフェーズでの発見に基づいて、回帰分析を実行したり、機械学習手法を適用したりできます。

最後に、ソフトウェアツールに関する注意事項。私の意見では、統計ソフトウェアパッケージの現状は、ほとんどすべての主要なソフトウェアパッケージが機能的に同等の製品を提供しているような時点にあります。ソフトウェアツールに関して特定のポリシーと設定がある組織で勉強または仕事をしている場合、それらに制約されます。ただし、そうでない場合は、特定のプログラミング言語の快適さ、学習曲線、およびキャリアの視点に基づいて、オープンソースの統計ソフトウェアを強くお勧めします。現在選択しているプラ​​ットフォームはRプロジェクトですは、パッケージ、エキスパート、および愛好家の驚くべきエコシステムとともに、成熟した、強力で、柔軟で、広範囲にわたるオープンな統計ソフトウェアを提供します。その他の優れた選択肢には、PythonJulia、およびHadoopSparkNoSQLデータベース、WEKAなどのビッグデータを処理するための特定のオープンソースソフトウェアが含まれます。以下のためのオープンソースソフトウェアのその他の例については、データマイニング:一般的および具体的な統計やMLのソフトウェアが含まれ、Wikipediaのページのこのセクションを参照http://en.wikipedia.org/wiki/Data_mining#Free_open-source_data_mining_software_and_applicationsを

更新:Rattlehttp://rattle.togaware.com)について言及するのを忘れました。これは、データマイニング用の非常に人気のあるオープンソースのR指向GUIソフトウェアでもあります。


1
1年以上後にこの質問に戻った後、データが重要であり、「良い」データと「悪い」データを比較する必要があることを知っていることは確かです。ニューラルネットワークなどの魔法のソリューションを使用しようとしましたが、データのクリーンアッププロセスは簡単ではありませんでした。(隠れマルコフモデルはダーティ入力に最もよく反応し、出力を最もよく予測できたようです)MLが失敗してから多くのグラフを作成した後、何週間もデータを注いだだけで効果がありました(データの視覚的表現は非常に優れています)重要)問題の解決策を見つけることができたこと!
user3791372

@ user3791372よろしくお願いします!データサイエンスのさまざまな側面について理解を深めることができた年は、明らかに生産性が高かったようです。もっと学ぶ機会がもっとあればいいのですが、一方で、たくさん学んだので文句を言うことはできません(データサイエンスとは必ずしも関連しているわけではありませんが、おそらくもっと優れているでしょう)。がんばり続ける!
Aleksandr Blekh 2016

3
  1. SPSSは優れたツールですが、Excelのようにコンピューター上に既にあるリソースや、Rプロジェクトのように無料のリソースを使って多くのことを達成できます。これらのツールは強力であり、パターンを特定するのに役立ちますが、分析を実行する前にデータをしっかりと把握する必要があります(データの説明統計を実行し、グラフでデータを調べてすべてを確認することをお勧めします正常に見えています)。言い換えると、使用するツールは「銀の弾丸」を提供しません。出力は入力と同じくらい価値があるだけだからです(ご存知のとおり、「ガベージイン、ガベージアウト」)。私が言っていることの多くは、Aleksandrによる返答ですでに述べられています-スポット。

  2. コーディングに精通していない私たちにとって、Rは難しいかもしれませんが、Rとそのパッケージに関連付けられている無料のリソースは豊富です。プログラムの学習を練習すれば、すぐに牽引力が得られます。ここでも、実行したいデータと分析に精通している必要があります。その事実は、使用する統計ツールに関係なく残ります。

  3. まず、データに精通することから始めます(まず、Aleksandrからの返信で説明されている手順に従います)。John Smarteと呼ばれるJohn Foremanの本を手に入れることを検討するかもしれません。Johnはデータセットを提供しており、あなたは彼の例(Excelを使用)に従ってデータをナビゲートおよび探索するさまざまな方法を学ぶため、実践的な本です。初心者にとって、それは素晴らしいリソースです。


2

Aleksandrは非常に徹底した説明をしましたが、簡単に言えば、これらは従われるステップです:

データの抽出

クリーニングデータ

特徴抽出

モデルの構築

結果の推測

結果の公開

正しい精度が得られるまで、ループでステップ3、4、5を繰り返します。


0

Rには、SPSSのようなpncダイアログGUIがあります。彼らはRコードを印刷するので、あなたは彼らの努力を学び、組み合わせることができます。私はBlueSkyをお勧めします。それは、あらゆるものとガラガラとの対話であるためです。これらのソフトウェアはEDA、統計、視覚化に最適ですが、機械学習はうまく機能しません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.