「アイリス」のデータセットは、おそらくここにほとんどの人々によく知られている-それは、標準的なテスト・データ・セットとゴーの例データセットのデータの可視化から、機械学習へのすべてのための一つです。たとえば、この質問の全員が最終的に、治療別に分けられた散布図の議論にそれを使用しました。
何が作るアイリス便利なように設定データを?それが最初にあったというだけですか?誰かが有用なサンプル/テストデータセットを作成しようとした場合、それからどのような教訓を得ることができますか?
「アイリス」のデータセットは、おそらくここにほとんどの人々によく知られている-それは、標準的なテスト・データ・セットとゴーの例データセットのデータの可視化から、機械学習へのすべてのための一つです。たとえば、この質問の全員が最終的に、治療別に分けられた散布図の議論にそれを使用しました。
何が作るアイリス便利なように設定データを?それが最初にあったというだけですか?誰かが有用なサンプル/テストデータセットを作成しようとした場合、それからどのような教訓を得ることができますか?
回答:
アイリスデータセットは当然広く、特に統計的なグラフィックス、多変量統計および機械学習の様々な問題点を説明するために、統計学で使用されています。
150個の観測値が含まれていますが、小さいですが些細なことではありません。
3種のアイリスを花びらとがく片の測定値から区別するというタスクは、単純ですが困難です。
データは実際のデータですが、明らかに質が高いようです。原則として、実際には、テストデータセットは合成的なものである可能性があり、それは要点を説明するために必要または有用である可能性があります。それでも、実際のデータに反対する人はほとんどいません。
このデータは、1936年に有名なイギリスの統計学者ロナルドフィッシャーによって使用されました。データはもともと統計的志向の植物学者エドガー・S・アンダーソンによって公開されましたが、その以前の起源は協会を減少させません。
いくつかの有名なデータセットを使用することは、学生がギネスのために働いたことや、多くの有名な統計学者が互いに落ちたことを新しい世代に伝えるなど、私たちが伝えてきた伝統の一つです。それは慣性のように聞こえるかもしれませんが、古いメソッドと新しいメソッドを比較し、任意のメソッドを評価する際に、既知のデータセットで試してみると役立つと考えられます。
最後になりましたが、重要なこととして、Irisデータセットは、たとえばデータセットの便利なWikipediaエントリから、関連する花の写真と楽しく組み合わせることができます。
注意。関係する植物を慎重に引用する際に、生物学的な正確さのために少し努力してください。Iris setosa、Iris versicolorおよびIris virginicaは3つの種です(一部の統計アカウントのように、品種ではありません)。ここに示すように、二項式は斜体で表示する必要があります。そしてアイリス属名と特定の種を示す他の名称としては、それぞれ上下のケースで始まるべきです。