「アイリス」データセットのどの側面が、サンプル/ティーチング/テストデータセットとして非常に成功したか

「アイリス」のデータセットは、おそらくここにほとんどの人々によく知られている-それは、標準的なテスト・データ・セットとゴーの例データセットのデータの可視化から、機械学習へのすべてのための一つです。たとえば、この質問の全員が最終的に、治療別に分けられた散布図の議論にそれを使用しました。

何が作るアイリス便利なように設定データを？それが最初にあったというだけですか？誰かが有用なサンプル/テストデータセットを作成しようとした場合、それからどのような教訓を得ることができますか？

dataset

— フォマイト
ソース

小さいが些細ではない。シンプルだが挑戦的。実際のデータ。フィッシャーの評判は、彼のデータではありませんが。伝統。慣性。連続。あなたはそれを綴るために花の写真を見つけることができます。

— ニックコックス

そして今、それは時計仕掛けのように動作します。

— マイケルM

@NickCoxはまさにその通りだと思います。

— マーククレセン

@NickCox答えとしてそれを少し拡張したいですか？

— フォマイト

「iris」データセットは、判別分析、および例示目的の教師なし分類（モデルベースまたはモデルフリークラスタリング）に使用できます。この質問は、統計分析の特定の側面を説明するのに適したデータセットとは何かを

— -chl

回答:

アイリスデータセットは当然広く、特に統計的なグラフィックス、多変量統計および機械学習の様々な問題点を説明するために、統計学で使用されています。

150個の観測値が含まれていますが、小さいですが些細なことではありません。
3種のアイリスを花びらとがく片の測定値から区別するというタスクは、単純ですが困難です。
データは実際のデータですが、明らかに質が高いようです。原則として、実際には、テストデータセットは合成的なものである可能性があり、それは要点を説明するために必要または有用である可能性があります。それでも、実際のデータに反対する人はほとんどいません。
このデータは、1936年に有名なイギリスの統計学者ロナルドフィッシャーによって使用されました。データはもともと統計的志向の植物学者エドガー・S・アンダーソンによって公開されましたが、その以前の起源は協会を減少させません。
いくつかの有名なデータセットを使用することは、学生がギネスのために働いたことや、多くの有名な統計学者が互いに落ちたことを新しい世代に伝えるなど、私たちが伝えてきた伝統の一つです。それは慣性のように聞こえるかもしれませんが、古いメソッドと新しいメソッドを比較し、任意のメソッドを評価する際に、既知のデータセットで試してみると役立つと考えられます。
最後になりましたが、重要なこととして、Irisデータセットは、たとえばデータセットの便利なWikipediaエントリから、関連する花の写真と楽しく組み合わせることができます。

注意。関係する植物を慎重に引用する際に、生物学的な正確さのために少し努力してください。Iris setosa、Iris versicolorおよびIris virginicaは3つの種です（一部の統計アカウントのように、品種ではありません）。ここに示すように、二項式は斜体で表示する必要があります。そしてアイリス属名と特定の種を示す他の名称としては、それぞれ上下のケースで始まるべきです。

— ニックコックス
ソース

（+1）コメントを適切に答えてくれてありがとう。

— 枢機

生物学的な正当性の原則に基づいて立つことができれば、余分な+1を与えるでしょう。

— フォマイト

データセットは大きく、面白くないほど興味深いものですが、「ポケットに収まる」ほど小さく、実験の速度を落とすことはありません。

重要な側面は、過剰適合についても教えていることだと思います。完全なスコアを与えるのに十分な列がありません。散布図を見るとすぐにこれが表示され、それらは重なり合って互いにぶつかります。したがって、完全なスコアを取得する機械学習アプローチは疑わしいとみなすことができます。

— ダレンクック
ソース