「データがそれを物語る」という意図は何ですか?


10

次の論文を読んで、私は次の声明に出くわしました。

前述のように、ベンゼクリ[1973]の「データにそれ自体を説明させる」という考えに沿って、確率モデルに言及せずに提示されることがよくあります。

(引用はJPBenzécriからです。L'analysedesdonnées。Tome II:L'analyse des対応関係。Dunod、1973年。)

私がこの論文をどのように読んでいるかから、「データがそれ自体を語らせる」とは、尤度関数やデータ生成プロセスに関係なく、データ全体のさまざまな測定を検討することに沿った何かを意味するように思えます

私は以前に「データにそれ自体を語らせる」という引用を聞いたことがありますが、何が暗示されるかについては、まったく考えていません。私の上記の解釈は、この引用によって標準的に暗示されているものですか?


9
引用文がそれを物語っています。
Mark L. Stone、

@ MarkL.Stone:データと同じように、引用文はコンテキストでよりよく理解されます
Cliff AB

回答:


8

解釈はコンテキストに依存しますが、これが現れる一般的なコンテキストがいくつかあります。このステートメントは、分析の事後分布が以前の仮定に対してロバストであることが理想的であり、データの影響が事後を「支配する」ようにしたいという事実を強調するために、ベイズ分析でよく使用されます。より一般的には、引用は通常、モデルの検証不可能な構造的仮定である解釈にデータを強制するのではなく、統計モデルをデータの構造に準拠させることを意味します。

あなたが参照している特定の引用は、「モデルはデータに逆らうのではなく、データに従う必要がある」という追加の引用によって補足されています(BenzécriJ(1973)L'Analyse desDonnéesから翻訳。Tome II:L'Analyse des Correspondances 。 Dunod、P。6)。Benzécriは、統計モデルは構造を課すのではなく、データから構造を抽出すべきであると主張しました。彼は、アナリストが「データに語らせる」ことを可能にするために、探索的グラフィカル手法の使用を非常に重要であると見なしました。


(+1)そのことを念頭に置いて、私は最初のリンクされた論文の引用が示唆することは、これらの方法がモデルベースの依存構造ではなく、経験的共分散構造を見ていることを意味していると思います。
Cliff AB

1
ええ、そうだと思います。ベンゼクリがデータ分析は基本的にPCAの固有分解と同等であると主張したことは注目に値します。彼は、「全体として、優れた数学でデータ分析を行うことは、単に固有ベクトルを検索することです。そのすべての科学(または技術)は、対角化する適切な行列を見つけることです。」(Husson et al 2016、2ページを参照)
Ben-Reinstate Monica

2
ハ、それは彼にとって非常に興味深い主張です。そのコンテキストは、論文の引用をより意味のあるものにします。
クリフAB

ええ、それはかなり極端です!
ベン-モニカを

(+1)。一見すると、この見積もりに同意するのは難しいように見えますが(結局、なぜ「何かを課すこと」が良いことなのでしょうか?)、たとえば、ノンパラメトリック統計の次元の呪いは、いわばそれがそうであることを示しています。パラメトリックモデルを介してデータを聞くと、それ自体が話すデータを聞くことが容易になります。
Christoph Hanck

1

「データマイニング」が統計学の専門家に対する最新の脅威であった2005年頃に、「データマイニング原則」のポスターを見たのを覚えています。含まれていました)。「データマイニング」と見なされる可能性のあるアルゴリズムについて考えると、アプリオリかつ再帰的なパーティション分割が思い浮かびます。統計的仮定なしに動機付けされ、基礎となるデータセットのか​​なり基本的な要約をもたらす2つのアルゴリズムです。

@ベンはフレーズの履歴をより理解しますが、論文で引用されている引用について考えます。

MCAは、カテゴリーデータのPCAの対応物と見なすことができ、データの次元数を減らして、投影された点の変動性を最大化するという意味でデータを最もよく表す部分空間を提供します。言及したように、ベンズエクリ[1973]の「データにそれ自体を説明させる」という考えに沿って、確率モデルに言及せずに提示されることがよくあります。

MCAの手順はアプリオリまたは再帰的分割(または地獄、その問題の算術平均)に似ているように見えますいくつかの第一原理について。

データに語らせることのスペクトルがあります。強い事前分布を持つ完全なベイジアンモデルは、一方の端にあります。頻度論的ノンパラメトリックモデルは、もう一方の端に近くなります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.