データのタイプ(名義/順序/間隔/比率)は、変数のタイプと本当に見なされるべきですか?


10

だから例えばここに私が標準的な教科書から得た定義があります

変数-母集団またはサンプルの特性。例:テストの銘柄または銘柄の価格

データ-実際の観測値

したがって、2列のレポートの場合[名前| 収入]列名は変数であり、実際の観測値{dave | 100K}、{jim | 200K}がデータになります

それで、[名前]列が名目データであり、[収入]が比率データであると言えば、ほとんどの教科書のように、データのタイプではなく変数のタイプとしてそれをより正確に説明しませんか?これはセマンティクスかもしれないと私は理解しています。しかし、私はここで何かが足りないのではないかと恐れています。


意味のある違いとして私を攻撃しないでください。個人的には、どちらの言い回しも許容できると思います。「変数」の定義は少しずれているようですが。
Nick Stauner 14

2
@Nick口語的な「特性」を数学的な「実数値関数」に変換すると、確率変数の定義の一部が得られると思います。(欠落している部分は、もちろん、母集団のシグマフィールドに関する測定可能性です。)通常は、「サンプルの特性」を専門用語の統計に変換します。おそらくそれが、 「少しオフ」これらの変換では、スティーブンズの意味で変数に「タイプ」はまったくありません(離散分布と連続分布のみを区別できます)。ただし、一部のデータではできます。
whuber

回答:


16

スティーブンススケールの類型は、必ずしもいくつかの変数の固有の特性、またしてもデータそのものではなく、私たちは情報どのように扱うかの-私たちは、それを使用しているものの意味を

状況によっては、まったく同じ値が、それを使って何をしているのかに応じて、比率、間隔、序数、または名目と見なされる場合があります。これは、ある分析から次の分析に変化する可能性がある値の意味の問題です。スティーブンスの類型学にはいくつかの価値がありますが、それについて過度に規定的であるとは限りません。

意味としてのスケールの重要性のこの問題は、少なくとも主(1953)にさかのぼります。主(1953)は、同じ数値セットの名目解釈と区間解釈の両方があった例を提供しました。

この点はVellemanとWilkinson(1993)によってさらに明確にされました。VellemanとWilkinsonは、レセプションへの入場時に連番のチケットを受け取る人々の例を挙げ、チケットの1つに賞が授与されます。チケットの番号の用途に応じて、4つのスケールすべてに解釈があります。

だから、例えば「私は勝ったの?」質問は数を名目として扱うのですが、「当選チケットを入手するには早すぎましたか?」それを序数として扱う質問です。一方で、部屋の人数を推​​定するために5つのランダムチケット番号を使用して(これは紙にあるとは思わない)、比率として扱います(たとえば、慰めの賞、総出席者を推定するためにあなたが完全に5つの乱数を持っているでしょう)。

彼らは、「優れたデータ分析はデータ型を想定していない」、「スティーブンスのカテゴリーはデータの固定属性を説明していない」、「スティーブンスのカテゴリーはデータスケールを説明するには不十分である」、「統計手順はスティーブンズの基準に従って分類できない」と主張しています。各ステートメントはセクションタイトルでもあります)。

批判はまた、Tukeyによっていくつかの場所で提供されました(たとえば、MostellerとTukeyの1977年の本、データ分析と回帰の第5章)。MostellerとTukeyはタイポロジーを提供しました- 名前等級(順序付けされたラベル)、ランク (1から始まり、最大または最小のいずれかを表す可能性があります)、カウントされた分数(0と1で区切られ、これらはパーセンテージを含みます)、カウント(負ではありません)整数)、金額(非負の実数)、残高(無制限、正または負の値)。

私自身の仕事では、レベルに関連する変数(「ストック」変数と呼ばれることもある)とフローの大きな違いを理解できない人が分析に深刻な問題を引き起こした状況を見てきました-これらのタイプの簡単な例は違いです一連の期間ごとの実際の貯蔵タンク内の水の量、およびそこに流入する水の量に適した種類の分析。これらは、(これらの場合のいくつかで)の両方Mosteller及びテューキー「のサブカテゴリであろう」タイプ(およびそれらの同じ場合には、スティーブンススキームの両方の比変数)類型の問題は、非常に微妙であり得ることを示しているが、適切な分析に依然として重大な影響を与える可能性があります。

PFVelleman and L.Wilkinson(1993)、
"Nominal、Ordinal 、Interval、and Ratio Typology is Misleading、"
The American Statistician、vol。47 1号65-72ページ

(動作するバージョンは、2人目の著者のWebページ(こちら)で入手できるようです

主、F。(1953)、
「フットボールの数の統計的取り扱いについて」、
アメリカの心理学者8、pp.750-751

(この論文の年は、私がリンクしたVelleman and Wilkinson論文のバージョンの参照で誤って与えられていますが、論文の本文では正しく言及されています)


ありがとう。非常に徹底した答え。私はそれらの線に沿って考えていましたが、これを何度も研究すると、それはまるで具体的でコンセンサスに達したかのように見えます。それが私がここで終わった理由です。
ユーザー42

スティーブンスのタイポロジーは、それが最初に公開されて以来、議論され、議論されてきました。これは定理ではなく、時々役立つフレームワークです。
Glen_b-モニカを復活させます14

StevensとMosteller以外に「新しいお気に入り」はありますか?レベル/フローの例で、私があなたを正しく理解している場合、両方が同じタイプですが、異なる扱いが必要ですか?この違いを説明できますか?そして、例えば、値の対数変換はこの類型にどのように適合しますか?ありがとう。
Erich Schubert

1.最近行った試みは知らない-あまり適切ではない分析に人々をかき立てる傾向があるため、必ずしも役立つとは限らない(おもちゃの例については主の論文を参照。しかし、分析の結果は非常に現実的です-タイプごとの分析のリストは、ひどい統計分析の終わりを引き起こしませんが、適切な状況での検討の可能性から統計の膨大な範囲を切り取ります)。.. ctd
Glen_b-モニカを復活させる

ctd ... 2.レベルとフローの違いの1つの例:レベルを毎日見ると、今日のレベルは前のレベルとその間の流入または流出(または両方の合計)になります。 、両方が可能である場合)。したがって、レベル測定は必然的に依存し、多くの場合は非常に依存します。彼らをあたかも彼らが独立しているように扱うのは意味がありません-それでも人々はいつもそうしているのを見ています。3.ログに関する質問の内容がよくわかりません。あなたはそれについてより明確にすることができますか?どの類型論(私が複数言及していることに注意してください)?
Glen_b-2017

1

データのタイプは関連していますが、変数のタイプと同一ではありません。ほとんどの場合、それらは同じですが、そうである必要はありません。

たとえば、正規分布からN個のサンプルを収集するとします。あなたはそれが数値(比率またはスケール)データだと思うでしょう。しかし、これはN個の異なるカテゴリを持つカテゴリ変数であり、各カテゴリの頻度は1であるとも言えます。ばかげているように見えますが、これも有効な変数です。


これは、「本当の問題は測定の意味である」と書いたスティーブンス(この類型を定式化したとされている)とは少し矛盾しているようです。このようなデータを常に名目として扱うことを選択することもできますが、スティーブンスの推定ではそれらを名目にするわけではありません。彼の論文はgaius.fpce.uc.pt/niips/novoplano/mip1/mip1_201314/scales/…から入手できます。
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.