順序変数の平均を計算する


20

多くの場所で、順序変数の平均を計算することは不適切であると読んでいます。なぜそれが不適切なのか、直観を得ようとしています。一般に、順序変数は正規分布していないため、平均を計算すると不正確な表現になるためだと思います。順序変数の平均を計算するのが不適切である理由について、より詳細な理由を誰かに教えてもらえますか?


8
平均を計算するには、まず合計が必要です。合計を意味のあるものにするためには、4 + 2が3 + 3と同じである必要があります。同様に、4-3 = 3-2 = 2-1が必要です。順序データの場合-そのカテゴリに「1」、「2」、「3」、「4」のラベルが付いていても、これは(まったく明示的に)必ずしもそうではありません。
Glen_b-モニカを復活

そして、なぜ中央値は算術平均よりも適切なのでしょうか?

回答:


24

簡単な答えは、これは論争的だということです。あなたが言及したアドバイスとは反対に、多くの分野の人々は順序尺度を利用しており、それは彼らが望むことを行うことを意味していることがよくあります。多くの教育システムでの成績の平均または同等のものがその一例です。

ただし、平均データは正規分布ではないため、有効な理由ではありません。

  • 非正規分布に広く使用されています

  • いくつかの病理学的な場合を除き、非常に多くの非正規分布に対して数学的に明確に定義されています。

データが明らかに正規分布していない場合、実際に平均を使用することは良い考えではないかもしれませんが、それは異なります。

順序データで平均を使用しない強力な理由は、その値がコーディングの規則に依存することです。通常、1、2、3、4などの数値コードは、単純化または利便性のために選択されますが、関係する定義済みの順序に対応する限り、原則として同様に1、23、456、7890になります。どちらの場合でも平均を取るには、それらの規則を文字通りに取る必要があります(つまり、あたかも数字がarbitrary意的ではないが正当であるかのように)。手段を取ることを正当化するために、値の間の等しい差を文字通りに取ることができる間隔スケールが必要です。私が主な議論になると思いますが、すでに指摘したように、人々はしばしばそれを無視し、意図的に無視します。

追加の例を次に示します。多くの場合、人々は「強く同意しない」...「強く同意する」のいずれかを選択するように求められ、(ソフトウェアが何を望んでいるかによって部分的に)1。順序付けられた要素(またはソフトウェアが使用する用語)。ここでは、コーディングはarbitrary意的であり、質問に答える人々から隠されています。

しかし、多くの場合、人々は(たとえば)1から5のスケールで質問されます。例は豊富です:ウェブサイト、スポーツ、他の種類の競技会、そして実際に教育。ここでは、人々に目盛りが表示され、それを使用するように求められています。非整数は理にかなっていることが広く理解されていますが、慣例として整数を使用することは許可されています。これは順序尺度ですか?イエスと言う人もいればノーと言う人もいます。それ以外の場合、問題の一部は、序数スケール自体があいまいなまたは議論された領域であることです。

学業の成績、たとえばEからAをもう一度考えてみてください。多くの場合、このような成績は1から5のように数値的に扱われます。数値スコアへのマッピングは順序を保持する限り任意ですが、受け入れられることは事実ですが、実際には、評点の割り当てと受信を行う人々は、スコアに同等の数値があり、評点が平均化されることを知っています

手段を使用する実際的な理由の1つは、中央値とモードがデータ内の情報の不十分な要約であることが多いことです。強く同意するものから強く同意するものまでスケールがあり、便宜上1〜5のポイントをコーディングするとします。1、1、2、2、2と1、2、2、4、5のコードがあります。中央値とモードが唯一の正当な要約であると思われる場合、それは順序尺度であるため、あなたの手です。ここで、平均が適切に定義されているかどうかなどに関係なく、平均が有用であるとわかった場合に手を挙げてください。

当然、コードが1から5の正方形または立方体である場合、平均は過敏な要約になり、それはあなたが望むものではないかもしれません。(目的がハイフライヤーをすばやく特定することである場合、それはまさにあなたが望むものかもしれません!)しかし、実際には非常によく機能するため、連続した整数コードを使用する従来のコーディングが実際的な選択である理由です。これは、測定理論家に重みを与える議論ではありませんし、そうすべきではありませんが、データ分析者は情報豊富な要約を作成することに関心を持つべきです。

評定頻度の分布全体を使用しますが、それは問題のポイントではありません。


1
すばらしい答えとプラグマティズムが重要ですが、注意点を一つ付け加えておきます。正式に確立された方法のみを使用する十分な理由は、確実性の推定&cにアクセスできることです。たとえば、4.53と4.34などの2つのGPAがある場合、一方が他方よりも「有意に」優れているかどうかを知りたい場合があります。しかし、評点の平均化には形式性がないため、信頼区間&cのようなものは得られません。
スティーブンマカティア

1
@StephenMcAteer典型的な入門テキストまたはコースで教えられている方法の点であなたのポイントを見る。しかし、それが望めば、ブートストラップはほぼ40年間信頼区間を可能にする技術を提供してきました。
ニックコックス

3

順序値を使用するとします。たとえば、1は強く反対、2は反対、3は同意、4は強く同意します。4人の回答が1、2、3、4の場合、どういう意味でしょうか?(1 + 2 + 3 + 4)/4=2.50です。

4人の平均応答が「同意しない」または「同意しない」場合、どのように解釈する必要がありますか?そのため、順序データに平均を使用しないでください。


3
この例では、悪魔の擁護者を少し演じて、2.5を2、「同意しない」、3、「同意する」の中間であると解釈します。これは、「強く同意しない」対「強く同意する」、および「同意しない」対「同意する」という意味で、平均として理にかなっています。
TooTone

1
この文脈での同意平均2.5は、依然として私にとって理にかなっています-反対と同意の中間、つまりニュートラルです。
ルチアーノ

3
Azeemにはもっと強力な例が必要だと思います。同じ理由で、家族あたり平均1、2、3、4人の子供である2.5に反対することができますが、定義された値の1つではないので、どのように解釈されるのでしょうか。それはさまざまな問題を提起します。
ニックコックス

2
答えを強化できると思います。そうすることをお勧めします。「平均は未定義の値である可能性があるため」は、ここでは論理的または心理的に強い議論ではなく、等しい差が本当に等しい差を意味するかというより深い問題に焦点を当てていません。
ニックコックス

1
明確にする方法はわかりませんが、(例)「0-4」、「5-19」、「20-114」は、1つしかないという点で順序付けられています(序数)、これらの測定値に自然な順序(反転の短い)。あなたも彼らに他のことを呼び出したいなら、それは私で大丈夫です。
ニックコックス

2

@Azeemに完全に同意します。しかし、このポイントを家に戻すために、もう少し詳しく説明します。

@Azeemの例のように、スケールが1から4の範囲の順序データがあるとします。また、このスケールで何か(アイスクリームなど)を評価する数人のユーザーがあるとします。次の結果が得られると想像してください。

  • 人Aは言った4
  • 人Bは3を言った
  • 人Cは言った1
  • 人Dは2を言った

結果を解釈する場合、次の範囲で何かを結論付けることができます。

  • 人Aは人Bよりアイスクリームが好きだった
  • 人Dは人Cよりアイスクリームが好きだった

ただし、評価の間隔については何も知りません。1と2の違いは3と4の違いと同じですか?4という評価は、その人が1と評価する人よりも4倍アイスクリームが好きだということですか?など...算術平均を計算するとき、それらの差が等しいかのように数値を扱います。しかし、それは順序データに関する非常に強力な仮定であり、それを正当化する必要があります。


上記の回答への参照を編集しました。答えは順序を変えることができ、実際、上にあった答えはこの瞬間に下にあり、それは変わることができます。そのため、位置ではなくポスターを相互参照します。
ニックコックス

0

序数データでは算術平均を真に正当化できないという概念に同意します。平均を計算する代わりに、そのような状況でモードまたは中央値を使用して、結果のより意味のある解釈を行うことができます。


これは、なぜそれが不適切である可能性があるのという問題には対応していません 。
ニックコックス
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.