四分位範囲の解釈は何ですか？

9

二酸化窒素の毎日の測定を1年間（365日）行っており、四分位数（IQR）は1立方メートルあたり24マイクログラムです。25パーセンタイルと75パーセンタイルの違いであるIQRの定義を除いて、このコンテキストでの「24」の意味は何ですか？たとえば、この数字をジャーナリストにどのように説明しますか？

ありがとう

descriptive-statistics

— user2742
ソース

平均値または中央値は何ですか？

— mpiktas

18

定義から、これは魔女がすべての測定値の75-25 = 50％を保持する範囲を定義します。

~~：（中央値24/2、中央値+24/2）。中央値は、このIQRの近くのどこかに記述する必要があります。~~
上記はもちろん誤りでした。これを書いているとき、私はまだ眠っていたようです。混乱させて申し訳ありません。IQRがデータの50％を保持する範囲の幅であることは事実ですが、中央値に中央揃えされていません。この範囲を特定するには、Q1とQ3の両方を知る必要があります。

一般に、IQRは、標準偏差と同等のノンパラメトリック（=分布がガウスであると想定しない場合）と見なすことができます。どちらもデータの広がりを測定します。（SDの場合、同等ではない（（、mean + ）は、完全に正規分布したデータの68.2％を保持します）。 $\sigma$ $\sigma$

編集：たとえば、これは通常のデータでの表示方法です。赤線が示す、ボックスプロットショーのボックスで示した範囲をIQR、ヒストグラム番組データ自体：あなたは両方のショーのスプレッドはかなり良い見ることができます。（予想通り）範囲は、データの68.3パーセントを保持します。今、非正規データの SDスプレッドが長いために拡大され、非対称テールとデータの90.5パーセントを保持しています！（IQRは、どちらの場合も定義により50％を保持します） $\pm 1\sigma$ 代替テキスト
$\pm 1\sigma$

$\pm 1\sigma$

— Utsav T
ソース

13

これは、簡単な答えを求める簡単な質問です。 これは、最も基本的なものから始めて、より正確な条件に進むステートメントのリストです。

IQRは、データの中央半分の広がりです。

IQR は、データの分散方法を想定せずに、個々の値が通常変化する量を定量化します。

IQRは、よく知られている「標準偏差」（SD）に関連しています。データが「ベルカーブ」に従う場合、IQRはSDよりも約35％大きくなります。（同等に、SDはIQRの約4分の3です。）

経験則として、IQRの2倍を超えて中央値から逸脱しているデータ値は、個々の注意に値します。それらは「外れ値」と呼ばれます。中央値からIQRの3.5倍を超えるデータ値は、通常、綿密に調査されます。それらは「遠い外れ値」と呼ばれることもあります。

— whuber
ソース

6

四分位範囲はスカラーではなく間隔です。両者の違いだけでなく、常に両方の数値を報告する必要があります。次に、サンプルの読み取り値の半分がこれら2つの値の間にあり、4分の1が下位の四分位よりも小さく、4分の1が上位の四分位よりも高いと説明できます。

— ワンストップ
ソース

4

@onestopこれにより、IQRを区間とするか、スカラーとするかを考えるようになりました。ウィキペディアから、それはスカラーとして定義され、私が学んだことと一致しています。

— user2742

2

IQRは第3四分位と第1四分位の差であり、したがってスカラーであることは常に知っています。

— nico

2

IQRはスカラーとして定義される可能性がありますが、間隔として報告された場合、はるかに多くの情報が含まれます。たとえば、[-1,1]と[499,501]は同じ範囲になりますが、意味は異なります。

— mpiktas 2011年

1

（IMHO）IQRはスカラーです。これは間隔の長さです。明らかに、2番目（R ^ 2のサブセットにある）から最初（R +にある）に渡すことは常に可能ですが、その逆はできないため、前者よりも後者のほうが有益です。

— ガラス状の'13年

1

私はこれが物議を醸すと予想し、それが通常の定義ではないことを理解しましたが、私はそれがより有用なものだと思います。医学文献の私の経験では、両方の四分位数をそれらの違いではなくIQRとして報告することがはるかに一般的であり、私はそうですうれしいです。

— ワンストップ2011年

1

大まかに言えば、私はジャーナリストに、最高値と最低値を破棄した後、二酸化窒素の毎日のレベルが確実であることを宣言できると言います。その年の半日のそれぞれの観測値は宣言されたレベルからIQR / 2の距離を超えてはいけません。

たとえば、第1四分位数と第3四分位数が100と124の場合、1日のレベルは112（平均100と124）であり、対話者に、作成したエラーが半日で12を超えないことを保証できます。。

— ガラス状
ソース

「観察された」レベルと「宣言された」レベルの違いを説明できますか？（私はまた、優れたジャーナリストがあなたが価値観を「捨てている」という含意に悩まされ、いくつかの難しい質問をフォローするだろうと

— 疑ってい

@whuber：私は回答に例を追加します。難しい質問については、（この質問に対する他の回答がそうであるように）正規分布または他の何らかの概念を参照して答えても、それらは発生すると思います。50％トリミングされた平均を説明する方が簡単でしょうか？そうである場合、IQRはその観測範囲の長さであると言います

— ガラス状の'16年