最も紛らわしい統計用語


47

統計学者は、他の人が使用する方法とは少し異なる方法で多くの単語を使用します。私たちが何をしているかを教えたり説明したりすると、これは多くの問題を引き起こします。リストを開始します(そして、コメントごとに定義を追加します)。

  • パワーとは、誤った帰無仮説を正しく拒否する能力です。通常、これは「何かが起こっている」と正しく言うことを意味します。
  • バイアス-統計は、それに関連する母集団パラメーターと体系的に異なる場合、バイアスがかけられます。
  • 有意性-結果は、以下の状況で数パーセント(多くの場合5%)で統計的に有意です:サンプルが由来する母集団の真の効果が0の場合、少なくともサンプルから得られたものと同じくらい極端な統計が発生します時間の5%。
  • 相互作用-従属変数と1つの独立変数との関係が他の独立変数の異なるレベルで異なる場合、2つの独立変数が相互作用します

しかし、他にも多くの人がいる必要があります!


5
私は、人々が彼らの答えにもより大きな文脈を追加することを提案します。例としては、異なる分野で使用される同じ単語(固定効果Gelman、2005)や、異なるコンテキストで異なる意味を持つ単語(重要性対統計的重要性Bushway et al。、2006)があります。
アンディW

5
回答者が「技術的な」用語が実際に何を意味するのか、またはそれが異なる意味を持っていると知覚される原因となるものを1つまたは2つの文で説明できればよいでしょう。
CHL

後であなたのコメントに従って回答を完了します
;

1
...および「相関」!
ステファンローラン

1
「サンプル」については、stats.stackexchange.com / questions / 20945 /…へのコメントを参照してください
whuber

回答:


21

「重要」は、英語でよく使われる意味、研究結果の議論でその意味が現れるため、私が遭遇する最大の問題です。統計結果について話したのと同じ文の中で、重要な意味で「有意」と混同することさえあります。

その方法は狂気にあります。


右が、「私はかなり気必ずそれが重要なのですが、それは/明らかに/を行うことができないものは何でもだから、私は、それ上の任意のテストを行っていない、としませんしているよ」のためのより良い言葉がありません
naught101

17

リストにリニアを追加することをお勧めします。

YXYY^=aX+babE[(YaXb)2]

「「線形」という言葉を使うこの方法は、線形回帰と呼ばれる線形回帰の理由が線に合っているという誤解につながるのではないかと思うので、あなたの言語には少し不快です。統計学者が放物線や正弦波などに適合したときに線形回帰を行っていると主張するとき、それは混乱を招きます。」

だから、何統計に線形回帰平均を?


5
この答えを参照してサイト上の関連する質問、線形回帰で線形は何を表しますか?
アンディW

1
@AndyWでは、Peter Flomが始めたリストにLinearが属していると言ってもいいですか?
ディリップサルワテ

1
はい、このリストの法案に合うことに同意します。(+1)
アンディW

4
これはリストに収まりますが、異常な理由により、「線形」という用語の意味は十分に確立され、多くの数学指向のフィールドで一貫して使用されます。潜在的な混乱は、式のどの部分が線形であるかに関するものです。
whuber

放物線の近似方法の例を挙げて、それを線形モデルと呼ぶことはできますか?
-oneloop

14

確率

仮説検定と信頼区間の解釈に関連する問題のほとんどは、手順が頻繁なものに基づいている場合の「確率」のベイズ定義の適用に起因するように思えます。たとえば、帰無仮説が真である確率であるp値は、AFAICSが頻度を設定する特定の仮説の真理に確率を関連付けることができない場合です。


4
信頼区間について話す/解釈するとき、(true)パラメーターが95%の確率でxxとxxの間にあると言う人にも同じ考慮が当てはまるようです。
chl

1
そのとおり!
ディクラン有袋類

1
+1ただし、最後の文の表現は少し異なります。frequentest設定内では、帰無仮説が真である確率は1または0ですが、どちらがわからないのですか。「確率」は長期的な相対頻度であると「長期周波数が本当に適用されません。それでもので、人々はこのよう言葉で表現する場合(厳密に言えば、これは、非常に適切ではないことができ、我々は理解してどのように/言われているものを理解します私たちがしている状況例えば、人々はあなたが帰無仮説が真である確率として帰無仮説のp値を使用することはできませんことを実現)。。
GUNG -復活モニカ

2
「『確率』は長期相対頻度であるため、」probabilistsの多くは激しく、その文反論します
ディリップSarwate

14

"信頼"

信頼区間が(直接)異なるパラメーター値の信頼性に関する声明ではないことを非統計学者を説得することは非常に困難です。

この用語の技術的な意味で自信を持たせるために、繰り返し実験のセットを想像する必要があります。それぞれが事前に指定された方法で間隔を計算します。95%の信頼区間になるために、式のこれらの使用の95%は、関連する関連パラメーターをトラップします。

ab

(もちろん、2つの概念がほぼまたは正確に一致する場合があります。しかし、一般的には一致しません。また、数値的一致は技術用語の誤用の問題を除去しません。)


10

「可能性」-日常会話の「確率」と同義ですが、統計学では特別な意味があります。統計モデルのパラメーターの関数であり、その値は、パラメーターがパラメータ値と等しい。


8

エラー。

統計では、「エラー」はモデルの予測からの実際のデータ値の偏差です。

実際には、エラーはspllng mstakeまたはその他の間抜けです。


スペルミスは、通信媒体の実際の(意図された)値からの単なる逸脱ではありませんか?これがどのように異なる単語であるかは実際にはわかりませんが、異なる(しかし競合しない)文脈で使用されているだけです。私は、この分野の新しい人を混乱させるとは信じがたいです。
-naught101

2
値が予測と異なる場合がある理由の1つは、実験者が混乱したことです。それはスペルミスのようなものです。しかし、なぜあなたの体重はあなたの性別と年齢のすべての人々の平均体重と異なるのですか?なぜあなたの収入は平均収入と異なるのですか?統計では、この平均からの逸脱は「エラー」ですが、それは間違いではなく、単なる変動です。
ハーベイモトゥルスキー

確かに、しかしそれはあなたがそれをどう見るかによります。小学校のサンプルで単語のつづりを見ると、人間によって引き起こされた、しかし実験者によって引き起こされたバリエーションも得られます。さまざまな年齢の英語で書くのと同じことを見ることができます。私はあなたが初期の英語の方がずっと高い変動性を持っていたことを見つけるだろうと思います:)
naught101

@HarveyMotulsky:分析化学は両方の方法でエラーを使用します。システマティックエラー、ランダムエラー、グロスエラーについて話します。教科書:「総誤差は回避できます」。
cbeleitesは

8

"推論"

βb

推論に関する別の重要な部分は、中心極限定理です。母集団から単純にサンプリングしていることに気付いたら(サンプリングは推論に似た別の複雑な機能ですが)、サンプルの平均が1つの値を保持していても、その値は必ずしも母集団の平均と同じではないことがわかります。

たぶん私はあなたの質問を比較的ゆるやかに理解しましたが、誰かが推論やサンプルと母集団の違いを理解すると、統計の全体が開かれます。


7

私たち(または少なくとも私)にとって、「サンプル」の「ランダム性」は、それが「人口」の代表であることを示唆しています。

他の人にとって、「ランダム性」は、人/物が異常であることを意味する場合があります。


1
「ランダム性」をめぐる混乱には遭遇していません。しかし、もしあれば、明らかに存在します。
ピーターフロム-モニカの復職

3
より正確には、それが存在していたこと
Thomas Levine

1
後者の「ランダム」の使用は、私にとってごく最近のようです。その理由から、少し面倒です(人々が理解するのが統計を難しくするだけです)。その意味でそれを使用しているのを聞くと、さらに面倒です。
naught10112

5

国民を混乱させる用語と統計学者を混乱させる用語を区別すべきだと思います。上記の提案は、主に統計学者がよく理解している用語であり、(おそらく)国民に誤解されています。リストに統計学者が理解していないいくつかの用語を追加したいと思います。

  • ベイジアン:もともとは、現在主観的ベイズとして知られているもの(別名、認識論、デフィネッティ)を指します。今日、この用語は、ベイズ規則が現れるときはいつでも使用されますが、めったに意思決定理論と見なされる主観的な信念の文脈では使用されません。
  • 経験的ベイズ:もともとは、ノンパラメトリック事前分布を伴う頻繁な設定を指します。今日では、通常、パラメトリック(客観的)事前のパラメーターが推定され、事前に知られていないことを意味します。すなわち、かつてタイプIIの最尤法として知られていました。
  • ノンパラメトリック:「モデルフリー」を指す場合があります。時には「無料配布」に。「パラメトリック」モデルには何百万ものパラメーターが含まれる可能性がありますが、今日では実質的に情報価値がなくなりました。
  • タイプIIIエラー:符号エラーを指す場合があります。モデルの仕様の誤りを指す場合もあります。

私が尋ねられたとき、私は「一般市民に混乱用語」を意図したものではなく、確かに統計学者に混乱用語はまた、リストの価値がある
ピーターFlom -復活モニカ

これはおそらく別々の回答に分割する必要があります。
-naught101

4

生態系、一般的に生物学的システムを指すために使用されますが、統計上の誤りもあります。ウィキペディアから:

生態学的な誤acy(または生態学的な推論の誤eco)は、生態学的研究における統計データの解釈の誤りであり、特定の個人の性質に関する推論は、それらの個人が属するグループについて収集された集計統計のみに基づいています。この誤acyは、グループの個々のメンバーがグループ全体の平均的な特性を持っていることを前提としています。


3

「調査」は一種の数学(「調査サンプリング」)ですか、それとも紙切れ(「アンケート」)ですか?

私はこれについて調査を行っていませんが、大衆の多くは「調査」を後者だと考えていると思います。さらに、彼らは前者については考えていないようです。


2
測量士による調査は行われていませんか?;)
zbicyclist

3

「荷重」、「係数」および「重量」。主成分分析について話すとき。

私は通常、人々がそれらを使用するときに非常にアドホックであり、それらの意味を最初に明示的に定義せずに交換可能に使用していることを発見し、実際に「ロードベクトル」を参照し、時にはPC自体および「重量」を意味する論文に出くわしました特定のPCに関連付けられています。

おそらく、主成分に関するJollifeeの優れた参照がセクション1.1の終わりに述べられているという事実は、「一部の著者は、使用される正規化制約に応じて、用語「負荷」と「係数」を区別しますが、本書では同じ意味で使用されます」用語を好みに合わせて自由に組み合わせられる無料パスがあると人々に思わせただけです。


1

加算モデル。それでも、これが何を意味するのか、まだよくわかりません。相互作用項のないモデルを指すと思います。しかし、その後、私は彼らが他の何か、すなわちスプラインモデルを参照するためにそれを使用している記事に出会います。


0

最も紛らわしい用語の1つは、「混同マトリックス」です。もちろん、使用されている用語自体は、概念ではなく混乱を招きます。

用語の履歴を追跡しようとしましたが、それも非常に興味深いものです。混同マトリックスは1904年に(http://en.wikipedia.org/wiki/Karl_Pearson)によって発明されました。彼はhttp://en.wikipedia.org/wiki/Contingency_tableという用語を使用しました。カールピアソン、FRS(1904)に登場しました。進化論への数学的貢献(PDF)。Dulau and Co. http://ia600408.us.archive.org/18/items/cu31924003064833/cu31924003064833.pdf

第二次世界大戦中、h ttps://en.wikipedia.org/wiki/Detection_theoryは、刺激と反応の関係の調査として開発されました。そこで混同マトリックスが使用されました。

検出理論のため、この用語は心理学を使用していました。そこから用語は機械学習に達しました。

この概念は、機械学習に非常に関連するファイルである統計で発明されたものの、100年の期間中に迂回して機械学習に到達したようです。

用語の使用に関するいくつかの参照については、用語混同マトリックスの起源は何ですか?を参照してください


-4

"統計"

「今、私はあなたに嘘をつき、あなたが理解できない方法で話すつもりです」の代わりに、一般大衆に。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.