特定の統計的意味を持つ一般的な単語


12

私は統計学者ではありませんが、私の研究作業には統計が含まれます(データの分析、文献の読み取りなど)。ここに投稿され質問の1つに対するコメントから、統計の分野で十分に実践されている人にとって特に特定の意味または意味をもつ一般的な単語があることを思い出しました。

このような単語のリストを用意しておくと役立ちます。コメントと一緒にフレーズを追加することもできます。


1
Community Wikiの候補のようです。
グレン_b-モニカの復活2013

@Glen_b統計または数学のほぼすべての用語が適格であることを考えると、特に大きなものに変わる可能性があります。この質問の範囲を有意に狭める方法はありますか?
whuber

3
@whuberはい、過度に広範になる危険があります。「一般的に混乱を引き起こす」ようなもので範囲を狭めるのに十分でしょうか?
Glen_b-モニカの復職

有能な統計学者は通常、母国語を十分に理解しており、一般の聴衆に適切に説明する必要がある専門用語を使用していることをよく知っていると思います。
ロバートジョーンズ

@Glen_bよくわかりません。これは非常に広いので、カバーすべき単語のリストをかろうじて始めることができます:精度、バイアス、キャリブレーション、差別、連続、分布、ハザード、生存、スプライン、モデル、応答、ブートストラップ、調整、クラスター、条件、信頼、密度、推定、変数、正準、相関、予測、推論、打ち切り、リスク、一致、ロジスティック、制限、カバレッジ、交絡、コンティンジェンシー、収束、対応、自由、逸脱、指数、極端、範囲、通常、ドロップイン、ダミー、説明[バリエーション]、要因、失敗、フィルイン、フィット、フィット、関数、...
whuber

回答:


12

重要」-ここでの単語の一般的な使用は、「重要」または「意味のある」ようなものを意味することです。統計的な意味は、「nullに関するランダムな変動から識別できる」に非公式に近いです。違いが問題になるほど大きいことを意味するものではありません。

この区別が混乱の原因となった可能性があるいくつかの例を次に示します。1 2

パラメータ」-統計学者が「変数」という単語を使用する方法で「パラメータ」という単語が使用されることは、特に科学実験でしばしば起こるようです。ウィキペディアはこう言っています:

統計パラメーターは、確率分布のファミリーにインデックスを付けるパラメーターです。母集団またはモデルの数値的特徴とみなすことができます

これが問題になる可能性がある例:1-おそらくこの質問につながった投稿。(私は最近別のものを見ましたが、今それを見つけることができません)



11

私はこの質問に注目した2010年の査読付き論文を見つけました。

アンダーソンクックCM。 隠された専門用語:統計に固有の意味を持つ日常的な言葉。ICOTS8、国際教育統計会議、スロベニア、リュブリャナ、2010年7月11〜17日。

このペーパーはオンライン無料で入手できるため、著者が説明している用語のリストの一部のみを提供しています。

 confounding, control, factor, independent, random, uniform

10

「仮説を偽造する」のように「偽造」を使用する問題に出くわしましたが、他の人は「データの作成」に言及していると考えました。また、「バイアス」は、混乱を招くことなく言及することはほぼ不可能です。


6

「正常」 -一般的なスピーチでは、正常とは通常のことではなく、予想どおりのことです。統計では、変数が正規分布している場合、それはガウス分布を参照しています。「普通」という単語を大文字にして、一般的なスピーチの意味と区別するのが標準だとは思いません。

「正規化/標準化」 -統計では、変数を正規化するとは、平均を減算して標準偏差で割ることを意味します。

「標準偏差対標準誤差」 -標準偏差は通常、母集団全体を使用して計算されますが、標準誤差はサンプルを使用して計算されます。


1
「標準エラー」は、その単語の他の用途(実際にはフレーズ)とは異なる特別な統計的意味を持つ「一般的な(従来の、非統計的な)単語」であることを本当に疑います。「正規化」および「標準偏差」についても同じです。
whuber

たぶん「正規化」ではなく、「正常」が良い点であり、「標準化」でもあります。これは、国家基準を確立するためのテストを説明するためにも使用されます。後ろに)。「標準偏差」は混乱を引き起こす可能性が低いことに同意しますが、一般的な用語での「偏差」自体は、(特に「逸脱」の同義語として)否定的な意味合いを伴う可能性が高くなります。
ニックストーナー

SDとSEMを区別する別の方法を次に示します。標準偏差は変動または分散を定量化します。標準誤差は、計算値の精度を定量化します。
ハーベイモトルスキー

@HarveyMotulsky最善の方法は小惑星(不規則な形)を考えることだと思います。小惑星の重心は何ですか?他のすべてのポイントから等距離にあるのはポイントです。それが平均です。標準偏差とは何ですか?これは、中心からの各ポイントの「平均」距離であり、サイズの尺度です。SEMとは何ですか?それは、あなたが小惑星の中心の位置についてどれくらい確信があるかを教えてくれます。
フラスコ

標準誤差は「サンプル」を使用して計算された標準偏差であると言うのが少し残念です。それは私にとって標本分散の平方根になりますが、標準誤差は検定統計量の標準偏差です。また、上記の用語から、「通常」のみが実際に一般的と思われます。しかし、私は...それは普通のことだと思う
手段ツー意味

2

「パラメトリック」対「非パラメトリック」:「正常」または「非正常」データを必要とするテストのカテゴリ。パラメトリックテストはノンパラメトリックテストよりも優先されます。

一般的なテスト:T検定(ペア)、Mann-Whitney U、ANOVA、Anderson-Darlingなど。

他の用語には「重要」が含まれます。これは、データが仮説が有効であるかどうかを示す尺度です。仮説をある程度の可能性(通常95%)でテストする場合、0.05未満の「p値」は、「帰無仮説」(つまり、データセットが異ならない)を拒否し、「対立仮説」(データセットが異なる)。


2

統計のスキューは、分布の非対称性を意味します。

「平均的な身長の結果は、多くのバスケットボール選手を含めることで歪んでいる」のように、通常の言葉で、そして科学の中でさえ、偏りはしばしば統計的な人々が通常バイアスと呼ぶものを意味するために使用されます(そしてますます?)。


2

推定 -統計では、計算の結果です。たとえば、サンプル平均は母平均の推定値であり、平均の信頼区間は母平均の区間推定です。これらは両方とも正確な計算の結果です。「推定」とは、サンプルのデータから母集団について推論しようとすることの正確な一般化です。

通常の使用では、単語の推定は、情報に基づいた推測または予測、または近似計算の結果を意味します。


2

θバツLθ|バツ=Prバツ|θ

代表 -日常用語と科学用語の両方で、しばしば矛盾する意味がいくつかあります。Kruskal&Mosteller 1979a1979b1979c、および1980を参照してください。私が知っているほとんどの統計学者は、既知の確率でサンプリングされた場合、サンプルの代表を検討します。私が知っているほとんどの素人は、周辺分布が人口に類似している場合、それを代表と見なします。


2
  • サンプル:統計ではこれはケースのセットを指しますが、他の多くの分野では、サンプルは1つの物理的な標本です。もちろん、サンプルサイズもあいまいであり、統計サンプルのケース数または標本の物理サイズ(質量、体積など)のいずれかを指します。

  • 感度:医療診断では、テストで認識される病気の症例の割合。分析化学の場合:検量線の傾き(以下を参照)。

  • 特異性:医療診断では、これがテストによって正しく認識される非疾患症例の割合。分析化学では、交差感度がない場合の方法は特定です。

  • キャリブレーション:実際には、Wikiの記事で統計の2つの意味が既にリストされています。化学および物理学では、逆回帰の意味は通常のものです。ただし、混乱が生じます。

    • ケモメトリックスでは、(フォワード)キャリブレーションは測定信号をモデル化します 濃度に依存 c=fc。次に、予測が集中を解決しますcc=f1逆較正モデルc=f。したがって、フォワードモデルは因果関係(分析物の濃度がシグナルを引き起こし、逆ではない)と一致しますが、逆モデルは予測に使用される方向をモデル化します。
      (実際には、多くの場合、エラーはc または上のエラー 他のものよりもはるかに大きく、適切なモデリング方向はその中から選択する必要があります)
    • 「キャリブレーションプロット」と呼ばれる真の確率に対する予測確率のプロットを見ました(人々を統計します)。分析化学では、対応するキャリブレーションプロットは、測定された信号(通常は他のユニット)に対する予測確率です。予測される真の従属変数のプロットは通常、回復曲線と呼ばれます。
  • 検証セット:ここ、別の統計関連のフィールド内で既に生じていると思われる用語の混乱を招く可能性のある使用に注意を喚起したいと思います。ネスト/二重検証または最適化対検証/テストのコンテキストでは、用語の1行でトレーニング-検証-を分割し、ハイパーパラメーターの最適化のために「検証」セットをテストおよび使用します。
    例えば、統計学習要素、p。第2編の222。

    ...データセットを3つの部分に分割します:トレーニングセット、検証セット、およびテストセット。トレーニングセットは、モデルの適合に使用されます。検証セットは、モデル選択の予測誤差を推定するために使用されます。テストセットは、最終的に選択されたモデルの一般化エラーの評価に使用されます。

    これとは対照的に、例えば分析化学の検証では、モデルは(実際には、最終モデルの評価は、分析法のバリデーションの一部でしかありません)アプリケーションに適していますし、そのパフォーマンスを測定することを実証する手順である、例えば参照ジョンK. Taylor:分析法の検証、Analytical Chemistry 1983 55(6)、600A-608A、 またはFDAなどの機関によるガイドライン。これは、「検証」が実際に最適化に使用される用語の別の行の「テスト」になります。
    重要な違いは、「最適化検証」の結果を使用してモデルを変更(選択)するのに対して、検証済みの分析メソッド(データ分析モデルを含む)を変更する必要があることです。再検証 (つまり、メソッドが正常に機能することを証明します)。


化学者と話をしなければならない場合、分析化学用語の適切なリファレンスは、Danzer:Analytical Chemistry-Theoretical and Metrological Fundamentals、DOI 10.1007 / b103950です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.