タグ付けされた質問 「terminology」

統計における特定の専門用語/概念の使用法と意味。

2
名義/カテゴリデータの「ダミー変数」と「インジケータ変数」
「ダミー変数」と「インジケータ変数」は、0/1コーディングのカテゴリのメンバーシップを記述するために頻繁に使用されるラベルです。通常0:カテゴリーのメンバーではない、1:カテゴリーのメンバー。 2014年11月26日にscholar.google.com(引用符で囲む)をすばやく検索すると、「ダミー変数」が約318,000の記事で使用され、「インジケーター変数」が約112,000の記事で使用されていることがわかります。「ダミー変数」という用語は、インデックス付き記事で「ダミー変数」をより多く使用することに貢献している可能性が高い「バインド変数」の非統計数学でも意味を持ちます。 私のトピックにリンクされた質問: これらの用語は常に(統計内で)同義語ですか? これらの用語のいずれかが、他の形式のカテゴリコーディング(たとえば、エフェクトコーディング、ヘルマートコーディングなど)に容認できる形で適用されていますか? ある用語を他の用語よりも優先する統計的または懲戒的な理由は何ですか?

1
統計および機械学習用語のシソーラス
統計および機械学習用語の参照シソーラスはありますか?ウィキペディアの記事にはしばしば同義語が含まれていることを知っていますが、すべての専門用語を知っていることを確認するために、簡単なシソーラス(完全な百科事典)を入手したいと思います。

1
ランダム化テストと置換テストの違い
文献では、ランダム化と順列という用語は同じ意味で使用されています。多くの著者が「順列(ランダム化)テスト」、またはその逆を述べています。 せいぜい、違いは微妙であり、データに関する想定と引き出すことができる潜在的な結論にあると信じています。私の理解が正しいかどうか、または私が見落としているより深い違いがあるかどうかを確認する必要があります。 順列検定では、基礎となる母集団分布(母集団モデル)からデータがランダムにサンプリングされることを想定しています。これは、置換テストから得られた結論が一般的に母集団からの他のデータに適用可能であることを意味します[3]。 ランダム化テスト(ランダム化モデル)は、「典型的な心理学的研究の信じがたい仮定を落とすことを許します---指定された分布からのランダムサンプリング」[2]。ただし、これは、得られた結論がテストで使用されたサンプルにのみ適用されることを意味します[3]。 確かに、違いは人口の定義に関してのみです。人口を「病気のすべての患者であり、治療に適している」と定義した場合、順列検定はその人口に対して有効です。しかし、人口を治療に適した人口に制限しているため、これは実際に無作為化テストです。 参考資料: [1] Philip Good、順列検定:仮説を検定するための再サンプリング方法の実用的なガイド。 [2] Eugene EdgingtonおよびPatric Onghena、ランダム化テスト。 [3] Michael Ernst、順列法:正確な推論の基礎

5
用語「共同分布」と「多変量分布」の違いは?
「多変量分布」を理解する可能性が高い視聴者に対して「結合確率分布」を使用することについて書いているので、後者を使用することを検討しています。ただし、これを行っている間は意味を失いたくありません。 ウィキペディアは、これらが同義語であることを示しているようです。 彼らは?そうでない場合は、なぜですか?


2
機械学習のベイズエラーとは何ですか?
http://www.deeplearningbook.org/contents/ml.htmlページ116では、以下のようにベイズエラーについて説明しています。 理想的なモデルは、データを生成する真の確率分布を単に知っているオラクルです。そのようなモデルであっても、分布にノイズが残っている可能性があるため、多くの問題でエラーが発生します。教師あり学習の場合、xからyへのマッピングは本質的に確率論的である場合があります。または、yはxに含まれる変数以外の他の変数を含む決定論的関数である場合があります。真の分布p(x、y)から予測を行うオラクルが被るエラーは、ベイズエラーと呼ばれます。 ご質問 ベイズエラーを直感的に説明してください? 既約エラーとどう違うのですか? 合計エラー=バイアス+分散+ベイズエラーと言えますか? 「yは本質的に確率論的」の意味は何ですか?

1
lmerモデルに使用する多重比較方法:lsmeansまたはglht?
1つの固定効果(条件)と2つのランダム効果(被験者内のデザインとペアによる参加者)を含む混合効果モデルを使用して、データセットを分析しています。モデルはlme4パッケージで生成されました:exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp)。 次に、固定効果(条件)のないモデルに対してこのモデルの尤度比検定を実行しましたが、有意差があります。データセットには3つの条件があるため、多重比較を行いたいのですが、どの方法を使用すればよいかわかりません。CrossValidatedや他のフォーラムで同様の質問をいくつか見つけましたが、それでもかなり混乱しています。 私が見たものから、人々は使用することを提案しました 1.lsmeansパッケージ- lsmeans(exp.model,pairwise~condition)私に次のような出力が得られます。 condition lsmean SE df lower.CL upper.CL Condition1 0.6538060 0.03272705 47.98 0.5880030 0.7196089 Condition2 0.7027413 0.03272705 47.98 0.6369384 0.7685443 Condition3 0.7580522 0.03272705 47.98 0.6922493 0.8238552 Confidence level used: 0.95 $contrasts contrast estimate SE df t.ratio p.value Condition1 - Condition2 -0.04893538 0.03813262 62.07 -1.283 0.4099 Condition1 - …


2
Wolfram Mathworldは、確率密度関数で離散確率分布を記述する間違いを犯しますか?
通常、離散変数にわたる確率分布は、確率質量関数(PMF)を使用して記述されます。 連続確率変数を使用する場合、確率質量関数ではなく確率密度関数(PDF)を使用して確率分布を記述します。 - ディープラーニンググッドフェロー、Bengio、およびCourvilleによって しかし、Wolfram MathworldはPDFを使用して、離散変数の確率分布を記述しています。 これは間違いですか?またはそれは大した問題ではありませんか?

6
「相関」のアクティブ/パッシブ使用に関するニトピッキング
ここで統計StackExchangeまたは言語/英語のいずれでこれを尋ねるかどうかはheしますが、他のフォーラムの統計に精通したユーザーよりも、ここで言語を選ぶユーザーの方が多いと思います;) 「AをBと相関させて見つけた...」のように、アクティブな音声の動詞として相関関係に言及しているレポートをよく読みます。私にとって、この動詞は、たとえば「AとBが有意に相関していることがわかった」と言ったときのように、受動態でのみ意味があります。文法的にはこれが実際にアクティブな音声とパッシブな音声を構成するというのは間違っているかもしれませんが、私が説明するのは、AとBがそれぞれ変化するように何かをすることと、3番目の変数(R係数など)を計算することの違いです。 もちろん、2つの変数を積極的に相関解除することはできますが、アクティブなものを参照するのではなく、それらを「相関させる」ことは、そのような有意な相関関係が存在するかどうかを確認するための簡略表現として使用されるように思えます! 私が間違っている?AをBと[積極的に]相関させたと言うことは、統計的に他の意味をなしますか?

3
分布のファミリーの定義?
分布のファミリーには、他の分野とは異なる統計の定義がありますか? 一般に、曲線のファミリーは一連の曲線であり、それぞれが1つ以上のパラメーターが変化する関数またはパラメーター化によって与えられます。このようなファミリは、たとえば電子部品の特性評価に使用されます。 統計の場合、1つのソースに基づくファミリは、形状パラメータを変化させた結果です。ガンマ分布には形状とスケールのパラメーターがあり、一般化されたガンマ分布のみに位置パラメーターがあることに、どうして理解できるでしょうか?それは、ファミリーをロケーションパラメーターを変化させた結果になりますか?@whuberによれば、ファミリーの意味は暗黙のうちにあります。ファミリーの「パラメーター化」とは、ℝサブセットからその通常のトポロジーを持つ分布の空間への連続したマップです。nn^n 簡単な言葉で言えば、統計分布の家族とは何ですか? 同じ家族の分布の統計的性質の関係についての質問は、別の質問についてすでにかなりの論争を引き起こしているので、意味を探求する価値があるようです。 これは必ずしも単純な質問ではないということは、指数の族というフレーズで使用することで生まれます。これは曲線の族とは関係ありませんが、パラメーターの再パラメーター化による分布のPDFの形式の変更に関連しています、独立したランダム変数の関数の置換も。

3
「サポートベクターマシン」と「制限付きボルツマンマシン」の「マシン」とはどういう意味ですか?
なぜ「マシン」と呼ばれるのですか?この文脈で使用される「機械」という言葉の起源はありますか?(「線形プログラミング」という名前のようにわかりにくいかもしれませんが、なぜ「プログラミング」と呼ばれるのかはわかっています。)



1
「因子分析の基本定理」はPCAにどのように適用されますか、またはPCAの負荷はどのように定義されますか?
現在、「因子分析」用のスライドセットを調べています(私が知る限り、PCA)。 その中で、「因子分析の基本定理」が導き出され、分析に入るデータの相関行列()は因子負荷の行列()を使用して回復できると主張しています。ARR\bf RAA\bf A R = A A⊤R=AA⊤\bf R = AA^\top しかし、これは私を混乱させます。PCAでは、「因子負荷」の行列は、データの共分散/相関行列の固有ベクトルの行列で与えられます(データが標準化されていると仮定しているため、それらは同じです)。長さ1。この行列は直交しているため、一般にと等しくないです。RA A⊤= 私AA⊤=私\bf AA^\top = IRR\bf R

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.