タグ付けされた質問 「terminology」

統計における特定の専門用語/概念の使用法と意味。


2
バイアス分散分解:予測二乗予測誤差の項で、既約誤差が少ない
ハスティら "統計的学習の要素"(2009)データ生成処理考える とE(ε )= 0とヴァー(ε )= σ 2 εを。Y=f(X)+εY=f(X)+ε Y = f(X) + \varepsilon E(ε)=0E(ε)=0\mathbb{E}(\varepsilon)=0Var(ε)=σ2εVar(ε)=σε2\text{Var}(\varepsilon)=\sigma^2_{\varepsilon} それらは、点での予想二乗予測誤差の次のバイアス分散分解を示します(p。223、式7.9): Err (x 0)x0x0x_0 私自身の仕事で、私は指定されていない Fを(⋅)が、任意の予測取る yは(これが関連している場合)の代わりに。質問:バイアス2+分散 、より正確には Err(x0)-既約エラーの用語を探してい ます。Err(x0)=E([y−f^(x0)]2|X=x0)=…=σ2ε+Bias2(f^(x0))+Var(f^(x0))=Irreducible error+Bias2+Variance.Err(x0)=E([y−f^(x0)]2|X=x0)=…=σε2+Bias2(f^(x0))+Var(f^(x0))=Irreducible error+Bias2+Variance.\begin{aligned} \text{Err}(x_0) &= \mathbb{E}\left( [ y - \hat f(x_0) ]^2 | X = x_0 \right) \\ &= \dots \\ &= \sigma^2_{\varepsilon} + \text{Bias}^2(\hat f(x_0)) …

1
多様体学習と非線形次元削減の違いは何ですか?
多様性学習と非線形次元削減の違いは何ですか? これら2つの用語が同じ意味で使用されているのを見てきました。例えば: http://www.cs.cornell.edu/~kilian/research/manifold/manifold.html: 多様体学習(非線形次元削減とも呼ばれる)は、本来、高次元空間にあるデータを低次元空間に埋め込む一方で、特性を維持するという目標を追求します。 http://www.stat.washington.edu/courses/stat539/spring14/Resources/tutorial_nonlin-dim-red.pdf: このチュートリアルでは、「多様体学習」と「次元削減」は互換的に使用されます。 https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3337666/: 次元削減法は、多次元クラスの統計的サンプリングに数学的に定義された多様体を使用して、保証された統計的精度の識別ルールを生成するアルゴリズムのクラスです。 ただし、http://scikit-learn.org/stable/modules/manifold.htmlはより微妙です。 多様体学習は、非線形次元削減へのアプローチです。 私が見ることができる最初の違いの1つは、多様体が線形である可能性があることです。したがって、非線形多様体学習と非線形次元削減を比較する必要があります。

1
回帰モデルの左側と右側の命名法
y=β0+β1x1+ε0y=β0+β1x1+ε0y = \beta_{0} + \beta_{1}x_{1} + \varepsilon_{0} 上記で指定された非常に単純な線形回帰など、回帰モデルを記述するための言語はしばしば変動し、そのような変動はしばしば意味の微妙な変化をもたらします。たとえば、方程式の左辺のモデルの部分は、(特に私が無知である)括弧内の意味と意味で呼ばれることがあります。 従属変数(因果関係のヒント) 予測変数(モデルの予測を意味する/予測を行う) 応答変数(因果関係、または少なくとも時間的順序付けを意味します) 結果変数(因果関係を意味します) 命名法のバリエーションは、方程式の右辺にも当てはまります(私が他の用語について無視しているのと同じ免責事項)。 独立変数(因果関係の優先順位を意味し、実験計画のヒント) 予測変数(予測を意味し、変数にゼロ以外のパラメーター推定値が関連付けられていることを意味します) 調査の提案、または研究の伝達の過程で、私は、ある用語の使用についてだけでなく、その後、私がそれを置き換えることを選択した用語について呼ばれる機会がありました。もちろん、電話をかけている人々は知識を深めていましたが(NB:私はプロの知識を身につけているので、私は共感しています)、もちろん私たち全員が伝えられていることを理解していたので、今でも疑問に思います: (a)モデルの外部使用、(b)変数間の因果関係、および(c)研究の側面に関して不可知である回帰モデルの左側と右側の変数に一般的に使用される用語はありますか変数自体を生成するために使用されるデザイン? 注意:私は適切なモデリングと適切な解釈の重要な問題については質問していません(つまり、因果関係、研究デザインなどに非常に関心があります)、そのようなモデルについて一般的に話す言語に興味があります。 (「左側の変数」と「右側の変数」は信頼できる答えと解釈されるかもしれませんが、これらの用語は不格好に見えます...多分これは不格好な質問です。:)


1
普通の最小二乗で、普通は何ですか?
私の友人は最近、普通の最小二乗について、何がそんなに普通かを尋ねました。議論のどこにも行き着かなかったようです。OLSは線形モデルの特殊なケースであり、多くの用途があり、よく知られており、他の多くのモデルの特殊なケースであることに、両者は同意しました。しかし、これは本当にすべてですか? したがって、私は知りたいのですが: 名前は本当にどこから来たのですか? 名前を最初に使用したのは誰ですか?

1
データ空間、変数空間、観測空間、モデル空間(例:線形回帰)
我々はデータ行列があるとであり、N行列P、およびラベルベクトルYであり、nは -by-一つ。ここで、行列の各行は観測値であり、各列は次元/変数に対応しています。(n > pと仮定)バツX\mathbf{X}んnnpppYYYんnnn>pn>pn>p 次に何をすべきかdata space、variable space、observation space、model space意味ですか? 列ベクトルにまたがる空間は、ランクpでありながらn座標を持っているため、(退化した) -D空間であり、変数ベクトルにまたがるため、可変空間と呼ばれますか?それとも、各次元/座標が観測に対応するため、観測空間と呼ばれますか?nnnnnnppp そして、行ベクトルがまたがる空間はどうですか?

2
人々が定量的な要約と視覚化をどのように解釈するかを研究している科学分野は何ですか?
データの視覚化に関するアドバイスを提供する、よく知られたリソースが豊富にあります。(たとえば、Tufte、Stephen Few et al、Nathan Yau)。しかし、次のような質問への回答については、どの分野に向けるかもしれません。 円グラフの批判は実際に関連していますか?人々は、弧の長さよりも線形スケールの長さの解釈がはるかに優れていますか? たとえば、一連の基礎となる変数のインデックスサマリーを作成し、米国の2010年には100の値、2015年には110の値があることを一般の聴衆に説明するとします。ほとんどの人はこれらの数値をどのように解釈するでしょうか。より良い説明のために活用するため、または誤解を防ぐために、この測定基準を提示するときに私が考慮すべき自然な認識習慣はありますか? 別の言い方をすれば、今日利用できる膨大な視覚化と設計のアドバイスを整理するのに役立つ、定量的情報のプレゼンターが経験的に正しいテスト済みの原則を探すことができる科学分野は何ですか? 目的は、データを視覚化する方法、または新しいデータ視覚化問題に取り組む方法についてのアドバイス、アイデア、または現在のコンセンサスを見つけることではなく、定量的および/または視覚的情報を解釈する方法の科学を探す場所を学ぶことです。 (分野のジャーナル、会議、学者への言及に対する追加のクレジット)

1
「帰無仮説統計検定」と他の検定の違いは何ですか?
最近の話題の話題は、ジャーナルに投稿された記事からの「帰無仮説統計検定手順(NHSTP)」の使用を禁止するジャーナルに関するものです。一部の作家はこの用語を使用していますが、彼らがどのような区別をしようとしているのか理解できません。NHSTPは、「仮説の検定」または「有意性検定」とは異なるものですか?

1
(ロジスティック)回帰に「予測」という単語を使用するのはどの程度公平ですか?
私の理解は、回帰でさえ因果関係を与えないということです。これは、y変数とx変数の間の関連付けと、場合によっては方向のみを与えることができます。私は正しいですか?ほとんどのコースの教科書やオンラインのさまざまなコースページでも、「xはyを予測する」に似たフレーズをよく見かけます。また、リグレッサを予測子、yを応答と呼ぶことがよくあります。 線形回帰にそれを使用することはどれほど公平ですか? ロジスティック回帰はどうですか?(確率tを比較できるしきい値tがある場合)

3
「実際のカバレッジ確率」の計算は、「信頼できる間隔」の計算と同じですか?
エントリーレベルの統計教科書を読んでいました。二項分布を持つデータの成功率の最尤推定に関する章では、信頼区間を計算するための式を提供し、さりげなく言及しました 実際のカバレッジ確率、つまり、メソッドが真のパラメーター値を取得する間隔を生成する確率を考慮してください。これは、公称値よりもかなり少ない場合があります。 そして、おそらく実際のカバレッジ確率を含む代替の「信頼区間」を構築する提案を続けます。 私は初めて、名目確率と実際のカバレッジ確率の考えに直面しました。ここで古い質問を通り抜けると、理解できたと思います。確率と呼ばれる2つの異なる概念があります。1つ目は、まだ起こっていないイベントが特定の結果を生成する確率であり、2つ目は確率です。既に発生したイベントの結果に対する監視エージェントの推測が真である可能性がどのくらいあるかです。また、信頼区間は最初のタイプの確率のみを測定し、「信頼できる区間」と呼ばれるものは2番目のタイプの確率を測定するように見えました。要約すると、信頼区間は「公称カバレッジ確率」を計算するものであり、信頼区間は「実際のカバレッジ確率」をカバーするものであると仮定しました。 しかし、本を誤って解釈した可能性があります(それが提供する異なる計算方法が信頼区間と信頼区間、または2つの異なるタイプの信頼区間に対するものであるかどうかは完全に明確ではありません)。私の現在の理解。特に私が別の質問で得たコメント、 頻度主義者の信頼区間、ベイジアンにとって信頼できる その本はその章でベイジアン法を説明していなかったので、私は私の結論を疑いました。 ですから、私の理解が正しいかどうか、または途中で論理的な誤りを犯したかどうかを明確にしてください。

3
呼び出された平均観測値で正規化されたRMSEは何ですか?
私はRoot Mean Squared Error(RMSE)を使用して、モデルを使用して予測された値の精度を測定しています。返された値が(パーセンテージではなく)メジャーの単位を使用していることを理解しています。ただし、パーセンテージとして値を引用したいと思います。私が取ったアプローチRMSEは、私の観察の平均値によって正規化することです。 の用語はありRMSE/meanますか?


1
「サンプル」とは何ですか?
標準正規分布から独立して同一に抽出された3つの数値を与えた場合、3つのサンプルまたは1つのサンプルを与えましたか? 答えが1つのサンプルの場合、私が3つ挙げたものの短縮名はありますか?

2
特定の入力の確率密度関数の値は、点、範囲、またはその両方ですか?
この投稿は言う PDFは、任意の1つの値をとるのではなく、確率変数が特定の値の範囲内に入る確率を指定するために使用されます。 本当ですか? これは標準正規分布のPDFです。 φ (x )= 12個のπ−−√e− x2/ 2φ(x)=12πe−x2/2\varphi(x) = \frac{1}{\sqrt{2\pi}} e^{-x^2/2} 上記の式にx = 0を挿入すると、1つの値をとる確率を得ることができます。 その投稿は、PDFがポイントとインターバルの両方に使用できることを意味しますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.