タグ付けされた質問 「terminology」

統計における特定の専門用語/概念の使用法と意味。

1
PCAが常に座標軸を回転させる場合、「回転」および「非回転」主成分とは何ですか?
私の知る限り、主成分は、座標軸を回転させて最大分散の方向に合わせることで得られます。 それにもかかわらず、私は「回転していない主成分」について読み続け、私の統計ソフトウェア(SAS)は、回転していない主成分だけでなく、バ​​リマックスで回転した主成分も提供してくれます。ここで混乱しています。主成分を計算するとき、軸はすでに回転しています。なぜ別の回転が必要なのですか?「回転していない主成分」とはどういう意味ですか?

1
機械学習コミュニティは「条件付け」および「パラメーター化」を乱用していますか?
たとえば、は依存しています。厳密に言えば、XXXαα\alpha 場合と両方とも確率変数である、我々は書くことができ ;XXXαα\alphap(X∣α)p(X∣α)p(X\mid\alpha) ただし、がランダム変数であり、がパラメーターである場合、を記述する必要があります。XXXαα\alphap(X;α)p(X;α)p(X; \alpha) 機械学習コミュニティは違いを無視して用語を悪用しているように見えることに何度か気付きます。 たとえば、有名なLDAモデルでは、はランダム変数ではなくディリクレパラメーターです。αα\alpha いけませんか?LDA論文の原著者を含む多くの人々がと書いているのを見ます。p(θ;α)p(θ;α)p(\theta;\alpha)p(θ∣α)p(θ∣α)p(\theta\mid\alpha)




4
母集団の定量的特性は「パラメータ」ですか?
統計とパラメーターという用語の区別については比較的よく知っています。統計は、サンプルデータに関数を適用して得られた値として表示されます。ただし、パラメーターのほとんどの例は、パラメトリック分布の定義に関連しています。一般的な例は、正規分布をパラメーター化する平均と標準偏差、または線形回帰をパラメーター化する係数と誤差分散です。 ただし、人口分布のその他の多くの値はプロトタイプではありません(たとえば、最小、最大、重回帰のr平方、.25変位値、中央値、非ゼロ係数の予測子の数、歪度、数.3を超える相関行列の相関関係など)。 したがって、私の質問は次のとおりです。 母集団の定量的特性に「パラメータ」というラベルを付ける必要がありますか? はいの場合、なぜですか? いいえの場合、パラメータにラベル付けしない特性は何ですか?それらは何にラベル付けされるべきですか?なぜ? 混乱に関する詳細 推定量に関するウィキペディアの記事には、次のように記載されています。 「推定器」または「点推定」は、統計モデルの未知のパラメーターの値を推測するために使用される統計(つまり、データの関数)です。 しかし、未知の値を.25分位として定義し、その未知の推定量を開発できます。つまり、母集団のすべての量的特性が、平均とsdが正規分布のパラメーターであると同じようにパラメーターであるわけではありませんが、量的母集団特性を推定しようとするのは正当です。

1
分割表の条件は何ですか?
メリアム・ウェブスターの辞書は定義されて偶発事象や状況などを 1 : likely but not certain to happen : possible 2 : not logically necessary; especially : empirical 3 a : happening by chance or unforeseen causes b : subject to chance or unseen effects : unpredictable c : intended for use in circumstances not completely foreseen 4 : …

4
ランダム性とは何ですか?
確率と統計では、「ランダム」と「ランダム性」の概念が頻繁に使用されます。多くの場合、偶然により発生するイベントをモデル化するために、ランダム変数の概念が使用されます。 私の質問は「ランダム」という用語に関するものです。ランダムとは何ですか?ランダム性は本当に存在しますか? 私は、ランダムなイベントを扱った経験が豊富な人が、ランダム性について考え、信じていることに興味があります。



7
ゴールドスタンダードの意味は何ですか?
いくつかの論文を読んでいると、「ゴールドセット」または「ゴールドスタンダード」という用語に出会いました。私が理解していないのは、データセットをゴールドスタンダードにする理由です。ピアの受け入れ、引用数、そして研究者の自由と彼が攻撃している問題との関連性がある場合は?

2
ランダム変数とランダムサンプルの違いは何ですか?
統計を学んでいたとき、これら2つの式は私をよく混乱させました。まるで違うもののようです。 ランダムなサンプルは一方で、ランダムに母集団からサンプルを取ることである確率変数が実数に、実験のすべての可能な結果セットをマップする関数のようなものです。 ただし、いくつかのサンプル、、およびを描画する場合、およびは不明ですが、、、ランダムサンプルまたはランダム変数ですか?X1X1X_1X2X2X_2X3X3X_3Xi∼N(μ,σ2)Xi∼N(μ,σ2)X_i \sim N(\mu,\sigma^2)μμ\muσσ\sigmaX1X1X_1X2X2X_2X3X3X_3


2
規則性と正則化とは何ですか?
機械学習を勉強するにつれて、これらの言葉をどんどん聞いています。実際、方程式の規則性に取り組んでフィールズメダルを獲得した人もいます。だから、これは統計物理学/数学から機械学習に至る用語です。当然、私が尋ねた多くの人々は、それを直感的に説明できませんでした。 ドロップアウトなどのメソッドが正則化に役立つことを知っています(=>彼らはオーバーフィットを減らすと言いますが、実際にはそれがわかりません:それがオーバーフィットを減らすだけなら、なぜそれをアンチオーバーフィットメソッドと呼ばないのですか?もっと私が思うので、この質問)。 あなたが説明できるなら、私は本当に感謝しています(私は素朴なMLコミュニティもそうでしょう!) 規則性をどのように定義しますか?規則性とは何ですか? 正規化は、規則性を保証する方法ですか?すなわち、規則性をキャプチャしますか? ドロップアウトなどのメソッドの組み立て、正規化メソッドがすべて正規化を行っていると主張するのはなぜですか? なぜ機械学習でこれら(規則性/正規化)が出てくるのですか? ご協力ありがとうございます。

3
何かが頻度の高い特性を持つとはどういう意味ですか?
私はこのフレーズをよく耳にしましたが、その意味を完全に理解したことはありません。「良好なフリークエンシストプロパティ」というフレーズには、現在googleで2750ヒット、scholar.google.comで536ヒット、stats.stackexchange.comで4ヒットがあります。 私が明確な定義に最も近いものは、このスタンフォード大学のプレゼンテーションの最後のスライドから来ています。 95%の信頼区間を報告するという意味は、さまざまな推定問題があったとしても、主張の95%の真のパラメーターを「トラップ」することです。これは、頻度の高い特性を備えた推定手順の特徴的な特性です。繰り返し使用した場合、それらは精査に耐えます。 これについて少し考えてみると、「良好な周波数主義者の特性」というフレーズは、ベイズ法、特に区間構築のベイズ法の評価を暗示していると思います。ベイズの区間は、確率パラメーターの真の値を含むことを意図していることを理解しています。頻繁な間隔は、間隔構築のプロセスがp ∗ 100 %について何度も繰り返される場合に、pppp ∗ 100 %p∗100%p*100\%間隔のうち、パラメータの真の値が含まれます。ベイジアン間隔は、一般に、間隔の何%がパラメータの真の値をカバーするかについての約束をしません。ただし、一部のベイジアンメソッドには、何度も繰り返されると、の時間に関する真の値をカバーするという特性もあります。彼らがその特性を持っているとき、彼らは「良い周波数主義者の特性」を持っていると言います。p ∗ 100 %p∗100%p*100\% そうですか?フレーズは、良い周波数特性を持っているのではなく、良い周波数特性を指しているので、それ以上のものがあるに違いないと思います。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.