統計とビッグデータ terminology

5

打ち切りデータのさまざまな説明を読みました。 A）このスレッドで説明されているように、特定のしきい値を下回るまたは上回る数量化されていないデータは打ち切られます。数量化されていないということは、データが特定のしきい値を上回るか下回ることを意味しますが、正確な値はわかりません。データは、回帰モデルの低しきい値または高しきい値でマークされます。これは、このプレゼンテーションの説明と一致しますが、非常に明確であることがわかりました（最初のページの2番目のスライド）。つまり、は最小値、最大値、またはその両方に制限されます。これは、その範囲外の真の値がわからないためです。YYY B）友人から、未知の結果に関する少なくともいくつかの制限情報があれば、打ち切りデータモデルを部分的に未知の観測に適用できると言われました。たとえば、いくつかの定性的基準（商品の種類、国、入札者の富など）に基づいて、サイレントオークションと公開オークションの組み合わせの最終価格を推定します。公開オークションではすべての最終価格わかりますが、サイレントオークションでは最初の入札（たとえば1,000ドル）だけがわかり、最終価格はわかりません。この場合、データは上から打ち切られ、打ち切り回帰モデルを適用する必要があると言われました。YYYYiYiY_iYiYiY_i C）最後によって与えられた定義があるウィキペディア完全に欠けているが、予測因子が利用可能ですが。この例が切り捨てられたデータとどのように異なるかはわかりません。YYY では、打ち切られたデータとは正確には何ですか？

14 regression terminology censoring

4

「相関」は回帰分析の傾きも意味しますか？

私は論文を読んでおり、著者は次のように書いています。 Yに対するA、B、Cの影響は、重回帰分析を使用して調査されました。A、B、Cは、従属変数としてYを使用して回帰式に入力されました。分散分析を表3に示します。Yに対するBの効果は有意であり、Bは.27をYと相関させます。英語は私の母国語ではなく、私はここで本当に混乱しました。最初に、彼は回帰分析を実行すると述べ、次に分散分析を示しました。どうして？そして、彼は相関係数について書きました、それは相関分析からではありませんか？または、この単語を使用して回帰勾配を説明することもできますか？

14 regression correlation terminology

1

回帰係数と偏回帰係数の違いは何ですか？

私はAbdi（2003）でそれを読みました独立変数がペアワイズ直交である場合、回帰における各変数の効果は、この独立変数と従属変数間の回帰の勾配を計算することにより評価されます。この場合（つまり、IVの直交性）、偏回帰係数は回帰係数と等しくなります。他のすべての場合、回帰係数は偏回帰係数とは異なります。ただし、このドキュメントでは、これらの2種類の回帰係数の違いを説明していませんでした。 Abdi、H.（2003）。偏回帰係数。Lewis-Beck M.、Bryman、A.、Futing T.（編）（2003）Encyclopedia of Social Sciences：Research Methods。カリフォルニア州サウザンドオークス：SAGE Publications。

14 regression multiple-regression regression-coefficients terminology

4

「節度」対「相互作用」？

私はこれらの2つの用語に出くわしましたが、これらの用語は多くの文脈で同じ意味で使用されています。基本的に、モデレーター（M）はXとYの関係に影響を与える要因です。通常、モデレーション分析は回帰モデルを使用して行われます。たとえば、性別（M）は、「製品調査」（X）と「製品購入」（Y）の関係に影響を与える可能性があります。相互作用では、X1とX2が相互作用してYに影響します。ここで同じ例は、「製品研究」（X1）が「性別」（X2）の影響を受け、一緒に「製品購入」（Y）に影響することです。節度では、MはXY関係に影響しますが、相互作用では、M（この場合は性別）が他のIVに影響することがわかります。質問：プロジェクトの目的が性別がXとYの関係にどのように影響するかを確認することである場合、モデレーションまたはインタラクションを使用する必要がありますか？注：私のプロジェクトは、XとYの因果関係ではなく、XとYの相関関係に関するものです。

14 regression interaction interpretation regression-coefficients terminology

4

統計的コンテキストを消化するには？

まず、この興味深いサイトのすべてのアクティブなメンバーが統計学者であるとは限りません。それ以外の場合、次のように尋ねられる質問は意味をなしません！もちろんそれらは尊重しますが、概念的な説明よりも少し実用的な説明が必要です。定義するウィキペディアの例から始めますpoint process。 Sをボレルσ代数B（S）を備えた局所的にコンパクトな2番目の可算ハウスドルフ空間とする。書き込み Sと上のローカル有限カウント対策のセットのためのNの最小σ代数のためのNのすべてのポイント数をレンダリングする...測定可能。NN\mathfrak{N}NN\mathcal{N}NN\mathfrak{N} 私にはこれは意味がありません。エンジニアリングのコンテキストでの説明は、私にとってより理解しやすいものです。コメント：ほとんどの場合、ウィキペディアの説明は、（少なくとも私にとっては）同様の複雑なテキストのために役に立たないと感じました。私の経験から、統計に関する参考書は2種類のみです。a ）非常に単純化されたb）非常に複雑な両方を読むことは、私にはまったく利益がありません！質問：この問題の解決策はありますか？または同様の経験？この投稿が有用であると感じた人には、チェックするメリットもあります：異なる観点から関連トピックを議論するクライアントに統計を相談するためのリファレンス。

14 self-study terminology notation

2

精度= 1-テストエラー率

これが非常に明白な質問であればおApびしますが、私はさまざまな投稿を読んでおり、良い確認を見つけることができないようです。分類の場合、分類器の精度= 1-テストエラー率ですか？精度はですが、私の質問は、精度とテストエラー率がどの程度正確に関連しているかです。 TP+ TNP+ NTP+TNP+N\frac{TP+TN}{P+N}

14 classification terminology accuracy

2

画像認識を行うニューラルネットワークのコンテキストでは、「順列不変」とはどういう意味ですか？

MNIST数字認識タスクの「順列不変」バージョンという用語を見てきました。どういう意味ですか？

14 machine-learning neural-networks terminology conv-neural-network definition

4

「残留標準誤差」と言うのはなぜですか？

標準誤差は、推定された標準偏差であるσ（θ）推定器のθパラメータのためのθ。σ^(θ^)σ^(θ^)\hat \sigma(\hat\theta)θ^θ^\hat\thetaθθ\theta なぜ残差の推定標準偏差は「残差標準誤差」と呼ばれ（例えば、Rのsummary.lm関数の出力）、「残差標準偏差」ではないのですか？ここで、どのパラメータ推定値に標準誤差を装備しますか？各残差を「その」誤差項の推定量と見なし、これらすべての推定量の「プールされた」標準誤差を推定しますか？

14 r standard-error residuals terminology

1

ディープQラーニングのエピソードとエポックの違いは何ですか？

有名な論文「深層強化学習でアタリを弾く」（pdf）を理解しようとしています。エポックとエピソードの違いはわかりません。アルゴリズムでは、外側のループはエピソードの上にありますが、図では、x軸に「エポック」というラベルが付けられています。強化学習のコンテキストでは、エポックの意味がわかりません。エポックはエピソードループの外側のループですか？ 111222

14 neural-networks terminology reinforcement-learning q-learning

3

パラメトリックモデルとノンパラメトリックモデルの違いは何ですか？

このリンクのパラメトリックモデルとノンパラメトリックモデルを読み、別の質問のコメントに回答した後、ノンパラメトリックモデルの定義と混同されています。元々、「パラメトリックvsノンパラメトリック」とは、モデルに分布仮定があるかどうかを意味すると思っていました（パラメトリックまたはノンパラメトリック仮説検定と同様）。しかし、どちらのリソースも、「パラメトリックvsノンパラメトリック」は、モデルのパラメーターの数がデータマトリックスの行の数に依存しているかどうかによって判断できます。カーネル密度推定（ノンパラメトリック）の場合、このような定義を適用できます。しかし、この定義の下では、モデル内のパラメーターの数はデータマトリックスの行数ではなくニューラルネットワーク構造に依存しているため、ニューラルネットワークをノンパラメトリックモデルにするにはどうすればよいでしょうか。パラメトリックモデルとノンパラメトリックモデルの違いは何ですか？

14 machine-learning neural-networks nonparametric terminology parametric

2

モーメント生成関数と確率生成関数の違いは何ですか？

「確率生成関数」と「モーメント生成関数」という2つの用語を混同しています。これらの用語はどう違うのですか？

13 probability distributions terminology intuition mgf

1

ディープラーニングメソッドで「エンドツーエンド」とはどういう意味ですか？

私はそれが何であり、アンサンブルとどのように違うのか知りたいですか？ CNN、RNNなどの異なるネットワークを使用してこれを達成する場合、特定のタスクに対して分類とセグメンテーションの高い精度を達成したいとしますが、これはエンドツーエンドモデルと呼ばれますか？（アーキテクチャ？）

13 machine-learning terminology deep-learning

7

異常と外れ値の違い

機械学習のコンテキストでの外れ値と異常の違いは何ですか？私の理解では、どちらも同じものを指しているということです。

13 outliers terminology anomaly-detection

3

回帰モデルの定義と区切り

恥ずかしいほど単純な質問ですが、以前にクロス検証で質問されたことはないようです：回帰モデルの定義は何ですか？また、サポートの質問、何でない回帰モデル？後者に関しては、答えがすぐにはわからないトリッキーな例に興味があります。例えば、潜在変数モデル（ARIMAやGARCHなど）はどうですか？

13 regression linear-model model terminology definition

7

結果を「ほぼ」または「ある程度」重要と呼ぶのは間違っていますか？

同様の質問に対する一般的なコンセンサス、結果を「非常に重要」と呼ぶのは間違っていますか？「非常に重要」は、事前に設定された重要度のしきい値をはるかに下回るp値を持つ関連付けの強度を記述するための有効な方法ですが、非特異的ではあります。ただし、しきい値をわずかに上回る p値の記述についてはどうでしょうか。私は、「ある程度重要」、「ほぼ重要」、「重要に近づく」などの用語を使用する論文を見てきました。私はこれらの用語が少し希望的でウォッシュなものであり、場合によっては否定的な結果の研究から意味のある結果を引き出す境界線の不誠実な方法だと思います。これらの用語は、p値のカットオフを「見逃す」結果を説明するのに受け入れられますか？

13 hypothesis-testing statistical-significance p-value terminology

タグ付けされた質問 「terminology」

タグ付けされた質問「terminology」