統計とビッグデータ regression

2

ロジスティック回帰モデルの適合度（GOF）に対するHosmer-Lemeshow検定（HLT）の検定統計量は、次のように定義されます。その後、サンプルは単位、に分割され、十分位ごとに次の量が計算されます。d= 10d=10d=10D1、D2、… 、DdD1、D2、…、DdD_1, D_2, \dots , D_{d} O1つのD= ∑I ∈ Ddy私O1d=∑私∈Ddy私O_{1d}=\displaystyle \sum_{i \in D_d} y_i、すなわち、十分位数での陽性症例の観測数。DdDdD_d O0 d= ∑I ∈ Dd（1 − y私）O0d=∑私∈Dd（1−y私）O_{0d}=\displaystyle \sum_{i \in D_d} (1-y_i)、すなわち、十分位数で観測された負のケースの数。DdDdD_d E1つのD= ∑I ∈ Ddπ^私E1d=∑私∈Ddπ^私E_{1d}=\displaystyle \sum_{i \in D_d} \hat{\pi}_i、つまり十分位数陽性症例の推定数。DdDdD_d E0 d= ∑I ∈ Dd（1 - π^私）E0d=∑私∈Dd（1−π^私）E_{0d}= \displaystyle \sum_{i \in D_d} (1-\hat{\pi}_i)、すなわち、十分位数負のケースの推定数。DdDdD_d ここで、は番目の観測の観測されたバイナリ結果で、はその観測の推定確率です。y私y私y_iπ I私私iπ^私π^私\hat{\pi}_i 次に、検定統計量は次のように定義されます。 …

33 regression logistic goodness-of-fit degrees-of-freedom hosmer-lemeshow-test

4

（なぜ）オーバーフィットモデルは大きな係数を持つ傾向がありますか？

変数の係数が大きいほど、モデルはその次元で「スイング」する能力が大きくなり、ノイズに適合する機会が増えると思います。モデルの分散と大きな係数との関係については合理的な意味を持っていると思いますが、オーバーフィットモデルでそれらが発生する理由についてはあまり意味がありません。それらが過剰適合の症状であり、係数の収縮はモデルの分散を減らすための技術であると言うのは間違っていますか？係数の縮小による正則化は、大きな係数は過剰適合モデルの結果であるという原則に基づいているようですが、おそらくこの手法の背後にある動機を誤解しているのでしょう。大きな係数は一般に過剰適合の症状であるという私の直感は、次の例から得られます。すべてがx軸上にある点をフィットさせたいとしましょう。これらの点がある多項式を簡単に構築できます。私たちのポイントがでているとしましょう。この手法は、10以上のすべての係数を提供します（1つの係数を除く）。さらにポイントを追加すると（したがって、多項式の次数が増加します）、これらの係数の大きさは急速に増加します。f （x ）= （x − x 1）（x − x 2）。。。。（X - X N - 1）（X - X N）のx = 1 、2 、3 、4nnnf(x)=(x−x1)(x−x2)....(x−xn−1)(x−xn)f（バツ）=（バツ−バツ1）（バツ−バツ2）。。。。（バツ−バツn−1）（バツ−バツn）f(x) = (x-x_1)(x-x_2)....(x-x_{n-1})(x-x_n)x=1,2,3,4バツ=1、2、3、4x=1,2,3,4 この例は、現在、モデル係数のサイズと生成されたモデルの「複雑さ」をどのように結びつけているのかを示していますが、実際の動作を実際に示すためにこのケースが不毛になることを心配しています。私は意図的にオーバーフィットモデル（2次サンプリングモデルから生成されたデータにフィットする10次多項式OLS）を構築し、私のモデルでほとんど小さな係数を見ることに驚きました： set.seed(123) xv = seq(-5,15,length.out=1e4) x=sample(xv,20) gen=function(v){v^2 + 7*rnorm(length(v))} y=gen(x) df = data.frame(x,y) model = lm(y~poly(x,10,raw=T), data=df) summary(abs(model$coefficients)) # Min. 1st Qu. Median …

33 regression variance linear-model bias regularization

1

L1正則化による回帰はLassoと同じであり、L2正則化による回帰はリッジ回帰と同じですか？そして、「投げ縄」の書き方は？

私は、特にAndrew Ngの機械学習コースを通じて機械学習を学習するソフトウェアエンジニアです。正則化で線形回帰を研究していると、混乱する用語が見つかりました。 L1正則化またはL2正則化による回帰ラソリッジ回帰だから私の質問： L1正則化による回帰はLASSOとまったく同じですか？ L2正則化による回帰は、リッジ回帰とまったく同じですか？「LASSO」は書面でどのように使用されますか？それは「LASSO回帰」でしょうか？「投げ縄がより適切である」などの使用法を見てきました。上記の1と2の答えが「はい」の場合、なぜこれら2つの用語に異なる名前があるのですか？「L1」と「L2」はコンピューターサイエンス/数学から、「LASSO」と「リッジ」は統計から来ていますか？これらの用語の使用は、次のような投稿を見たときに混乱を招きます。「L1とL2の正則化の違いは何ですか？」（quora.com）「なげなわとリッジのどちらを使用すべきですか？」（stats.stackexchange.com）

33 regression terminology lasso regularization ridge-regression

2

Tikhonov正則化はRidge Regressionと同じですか？

チホノフ正則化とリッジ回帰は、それらが同一であるかのようにしばしば使用される用語です。違いを正確に指定することは可能ですか？

33 regression terminology regularization ridge-regression tikhonov-regularization

2

線形回帰の信頼帯の形状と計算の理解

OLS線形回帰に関連付けられた曲線の信頼帯の形の起源と、回帰パラメーター（勾配と切片）の信頼区間との関係を理解しようとしています。たとえば（Rを使用）： require(visreg) fit <- lm(Ozone ~ Solar.R,data=airquality) visreg(fit) バンドは、2.5％インターセプト、97.5％勾配、および97.5％インターセプト、2.5％勾配（完全ではありませんが）で計算された線の限界に関連しているようです。 xnew <- seq(0,400) int <- confint(fit) lines(xnew, (int[1,2]+int[2,1]*xnew)) lines(xnew, (int[1,1]+int[2,2]*xnew)) 私が理解していないのは2つのことです： 2.5％の勾配と2.5％の切片、および97.5％の勾配と97.5％の切片の組み合わせはどうですか？これらは、明らかにプロットされたバンドの外側にある線を与えます。信頼区間の意味が理解できないかもしれませんが、95％のケースで私の推定が信頼区間内にある場合、これらは可能な結果のように見えますか？上限と下限の間の最小距離（つまり、2本の線が交差する点の近く）を決定するものは何ですか？これらのバンドが実際にどのように計算されるかわからないので、両方の疑問が生じると思います。回帰パラメーターの信頼区間を使用して（predict（）または同様の関数に手作業で依存せずに）上限と下限を計算するにはどうすればよいですか？Rのpredict.lm関数を解読しようとしましたが、コーディングは私を超えています。関連する文献や統計の初心者に適した説明へのポインタをいただければ幸いです。ありがとう。

33 regression confidence-interval

2

部分最小二乗回帰の背後にある理論

SVDとPCAを理解している人のために、部分最小二乗回帰（オンラインで入手可能）の背後にある理論の説明をお勧めできますか？私は多くのソースをオンラインで見てきましたが、厳密さとアクセシビリティの適切な組み合わせを備えたものは見つかりませんでした。統計的学習の要素を調べました。これは、相互検証、QLS（部分最小二乗法）回帰とは何か、OLSとはどう違うのかという質問に対するコメントで提案されました。、しかし、私はこの参照がトピックの正義を行うとは思わない（そうするのは簡単すぎて、主題に関する多くの理論を提供しない）。私が読んだから、PLS、予測変数の線形結合を利用その最大化共分散制約を受けるとz_i ^ Tz_j = 0であれば、私\ NEQ j、ここで\ varphi_iz私= Xφ私zi=Xφiz_i=X \varphi_iyTz私yTzi y^Tz_i Z T I Z 、J = 0 、I ≠ jは、φ I∥はφ私∥ = 1‖φi‖=1\|\varphi_i\|=1zT私zj= 0ziTzj=0z_i^Tz_j=0i ≠ ji≠ji \neq jφ私φi\varphi_i共分散を最大化する順序で繰り返し選択されます。しかし、私が読んだ後でも、それが本当かどうか、もしそうなら、メソッドがどのように実行されるかはまだわかりません。

33 regression references regularization svd partial-least-squares

4

次数を下げるのではなく、多項式回帰で正則化を使用するのはなぜですか？

たとえば、回帰を行う場合、選択する2つのハイパーパラメーターは、多くの場合、関数の容量（たとえば、多項式の最大指数）と正則化の量です。私が混乱しているのは、なぜ低容量の機能を選択し、正規化を無視しないのですか？そのように、それは過剰適合しません。正則化とともに高容量機能を持っている場合、それは低容量機能と正則化を持たないことと同じではありませんか？

32 regression machine-learning optimization regularization polynomial

3

Anscombeのカルテットと同様の目的で構築されたデータセット

私はちょうどAnscombeのカルテット（ほとんど区別できない記述統計を持っているが、プロットすると非常に異なって見える4つのデータセット）に出くわしました。統計分析の。

32 regression data-visualization dataset

1

なぜRはNAをlm（）係数として返すのですか？

lm()財務四半期の指標（Q1、Q2、Q3、Q4をデフォルトにする）を含むデータセットにモデルを適合させています。を使用してlm(Y~., data = data）NAQ3の係数としてaを取得し、1つの変数が特異点のために除外されたことを警告します。 Q4列を追加する必要がありますか？

32 r regression

7

「実行中の」線形またはロジスティック回帰パラメーターを計算するアルゴリズムはありますか？

http://www.johndcook.com/standard_deviation.htmlの論文「実行中の分散を正確に計算する」は、実行中の平均、分散、標準偏差を計算する方法を示しています。新しいトレーニングレコードが提供されるたびに、線形またはロジスティック回帰モデルのパラメーターを同様に「動的に」更新できるアルゴリズムはありますか？

32 regression logistic online

2

OLS線形回帰のコスト関数

Andrew NgがCourseraで機械学習について行った線形回帰に関する講義と少し混同されています。そこで、彼は平方和を最小化するコスト関数を次のように与えました。 12 メートル∑i = 1m（hθ（ X（i ））− Y（i ））212m∑i=1m(hθ(X(i))−Y(i))2 \frac{1}{2m} \sum _{i=1}^m \left(h_\theta(X^{(i)})-Y^{(i)}\right)^2 がどこから来たのか理解しています。彼は、二乗項で微分を実行したときに、二乗項の2が半分でキャンセルされるようにしたと思います。しかし、がどこから来たのかわかりません。 11212\frac{1}{2}1m1m\frac{1}{m} なぜを行う必要があるのですか？標準線形回帰では、それはありません。単に残差を最小化します。ここで必要なのはなぜですか？1m1m\frac{1}{m}

32 regression machine-learning loss-functions

1

「決定係数」と「平均二乗誤差」の違いは何ですか？

回帰問題については、「決定係数」（別名Rの2乗）を使用して、モデルの選択（正則化に適切なペナルティ係数を見つけるなど）を実行する人々を見てきました。ただし、回帰精度の尺度として「平均二乗誤差」または「二乗平均平方根誤差」を使用することも一般的です。では、これら2つの主な違いは何ですか？それらは「正規化」タスクと「回帰」タスクに交換可能に使用できますか？また、機械学習、データマイニングタスクなど、実際のそれぞれの主な用途は何ですか？

32 regression r-squared

1

回帰用のCNNアーキテクチャ？

入力が画像で、ラベルが80から350の間の連続値である回帰問題に取り組んでいます。画像は、反応が起こった後のいくつかの化学物質のものです。判明する色は、残りの別の化学物質の濃度を示し、それがモデルが出力するものです-その化学物質の濃度。画像は回転、反転、ミラー化できますが、期待される出力は同じままです。この種の分析は実際のラボで行われます（このモデルをトレーニングするのと同じように、非常に特殊な機械が色分析を使用して化学物質の濃度を出力します）。これまでのところ、おおよそVGG（conv-conv-conv-poolブロックの複数のシーケンス）に基づいたモデルで実験したことがあります。より最近のアーキテクチャ（Inception、ResNetなど）を試す前に、画像を使用した回帰でより一般的に使用される他のアーキテクチャがあるかどうかを調査したいと思いました。データセットは次のようになります。データセットには約5,000の250x250のサンプルが含まれていますが、64x64にサイズ変更したため、トレーニングが簡単になりました。有望なアーキテクチャを見つけたら、より大きな解像度の画像で実験します。これまでのところ、私の最良のモデルでは、トレーニングセットと検証セットの両方で約0.3の平均二乗誤差があり、これは私のユースケースでは受け入れられません。これまでの私の最高のモデルは次のようになります。 // pseudo code x = conv2d(x, filters=32, kernel=[3,3])->batch_norm()->relu() x = conv2d(x, filters=32, kernel=[3,3])->batch_norm()->relu() x = conv2d(x, filters=32, kernel=[3,3])->batch_norm()->relu() x = maxpool(x, size=[2,2], stride=[2,2]) x = conv2d(x, filters=64, kernel=[3,3])->batch_norm()->relu() x = conv2d(x, filters=64, kernel=[3,3])->batch_norm()->relu() x = conv2d(x, filters=64, kernel=[3,3])->batch_norm()->relu() x = maxpool(x, size=[2,2], stride=[2,2]) x …

32 regression machine-learning neural-networks conv-neural-network tensorflow

2

ロジスティック回帰：Scikit Learn vs Statsmodels

これら2つのライブラリのロジスティック回帰からの出力が異なる結果を与える理由を理解しようとしています。私は、UCLAのidreのからのデータセットを使用していますチュートリアル予測、admitに基づいてgre、gpaとrank。rankはカテゴリ変数として扱われるため、最初にrank_1ドロップされてダミー変数に変換されます。インターセプト列も追加されます。 df = pd.read_csv("https://stats.idre.ucla.edu/stat/data/binary.csv") y, X = dmatrices('admit ~ gre + gpa + C(rank)', df, return_type = 'dataframe') X.head() > Intercept C(rank)[T.2] C(rank)[T.3] C(rank)[T.4] gre gpa 0 1 0 1 0 380 3.61 1 1 0 1 0 660 3.67 2 1 0 0 0 800 4.00 3 1 …

31 regression logistic python scikit-learn statsmodels

1

負の二項回帰の質問-それは貧弱なモデルですか？

カウントデータの回帰モデルに関する、SellersとShmueliの非常に興味深い記事を読んでいます。冒頭（p。944）では、McCullaugh and Nelder（1989 ）を引用して、負の二項回帰は人気がなく、問題のある標準的なリンクがあると述べています。紹介された箇所を見つけましたが、それは言っています（MとNの374ページ）「アプリケーションでは負の二項分布が少し使用されているようです。特に、標準リンクの使用は、線形予測子を分散関数のパラメーターの関数にするため、問題があります」。前のページで、彼らはそのリンク機能を η=log(α1+α)=log(μμ+k)η=log⁡(α1+α)=log⁡(μμ+k)\eta = \log\left(\frac{\alpha}{1 + \alpha} \right) = \log\left( \frac{\mu}{\mu + k}\right) および分散関数 V=μ+μ2k.V=μ+μ2k.V = \mu + \frac{\mu^2}{k}. 分布は次のように与えられます Pr(Y=y;α,k)=(y+k−1)!y!(k−1)!αy(1+α)y=kPr(Y=y;α,k)=(y+k−1)!y!(k−1)!αy(1+α)y=kPr(Y = y; \alpha,k) = \frac{(y+k-1)!}{y!(k-1)!}\frac{\alpha^y}{(1+\alpha)^{y=k}} NB回帰は非常に広く使用されていることがわかりました（複数の本で推奨されています）。これらの使用法と推奨事項はすべて誤りですか？この問題のあるリンクの結果は何ですか？

31 regression modeling negative-binomial

タグ付けされた質問 「regression」

タグ付けされた質問「regression」