統計とビッグデータ regression

5

クロスエントロピーコストは、（分類ではなく）回帰のコンテキストで意味がありますか？もしそうなら、TensorFlowを通じておもちゃの例を挙げていただけますか？そうでない場合、なぜでしょうか？私はマイケルニールセンによるニューラルネットワークとディープラーニングのクロスエントロピーについて読んでいましたが、それは回帰や分類に自然に使用できるもののようですが、TensorFlowでそれを効率的に適用する方法がわからないので、損失関数はロジットを取り（私もどちらも理解していません）、ここで分類の下にリストされています

13 regression entropy tensorflow cross-entropy

4

ロジスティック回帰分析で連続独立変数のロジットへの線形性の仮定をどのようにチェックする必要がありますか？

ロジスティック回帰分析における連続予測子変数のロジットへの線形性の仮定と混同しています。単変量ロジスティック回帰分析を使用して潜在的な予測子をスクリーニングしながら、線形関係をチェックする必要がありますか？私の場合は、多重ロジスティック回帰分析を使用して、参加者間の栄養状態（二分結果）に関連する要因を特定しています。年齢、Charlson併存症スコア、Barthel Indexスコア、握力、GDSスコア、BMIなどの連続変数。最初のステップは、単純なロジスティック回帰を使用して有意な変数をスクリーニングすることです。各連続変数の単純なロジスティック回帰分析中に線形性の仮定を確認する必要がありますか？それとも、最終的な多重ロジスティック回帰モデルで確認するだけですか？さらに、私の理解のために、モデルに入力する前に非線形連続変数を変換する必要があります。変換の代わりに非線形連続変数を分類できますか？

13 regression logistic assumptions splines regression-strategies

1

Gaussian Process Regressionのハイパーパラメーター調整

私が実装したガウスプロセス回帰アルゴリズムのハイパーパラメーターを調整しようとしています。式によって与えられる対数限界尤度を最大化したいだけですここで、Kは、要素K_ {ij} = k（x_i、x_j）= b ^ {-1} \ exp（-\ frac {1} {2}（x_i-x_j）^ TM（x_i-x_j））+ a ^ {-1 } \ delta_ {ij}ここで、M = lI、a、b、lはハイパーパラメーターです。KKIJ=K（XI、XJ）=B-1つのEXP（-1ログ（y | X、θ）= − 12yTK− 1yy − 12ログ（det （K））− n2ログ（2 π）log⁡(y|X,θ)=−12yTKy−1y−12log⁡(det(K))−n2log⁡(2π)\log(\mathbf{y}|X,\mathbf{\theta})=-\frac{1}{2} \mathbf{y}^TK_y^{-1}\mathbf{y}-\frac{1}{2}\log(\det(K))-\frac{n}{2}\log(2\pi)KKK、M=LIA、BLK私はj= k （x私、xj）= b− 1exp（− 12（x私− xj）TM（x私− xj））+ a− 1δ私はjKij=k(xi,xj)=b−1exp⁡(−12(xi−xj)TM(xi−xj))+a−1δijK_{ij}=k(x_i,x_j)=b^{-1}\exp(-\frac{1}{2}(x_i-x_j)^TM(x_i-x_j))+a^{-1}\delta_{ij}M= l IM=lIM=lIa 、ba,ba,blll パラメータの対数周辺尤度の偏微分は、次の\ frac {\ log（\ …

13 regression optimization gaussian-process hyperparameter

1

標準化されたベータを元の変数に戻す

これはおそらく非常に単純な質問だと思いますが、検索した後、探している答えが見つかりません。ベータのリッジ推定値を計算するために変数を標準化する必要がある（リッジ回帰）必要があるという問題があります。次に、これらを元の変数スケールに戻す必要があります。しかし、どうすればよいですか？私は二変量のケースの式を見つけました β∗=β^SxSy.β∗=β^SxSy. \beta^* = \hat\beta \frac{S_x}{S_y} \>. これは、D。グジャラート語、Basic Econometrics、175ページ、式（6.3.8）で与えられました。ここで、は標準化された変数で実行された回帰からの推定量であり、は同じ推定量を元のスケールに変換して戻し、はの標本標準偏差、は標本標準偏差です。* β S 、Y S 、Xβ∗β∗\beta^*β^β^\hat\betaSySyS_ySxSxS_x 残念ながら、この本では、重回帰の類似の結果については説明していません。また、私は二変量のケースを理解しているのかわかりませんか？単純な代数操作により、元のスケールでの式が得られます。β^β^\hat\beta β^=β∗SySxβ^=β∗SySx \hat\beta=\beta^* \frac{S_y}{S_x} 既にによってデフレートされている変数で計算されたが、再度変換するためにによってデフレートするますか？（さらに、平均値が追加されないのはなぜですか？） SXSXβ^β^\hat\betaSxSxS_xSxSxS_x では、結果を理解できるように、多変量のケースでこれをどのように導関数を使用して理想的に説明することができますか？

13 regression standard-error standardization predictor centering

4

Gaussian Processes：GPMLを多次元出力に使用する方法

GPMLを使用して多次元出力（おそらく相関）でガウスプロセス回帰を実行する方法はありますか？でデモスクリプト私は1Dの例を見つけることができます。同様の質問 CV上の多次元入力のタックルケース。私は彼らの本を読み、何かを見つけることができるかどうかを確認しました。で第九章この本（9.1節）の、彼らは、複数の出力のこのケースを言及しています。彼らはこれに対処するためのいくつかの方法について言及しました。1つは相関ノイズプロセスを使用し、2つはCokriging（事前相関）を使用します。これらのアイデアをどのようにしてGPMLフレームワークに組み込むことができるのか、まだわかりません。また、多次元出力をサポートする他のGPライブラリ/フレームワークはありますか？

13 regression machine-learning matlab gaussian-process nonparametric-bayes

1

交互作用項と高次多項式

線形説明変数と従属変数と2次関係にある別の説明変数間の双方向の相互作用のフィッティングに興味がある場合、2次成分との相互作用と線形との相互作用の両方を含める必要がありますか？モデルのコンポーネント？例：次に、前のスレッドを構築します：曲率項とモデル選択、これがRで使用するモデル選択分析であり、多くの説明変数がある場合、二次項を含む交互作用項を含む出力モデルaaabbbyyyy〜 + B + B2+ a b + a b2y〜a+b+b2+ab+ab2 y\sim a+b+b^2+ab+ab^2 MuMIna ：b2a：b2a:b^2線形成分との相互作用の用語場合にのみ有効であるまた、その同じモデルに存在したと同様に、、および直接効果として？a ：ba：ba:baaabbbb2b2b^2

13 r regression model-selection

2

ロジスティック回帰が適切に調整されたモデルを生成するのはなぜですか？

ロジスティック回帰がWebのクリック率の予測に頻繁に使用される理由の1つは、適切に調整されたモデルが生成されることです。これについての良い数学的な説明はありますか？

13 regression logistic

2

モデルを構築するための回帰係数の平均化に理論的な問題はありますか？

それぞれが完全なデータのサブセットに基づいた複数のOLSモデルの平均である回帰モデルを構築したい。この背景にある考え方は、このペーパーに基づいています。k個の折り畳みを作成し、それぞれが折り畳みのないデータに基づいてk個のOLSモデルを作成します。次に、回帰係数を平均して最終モデルを取得します。これは、複数の回帰ツリーが構築されて平均化されるランダムフォレスト回帰のようなものに似ています。ただし、平均化されたOLSモデルのパフォーマンスは、データ全体に1つのOLSモデルを単純に構築するよりも悪いようです。私の質問は次のとおりです。複数のOLSモデルの平均化が間違っている、または望ましくないという理論上の理由はありますか？複数のOLSモデルを平均化してオーバーフィットを減らすことはできますか？以下はRの例です。 #Load and prepare data library(MASS) data(Boston) trn <- Boston[1:400,] tst <- Boston[401:nrow(Boston),] #Create function to build k averaging OLS model lmave <- function(formula, data, k, ...){ lmall <- lm(formula, data, ...) folds <- cut(seq(1, nrow(data)), breaks=k, labels=FALSE) for(i in 1:k){ tstIdx <- which(folds==i, arr.ind = TRUE) tst <- …

12 regression least-squares ensemble

1

ある

私の同僚は、応答変数を1のべき乗に変換してから、いくつかのデータを分析したいと考えています。（つまりy0.1251818\frac18y0.125y0.125y^{0.125}）。私はこれに不快感を覚えていますが、その理由を説明するのに苦労しています。この変換の機構的な理由は考えられません。これまでに見たこともないし、タイプIのエラー率などを膨らませるのではないかと心配していますが、これらの懸念をサポートするものは何もありません！さらに、私の同僚は、これらの変換されたモデルが、AIC比較で変換されていないモデルよりも優れていることを発見しました。これは、それ自体でその使用を正当化しますか？

12 regression data-transformation aic

5

線形回帰は時代遅れですか？[閉まっている]

閉じた。この質問は意見に基づいています。現在、回答を受け付けていません。この質問を改善したいですか？この投稿を編集して事実と引用で答えられるように質問を更新してください。閉じた2年前。現在、線形回帰のクラスにいますが、私が学んでいることは、現代の統計や機械学習のどちらにももはや関係がないという感覚を揺るがすことはできません。最近、非常に多くの興味深いデータセットが線形回帰の非現実的な仮定の多くに違反しているのに、単純または多重線形回帰の推論に多くの時間を費やしているのはなぜですか？代わりに、サポートベクターマシンまたはガウス過程を使用した回帰のような、より柔軟で最新のツールの推論を教えてみませんか？スペースで超平面を見つけるよりも複雑ですが、これは現代の問題に取り組むためのより良い背景を学生に与えませんか？

12 regression machine-learning linear teaching

2

ロジスティック回帰と尤度を理解する

パラメーター推定/ロジスティック回帰のトレーニングは実際にどのように機能しますか？これまでに手に入れたものを入れようとします。出力はyであり、xの値に応じた確率の形でのロジスティック関数の出力： P(y=1|x)=11+e−ωTx≡σ(ωTx)P(y=1|x)=11+e−ωTx≡σ(ωTx)P(y=1|x)={1\over1+e^{-\omega^Tx}}\equiv\sigma(\omega^Tx) P(y=0|x)=1−P(y=1|x)=1−11+e−ωTxP(y=0|x)=1−P(y=1|x)=1−11+e−ωTxP(y=0|x)=1-P(y=1|x)=1-{1\over1+e^{-\omega^Tx}} 1つの次元について、いわゆるオッズは次のように定義されます p(y=1|x)1−p(y=1|x)=p(y=1|x)p(y=0|x)=eω0+ω1xp(y=1|x)1−p(y=1|x)=p(y=1|x)p(y=0|x)=eω0+ω1x{{p(y=1|x)}\over{1-p(y=1|x)}}={{p(y=1|x)}\over{p(y=0|x)}}=e^{\omega_0+\omega_1x} 次にlog、線形形式でW_0およびW_1を取得する関数を追加します Logit(y)=log(p(y=1|x)1−p(y=1|x))=ω0+ω1xLogit(y)=log(p(y=1|x)1−p(y=1|x))=ω0+ω1xLogit(y)=log({{p(y=1|x)}\over{1-p(y=1|x)}})=\omega_0+\omega_1x さて問題の部分へ尤度の使用（Big X is y） L(X|P)=∏i=1,yi=1NP(xi)∏i=1,yi=0N(1−P(xi))L(X|P)=∏i=1,yi=1NP(xi)∏i=1,yi=0N(1−P(xi))L(X|P)=\prod^N_{i=1,y_i=1}P(x_i)\prod^N_{i=1,y_i=0}(1-P(x_i)) y = 1の確率を2回考慮している理由は誰にもわかりますか？以来： P(y=0|x)=1−P(y=1|x)P(y=0|x)=1−P(y=1|x)P(y=0|x)=1-P(y=1|x) そして、それからωの値をどのように取得しますか

12 regression logistic likelihood

1

スプラインまたは分数多項式を使用するときに、欠落データをどのように処理できますか？

私は、多変数モデルの構築を読んでいます： Patrick RoystonとWillie Sauerbreiによる連続変数のモデリングのための分数多項式に基づく回帰分析への実用的なアプローチ。これまでのところ、私は感銘を受けており、これまで考えもしなかった興味深いアプローチです。しかし、著者は欠損データを扱っていません。確かに、p。17彼らは、データの欠落は「多くの追加の問題を引き起こす。ここでは考慮されない」と言う。複数の代入は分数多項式で動作します> FPは、ある意味では（すべてではありませんが）スプラインの代替です。スプライン回帰の欠落データを処理するのは簡単ですか？

12 regression missing-data fractional-polynomial

2

p値に基づいて特徴を選択するのは間違っていますか？

機能の選択方法に関する投稿がいくつかあります。メソッドの1つは、t統計に基づく機能の重要性を説明します。標準化された特徴をvarImp(model)持つ線形モデルに適用されるRでは、各モデルパラメーターのt統計量の絶対値が使用されます。したがって、基本的には、t統計に基づいて特徴を選択します。つまり、係数の精度を意味します。しかし、私の係数の正確さは、特徴の予測能力について何かを教えてくれますか？私の機能は低いt統計量を持っていますが、それでもモデルの精度を向上させることができますか？「はい」の場合、t統計に基づいて変数をいつ除外したいでしょうか？それとも、重要でない変数の予測能力をチェックするための出発点にすぎませんか？

12 regression p-value feature-selection

2

勾配降下法は、このデータセットの通常の最小二乗法の解を見つけられませんか？

私は線形回帰を研究しており、以下のセット{（x、y）}で試してみました。xは平方フィートで家の面積を指定し、yはドルで価格を指定しました。これはAndrew Ng Notesの最初の例です。 2104,400 1600,330 2400,369 1416,232 3000,540 サンプルコードを開発しましたが、実行すると、コストは各ステップで増加しますが、各ステップで減少するはずです。以下に示すコードと出力。biasはW 0 X 0で、X 0 = 1です。featureWeightsは[X 1、X 2、...、X N ]の配列ですまた、ここで利用可能なオンラインpythonソリューションを試し、ここで説明しました。しかし、この例でも同じ出力が得られます。概念を理解する際のギャップはどこにありますか？コード： package com.practice.cnn; import java.util.Arrays; public class LinearRegressionExample { private float ALPHA = 0.0001f; private int featureCount = 0; private int rowCount = 0; private float bias = 1.0f; …

12 regression least-squares gradient-descent supervised-learning

1

識別されたばかりの2SLSは中央値不偏ですか？

でアン経験主義者の仲間：ほとんど無害計量経済学（AngristとPischke、2009：209ページ）私は、次をお読みください。（...）実際、特定されたばかりの2SLS（たとえば、単純なWald推定量）はほぼ不偏です。識別されたばかりの2SLSにはモーメントがないため、これを正式に表示するのは困難です（つまり、サンプリング分布には太い尾があります）。それにもかかわらず、弱い機器であっても、特定されたばかりの2SLSは、本来あるべき場所のほぼ中央にあります。したがって、特定されたばかりの2SLSは中央値不偏であると言います。（...）著者は、特定されたばかりの2SLSは中央値で偏りがないと言っていますが、彼らはそれを証明せず、証拠への言及も提供しません。213ページで、彼らは再び命題について言及しているが、証拠への言及はない。また、MITの 22ページの機器変数に関する講義ノートでは、提案の動機を見つけることができません。彼らのブログのメモでそれを拒否するので、理由は命題が間違っているかもしれません。ただし、特定されたばかりの2SLSはほぼ中央値で偏りがないと彼らは書いています。彼らは小さなモンテカルロ実験を使用してこれを動機付けていますが、近似に関連する誤差項の分析的証明または閉形式表現は提供していません。とにかく、これは、ミシガン州立大学のゲイリー・ソロン教授に対する著者の回答であり、2SLSが特定されたのは中央値で不偏ではないとコメントしました。質問1：Gary Solonが主張するように、特定されたばかりの2SLSが中央値不偏でないことをどのように証明しますか？質問2：ちょうど特定された2SLSがAngristとPischkeが主張するようにほぼ中央値で偏っていないことをどのように証明しますか？質問1では、反例を探しています。質問2では、（主に）証拠または証拠への参照を探しています。また、この文脈での中央値-偏りのない形式的な定義も探しています。次のように私は、概念を理解する：アン推定のいくつかのセットに基づいてののランダム変数は、中央値、公平のためのものである場合のみとの分布に中央値ある場合θX1：N、Nθ θ（X1：N）θθ^（X1 ：n）θ^（バツ1：n）\hat{\theta}(X_{1:n})θθ\thetaバツ1 ：nバツ1：nX_{1:n}nnnθθ\thetaθ^（X1 ：n）θ^（バツ1：n）\hat{\theta}(X_{1:n})θθ\theta ノート特定されたばかりのモデルでは、内因性のリグレッサーの数は機器の数に等しくなります。特定されたばかりのインストルメンタル変数モデルを記述するフレームワークは、次のように表現できます。対象の因果モデルと第1段階の方程式は、ここで、は内因性リグレッサーを記述する行列であり、インストルメント変数は行列によって記述されます。ここで、は、いくつかの制御変数を説明しています（たとえば、精度を向上させるために追加されます）。そして、とエラー項です。 XK×N+1のkK×N+1ZWU、V{ Yバツ=Xβ+ Wγ+ あなた=Zδ+ Wζ+ v（1）（1）{Y=バツβ+Wγ+あなたはバツ=Zδ+Wζ+v\begin{cases} Y&=X\beta+W\gamma+u \\ X&=Z\delta+W\zeta+v \end{cases}\tag{1}バツバツXk × n + 1k×n+1k\times n+1kkkk × n + 1k×n+1k\times n+1ZZZWWWあなたはあなたはuvvv 2SLSを使用してを推定します。まず、を制御するを回帰し、予測値を取得します。これは最初の段階と呼ばれます。次に、制御するを回帰し。これは第2段階と呼ばれます。第2段階のの推定係数は、 2SLS推定です。（1 ）X Z W X Y X W X βββ\beta（1 ）（1）(1)バツバツXZZZWWWバツ^バツ^\hat{X}YYYバツ^バツ^\hat{X}WWWバツ^バツ^\hat{X}ββ\beta …

12 regression self-study multiple-regression econometrics instrumental-variables

タグ付けされた質問 「regression」

タグ付けされた質問「regression」