統計とビッグデータ regression

2

理論的に指数関数的に関連する値xxxとセットがあります。yyy y=axby=axby = ax^b 係数を取得する1つの方法は、両側に自然対数を適用し、線形モデルを近似することです。 > fit <- lm(log(y)~log(x)) > a <- exp(fit$coefficients[1]) > b <- fit$coefficients[2] これを取得する別の方法は、開始値の理論セットを指定して、非線形回帰を使用することです。 > fit <- nls(y~a*x^b, start=c(a=50, b=1.3)) 私のテストでは、2番目のアルゴリズムを適用すると、より良い理論関連の結果が表示されます。ただし、各方法の統計的な意味と意味を知りたいです。どちらが良いですか？

13 r regression linear-model model-selection nonlinear-regression

1

個別のモデリング/検証セットを使用して回帰モデルを構築する場合、検証データを「再循環」することは適切ですか？

モデリング/検証の観測結果が80/20に分割されているとします。モデルをモデリングデータセットに適合させましたが、検証データセットで見られるエラーに満足しています。将来の観測のスコアリングのためにモデルを展開する前に、検証とモデリングデータを組み合わせて、100％データの更新されたパラメーター推定値を取得するのが適切ですか？これに関する2つの視点を聞いたことがあります。私が実行した検証は、モデル構造、つまり適用した一連の予測変数と変換の検証でした。それを使用して推定値を更新できるのに、データの20％をテーブルに残しても意味がありません。私が実行した検証は、モデリングデータセットで計算したパラメーター推定値の検証の一部でした。モデルの適合度を更新すると、推定値が変更され、更新されたモデルのパフォーマンスをテストする客観的な方法がなくなります。私はいつも議論＃1に従いましたが、最近では、いくつかの人々が＃2を主張するのを聞いています。私は他の人がこれについてどう思うかを見たかった。このトピックに関する文献または他の場所で良い議論を見ましたか？

13 regression predictive-models validation

1

パネルデータモデルのグループ内の標準化された従属変数？

識別グループ内の従属変数の標準化は意味がありますか？次のワーキングペーパー（リーガルアマゾンでの森林破壊の減速、価格またはポリシー？、pdf）では、標準化された従属変数を使用して、森林破壊に対するブラジルの一般的な政策変更の影響を分析しています。標準化は次のように行われます： YN E W私トン= Y私トン− Y私¯¯¯¯¯s d（Y私トン）Y私tnew=Y私t−Y私¯sd（Y私t） Y^{new}_{it} = \frac{Y_{it} - \overline{Y_i}}{sd(Y_{it})} 著者は、これは「自治体内の森林減少の相対的な変動を考慮する」のに役立つと主張している。著者は、パネルデータのFE推定（12ページ）を使用します。新しい法律の後、翌年ごとに政策後ダミーを含める。従属変数がこのように標準化された場合、係数はどのように解釈されるべきですか？標準化は、グループ/市町村が時間の経過とともにより低い変動を経験した観測により高い値を与えるため、非正統的ではありませんか？

13 regression time-series panel-data standardization fixed-effects-model

2

ランダムフォレストモデルを使用するときに変数をログ/検証するタイミング

複数の属性に基づいて価格を予測するために、ランダムフォレストを使用して回帰を行っています。コードは、Scikit-learnを使用してPythonで記述されています。 exp/ logを使用して変数を変換してから回帰モデルに適合させる必要があるかどうかをどのように決定しますか？ランダムフォレストなどのアンサンブルアプローチを使用する場合、必要ですか？

13 regression machine-learning predictive-models python random-forest

1

ブートストラップ標準誤差と信頼区間は、等分散性の仮定に違反する回帰で適切ですか？

標準のOLS回帰で2つの仮定（エラーの正規分布、等分散性）に違反する場合、標準誤差と信頼区間のブートストラップは、リグレッサ係数の有意性に関して意味のある結果を得るための適切な代替手段ですか？ブートストラップされた標準誤差と信頼区間を使用した有意性検定は、依然として不均一分散で「機能」していますか？「はい」の場合、このシナリオで使用できる適用可能な信頼区間は何ですか（パーセンタイル、BC、BCA）。最後に、このシナリオでブートストラップが適切な場合、この結論に到達するために読んで引用する必要がある関連文献は何でしょうか？ヒントは大歓迎です！

13 regression bootstrap least-squares heteroscedasticity

3

通常の残差は何を意味し、これは私のデータについて何を教えてくれますか？

かなり基本的な質問：線形回帰の残差の正規分布とはどういう意味ですか？面では、これは回帰からの元のデータにどのように反映されますか？私は完全に困惑しています、みんなありがとう

13 regression residuals

1

ロジスティック回帰からの予測を理解する

ロジスティック回帰モデル（Rのglm）からの予測は、予想どおり0と1の間に制限されていません。ロジスティック回帰の私の理解は、入力パラメーターとモデルパラメーターが線形に組み合わされ、ロジットリンク関数を使用して応答が確率に変換されることです。ロジット関数は0と1の間に制限されているため、予測は0と1の間に制限されると予想しました。ただし、Rでロジスティック回帰を実装すると、これは見られません。 data(iris) iris.sub <- subset(iris, Species%in%c("versicolor","virginica")) model <- glm(Species ~ Sepal.Length + Sepal.Width, data = iris.sub, family = binomial(link = "logit")) hist(predict(model)) どちらかといえば、predict（model）の出力は私には正常に見えます。誰かが私が得る値が確率ではない理由を私に説明できますか？

13 r regression logistic generalized-linear-model

2

分類および回帰木の背後にある数学

誰でもCARTの分類の背後にある数学のいくつかを説明できますか？2つの主要な段階がどのように発生するかを理解したいと思っています。たとえば、データセットでCART分類器をトレーニングし、テストデータセットを使用してその予測パフォーマンスをマークしましたが、ツリーの初期ルートはどのように選択されますか？各ブランチはなぜ、どのように形成されますか？ 15列23クラスの40万件のレコードであるデータセットは、混同マトリックスから100％の精度を達成します。データセットで10倍の交差検証を使用します。誰かがCART分類の段階を説明するのを手伝ってもらえたら本当にうれしいです。

13 regression classification data-mining cart

2

Stataでプロビットモデルを解釈するにはどうすればよいですか？

Stataで実行したこのプロビット回帰の解釈方法がわかりません。データはローンの承認に関するもので、白はダミー変数で、人が白人の場合は= 1、人が白人でない場合は= 0です。これを読む方法についてのヘルプは大歓迎です。私が主に探しているのは、白人と非白人の両方のローン承認の推定確率を見つける方法です。誰かがここのテキストとそれを正常にする方法で私を助けることができますか？申し訳ありませんが、これを行う方法がわかりません。 . probit approve white Iteration 0: log likelihood = -740.34659 Iteration 1: log likelihood = -701.33221 Iteration 2: log likelihood = -700.87747 Iteration 3: log likelihood = -700.87744 Probit regression Number of obs = 1989 LR chi2(1) = 78.94 Prob > chi2 = 0.0000 Log likelihood = …

13 regression multiple-regression stata

2

p> nの場合、投げ縄は最大n個の変数を選択します

エラスティックネットの動機の1つは、LASSOの次の制限でした。では理由は凸最適化問題の性質のそれが飽和する前に、ほとんどのn個の変数の場合、投げ縄選択します。これは、変数選択方法の制限機能のようです。さらに、係数のL1ノルムの境界が特定の値より小さい場合を除き、投げ縄は明確に定義されていません。p>np>np > n （http://onlinelibrary.wiley.com/doi/10.1111/j.1467-9868.2005.00503.x/full） LASSOは2次計画問題であるが、LARSまたは要素ごとの勾配降下法によっても解決できることを理解しています。しかし、（pは予測子の数、nはサンプルサイズ）の場合、これらのアルゴリズムのどこで問題が発生するかわかりません。そして、なぜこの問題がエラスティックネットを使用して解決されるのですか？ここで、pを明らかに超えるp + n変数に問題を拡大します。p>np>np > npppnnnp+np+np+nppp

13 regression optimization feature-selection lasso

5

回帰の従属変数としてのパーセンテージの推定

私の研究の従属変数として、38の試験の学生のランクの割合があります。ランクの割合は、（学生のランク/試験の学生数）によって計算されます。この従属変数の分布はほぼ均一であるため、従属変数に対するいくつかの変数の影響を推定したいと思います。どの回帰アプローチを使用しますか？

13 regression distributions

2

のみを知っており、直接知らない場合の線形回帰

と仮定します。Xβ=YXβ=YX\beta =Y 正確にはわかりませんが、各予測子との相関関係のみがわかります。YYYXtYXtYX^\mathrm{t}Y 通常の最小二乗（OLS）解はであり、問題はありません。β=(XtX)−1XtYβ=(XtX)−1XtY\beta=(X^\mathrm{t} X)^{-1} X^\mathrm{t}Y しかし、がほぼ特異（多重共線性）であり、最適なリッジパラメーターを推定する必要があるとします。すべてのメソッドは正確な値を必要とするようです。XtXXtXX^\mathrm{t}XYYY がわかっている場合、代替方法はありますか？XtYXtYX^\mathrm{t}Y

13 regression multicollinearity

2

ポアソン回帰からデータサンプルを生成する

Rのポアソン回帰式からデータを生成する方法を疑問に思っていましたか？私はこの問題へのアプローチ方法を少し混乱させています。私が想定している場合だから我々は2つの予測因子持つ及びX 2に分散されているN （0 、1 ）。そして、切片は0で、係数は両方とも1になります。それから、私の推定は単純に：バツ1バツ1X_1バツ2バツ2X_2N（0 、1 ）N（0、1）N(0,1) ログ（Y）= 0 + 1 ⋅ X1+ 1 ⋅ X2ログ⁡（Y）=0+1⋅バツ1+1⋅バツ2\log(Y) = 0+ 1\cdot X_1 + 1\cdot X_2 しかし、log（Y）を計算したら、それに基づいてポアソンカウントを生成するにはどうすればよいですか？ポアソン分布のレートパラメーターとは何ですか？誰かが素晴らしいポアソン回帰サンプルを生成する簡単なRスクリプトを書くことができたら素晴らしいでしょう！

13 r regression poisson-distribution simulation

1

ニューラルネットワークから実数値の連続出力を取得する方法

これまでにニューラルネットワークで見たほとんどの例では、ネットワークは分類に使用され、ノードはシグモイド関数で変換されます。ただし、ニューラルネットワークを使用して連続的な実数値を出力したいと思います（現実的には、出力は通常-5〜+5の範囲になります）。私の質問は： 1. Should I still scale the input features using feature scaling? What range? 2. What transformation function should I use in place of the sigmoid? 私は最初にこれらのレイヤータイプを記述するPyBrainを実装したいと考えています。だから私は、すべての線形レイヤーである3つのレイヤー（入力、非表示、および出力レイヤー）を開始する必要があると考えていますか？それは合理的な方法ですか？または、シグモイド関数を-5〜5の範囲で「ストレッチ」できますか？

13 regression neural-networks

2

Rの勾配降下vs lm（）関数？

Andrew Ngのスタンフォードでの無料のオンライン機械学習コースのビデオを見ていきます。彼は線形回帰を解決するアルゴリズムとして勾配降下法を議論し、それを実行するためにOctaveで関数を記述します。おそらくこれらの関数をRで書き換えることができますが、私の質問はlm（）関数が線形回帰の出力をすでに与えていないかということです。なぜ独自の勾配降下関数を書きたいのですか？いくつかの利点がありますか、それとも純粋に学習演習としてですか？lm（）は勾配降下を行いますか？

13 r regression machine-learning gradient-descent

タグ付けされた質問 「regression」

タグ付けされた質問「regression」