タグ付けされた質問 「nonlinear」

このタグは広すぎるため非推奨です。より具体的なタグを見つけてください。


1
非線形モデルと一般化線形モデル:ロジスティック、ポアソンなどの回帰をどのように参照しますか?
統計学者の意見を聞きたいセマンティクスについて質問があります。 ロジスティック、ポアソンなどのモデルは、一般化線形モデルの傘下にあることがわかっています。モデルにはパラメーターの非線形関数が含まれており、適切なリンク関数を使用して線形モデルフレームワークを使用してモデル化することができます。 ロジスティック回帰などの状況を次のように考えて(教えますか?) パラメーターの形式が与えられた非線形モデル リンクが私たちを線形モデルフレームワークに変換するため、線形モデル 同時に(1)と(2):非線形モデルとして「開始」されますが、線形モデルと考えることができるような方法で動作する可能性があります 私は実際の世論調査を設定することができます...

6
高度な回帰モデリングの例
GLMまたはOLSを使用して複雑な複数の非線形関係をモデル化するために必要な手順を示す、高度な線形回帰のケーススタディを探しています。基本的な学校の例を超えてリソースを見つけることは驚くほど困難です:私が読んだ本のほとんどは、1つの予測子のBoxCox、または最良の場合の自然なスプラインと組み合わせた応答のログ変換よりも先に進むことはありません。また、これまでに見てきたすべての例は、個別のモデル、多くの場合単一の予測モデルで各データ変換の問題に取り組みます。 BoxCoxまたはYeoJohnson変換とは何かを知っています。私が探しているのは、応答/関係が明確ではない、詳細で実際のケーススタディです。たとえば、応答は厳密に肯定的ではないため(logまたはBoxCoxは使用できません)、予測子は応答間で応答に対して非線形の関係を持ち、最尤データ変換は標準の0.33を暗示していないようです。または0.5指数。また、残差分散は一定ではない(決して変わらない)ため、応答も変換する必要があり、非標準のGLMファミリー回帰または応答変換の間で選択を行う必要があります。研究者は、おそらくデータの過剰適合を避けるための選択をします。 編集 これまでのところ、次のリソースを収集しました。 回帰モデリング戦略、F。ハレル 適用された計量経済時系列、W。エンダーズ R、G。Petrisを使用した動的線形モデル 応用回帰分析、D。クラインバウム 統計学習入門、G。ジェームズ/ D。ウィッテン 私は最後の(ISLR)のみを読んでおり、非常に良いテキスト(私の時計では5つ星5つ)ですが、高度な回帰モデリングよりもMLを重視しています。 また、CVには、リグレッションの難しいケースを提示するこの優れた投稿があります。

3
ニューラルネットワークを非線形分類モデルにするものは何ですか?
私は非線形分類モデルの数学的な意味を理解しようとしています: ニューラルネットが非線形分類モデルであるという記事を読んだばかりです。 しかし、私はちょうどそれを理解しています: 最初の層: h1=x1∗wx1h1+x2∗wx1h2h1=x1∗wx1h1+x2∗wx1h2h_1=x_1∗w_{x1h1}+x_2∗w_{x1h2} h2=x1∗wx2h1+x2∗wx2h2h2=x1∗wx2h1+x2∗wx2h2h_2=x_1∗w_{x2h1}+x_2∗w_{x2h2} 次の層 y=b∗wby+h1∗wh1y+h2∗wh2yy=b∗wby+h1∗wh1y+h2∗wh2yy=b∗w_{by}+h_1∗w_{h1y}+h_2∗w_{h2y} に簡略化できます =b'+(x1∗wx1h1+x2∗wx1h2)∗wh1y+(x1∗wx2h1+x2∗wx2h2)∗wh2y=b′+(x1∗wx1h1+x2∗wx1h2)∗wh1y+(x1∗wx2h1+x2∗wx2h2)∗wh2y=b′+(x_1∗w_{x1h1}+x_2∗w_{x1h2})∗w_{h1y}+(x_1∗w_{x2h1}+x_2∗w_{x2h2})∗w_{h2y} = b ' + x1(wh 1 y* wx 1 時間1+ wx 2 時間1* wh 2 y)+ x2(wh 1 y* wx 1 時間1+ wx 2 時間2* wh 2 y)=b′+x1(wh1y∗wx1h1+wx2h1∗wh2y)+x2(wh1y∗wx1h1+wx2h2∗wh2y)=b′+x_1(w_{h1y}∗w_{x1h1}+w_{x2h1}∗w_{h2y})+x_2(w_{h1y}∗w_{x1h1}+w_{x2h2}∗w_{h2y}) 2層ニューラルネットワークは単純な線形回帰です = b′+ x1* W′1+ x2* W′2=b′+x1∗W1′+x2∗W2′=b^′+x_1∗W_1^′+x_2∗W_2^′ これは、任意の数の重みの線形結合が再び線形であるため、任意の数のレイヤーに表示できます。 ニューラルネットを実際に非線形分類モデルにするものは何ですか? アクティベーション関数は、モデルの非線形性にどのように影響しますか? 説明して頂けますか?

2
自己回帰時系列モデルが非線形の場合でも、定常性が必要ですか?
時系列予測にリカレントニューラルネットワークを使用することについて考えます。基本的に、線形自動回帰を使用するARMAモデルとARIMAモデルと比較して、一種の一般化された非線形自動回帰を実装しています。 非線形自己回帰を実行している場合、時系列が静止している必要があり、ARIMAモデルで行う方法と異なる方法で実行する必要がありますか? または、モデルの非線形特性は、非定常時系列を処理する能力を与えますか? 別の言い方をすれば、ARMAモデルとARIMAモデルの定常性要件(平均および分散)は、これらのモデルが線形であるという事実によるものですか、それとも何か別のものによるものですか?

4
勾配ブースティングマシンの精度は、反復回数が増えると低下します
caretR のパッケージを介して勾配ブースティングマシンアルゴリズムを試しています。 小さな大学入学データセットを使用して、次のコードを実行しました。 library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

4
線形モデルと非線形モデルの区別
私は線形モデルと非線形モデルの特性に関するいくつかの説明を読みましたが、それでも手元のモデルが線形モデルであるか非線形モデルであるかがわからないことがあります。たとえば、次のモデルは線形ですか、それとも非線形ですか? yt=β0+β1B(L;θ)Xt+εtyt=β0+β1B(L;θ)Xt+εty_t=\beta_0 + \beta_1B(L;\theta)X_t+\varepsilon_t と: B(L;θ)=∑k=1Kb(k;θ)LkB(L;θ)=∑k=1Kb(k;θ)LkB(L;\theta)=\sum_{k=1}^{K}b(k;\theta)L^k LkXt=Xt−kLkXt=Xt−kL^kX_t=X_{t-k} ここで、は、次の形式の(減衰する)指数アルモン多項式関数を表します。b(k;θ)b(k;θ)b(k;\theta) b(k;θ)=exp(θ1k+θ2k2)∑Kk=1exp(θ1k+θ2k2)b(k;θ)=exp⁡(θ1k+θ2k2)∑k=1Kexp⁡(θ1k+θ2k2)b(k;\theta)=\frac{\exp(\theta_1 k+\theta_2k^2)}{\sum_{k=1}^{K}\exp(\theta_1k+\theta_2k^2)} 私の見解では、この項には重みが乗算されているだけなので、メイン方程式(最初の方程式)はに対して線形です。しかし、私は、重み関数(最後の式は)パラメータに対して非線形であると言うでしょうθ 1 ANS θ 2XtXtX_tθ1θ1\theta_1θ2θ2\theta_2。 私の主な機能が線形または非線形の場合、誰かが私に説明できますか?それは推定手順にとって何を意味しますか?線形または非線形最小二乗法を適用する必要がありますか?さらに、関数が非線形であるか線形であるかを明確に識別できる識別可能な特徴は何ですか?

3
「線形」回帰と「非線形」回帰を区別することが重要なのはなぜですか?
線形モデルと非線形モデルの区別の重要性は何ですか?非線形モデルと一般化線形モデルの質問:ロジスティック、ポアソンなどの回帰をどのように参照しますか?そしてその答えは、一般化線形モデルの線形性/非線形性の非常に役立つ説明でした。線形モデルと非線形モデルを区別することは非常に重要であるように思えますが、その理由は明確ではありません。たとえば、次の回帰モデルを検討してください。 E[Y∣X]E[Y∣X]E[Y∣X]E[Y∣X]=β0+β1X=β0+β1X+β2X2=β0+β21X={1+exp(−[β0+β1X]}−1(1)(2)(3)(4)(1)E[Y∣X]=β0+β1X(2)E[Y∣X]=β0+β1X+β2X2(3)E[Y∣X]=β0+β12X(4)E[Y∣X]={1+exp⁡(−[β0+β1X]}−1\begin{align} E[Y \mid X] & = \beta_0 + \beta_1 X \tag{1} \\ E[Y \mid X] & = \beta_0 + \beta_1 X + \beta_2 X^2 \tag{2} \\ E[Y \mid X] & = \beta_0 + \beta_1^2 X \tag{3} \\ E[Y \mid X] & = \{1+\exp(-[ \beta_0 + \beta_1 X]\}^{-1} \tag{4} \end{align} …

1
LLE(ローカル線形埋め込み)アルゴリズムの手順を説明してください。
LLEのアルゴリズムの背後にある基本原則は3つのステップで構成されていることを理解しています。 k-nnなどのメトリックによって各データポイントの近傍を見つける。 近傍がデータポイントに与える影響を示す各近傍の重みを見つけます。 計算された重みに基づいて、データの低次元埋め込みを構築します。 しかし、ステップ2とステップ3の数学的説明は、私が読んだすべての教科書とオンラインリソースで混乱しています。数式が使用される理由を説明することはできません。 これらの手順は実際にはどのように実行されますか?使用されている数式を直感的に説明する方法はありますか? 参照:http : //www.cs.nyu.edu/~roweis/lle/publications.html

3
高度に非線形な関数をフィッティングするための戦略
生物物理学実験からのデータを分析するために、現在、高度に非線形なモデルを使用して曲線近似を試みています。モデル関数は基本的に次のようになります。 y=ax+bx−1/2y=ax+bx−1/2y = ax + bx^{-1/2} ここで、特にの値は非常に興味深いものです。bbb この関数のプロット: (モデル関数はシステムの完全な数学的記述に基づいており、非常にうまく機能するように思われることに注意してください-自動適合はトリッキーなだけです)。 もちろん、モデル関数には問題があります。これまで試したフィッティング戦略は、特にノイズの多いデータの場合、での鋭い漸近線のため失敗します。x=0x=0x=0 ここでの問題の私の理解は、xの小さな誤差が非常に増幅されるため、単純な最小二乗近似(MATLABで線形回帰と非線形回帰の両方を試しました;主にLevenberg-Marquardt)は垂直漸近線に非常に敏感です。。 誰かがこれを回避できる適切な戦略を教えてもらえますか? 統計に関する基本的な知識はある程度持っていますが、それでもかなり限られています。どこから探し始めればいいのか分からないなら、私は学びたいと思っています:) アドバイスありがとうございます! 編集は、エラーを言及するのを忘れるためにあなたの許しを物乞い。唯一の重要なノイズはにあり、それは加法的です。xxx 編集2この質問の背景に関する追加情報。上記のグラフは、ポリマーの伸縮挙動をモデル化しています。@whuberがコメントで指摘したように、上記のようなグラフを取得するにが必要です。b≈−200ab≈−200ab \approx -200 a 人々がこの曲線をこの点までどのように当てはめているかについて:人々は一般に、彼らが良い適合を見つけるまで垂直漸近線を切り取っているようです。ただし、カットオフの選択は依然として任意であり、フィッティング手順の信頼性と再現性が失われます。 3&4固定グラフを編集します。

1
カーネル近似のNystroemメソッド
低ランクのカーネル近似のためのNyströmメソッドについて読んでいます。この方法は、データサンプルをカーネル機能マッピングの低ランクの近似に投影する方法として、scikit-learn [1]に実装されています。 私の知る限り、トレーニングセットとカーネル関数を指定すると、WとCに SVDを適用することにより、n × nカーネル行列Kの低ランクの近似が生成されます。{ x私}んi = 1{xi}i=1n\{x_i\}_{i=1}^nn × nn×nn \times nKKKWWWCCC C = [ W K 21 ]、 W ∈ R L × LK= [ WK21KT21K22]K=[WK21TK21K22]K = \left [ \begin{array}{cc} W & K_{21}^T \\ K_{21} & K_{22} \end{array} \right ] C= [ WK21]C=[WK21]C = \left [\begin{array}{cc} W \\ …

3
畳み込みニューラルネットワークの最終Softmax層の前の非線形性
私は畳み込みニューラルネットワークを調査して実装しようとしていますが、この質問は一般に多層パーセプトロンに当てはまると思います。 ネットワークの出力ニューロンは、各クラスのアクティブ化を表しています。最もアクティブなニューロンは、特定の入力の予測クラスに対応しています。トレーニングのクロスエントロピーコストを検討するために、各ニューロンの活性化値が確率値として解釈されるように、ネットワークの最後にsoftmaxレイヤーを追加しています。 私の質問は、出力層のニューロンが非線形関数を入力に適用する必要がありますか?私の直感はそれが必要ではないということです: 入力場合番目の出力ニューロンはドット積であるX T θ IベクトルとX(前のレイヤからの)と重みがθ Iをそのニューロンため、iiixTθixTθix^T\theta_ixxxθiθi\theta_i シグモイドやReLUのような単調な非線形関数を使用する場合 次いで、より大きな活性化出力は、依然として最大に対応するように非線形関数が予測を変更しないであろうこのような観点から、。xTθixTθix^T\theta_i この解釈に何か問題がありますか?出力の非線形性を必要とする、見落としているいくつかのトレーニング要素はありますか? max(0,xTθi)max(0,xTθi)\max(0,x^T\theta_i) 編集 答えが基本的に「依存する」であったカレルの答えを参照して、ここに私のネットワークと疑問のより詳細な説明があります: N個の非表示レイヤーがあり、出力レイヤーがクラスを表すニューロンのセットの単なるソフトマックスレイヤーであるとします(したがって、期待される出力は、入力データが各クラスに属する確率です)。最初のN-1層に非線形ニューロンがあると仮定すると、N番目の隠れ層で非線形ニューロンと線形ニューロンを使用することの違いは何ですか?

3
統計モデルの非線形性の基準と意思決定とは何ですか?
次の一般的な質問が意味をなすことを願っています。この特定の質問の目的のために、非線形性を導入するための理論的な(対象ドメイン)理由には興味がないことに注意してください。したがって、質問全体を次のように定式化します。 理論的(対象領域)以外の理由で統計モデルに非線形性を導入するための論理的なフレームワーク(基準、および可能であれば意思決定プロセス)とは何ですか? いつものように、関連するリソースやリファレンスも歓迎します。

2
説明変数の1つが2次および3次の項を持つ可能性がある場合、説明変数間の相互作用をどのようにモデル化すればよいですか?
私がこの質問を明確に回答できるように表現したことを心から望んでいます。もしそうでなければ、私に知らせて、もう一度やり直します!また、これらの分析にはRを使用することにも注意してください。 私がplant performance (Ys)課した4つの治療法の影響を受けたと思われるいくつかの測定値flower thinning (X1), fertilization (X2), leaf clipping (X3)がありbiased flower thinning (X4)ます- 、および。考えられるすべてのYについて、Nは少なくとも242なので、サンプルサイズが大きくなりました。すべてのプロットは間引きを行ったか、行わなかったかのいずれかですが、各プロットは他の3つの処理のうちの1つ(および1つのみ)も処理しました(または処理しませんでした-コントロールプロットもありました)。このデザインのアイデアは、他の3つの処理が、間引きの効果を「マスキング」または「強化」できるかどうかをテストすることでした。したがって、設計上、後者の3つの処理(X2〜X4)は交差しなかったため、互いに相互作用することはできませんでしたが、それぞれ花の間引きと相互作用することができます。 私の明確な仮説は、1)花が薄くなることは重要であり、2)X1*X2, X1*X3, and X1*X4,花が薄くなることと他の3つの処理の間の相互作用項も重要であることです。つまり、花の間引きは重要なはずですが、それが重要である方法は、他の3つの処理が何をしたかによって大幅に変更されるべきです。 このすべての情報を混合モデルに含めたいのですが。 Y ~ X0 + X1 + X2 + X3 + X4 + X1*X2 + X1*X3 + X1*X4 + (Up to three random effects) しかし、ハングアップが1つあります。私は、Yの間引きの効果が非線形であることを信じる十分な理由があります。それらはおそらく2次式ですが、場合によっては3次式であることもあります。これは、間引きのパフォーマンスへの影響が、間引きのレベルが高いほど速く増加する可能性が高いためです。X1の2次および3次の項を追加することにより、上記の方程式を介してこの非線形関係をモデル化しようとすると、相互作用項をモデル化する方法がわかりません-X1の可能なすべての組み合わせ(X1)^ 2、(X1)^ 3 * X2、X3、X4?私が持っているデータポイントの数があったとしても、それは推定しようとする多くのパラメーターのようであり、得られる結果を解釈する方法がわかりません。とはいえ、これが状況をモデル化するための無作法な方法であると考える生物学的な理由はありません。 したがって、私はこの問題に対処する方法について3つの考えがあります。 たとえばY …

2
教師あり学習データセットの自己相関は問題ですか?
次の問題を想像してみてください。Kアイテムの価格データと、さまざまな機能/予測子のスナップショットを毎週持っています。2年後の価格がどのくらい変わるか予測したい。 次のようにデータセットを組み立てます。各行は各週の各アイテムの機能で構成され、出力変数は2年間の価格リターンです。観測の日付がデータセットにない-私はそれをデータセットをトレーニングと検証セットに分離するためにのみ使用します。つまり、相互検証(検証期間の前後2年間のデータを破棄します) 1年)データの盗聴を防止するため)。 明らかに、同じ項目(および異なる項目の場合も)の2週間連続のサンプルは、機能と応答変数の両方の点で高度に相関します(今後2年間は大部分が重複するため、リターンを意味します)非常に似ています)。ランダムフォレストや勾配ブーストツリーなど、教師付き学習アプローチにどのような潜在的な問題が発生する可能性がありますか? 私の考えは: データセットの有効サイズは、予想よりも小さくなります。つまり、たとえば100,000の観測のデータセットは、100'000 /(52 * 2)〜= 1000の観測のデータセットのように動作します。これは、応答に自己相関がないサンプルの数だからです。これは、データに適合できるモデルの複雑さに大きく影響します。つまり、過剰適合問題が発生し、予想よりもはるかに悪い結果になります。 フィーチャスペース内の各アイテムの連続した週にフィーチャが互いに非常に接近しているため、私のデータセットはフィーチャスペースを予想よりもかなりカバーし、データセットの「有効」サイズが減少します。 クロスバリデーションの検証に1年分のデータのみを使用すると、クロスバリデーションの結果の分散が大きくなります。これも、検証セットのサンプルの有効数が52 * Kではなく〜Kになるためです。 これらは有効な懸念事項ですか?はいの場合、K〜= 100の場合、ランダムフォレストや勾配ブーストツリーを使用するなど、数百の機能から合理的に複雑な非線形モデルをトレーニングするには、数千年ではなくても数百のデータが必要になるということですか?それとも、私は過度に悲観的で、上記の「有効なデータセットのサイズ」に関する私の議論は無意味ですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.