統計とビッグデータ nonlinear-regression

4

多くの人々が「あなたのためにグーグルにさせてください」へのリンクで応答すると確信しているので、私はこれを理解しようとしたと言いたいので、ここでの私の理解不足を許してください、しかし、私はどのようにニューラルネットワークの実際の実装は実際に機能します。入力レイヤーとデータの正規化方法、バイアスユニットも理解していますが、非表示レイヤーについては、実際の計算はそのレイヤーで行われ、出力にどのようにマッピングされるかは少しぼやけています。非表示レイヤーに疑問符、AND / OR / XORなどのブール関数、アクティベーション関数、すべての非表示ユニットにマップする入力ノード、および各非表示ユニットのみにマップする入力ノードを含む図を見てきました私は実際的な面でいくつか質問があります。もちろん、子供に説明するようなニューラルネットワークプロセス全体の簡単な説明は素晴らしいでしょう。隠れ層でどのような計算が行われますか？これらの計算は出力レイヤーにどのようにマッピングされますか？出力層はどのように機能しますか？非表示層からのデータの非正規化？入力層の一部の層が非表示層に接続されていて、一部が接続されていない理由

187 machine-learning neural-networks nonlinear-regression

3

多項式回帰が多重線形回帰の特殊なケースと見なされるのはなぜですか？

多項式回帰が非線形関係をモデル化する場合、多重線形回帰の特殊なケースとはどのように考えられますか？ウィキペディアは、「多項式回帰は非線形モデルをデータに適合させますが、統計的推定問題として線形ですが、推定される未知のパラメーターでは回帰関数は線形です。データから。」E(y|x)E(y|x)\mathbb{E}(y | x) パラメーターが次数 2の項の係数である場合、未知のパラメーターで多項式回帰はどのように線形になりますか？≥≥\ge

38 regression multiple-regression linear-model nonlinear-regression polynomial

5

非線形関連付けをテストするにはどうすればよいですか？

プロット1では、単純な相関を行うことにより、xとyの間の関連付けをテストできます。関係が非線形であり、xとyの間に明確な関係があるプロット2では、関連付けをテストしてその性質にラベルを付けるにはどうすればよいですか？

37 nonlinear-regression non-independent association-measure

1

lmerモデルからの効果の再現性の計算

混合効果モデリングによる測定の再現性（別名信頼性、別名クラス内相関）の計算方法を説明するこの論文に出会ったばかりです。Rコードは次のようになります。 #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …

28 mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

3

線形回帰モデルと非線形回帰モデルの違いを見分ける方法は？

私は、非線形回帰SAS Non Linearに関する次のリンクを読んでいました。最初のセクション「非線形回帰と線形回帰」を読んで理解したことは、以下の式は実際には線形回帰であるということでした。それは正しいですか？もしそうなら、なぜですか？ y= b1バツ3+ b2バツ2+ b3x + cy=b1x3+b2x2+b3x+cy = b_1x^3 + b_2x^2 + b_3x + c 非線形回帰では多重共線性は問題ではないことも理解できますか？私は、多重共線性が線形回帰の問題になる可能性があることを知っていますので、確かに上記のモデルが実際に線形回帰であれば、多重共線性があるでしょうか？

27 regression multiple-regression nonlinear-regression multicollinearity

5

Rの散布図に非線形トレンドラインを追加するにはどうすればよいですか？[閉まっている]

散布図があります。非線形トレンドラインを追加するにはどうすればよいですか？

27 r data-visualization nonlinear-regression trend

2

形式

Webディスカッションフォーラムの統計データセットがあります。私は、トピックが持つことが期待される返信の数の分布を見ています。特に、トピックの返信数のリストを含むデータセットを作成し、その数の返信を含むトピックの数を作成しました。 "num_replies","count" 0,627568 1,156371 2,151670 3,79094 4,59473 5,39895 6,30947 7,23329 8,18726 データセットを対数プロットでプロットすると、基本的に直線が得られます：（これはZipfianディストリビューションです）。ウィキペディアによると、対数プロットの直線は形式の単項式でモデル化できる関数を意味します。そして実際、私はそのような機能を目撃しました：y= a xky=aバツky = ax^k lines(data$num_replies, 480000 * data$num_replies ^ -1.62, col="green") 私の眼球は明らかにRほど正確ではありません。それでは、どうやってRをこのモデルのパラメーターにもっと正確に合わせることができますか？多項式回帰を試みましたが、Rが指数をパラメーターとして適合させようとは思わない-私が望むモデルの適切な名前は何ですか？編集：みんなの回答をありがとう。示唆されたように、このレシピを使用して、入力データのログに対して線形モデルを適合させました。 data <- read.csv(file="result.txt") # Avoid taking the log of zero: data$num_replies = data$num_replies + 1 plot(data$num_replies, data$count, log="xy", cex=0.8) # Fit just the first …

22 r regression nonlinear-regression

1

ブートストラップ配布の標準エラーの使用

（私の主な質問は言語に依存しないため、必要に応じてRコードを無視します）単純な統計（例：平均）の変動性を調べたい場合、次のような理論を介してそれを行うことができます。 x = rnorm(50) # Estimate standard error from theory summary(lm(x~1)) # same as... sd(x) / sqrt(length(x)) または次のようなブートストラップで： library(boot) # Estimate standard error from bootstrap (x.bs = boot(x, function(x, inds) mean(x[inds]), 1000)) # which is simply the standard *deviation* of the bootstrap distribution... sd(x.bs$t) しかし、私が疑問に思っているのは、特定の状況でブートストラップディストリビューションの標準エラーを調べることは有用/有効ですか？私が扱っている状況は、次のような比較的ノイズの多い非線形関数です。 # Simulate dataset set.seed(12345) …

19 r bootstrap nonlinear-regression

2

正しい開始値を持つnlsの特異勾配誤差

私は線+指数曲線をいくつかのデータに当てはめようとしています。最初に、人工データでこれを実行しようとしました。関数である：それが効果的に直線部を有する指数曲線、ならびに追加の水平シフトパラメータである（M）。ただし、Rの関数を使用すると、最初にデータを生成するために使用したのと同じパラメーターを使用しても、「初期パラメーター推定値での特異な勾配行列」エラーが発生します。y= A + B ⋅ R（x − m ）+ C ⋅ Xy=a+b⋅r（バツ−m）+c⋅バツy=a+b\cdot r^{(x-m)}+c\cdot xnls() さまざまなアルゴリズム、さまざまな開始値を試しoptim、残差平方和を最小化するために使用しようとしましたが、すべて役に立ちませんでした。私は、このために考えられる理由は、式のオーバーパラメータ化することができることを読んだが、私は（それがある？）それはないと思う誰もがこの問題のための提案を持っていますか？または、これは単なる厄介なモデルですか？短い例： #parameters used to generate the data reala=-3 realb=5 realc=0.5 realr=0.7 realm=1 x=1:11 #x values - I have 11 timepoint data #linear+exponential function y=reala + realb*realr^(x-realm) + realc*x #add a bit of noise …

19 r nonlinear-regression nls

2

Rのロジスティック成長曲線を近似する最も簡単な方法は何ですか？

これは、明確にするために、カテゴリ変数を予測するために回帰を使用するという意味でロジスティック回帰について話していないので、Googleにとって他のことほど簡単ではありません。ロジスティック成長曲線を特定のデータポイントに適合させることについて話しています。具体的には、は1958年から2012年までの特定の年であり、は年の11月の推定CO2 ppm（二酸化炭素の百万分の1）です。y xバツxxyyyバツバツx 今は加速していますが、ある時点で横ばいになります。ロジスティックカーブが必要です。これを行う比較的簡単な方法はまだ見つかりませんでした。

19 r nonlinear-regression curve-fitting logistic-curve

3

ニューラルネットワークを非線形分類モデルにするものは何ですか？

私は非線形分類モデルの数学的な意味を理解しようとしています：ニューラルネットが非線形分類モデルであるという記事を読んだばかりです。しかし、私はちょうどそれを理解しています：最初の層： h1=x1∗wx1h1+x2∗wx1h2h1=x1∗wx1h1+x2∗wx1h2h_1=x_1∗w_{x1h1}+x_2∗w_{x1h2} h2=x1∗wx2h1+x2∗wx2h2h2=x1∗wx2h1+x2∗wx2h2h_2=x_1∗w_{x2h1}+x_2∗w_{x2h2} 次の層 y=b∗wby+h1∗wh1y+h2∗wh2yy=b∗wby+h1∗wh1y+h2∗wh2yy=b∗w_{by}+h_1∗w_{h1y}+h_2∗w_{h2y} に簡略化できます =b'+(x1∗wx1h1+x2∗wx1h2)∗wh1y+(x1∗wx2h1+x2∗wx2h2)∗wh2y=b′+(x1∗wx1h1+x2∗wx1h2)∗wh1y+(x1∗wx2h1+x2∗wx2h2)∗wh2y=b′+(x_1∗w_{x1h1}+x_2∗w_{x1h2})∗w_{h1y}+(x_1∗w_{x2h1}+x_2∗w_{x2h2})∗w_{h2y} = b ' + x1（wh 1 y* wx 1 時間1+ wx 2 時間1* wh 2 y）+ x2（wh 1 y* wx 1 時間1+ wx 2 時間2* wh 2 y）=b′+x1(wh1y∗wx1h1+wx2h1∗wh2y)+x2(wh1y∗wx1h1+wx2h2∗wh2y)=b′+x_1(w_{h1y}∗w_{x1h1}+w_{x2h1}∗w_{h2y})+x_2(w_{h1y}∗w_{x1h1}+w_{x2h2}∗w_{h2y}) 2層ニューラルネットワークは単純な線形回帰です = b′+ x1* W′1+ x2* W′2=b′+x1∗W1′+x2∗W2′=b^′+x_1∗W_1^′+x_2∗W_2^′ これは、任意の数の重みの線形結合が再び線形であるため、任意の数のレイヤーに表示できます。ニューラルネットを実際に非線形分類モデルにするものは何ですか？アクティベーション関数は、モデルの非線形性にどのように影響しますか？説明して頂けますか？

18 neural-networks nonlinear-regression nonlinear

5

統計学者は、植物を水に浸すことができないと考えていますか、それとも曲線回帰に間違った検索用語を使用しているだけですか？

私は、線形回帰とGLMについて読んほとんどすべてがこれに沸く：の非増加もしくは非減少関数であると、パラメータあなたです仮説を推定し、テストします。を一次関数にするために、多数のリンク関数とと変換があります。f （x 、β ）xy= f（x 、β）y=f(x,β)y = f(x,\beta)f（x 、β）f(x,β)f(x,\beta)バツxxY 、X 、Y 、F （X 、β ）ββ\betayyyバツxxyyyf（x 、β）f(x,β)f(x,\beta) ここで、非増加/非減少の要件を削除すると、パラメトリック線形モデルを近似するための2つの選択肢（trig関数と多項式）しかわかりません。どちらも、予測された各とセット全体の間に人為的な依存関係を作成し、データが実際に循環プロセスまたは多項式プロセスによって生成されると信じる事前の理由がない限り、非常に非ロバストな適合にします。y Xf（x 、β）f(x,β)f(x,\beta)yyyバツXX これはある種の難解なエッジケースではありません。これは、実際の常識的な関係であり、水と作物の収穫量（プロットが水面下で十分に深くなると、作物の収穫量は減少し始めます）、または朝食で消費されるカロリーと数学のクイズのパフォーマンス、または工場の労働者の数との関係ですそして、それらが生成するウィジェットの数...要するに、線形モデルが使用されるほとんどすべての実際のケースですが、データが十分な範囲をカバーしており、収益が減少してから負の収益になります。「凹」、「凸」、「曲線」、「非単調」、「バスタブ」という用語を探してみましたが、他にいくつあるか忘れています。関連する質問はほとんどなく、使用可能な回答はさらに少なくなります。したがって、実際には、次のデータがある場合（Rコード、yは連続変数xと離散変数グループの関数です）： updown<-data.frame(y=c(46.98,38.39,44.21,46.28,41.67,41.8,44.8,45.22,43.89,45.71,46.09,45.46,40.54,44.94,42.3,43.01,45.17,44.94,36.27,43.07,41.85,40.5,41.14,43.45,33.52,30.39,27.92,19.67,43.64,43.39,42.07,41.66,43.25,42.79,44.11,40.27,40.35,44.34,40.31,49.88,46.49,43.93,50.87,45.2,43.04,42.18,44.97,44.69,44.58,33.72,44.76,41.55,34.46,32.89,20.24,22,17.34,20.14,20.36,24.39,22.05,24.21,26.11,28.48,29.09,31.98,32.97,31.32,40.44,33.82,34.46,42.7,43.03,41.07,41.02,42.85,44.5,44.15,52.58,47.72,44.1,21.49,19.39,26.59,29.38,25.64,28.06,29.23,31.15,34.81,34.25,36,42.91,38.58,42.65,45.33,47.34,50.48,49.2,55.67,54.65,58.04,59.54,65.81,61.43,67.48,69.5,69.72,67.95,67.25,66.56,70.69,70.15,71.08,67.6,71.07,72.73,72.73,81.24,73.37,72.67,74.96,76.34,73.65,76.44,72.09,67.62,70.24,69.85,63.68,64.14,52.91,57.11,48.54,56.29,47.54,19.53,20.92,22.76,29.34,21.34,26.77,29.72,34.36,34.8,33.63,37.56,42.01,40.77,44.74,40.72,46.43,46.26,46.42,51.55,49.78,52.12,60.3,58.17,57,65.81,72.92,72.94,71.56,66.63,68.3,72.44,75.09,73.97,68.34,73.07,74.25,74.12,75.6,73.66,72.63,73.86,76.26,74.59,74.42,74.2,65,64.72,66.98,64.27,59.77,56.36,57.24,48.72,53.09,46.53), x=c(216.37,226.13,237.03,255.17,270.86,287.45,300.52,314.44,325.61,341.12,354.88,365.68,379.77,393.5,410.02,420.88,436.31,450.84,466.95,477,491.89,509.27,521.86,531.53,548.11,563.43,575.43,590.34,213.33,228.99,240.07,250.4,269.75,283.33,294.67,310.44,325.36,340.48,355.66,370.43,377.58,394.32,413.22,428.23,436.41,455.58,465.63,475.51,493.44,505.4,521.42,536.82,550.57,563.17,575.2,592.27,86.15,91.09,97.83,103.39,107.37,114.78,119.9,124.39,131.63,134.49,142.83,147.26,152.2,160.9,163.75,172.29,173.62,179.3,184.82,191.46,197.53,201.89,204.71,214.12,215.06,88.34,109.18,122.12,133.19,148.02,158.72,172.93,189.23,204.04,219.36,229.58,247.49,258.23,273.3,292.69,300.47,314.36,325.65,345.21,356.19,367.29,389.87,397.74,411.46,423.04,444.23,452.41,465.43,484.51,497.33,507.98,522.96,537.37,553.79,566.08,581.91,595.84,610.7,624.04,637.53,649.98,663.43,681.67,698.1,709.79,718.33,734.81,751.93,761.37,775.12,790.15,803.39,818.64,833.71,847.81,88.09,105.72,123.35,132.19,151.87,161.5,177.34,186.92,201.35,216.09,230.12,245.47,255.85,273.45,285.91,303.99,315.98,325.48,343.01,360.05,373.17,381.7,398.41,412.66,423.66,443.67,450.39,468.86,483.93,499.91,511.59,529.34,541.35,550.28,568.31,584.7,592.33,615.74,622.45,639.1,651.41,668.08,679.75,692.94,708.83,720.98,734.42,747.83,762.27,778.74,790.97,806.99,820.03,831.55,844.23), group=factor(rep(c('A','B'),c(81,110)))); plot(y~x,updown,subset=x<500,col=group); 最初にBox-Cox変換を試して、それが機械的な意味をなすかどうかを確認し、それができない場合は、非線形最小二乗モデルをロジスティックまたは漸近リンク関数に適合させることができます。したがって、完全なデータセットが次のようになっていることがわかったときに、パラメトリックモデルを完全に放棄し、スプラインなどのブラックボックスメソッドにフォールバックする必要があるのはなぜですか？ plot(y~x,updown,col=group); 私の質問は：このクラスの機能的関係を表すリンク関数を見つけるには、どの用語を検索する必要がありますか？またはこのクラスの機能的関係へのリンク機能を設計する方法、または現在単調な応答のみを目的とする既存の関係を拡張する方法を習得するには、何を読んで検索する必要がありますか？または一体、このタイプの質問に最も適切なStackExchangeタグですら！

18 generalized-linear-model nonlinear-regression link-function

2

非線形回帰に関する文献レビュー

誰も非線形回帰に関する統計文献の良いレビュー記事を知っていますか？私は主に一貫性の結果と漸近に興味があります。特に興味深いのはモデルです y私トン= m （x私トン、θ ）+ ϵ私トン、y私t=m（バツ私t、θ）+ϵ私t、y_{it} = m(x_{it},\theta) + \epsilon_{it}, パネルデータ用。ノンパラメトリック法はあまり興味がありません。雑誌が調べるべき提案も大歓迎です。現在、私は計量経済学ハンドブックで雨宮（1983）を読んでいますが、おそらくもっと最新のものを手に入れたいと思っていました。 Journal of Econometricsの Wooldridge、JM（1996）「異なる方程式に対する異なる手段による方程式系の推定」は、上記のレビューよりも後の貢献の例であるため、含まれていません。

17 regression references nonlinear-regression

1

非線形回帰の予測バンドを計算する方法は？

Prism のヘルプページには、非線形回帰の予測バンドの計算方法に関する以下の説明があります。長い引用を許してください。しかし、私は2番目の段落（G|xG|xG|xがどのように定義され、dY/dPdY/dPdY/dPが計算されるかを説明しています）には従いません。どんな助けも大歓迎です。信頼帯と予測帯の計算はかなり標準的です。Prismが非線形回帰の予測帯域と信頼帯域を計算する方法の詳細については、こちらをお読みください。まず、G | xを定義します。これは、Xの特定の値でのパラメーターの勾配であり、パラメーターのすべての最適値を使用します。結果は、パラメーターごとに1つの要素を持つベクトルです。各パラメーターについて、dY / dPとして定義されます。Yは、Xの特定の値とすべての最適なパラメーター値が与えられた曲線のY値であり、Pはパラメーターの1つです。 G '| xは転置された勾配ベクトルであるため、値の行ではなく列です。 Covは共分散行列です（最後の反復からの逆ヘッセ行列）。これは、行と列の数がパラメーターの数と等しい正方行列です。行列の各項目は、2つのパラメーター間の共分散です。 c = G '| x * Cov * G | xを計算します。結果は、Xの任意の値に対して単一の数値です。信頼帯域と予測帯域は、最適曲線に中心が置かれ、曲線の上下に等しい量だけ広がります。信頼帯は、曲線の上下に次のように拡張されます。= sqrt（c）* sqrt（SS / DF）* CriticalT（Confidence％、DF）予測バンドは、曲線の上下にさらに距離を延長します。= sqrt（c + 1）* sqrt（SS / DF）* CriticalT（Confidence％、DF）

15 nonlinear-regression prediction-interval

1

偶発的なパラメーターの問題

私は、付随的なパラメーターの問題の真の本質をつかむのに常に苦労しています。「よく知られている」偶発的なパラメータの問題のために、非線形パネルデータモデルの固定効果推定量が大きく偏ることがあることを何度か読みました。この問題の明確な説明を求めるときの典型的な答えは次のとおりです。パネルデータにはT時間にわたってN人の個人がいると仮定します。Tが固定されている場合、Nが大きくなると共変量の推定値にバイアスがかかります。これは、Nが増加するにつれて迷惑パラメーターの数が急速に増加するために発生します。ありがたいですより正確だがシンプルな説明（可能であれば）および/またはRまたはStataで解決できる具体的な例。

15 nonlinear-regression fixed-effects-model bias

タグ付けされた質問 「nonlinear-regression」

タグ付けされた質問「nonlinear-regression」