統計学者は、植物を水に浸すことができないと考えていますか、それとも曲線回帰に間違った検索用語を使用しているだけですか?


18

私は、線形回帰とGLMについて読んほとんどすべてがこれに沸く:の非増加もしくは非減少関数であると、パラメータあなたです仮説を推定し、テストします。を一次関数にするために、多数のリンク関数とと変換があります。f x β xy=f(x,β)f(x,β)xY 、X 、Y 、F X β βyxyf(x,β)

ここで、非増加/非減少の要件を削除すると、パラメトリック線形モデルを近似するための2つの選択肢(trig関数と多項式)しかわかりません。どちらも、予測された各とセット全体の間に人為的な依存関係を作成し、データが実際に循環プロセスまたは多項式プロセスによって生成されると信じる事前の理由がない限り、非常に非ロバストな適合にします。y Xf(x,β)yX

これはある種の難解なエッジケースではありません。これは、実際の常識的な関係であり、水と作物の収穫量(プロットが水面下で十分に深くなると、作物の収穫量は減少し始めます)、または朝食で消費されるカロリーと数学のクイズのパフォーマンス、または工場の労働者の数との関係ですそして、それらが生成するウィジェットの数...要するに、線形モデルが使用されるほとんどすべての実際のケースですが、データが十分な範囲をカバーしており、収益が減少してから負の収益になります。

「凹」、「凸」、「曲線」、「非単調」、「バスタブ」という用語を探してみましたが、他にいくつあるか忘れています。関連する質問はほとんどなく、使用可能な回答はさらに少なくなります。したがって、実際には、次のデータがある場合(Rコード、yは連続変数xと離散変数グループの関数です):

updown<-data.frame(y=c(46.98,38.39,44.21,46.28,41.67,41.8,44.8,45.22,43.89,45.71,46.09,45.46,40.54,44.94,42.3,43.01,45.17,44.94,36.27,43.07,41.85,40.5,41.14,43.45,33.52,30.39,27.92,19.67,43.64,43.39,42.07,41.66,43.25,42.79,44.11,40.27,40.35,44.34,40.31,49.88,46.49,43.93,50.87,45.2,43.04,42.18,44.97,44.69,44.58,33.72,44.76,41.55,34.46,32.89,20.24,22,17.34,20.14,20.36,24.39,22.05,24.21,26.11,28.48,29.09,31.98,32.97,31.32,40.44,33.82,34.46,42.7,43.03,41.07,41.02,42.85,44.5,44.15,52.58,47.72,44.1,21.49,19.39,26.59,29.38,25.64,28.06,29.23,31.15,34.81,34.25,36,42.91,38.58,42.65,45.33,47.34,50.48,49.2,55.67,54.65,58.04,59.54,65.81,61.43,67.48,69.5,69.72,67.95,67.25,66.56,70.69,70.15,71.08,67.6,71.07,72.73,72.73,81.24,73.37,72.67,74.96,76.34,73.65,76.44,72.09,67.62,70.24,69.85,63.68,64.14,52.91,57.11,48.54,56.29,47.54,19.53,20.92,22.76,29.34,21.34,26.77,29.72,34.36,34.8,33.63,37.56,42.01,40.77,44.74,40.72,46.43,46.26,46.42,51.55,49.78,52.12,60.3,58.17,57,65.81,72.92,72.94,71.56,66.63,68.3,72.44,75.09,73.97,68.34,73.07,74.25,74.12,75.6,73.66,72.63,73.86,76.26,74.59,74.42,74.2,65,64.72,66.98,64.27,59.77,56.36,57.24,48.72,53.09,46.53),
                   x=c(216.37,226.13,237.03,255.17,270.86,287.45,300.52,314.44,325.61,341.12,354.88,365.68,379.77,393.5,410.02,420.88,436.31,450.84,466.95,477,491.89,509.27,521.86,531.53,548.11,563.43,575.43,590.34,213.33,228.99,240.07,250.4,269.75,283.33,294.67,310.44,325.36,340.48,355.66,370.43,377.58,394.32,413.22,428.23,436.41,455.58,465.63,475.51,493.44,505.4,521.42,536.82,550.57,563.17,575.2,592.27,86.15,91.09,97.83,103.39,107.37,114.78,119.9,124.39,131.63,134.49,142.83,147.26,152.2,160.9,163.75,172.29,173.62,179.3,184.82,191.46,197.53,201.89,204.71,214.12,215.06,88.34,109.18,122.12,133.19,148.02,158.72,172.93,189.23,204.04,219.36,229.58,247.49,258.23,273.3,292.69,300.47,314.36,325.65,345.21,356.19,367.29,389.87,397.74,411.46,423.04,444.23,452.41,465.43,484.51,497.33,507.98,522.96,537.37,553.79,566.08,581.91,595.84,610.7,624.04,637.53,649.98,663.43,681.67,698.1,709.79,718.33,734.81,751.93,761.37,775.12,790.15,803.39,818.64,833.71,847.81,88.09,105.72,123.35,132.19,151.87,161.5,177.34,186.92,201.35,216.09,230.12,245.47,255.85,273.45,285.91,303.99,315.98,325.48,343.01,360.05,373.17,381.7,398.41,412.66,423.66,443.67,450.39,468.86,483.93,499.91,511.59,529.34,541.35,550.28,568.31,584.7,592.33,615.74,622.45,639.1,651.41,668.08,679.75,692.94,708.83,720.98,734.42,747.83,762.27,778.74,790.97,806.99,820.03,831.55,844.23),
                   group=factor(rep(c('A','B'),c(81,110))));

plot(y~x,updown,subset=x<500,col=group);

散布図

最初にBox-Cox変換を試して、それが機械的な意味をなすかどうかを確認し、それができない場合は、非線形最小二乗モデルをロジスティックまたは漸近リンク関数に適合させることができます。

したがって、完全なデータセットが次のようになっていることがわかったときに、パラメトリックモデルを完全に放棄し、スプラインなどのブラックボックスメソッドにフォールバックする必要があるのはなぜですか?

plot(y~x,updown,col=group);

私の質問は:

  • このクラスの機能的関係を表すリンク関数を見つけるには、どの用語を検索する必要がありますか?

または

  • このクラスの機能的関係へのリンク機能を設計する方法、または現在単調な応答のみを目的とする既存の関係を拡張する方法を習得するには、何を読んで検索する必要がありますか?

または

  • 一体、このタイプの質問に最も適切なStackExchangeタグですら!

4
あなたが何を求めているのか分かりません。非単調関数に適合させたい...多項式回帰または正弦回帰の問題は何ですか?また...「リンク機能」...あなたはその言葉を使い続けます...私はそれがあなたがそれが意味すると思うものを意味するとは思わない。x
ジェイクウェストフォール

5
(1)Rコードに構文エラーがあります:group引用符で囲まないでください。(2)プロットは美しい:赤い点は線形関係を示し、黒い点は区分的線形回帰(変化点モデルで得られる)や場合によっては指数関数など、いくつかの方法で適合することができます。私はないモデリング選択肢がデータを生成し、関連する分野の理論によって動機ものの理解によって知らされるべきであるので、しかし、これらを推奨します。彼らはあなたの研究のより良いスタートかもしれません。
whuber

1
@whuberありがとう!コードを修正しました。理論的な動機について:そもそもこれらはどこから来たのか?私のベンチ科学者の共同研究者は、予測変数を二分し、t検定を行います。だから、「yはxと正に相関する」から「yはxにほとんど応答しない」から「yはxと負に相関する」への移行を捉える数学的な関係を見つけることにより、データの無駄を止める方法を見つけるのは私に該当します。それに失敗すると、ミカエリスとメンテンが酵素、基質、産物の関係を見つけたときに何をしたかを繰り返します。
f1r3br4nd

1
それらが「よじれている」点は事前にわかっていますか?
Glen_b -Reinstateモニカ

3
挑発的なタイトルと実際に意味のあるフォローアップのために+1
スタンピージョーピート

回答:


45

リンク関数と単調性に関する質問の発言は、赤いニシンです。 それらの基礎となることは、応答の予想発現させることにより一般化線形モデル(GLM)、という暗黙の前提であると思われる単調関数としてF線形結合のXのβ説明変数のXは、アカウントに柔軟十分に非ためではありません単調な応答。そうではありません。YfXβX


おそらく、実際の例がこの点を明らかにするでしょう。J. Tolkienは、1948年の研究(1977年に死後に出版され、査読は行われませんでした)で、発芽から3か月まで制御された量の24のヒマワリ(Helianthus Gondorensis)の13グループに植物の散水実験の結果を報告しました成長の。適用された合計量は、2インチ単位で1インチから25インチまで変化しました。

図1

水やりに対する明確な肯定的な反応と、水やりに対する強い否定的な反応があります。イオン輸送の仮説的な速度論モデルに基づいた以前の研究では、2つの競合するメカニズムがこの挙動を説明するかもしれないと仮定していました: -抑制因子- 指数関数的に作用します(これは強く非線形な効果です)。大量の水では、阻害因子は水のプラスの効果を圧倒し、かなりの死亡率を増加させます。

κYnx

Binomial(n,f(β0+β1xβ2exp(κx)))
fxκβ0β1β2f1(E[Y])x1β0xβ1exp(κx)β2

κκR

water <- seq(1, 25, length.out=13)
n.survived <- c(0, 3, 4, 12, 18, 21, 23, 24, 22, 23, 18, 3, 2)
pop <- 24
counts <- cbind(n.survived, n.died=pop-n.survived)
f <- function(k) {
  fit <- glm(counts ~ water + I(-exp(water * k)), family=binomial)
  list(AIC=AIC(fit), fit=fit)
}
k.est <- optim(0.1, function(k) f(k)$AIC, method="Brent", lower=0, upper=1)$par
fit <- f(k.est)$fit

技術的な問題はありません。計算には1/30秒しかかかりません。

図2

E[Y]

E[Y]xR

x.0 <- seq(min(water), max(water), length.out=100)
p.0 <- cbind(rep(1, length(x.0)), x.0, -exp(k.est * x.0))
logistic <- function(x) 1 - 1/(1 + exp(x))
predicted <- pop * logistic(p.0 %*% coef(fit))

plot(water, n.survived / pop, main="Data and Fit",
     xlab="Total water (inches)", 
     ylab="Proportion surviving at 3 months")
lines(x.0, predicted / pop, col="#a0a0ff", lwd=2)

質問に対する答えは次のとおりです。

このクラスの機能的関係を表すリンク関数を見つけるには、どの用語を検索する必要がありますか?

なし:リンク機能の目的ではありません。

...単調な応答専用の既存の[リンク関数]を拡張するために、何を検索する必要がありますか?

なし:これは、応答がどのようにモデル化されるかについての誤解に基づいています。

明らかに、回帰モデルを構築するときに、どの説明変数を使用または構築するかにまず焦点を当てる必要があります。この例で提案されているように、過去の経験と理論からのガイダンスを探します。


素晴らしい答え!この実際のデータは小説のトールキンですか?
Cam.Davidson.Pilon

1
@Camデータは最終カットに含まれませんでした:-)。(コンテキストはむしろ
冗談

1
κ

5
κκχ2(1)

1
@zipzapboingここに挙げた例は特別なものです。というのは、それが基礎理論によって知らされたからです。そのような情報が利用可能な場合、モデルを選択するための強力なガイドになる可能性があります。ただし、多くの場合、そのような情報はありません。または、予想される応答がリグレッサによって単調に変化することを期待するだけです。おそらく、最も基本的な理由は、応答がリグレッサによって異なるように変化し、データ内のリグレッサの範囲では微分の変化が小さいという希望です。線形応答はそれを近似します。
whuber

9

彼の机の上の死にかけている植物を罪悪感を持って見ます。

コメントの中で、@ whuberは、「モデリングの選択は、データを生成したものを理解し、関連する分野の理論によって動機付けられるべきである」と述べています。

ミカエリスとメンテンの動力学は、実際に非常に有用な例です。これらの方程式は、いくつかの仮定(たとえば、基質がその複合体と平衡状態にあり、酵素が消費されていない)およびいくつかの既知の原理(質量作用の法則)から始めることによって導き出すことができます。マレーの数学的生物学:はじめに、第6章の派生物を見ていきます(他の多くの本もそうだと思います!)。

より一般的には、モデルと仮定の「レパートリー」を構築するのに役立ちます。あなたの分野には、一般に受け入れられている、実績のあるモデルがあると確信しています。たとえば、何かが充電または放電している場合、その電圧を時間の関数としてモデル化する指数関数に到達します。逆に、電圧と時間のプロットに指数関数的な形状が見られる場合、最初の推測は、回路内の何かが容量的に放電していることであり、それが何であるかわからない場合は、それを見つけようとします。理論は、モデルの構築と新しい実験の提案の両方に役立つことが理想的です。

y=k(x+h)2CO2 蒸散が少ないことからキャプチャしますか?)および洪水(根を食べる細菌?)は、各ピースに特定の形式を示唆している可能性があります。


8

私は、彼の科学的人生の半分をベンチで、残りの半分をコンピューターで過ごし、統計で遊んでいる人の観点からは、かなり非公式の反応があります。コメントに入れようとしましたが、長すぎました。

ご覧のとおり、もし私があなたが得ている結果のタイプを観察する科学者であれば、私は興奮します。さまざまな単調な関係は退屈で、ほとんど区別できません。ただし、表示される関係のタイプは、非常に特殊な効果を示唆しています。それは、関係が何であるか、極端にどのように変化するかについて仮説を立てる理論家にとって素晴らしい遊び場を提供します。ベンチサイエンティストが何が起こっているのかを把握し、その条件で広く実験するための素晴らしい遊び場を提供します。

ある意味では、単純な関係を持ち、モデル化は簡単ですが、機構的に調査するのは難しいのではなく、単純なモデルを当てはめる方法を知らない(ただし、新しい仮説を立てることができる)場合があります。しかし、私は実際にそのような事例に出くわしていません。

最後に、もう1つの考慮事項があります。黒が(データの)赤とは異なることを示すテストを探している場合、元ベンチサイエンティストとして、なぜ気にするのでしょうか?図から十分に明らかです。


5

そのようなデータの場合、少なくとも線形スプラインを検討することになるでしょう。

これらはlmまたはglmで簡単に実行できます。

このようなアプローチをとる場合、問題はノットの数とノットの位置を選択することです。1つの解決策は、かなりの数の可能な場所を検討し、なげなわまたは他の正則化と選択の方法を使用して小さなセットを識別することです。ただし、このような選択の影響を推論で考慮する必要があります。


しかし、スプライン回帰は基本的に「応答の形状を説明する未知の関数があり、他の変数がこの曲線を上下にシフトまたは傾斜させる方法についての仮説のみをテストします」と言っているのではありませんか?治療が形状自体を変えるとしたらどうでしょう?重要な場合、そのような相互作用用語をどのように解釈しますか?
f1r3br4nd

2
代替案はどれくらい一般的ですか?一般的な場合でも、同一のノンパラメトリック関数を別々の関数と仮定して近似を比較で​​きるさまざまなアプローチがあります。加算モデルと一般化された加算モデルは、このような比較に対処できます。
Glen_b -Reinstateモニカ

あなたが議論するよりも一般的なケースの例として(他のさまざまなアプローチを議論する参考文献と共に)、あなたがそれをつかむことができるなら、この論文を見てくださいJ.Roca-Pardiñaset al(2006) "Bootstrap-based一般化された加法モデルにおける因子ごとの相互作用のテスト方法:意思決定に関連する前頭前野の神経活動の評価」、Statistics in Medicine、7月30日; 25(14):2483-501。その論文では、彼らはブートストラップ(および計算の負担を減らすためにビニング)を使用していますが、そこで言及されている他のアプローチがあります。
Glen_b -Reinstateモニカ

より基本的で古い参照は、Hastie and Tibshirani(1990)、Generalized Additive Models(eg p265を参照)のようなものです。また、ここで、特にスライド34の最後の式を見てください。その周辺でgamは、Rパッケージでこのようなモデルを適合させる方法も説明していますmgcv
Glen_b -Reinstateモニカ

2

あなたの記事全体を読む時間はありませんでしたが、あなたの主な関心事は、治療の機能的形態が変化するかもしれないということです。これに対処するための手法はありますが、データ集約型です。
あなたの特定の例に:

Gは成長Wは水Tは処理

library(mgcv)
mod = gam(G~T+s(W,by=T))
plot(mod,pages=1,all=TRUE)
?gam

過去10年間にセミパラメトリック回帰に関する膨大な研究が行われ、機能的なフォームに関するこれらの牛肉はますます管理しやすくなっています。しかし、結局のところ、統計は数字で遊んでおり、観測されている現象についての直感を構築する限り、有用です。これには、数字の再生方法を理解する必要があります。投稿のトーンは、お風呂で赤ちゃんを捨てる意欲を示しています。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.