統計的背景のない人々に一般化線形モデルをどのように説明しますか?


16

私は、統計的背景のない聴衆に統計的手法を説明するのにいつも苦労しています。そのような聴衆にGLMが何であるかを説明したい場合(統計的な専門用語を捨てずに)、最良または最も効果的な方法は何でしょうか?

私は通常、3つの部分でGLMを説明します-(1)応答変数であるランダム成分、(2)線形予測子である系統的成分、および(3)接続の「鍵」であるリンク関数(1)および(2)。次に、線形回帰またはロジスティック回帰の例を示し、応答変数に基づいてリンク関数がどのように選択されるかを説明します。したがって、2つのコンポーネントを接続するキーとして機能します。


聴衆にはどのような背景がありますか?GLMを数学者または生物学者に説明することは非常に異なります。

1
統計的背景のない数学者はほとんどいないでしょう、@ Procrastinator。しかし、あなたのポイントは良いものです。対象となる聴衆のより明確なアイデアを持つことは、返信の一貫性と集中を保つのに役立ちます。質問を編集して、これについて詳しく教えてください、ケン?
whuber

1
@Procrastinatorのあなたの主張はわかりますが、一般的に数学や生物学のバックグラウンドがない場合(そうなのであれば)とにかく彼らの背景に関して彼らにGLMを説明する方法を知りません。
ケン

4
多くのティア1大学でも、統計学のクラスを受講することなく、生物学の学士号、修士号、または博士号を取得できることに留意することが重要だと思います。私の生化学の学位は、入学計算の2学期と微分方程式の1学期を必要としました。多くの学生がこれらのスキルを再び使用することはないため、これらのクラスの内容はすぐに忘れられます!ですから、典型的な非統計学者の説明を馬鹿にする必要があると本当に思います。
アレクサンダー

以下の回答に追加するコメント。線のフィッティング(リンク関数と線形予測子)に出会うことができれば、効率的な逆分散重み付けへの接続はそれほど難しくありません。正確な貢献を増やし、残りを減らすだけです。これにより、結果のランダム性について専門的なことを言うことを避けることができます。NB GLMは、(ちょうど)IWLSを使用してMLEを提供できるモデルとして考案されたため、上記で説明した考え方は、実際に有用である理由の大部分を捉えています。
ゲスト

回答:


25

観客が本当に統計的な背景を持っていないなら、私は説明をもっと単純化しようとするだろうと思う。まず、次のように、ボード上に線で座標平面を描画します。

y = mx + b

あなたの講演の誰もが簡単な直線y = m x + bの方程式に精通しているでしょう。それは小学校で学ばれることだからです。だから、私は図面と一緒にそれを表示します。ただし、次のように逆方向に記述します。 y=mx+b

 mx+b=y

この方程式は単純な線形回帰の例だと思います。次に、このイメージに示すようなデータポイントの散布図にこのような方程式をどのように当てはめることができるかを説明します。

散布図

ここで、私たちは研究している生物の年齢を使用してそれがどれくらい大きいかを予測し、得られた線形回帰方程式(画像に表示)を使用して生物の大きさを予測できると言います私たちはその年齢を知っている場合です。

 mx+b=y responseます。

それから、これは単純な線形回帰方程式の例であり、実際にはもっと複雑な種類があることをもう一度説明します。たとえば、ロジスティック回帰と呼ばれる多様体では、yには1または0のみを使用できます。誰かが病気にかかっているかどうかなど、「はい」または「いいえ」の答えを予測しようとしている場合、このタイプのモデルを使用することができます。別の特別な種類は、と呼ばれるものですポアソン回帰、「カウント」または「イベント」データの分析に使用されます(本当に必要な場合を除き、これ以上掘り下げることはしません)。

次に、線形回帰、ロジスティック回帰、およびポアソン回帰はすべて、より一般的な方法(「一般化線形モデル」と呼ばれる)の特別な例であると説明します。「一般化線形モデル」の素晴らしい点は、任意の値を取ることができる「応答」データを使用できることです(線形回帰における生物の大きさなど)、1または0のみを取ることができます(誰かが持っているかどうかなどロジスティック回帰の疾患)、または離散カウント(ポアソン回帰のイベント数など)を取得します。

これらのタイプの方程式では、統計学者が「リンク関数」と呼ぶものを介して、x(予測子)がy(応答)に接続されていると言えます。これらの「リンク関数」は、xが直線的にyに関連していない場合に使用します。

とにかく、それらはこの問題に関する私の2セントです!私の提案した説明は少し控えめで馬鹿げているように聞こえるかもしれませんが、この演習の目的が「要旨」を聴衆に伝えることだけであれば、おそらくこのような説明はそれほど悪くないでしょう。コンセプトを直観的に説明し、「ランダムなコンポーネント」、「システマティックなコンポーネント」、「リンク機能」、「決定論的」、「ロジット機能」などの単語を避けることは重要だと思います。典型的な生物学者や医師のように、本当に統計的な背景を持っていない人々と話をするとき、彼らの目はそれらの言葉を聞くのをただ見つめるだけです。彼らは確率分布が何であるかを知らず、リンク関数を聞いたことがなく、「ロジット」が何であるかを知らない

統計以外のユーザーへの説明では、どのようなモデルをいつ使用するかにも焦点を当てます。方程式の左側に含めることができる予測子の数について話をするかもしれません(サンプルサイズを10で割っただけのような経験則を聞いたことがあります)。また、データ付きのスプレッドシートの例を含めて、統計ソフトウェアパッケージを使用してモデルを生成する方法を視聴者に説明することもよいでしょう。次に、そのモデルの出力を段階的に確認し、すべての異なる文字と数字の意味を説明しようとします。生物学者はこのようなことについて無知であり、実際にSPSSのGUIの背後にある数学の理解を得るよりも、どのテストをいつ使用するかを学ぶことに興味があります。

特に誰かがエラーを指摘したり、それを説明するより良い方法を考えている場合、私の提案された説明に関するコメントや提案をいただければ幸いです!


4
誰もが線の方程式に精通しているわけではありません。すべての大学院生であるわけでも、博士号を持つすべての人であるわけでもありません。
ピーターフロム-モニカの復職

6
私は、ラインの方程式を知らない大学院生が世界中にいると確信していますが、一般化線形モデルを説明したい聴衆には、少なくとも高い半分の手がかりがあります学校レベルの代数!:-o
アレクサンダー

私はアレクサンダーに同意し、あなたのアプローチは私にとって非常に自然に思えます。glmの "g"にあまり(または早すぎる)焦点を当てず、ランダムと固定の区別もしません。もちろん、これをすべて説明しなければならない時間に依存します。
ドミニクコントワ

Y=αX+βα

9

応答をランダムなコンポーネントとは呼びません。これは、決定的なコンポーネントとランダムなコンポーネントの組み合わせです。

log(p/(1p))[0,1]


3
この「応答」の使用について疑問に思います。私たちは、観客はおそらく意味することを理解するであろうことを意図し、観察された応答:ロジスティック回帰、我々のモデルでは、何かyesまたはno、0または1などを観測されない(と直接観測決してを)。つまり、応答の仮想的なチャンス。「リンク」は、単に確率としてではなく対数オッズとしてそれらのチャンスを表現する問題です。ロジスティック回帰では、対数オッズがIVに比例して変化すると仮定しています。(「is」や「
predict

1
いいですね。
マイケルR.チェルニック

-2

時には予測が必要だと言って説明します。たとえば、家の価格には、それに関する情報が含まれています。たとえば、そのサイズ、場所、構造の古さなどです。価格を予測するためにこれらの要因の影響を考慮に入れたモデルにそれを織り込みたいと思います。

今、サブ例を取り上げて、家の大きさだけを考えてみましょう。それは、価格に影響するものが他にないことを意味します。同じ場所にある家、同じ時期に建設された家などを比較している場合などです。または、自分自身の問題を複雑にしたくないため、実際の生活をどのように順応させたいかもしれません。私が考えることができるまで。次に、サイズと同様のプロパティの対応する価格のリストを含むモデルを作成します(たとえば、最近発生している販売から...しかし、販売されていないために価格に影響を与える家からの深刻なバイアスがあります)がありますが、それは無視してください)。

今、100平方フィートの家の費用は100万ドルであることがわかります(これは簡単な例です)。したがって、当然、200平方フィートの家のコストは2倍になると予想されます。そして、それが「線形パターン」と呼ばれるものです。もちろん、データを収集し、サイズと価格をプロットすると、正確に2倍ではないことがわかります。しかし、間違いなく増加傾向があります。

だから、トレンドを定量化しようとします。増加した平方フィートごとにどれだけ増加しますか?それは線形回帰です。

用語マップを挿入し、統計概念を続行します。ランダムで体系的なコンポーネントを説明する1つの方法は、モデル化するのを忘れた、またはおそらく測定できなかったものはすべてランダムであることです。できることはすべて体系的です。(たとえば、2008年に家を売りたいとします。)

このモデルの根底にある仮定は、散布図が棒のように見えることです。これは、XとYの両方が「正常」であることです。そして、すべて同様の分散を持っています。

そうでない場合は、GLMと入力します。次に、すべてのリンク機能について説明します。

簡略化されていますが、導入として機能するはずです。

GLMと要因モデルの履歴を入力できます。フィッシャーは、物事が一緒に変化し始めることを要求し、このフレームワークはそのような複雑さに適していました。

お役に立てれば...


1
あなたの努力に感謝しますが、実際に書き終えるまで資料を投稿する必要はありません。現在の形では、最後にまばらな不可解な音に崩壊する方法は、読者を失望させます。
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.