経済学の研究者がバイナリ応答変数に線形回帰を使用するのはなぜですか?


13

最近、私は経済学のいくつかの論文(私はあまり詳しくない分野)を読まなければなりませんでした。私が気づいたことの1つは、応答変数がバイナリである場合でも、OLSを使用して近似された線形回帰モデルは遍在するということです。したがって、私の質問は次のとおりです。

経済学の分野で、たとえばロジスティック回帰よりも線形回帰が有利なのはなぜですか?これは単なる一般的な慣習ですか、それとも積極的に提唱されている手順ですか(論文、教師など)?

バイナリ応答で線形回帰を使用するのが悪い考えである理由や、代替方法が何であるかを尋ねているわけではないことに注意してください。それどころか、私はこれらの2つの質問に対する答えを知っているので、この設定で人々が線形回帰を使用する理由を尋ねています。


5
例を挙げていただけますか?
ステファンKolassa

7
これは正しくありません。経済学と計量経済学にも、ロジットとプロビットおよび関連モデルに関する膨大な文献があります。私も部外者であり、相対的な使用を簡単に定量化することはできませんが、文献は「どこにでもある」という意味に反論するのに十分な大きさです。ここで、いわゆる線形確率モデルが使用される理由について質問がありますが、説明を見つけるのは深くも難しくもありません。理解するのは簡単で、時には適切に機能することもあります。
ニックコックス

3
経済学は数学と非常にカジュアルな関係しかありません。私はそれについてあまり心配しません。
Sycoraxが復活モニカ言う

1
@Sycorax似たような感触があります。そして、もし人が数学をだらしなくても、彼/彼女はまだ「動く」何かを構築することができます。
ハイタオデュ

1
@Sycoraxそれは真実でも公平でもありません。確かに、「あなたはそれについてあまり心配しないだろう」と述べることは質問に対して無責任です。サブフィールドによっては、経済学は数学や統計と非常に強い関係を持つことができます。エコノミストはしばしば因果推論に関心がある一方で、たまたま観測データにも対処しなければならないことが多いというだけです(多くの社会科学がそうするように)。このため、経済的な直観をもたらさずに強力な数学的厳密性を確立することは非常に困難です。
StAtS

回答:


17

Dave Gilesの計量経済学のブログに投稿されたこのブログ投稿では、線形確率モデル(LPM)の短所の大部分を概説しています。

しかし、彼は研究者がそれを使用することを選んだ理由の短いリストを含んでいます

  • 計算が簡単です。
  • 「限界効果」を解釈する方が簡単です。
  • 「リンク機能」の指定ミスのリスクを回避します。
  • 内因性ダミー回帰変数がある場合、LogitまたはProbitに問題があります。
  • LPM、Logit、およびProbitモデルから推定される限界効果は、通常、特にサンプルサイズが大きい場合に非常に似ています。

LPMがロジットまたはプロビットと比較して一般的に使用されていることはわかりませんが、上記の理由のいくつかは賢明です。


2
+1、線形確率モデルという用語のおかげで、以前は知りませんでした。
ハイタオデュ

1
もっと興味があれば、AgristとPischkeによる「Mostly Harmless Econometrics」にこれに関する素晴らしいセクションがあります。
shf8888

2

他のファイルからの論文を読むとき、私は同様の質問をしました。そして、これに関連する多くの質問をしました。たとえば、教育データマイニングコミュニティでの 質問です。ロジスティック損失の代わりに確率で平方損失を使用するのはなぜですか?

ここで私は多くの個人的な意見を提示します。


多くの実際のユースケースでは、損失関数はあまり重要ではないと感じています。一部の研究者は、二乗損失についてより詳しく知っており、そのシステムを構築しますが、実際に機能し、現実の問題を解決します。研究者は、ロジスティック損失またはヒンジ損失を決して知らず、それを試してみたいと思うかもしれません。さらに、彼らは最適な数学モデルを見つけることに興味がないかもしれませんが、誰も以前に解決しようとしなかった本当の問題を解決したいです。

これは別の例です。私の質問に対するこの答えを確認すると、それらはすべて似たようなものです。0-1損失を近似するために分類で異なる損失関数を選択することの影響は何ですか


さらなる考え:機械学習の研究では、選択するモデルとモデルの最適化方法に多くの時間がかかる場合があります。これは、機械学習の研究者が、より多くのデータを収集したり、より多くの指標を取得したりする能力を持っていない可能性があるためです。そして、機械学習の研究者の仕事は、特定の現実世界の問題をより良く解決するのではなく、より良い数学を得ることです。

一方、現実の世界では、データが優れていれば、あらゆるものに勝ります。したがって、ニューラルネットワークまたはランダムフォレストを選択することはそれほど重要ではありません。これらのモデルはすべて、現実世界の問題を解決するためのツールとして機械学習を使用したい人に似ています。数学やツールの開発に興味のない人は、特定の分野の知識を使用してシステムを改善するためにより多くの時間を費やす可能性があります。

コメントで述べたように。そして、もし人が数学をだらしなくても、彼/彼女はまだ何か動くものを作ることができます。


1
(+1)それは多くの「引用」hxdです、彼らは何を伝えるつもりですか?「動作する」とは「動作すると思うが、動作しない」という意味ですか、それとも「動作する」という意味ですか?
マシュードゥルーリー

@MatthewDrury、コメントありがとう。私は多くの個人的な感情を持っていて、それらを書き留める方法がわからないと思います。それらの多くは形式的でも主観的でもないと思います。それが私が多くの引用を持っていた理由です。
ハイタオデュ

個人的な意見としてタグ付けする方がより明確だと思います。これは、私が生徒たちと授業で行うことです:「これは個人的な意見に接しているが、SVMは吸う」(実際の例ではない、または...)
マシュードゥルーリー

@MatthewDrury執筆についてアドバイスしてくれてありがとう、答えに引用符はありません!
ハイタオデュ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.