統計モデルの構築とは正確には何ですか?


15

統計モデルの構築とは正確には何ですか?

最近、研究やコンサルティングの仕事に応募しているときに、「モデルの構築」や「モデリング」という用語がよく出てきます。用語はクールに聞こえますが、彼らは正確に何を指しているのですか?どうやってモデルを構築しますか?

k-nnとロジスティック回帰を含む予測モデリングを調べました。


1
回帰の様々な種類、マルチレベルモデル、木とその変種、クラスタリング....など-それはそれは巨大なモデルの様々なを参照してください可能性があり、かなり幅広いだ
ピーターFlom -復活モニカ

統計モデルは、統計モデルにエラーを説明する変数があることを除いて、数学モデルと同じです。数学モデル:重量=高さ* 2.7。統計モデル:重量=高さ* 2.7 +エラー。
ニールマクギガン

2
この論文を引用したい:統計モデリング:2つの文化
-user13985

回答:


12

私は統計学者ではありませんが、統計学と非統計学の多くの「モデリング」を行うことになりますが、私はこれに亀裂を取ります。

最初に基本から始めましょう:

モデルとは正確には何ですか?

モデルは、高度に単純化されていますが、現実の表現です。家のためのワックス/木材の「モデル」を考えてください。あなたはそれに触れる/感じる/匂うことができます。現在、数学モデルは数値を使用した現実の表現です。

この「現実」とは何ですか?はい。この単純な状況を考えてみてください。州の知事は、たばこのパッケージの価格が来年に100ドルになるとの方針を実施しています。「目的」は、人々がタバコを購入するのを思いとどまらせ、それによって喫煙を減らし、それによって喫煙者をより健康にすることです(彼らはやめたからです)。

1年後、知事はあなたに尋ねます-これは成功でしたか?どうやってそれを言えますか?1日あたりまたは1年あたりの販売パケット数、調査回答、問題に関連する手に入れることができる測定可能なデータなどのデータを取得します。問題を「モデル化」し始めたばかりです。次に、この「モデル」が何を言っているかを分析します。そこで統計モデリングが役立ちます。単純な相関/散布図を実行して、モデルがどのように見えるかを確認できます。因果関係を判断したい場合があります。つまり、価格の上昇が喫煙の減少につながる場合、または他の交絡要因があった場合(つまり、それが他の何かであり、モデルがおそらくそれを逃した場合)。

現在、このモデルの構築は「ルールのセット」(ガイドラインに似ています)、つまり、何が合法であるか/合法でないか、何が理にかなっていないかによって行われます。何をしているか、このモデルの結果をどのように解釈するかを知っておく必要があります。このモデルの構築/実行/解釈には、統計の基本的な知識が必要です。上記の例では、相関/散布図、回帰(単変量および多変量)などについて知っておく必要があります。統計を直感的に理解するための絶対的な楽しみ/有益な読書を読むことをお勧めします:とにかくp値とはのユーモラスなイントロであり、単純なものから高度なもの(つまり線形回帰)に至るまでの「モデリング」をお教えします。その後、他のものを読むことができます。

したがって、モデルは現実の表現であり、「すべてのモデルは間違っているが、一部のモデルは他のモデルよりも有用である」ことを忘れないでください。モデルは現実の簡略化された表現であり、すべてを考慮することはできませんが、意味のある結果を得ることができる良いモデルを得るために、何を考慮し、何を考慮しないかを知る必要があります。

ここで終わりではありません。現実をシミュレートするモデルを作成することもできます!これが、時間の経過とともに多くの数字が変化する方法です(たとえば)。これらの数値は、ドメイン内の意味のある解釈にマッピングされます。また、これらのモデルを作成してデータをマイニングし、さまざまなメジャーが互いにどのように関連しているかを確認することもできます(ここでの統計の適用には疑問があるかもしれませんが、今は心配しないでください)。例:1か月あたりの店舗の食料品の売り上げを見て、ビールを買うたびにおむつが詰まっていることに気付きます(データセットを実行してこの関連付けを示すモデルを作成します)。奇妙かもしれませんが、ほとんどの父親が週末に子供が座っているときにこれを購入することを意味するのでしょうか?おむつをビールの近くに置くと、売り上げを増やすことができます!あぁ!モデリング:)

これらは単なる例であり、決して専門的な仕事の参考になるものではありません。基本的には、モデルが構築され、現実がどのように機能し、どのように機能したかを理解/推定し、出力に基づいてより良い決定を下します。統計の有無にかかわらず、あなたはおそらく気づかないうちにあなたの人生をすべてモデリングしているでしょう。幸運を祈る:)


11

統計モデルの構築には、そのシステムに含まれる不確実性やランダム性を説明するいくつかの現実世界の現象の数学的記述の構築が含まれます。アプリケーションの分野に応じて、これは、線形回帰のような単純なものから、複雑な多変量因子分析やデータマイニングまで、基本的な仮説のテストまでさまざまです。


5
これは非常に広範な質問に答える勇気のある、誠実な努力だからです。ただし、「データマイニング」に統計モデリングが含まれているかどうかには疑問があり、そのフレーズの意味の例や説明をご覧ください。
whuber

@whuber LASSOは機能選択を行いますが、それは何らかの意味で回帰モデルを構築しているのではありませんか?
user13985

つまり、想像上のレンガとモルタルだけを使って家を建てるようなものですか?私の難解なコメント冗談言われています。:)
グレイムウォルシュ

1
データマイニングは、特定のモデルを構築または検証するプロセスの一部として使用できます。
デイブ

5

私のモデル化には、観測可能なデータが存在する場合に観測可能なデータの貴重な違いを識別するために使用できる推定可能なパラメーターを使用して、観測データの確率的フレームワークを指定することが含まれます。これは力と呼ばれます。確率モデルは、予測または推論に使用できます。これらは、機械の較正、投資に対する見返りの不足の実証、天気や在庫の予測、医療の意思決定の簡素化に使用できます。

モデルを作成する必要は必ずしもありません。孤立した実験では、t検定などのノンパラメトリックモデリングアプローチを使用して、2つのグループ間で平均に有意差があるかどうかを判断できます。ただし、多くの予測目的で、時間の変化を検出するようにモデルを構築できます。たとえば、遷移ベースのマルコフモデルを使用して、投資の市場価値の上下変動を予測できますが、「ディップ」は予想よりも悪いとどの程度まで考えることができますか。過去の証拠と観測された予測子を使用して、観測されたディップが歴史的に維持されているディップと著しく異なるかどうかを調整するための洗練されたモデルを構築できます。管理図、累積発生率図、生存曲線、その他の「時間ベース」図などのツールを使用して、

あるいは、データの増加に応じて柔軟に適応できることにより、一部のモデルが「構築」されます。Twitterによるトレンドの検出とNetflixの推奨システムは、このようなモデルの代表的な例です。柔軟なモデルが履歴の変化と傾向に対応し、再調整して最高の予測を維持できるようにする一般的な仕様(後者の場合はベイジアンモデル平均化)があります。季節性による映画の好みの劇的な変化。

一部のデータマイニングアプローチは、特定の種類の予測アプローチ(ここでも、データの「期待される」傾向または値を取得する問題)を達成するのに非常に熟達しているため導入されています。K-NNは、高次元データを組み込み、被験者が単に年齢(音楽の好み、性的履歴、またはその他の測定可能な特性)だけで信頼できる予測を受信できるかどうかを推測する方法です。一方、ロジスティック回帰ではバイナリ分類子を取得できますが、オッズ比と呼ばれるパラメーターを介してバイナリ結果と1つ以上のエクスポージャーおよび条件との関連性を推測するために、より一般的に使用されます。限界定理と一般化線形モデルとの関係により、オッズ比は「非常に保存された」タイプIエラー(すなわち、


あなたの言葉をありがとう。TwitterがNetflixを検出した場合、それは多かれ少なかれ機械学習の分野ではありませんか?モデリングと機械学習の境界線を引くことはできません。
user13985

1
機械学習は通常、高次元モデリングです。多くの方法は、ペナルティまたは重み付けを使用した既存の尤度ベースの方法の特殊なケースです。
AdamO

私の考えを検証してくれてありがとう、何か他のことをしたいなら教えてください。
user13985

3

モデリングは、適切なモデルを識別するプロセスです。

多くの場合、モデラーは重要な変数をよく理解しており、おそらく特定のモデルの理論的基礎さえ持っています。彼らはまた、応答に関するいくつかの事実と予測子との一般的な関係を知っていますが、モデルの一般的な考え方が完全に適切であるかどうかはまだ不明かもしれません。たとえば、分散が平均に関連していないと確信していないかもしれませんし、シリアル依存性があるかもしれないと疑っているかもしれません。

そのため、データ(少なくとも一部)を参照するモデル識別のいくつかの段階のサイクルがある場合があります。別の方法は、非常に不適切なモデルを持つことを定期的に危険にさらすことです。

(もちろん、彼らが責任を負っている場合、彼らはこの方法でデータを使用することが彼らの推論にどのように影響するかを考慮しなければなりません。)

実際のプロセスは地域や人によって多少異なりますが、プロセスのステップを明示的にリストしている人を見つけることは可能です(たとえば、BoxとJenkins は時系列の本でそのようなアプローチの概要を説明しています)。モデルの識別方法に関するアイデアは、時間の経過とともに変化します。


0

統計モデルを構成するものについて共通の定義があるとは思わない。業界での私の経験から、それは計量経済学で縮小フォームモデルと呼ばれるものの同義語のようです。説明します。

あなたの分野では、確立された関係または「法律」があると仮定します。例えば、物理学では、これは F=md2バツdt2その力は加速度に比例すると述べています(別名「第2力学の法則」)。したがって、この法則を知っていれば、キャノンボールの軌道の数学モデルを構築できます。

このモデルには、物理​​学者が「定数」または「係数」と呼ぶもの、たとえば、特定の温度と高度での空気密度が含まれます。これらの係数は実験的に調べる必要があります。私たちのケースでは、角度、温度など、厳しく制御されたさまざまな条件の下で大砲を発射するように砲兵に依頼します。

すべてのデータを収集し、統計的手法を使用してモデルを適合させます。線形回帰または平均と同じくらい簡単な場合があります。すべての係数を取得したら、数学モデルを実行して発火表を作成します。これは、ここにある分類されていない文書「キヤノン砲塔の発射台の生産」にきちんと説明されています。

今説明したのは統計モデルではありません。はい、統計を使用しますが、このモデルは物理学の法則を確立します。これはモデルの本質です。ここで、統計は、いくつかの重要なパラメーターの値を決定するための単なるツールです。システムのダイナミクスは、フィールドによって記述され、事前に決定されます。

物理法則を知らないか気にせず、「統計モデル」を使用して大砲の飛距離と発射角度や温度などのパラメーターとの関係を確立しようとしただけだとします。一連の候補変数、または特徴、変数の変換、温度の多項式シリーズなどでビッグデータセットを作成します。次に、ソートの回帰を実行し、係数を特定します。これらの係数は、必ずしも現場で解釈を確立しているとは限りません。温度の2乗などに対する感度と呼びます。このモデルは、基になるプロセスが非常に安定しているため、実際にキャノンボールの終点を予測するのに非常に適している場合があります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.