価格をモデル化する方法は？

15

私はmatemathicsスタック交換サイトでこの質問をしましたが、ここで尋ねることをお勧めしました。

私は趣味のプロジェクトに取り組んでいますが、次の問題について助けが必要です。

少しのコンテキスト

機能と価格の説明を含むアイテムのコレクションがあるとしましょう。車と価格のリストを想像してください。すべての車には、エンジンサイズ、色、馬力、モデル、年などの機能のリストがあります。メーカーごとに、次のようなものがあります。

Ford:
V8, green, manual, 200hp, 2007, $200
V6, red, automatic, 140hp, 2010, $300
V6, blue, manual, 140hp, 2005, $100
...

さらに進むと、価格付きの車のリストが一定の時間間隔で公開されているため、過去の価格データにアクセスできます。必ずしもまったく同じ車が含まれているとは限りません。

問題

この基本情報に基づいて自動車の価格をモデル化する方法を理解したいと思います。最も重要なのは、初期リストにない自動車です。

Ford, v6, red, automatic, 130hp, 2009

上記の車については、リストにあるものとほぼ同じですが、馬力と年がわずかに異なります。この価格を設定するには、何が必要ですか？

私が探しているのは実用的でシンプルなものですが、このようなものをモデル化するより複雑なアプローチについても聞きたいです。

私が試したこと

ここで私がこれまで試してきたことを示します。

1）履歴データを使用して車Xを検索します。見つからない場合、価格はありません。これはもちろん非常に限定されており、時間の経過とともに既知の車の価格を変更するために、これを時間減衰と組み合わせてのみ使用できます。

2）価格設定されたサンプル車と一緒に車の特徴の重み付けスキームを使用する。基本的に基本価格と機能があることは、何らかの要因でそれを変更するだけです。これに基づいて、車の価格が導き出されます。

前者は十分ではないことが証明され、後者は常に正しいとは限らないことが証明され、重みを使用するための最良のアプローチがなかったかもしれません。これはまた、重みを維持する上で少し重いようです。そのため、重みを取得したり、他の何かを取得するために、履歴データを何らかの方法で統計として使用する方法があると考えたのはそのためです。どこから始めればいいのかわかりません。

その他の重要な側面

私が持っているいくつかのソフトウェアプロジェクトに統合します。既存のライブラリを使用するか、自分でアルゴリズムを作成します。
新しい履歴データが入ったときの高速再計算。

このような問題にどのようにアプローチすることができますか？すべてのアイデアは大歓迎です。

事前に感謝し、あなたの提案を読むことを楽しみにしています！

regression forecasting econometrics

— Murrekatt
ソース

11

「実用的」および「単純」は、最小二乗回帰を示唆しています。 設定が簡単で、多くのソフトウェア（R、Excel、Mathematica、任意の統計パッケージ）で簡単に実行でき、解釈が簡単で、どのくらい正確になりたいか、どのくらい難しいかによって、さまざまな方法で拡張できます喜んで働きます。

このアプローチは、基本的には「重み付けスキーム」（2）ですが、重みを簡単に見つけ、可能な限り高い精度を保証し、簡単かつ迅速に更新できます。最小二乗計算を実行するためのライブラリがたくさんあります。

リストした変数（エンジンの種類、出力など）だけでなく、自動車の年齢も含めると役立ちます。さらに、インフレの価格を調整してください。

— ヒューバー
ソース

売れました！それはまさに私が探しているものです！私はこれが初めてなので、提案を比較するのに苦労しています。そのため、最小二乗回帰は多重回帰や「快楽価格設定」と比較してどうなるでしょうか。これらは、最初に投稿した数学サイトで得た提案です。たとえば、最小二乗回帰を使用する場合、何を修正しますか？基本的に、このアプローチを使用する際に注意する必要があるものはありますか？

— -murrekatt

この提案にも感謝します。とても良いようです。それをどのように使用するかを理解するために、どのように始めることができるかを理解するために、さらに読む必要があります。

— -murrekatt

3

@mpiktasと@dimitrij celovが投稿した警告に同意し、同意したいと思います。価格の分析は、それが属する経済システムと同じくらい複雑になる可能性があり、多くの場合そうすべきです。ただし、意図されたアプリケーション（趣味）と統計モデリングのOPの機能に明確に示された制限のため、単純さ、使いやすさ、および解釈可能性に大きな価値を置く必要があります。明らかに、最小二乗法にまだ精通していない人はすぐに飛び込んで本格的な計量経済モデルの作成を開始するつもりはありません。

— whuber

5

@whuberに同意します。線形回帰は進むべき方法ですが、結果を解釈するときは注意が必要です。問題は、経済学では価格が常に需要に関連しているということです。需要が上がると価格が上がり、需要が下がると価格が下がります。したがって、価格は需要によって決定され、見返りに需要は価格によって決定されます。したがって、需要のない一部の属性からの回帰として価格をモデル化すると、変数のバイアスが省略されているために回帰推定が間違っているという現実的な危険があります。

— mpiktas
ソース

@mpiktas：ありがとう。何が言いたいのか理解した。これは私が考えていたものでしたが、質問する方法や質問に追加する方法を正確には知りませんでした。あなたが説明することをどのように扱いますか？これは別の問題であり、結果を解釈する際に考慮する必要がありますか、またはこれは他のアプローチに統合されており、最小二乗回帰の一部ではありませんか？自分自身をどのように定式化するのかわからないが、私が意味するのは、これを考慮に入れるアプローチとそうでないアプローチがあるということですか？これは、「しない」ために結果を解釈する必要があることを意味しますか？

— -murrekatt

3

@murekatt、追加のデータがオンデマンドではないが、価格のモデルが必要な場合は、細心の注意を払って対処します。これは、係数の統計的有意性にはあまり注意を向けないが、パフォーマンスの予測には注意を払うことを意味します。基本的に、これは回帰をブラックボックスとして扱い、モデル予測のパフォーマンスをモデルの有効性の尺度として使用することを意味します。これは、列車と試験試料、等にクロスバリデーション、データ分割を使用して、

— mpiktas

@mpiktas：「追加データ」とはどういう意味ですか？車の文脈でこの例を挙げていただけますか？

— -murrekatt

1

@murrekatt、更新されたDmitrijの答えの終わりを見てください。需要データは重要であるため、所定の価格で販売された車の量があれば、これは非常に役立ちます。Furthemoreあなたは、固定された属性を持つ与えられた車のためにどのように価格変更、これはまた、あなたのモデルに反映されるべきデータがある場合

— mpiktas

1

@murekatt、原則としてはい。小規模に始めて、後で追加機能を追加する必要があると思います。最初の結果から、さらに進むべき方向がわかります。

— mpiktas

4

私が探しているのは実用的でシンプルなものですが、このようなものをモデル化するより複雑なアプローチについても聞きたいです。

ある種の議論の後、ここに物事の私の完全な見解があります

問題

目的：車をより良い方法で価格設定する方法を理解する

コンテキスト：意思決定プロセスで、人々はいくつかの質問を解決します：必要な場合、私は車が必要ですか、私が最も好む属性（価格を含む、合理的であるため、最高の品質/価格比を持つ車が欲しいです）、異なる車の間で属性の数を比較し、それらを共同で評価することを選択します。

売り手の立場から、価格をできるだけ高く設定し、できるだけ早く車を販売したいと思います。したがって、価格を高く設定し、数か月待っている場合、要求されていないと見なすことができます。ていると、市場でが非常に需要の高い属性セットと比較して0でマークされます。

観察：特定の車の属性を交渉プロセス内で設定された価格に関連付ける実際の取引（以前の発言に関しては、取引の設定にかかる時間を知ることが重要です）。

長所：実際に市場で購入されたものを観察するので、特定の車を購入したい予約価格の高い人がいるかどうかは推測しません

短所：

あなたの仮定は、市場が効率的であるということです。つまり、観察する価格は均衡に近いことを意味します
購入していないか、取引の設定に時間がかかりすぎた車の属性のバリエーションを無視します に偏りがあるため、潜在変数モデルを実際に使用します。
車の年齢を含めることでこれを部分的に補うことができますが、長い間データを観察するにはそれらを収縮させる必要があります。

解決方法

最初のものは、whuberが示唆するように、古典的な最小二乗回帰モデルです。

長所：

実際、計量経済学の主力製品であるため、最もシンプルなソリューション

短所：

物事を不完全に観察することを無視します（潜在変数）
リグレッサーは互いに独立しているため、基本モデルでは、ブルーフォードとブルーメルセデスの違いが好きかもしれないという事実は無視されますが、ブルーとフォードからもたらされる限界影響の合計ではありません

古典的な回帰の場合、自由度に制限がないため、異なる相互作用項も試してください。

したがって、より複雑なソリューションはtobitまたはHeckman modelのいずれかになります。ACCameronおよびPK Trivedi Microeconometrics：コアメソッドの詳細については、メソッドおよびアプリケーションを参照してください。

長所：

人々はいくつかの属性セットをまったく好まないかもしれないという事実、またはいくつかの属性セットが実際の価格設定から購入される可能性が低いという事実を分離します
結果に偏りがない（または少なくとも最初の場合よりも小さい）
ヘックマンの場合、特定の車を購入する動機となる理由を、この車にいくら支払うかという価格決定から分離します。最初の車は個人の好みに影響され、2番目の車は予算の制約に影響されます

短所：

どちらのモデルも貪欲なデータです。つまり、イコライズするためにアスクとビッドの間の時間の長さを観察するか（かなり短い場合は1、そうでない場合は0）、市場で無視されたセットを観察する必要があります

そして最後に、価格が購入される確率にどのように影響するかだけに関心がある場合は、何らかのロジットで作業することができますモデルを使用できます。

私たちは、その合意されたコンジョイント分析をはここでは適切ではないました、なぜならあなたには異なる文脈と観察があるからです。

幸運を。

— ドミトリー・チェロフ
ソース

従属変数がカテゴリーである多項ロジットモデルを、カテゴリーではない価格に正確にどのように適用しますか？

— whuber

@Dmitrij Celov：ご提案ありがとうございます。私はあなたの質問に答えようとします。1）価格はありません。これは、類似の車を見て答えたいものです。2）どの変数が最も重くなっているかわかりません-これを取得したいと思っていました。3）機能と価格を備えた車のリストに基づいて、任意の機能を備えた車の価格を設定できるようにします。

— -murrekatt

K_{j} - 1

$K_j - 1$

j

$j$

1

$1$

0

$0$

P (y_{i} = 1 | y_{j} = 0) = \frac{1}{1 + e^{- β^{'} (X_{i} - X_{j})}}

$P(y_i = 1| y_j = 0) = \frac{1}{1 + e^{-\beta^\prime (X_i-X_j)}}$

y_{i}

$y_i$

y_{j}

$y_j$

@murrekatt：1）では、最も「価値のある」属性を探しているだけですか？2）ロジット推定パラメーターは、オッズとオッズ比のようにうまく解釈されますが、多項ロジットには、無関係な代替からの独立として知られる弱い特徴があります。@whuber：依存関係が価格である場合、単純な回帰はここでうまく機能しますが、再びどのような価格ですか？どこで公開されましたか？それとも実際のトランザクションですか？

— ドミトリーチェロフ

2

@Dimitrij Priceは独立変数ではありません。従属変数です。「この基本情報に基づいて、自動車の価格をモデル化する方法を理解したいと思います。」この誤解により、@ murrekattを非常に遠くまで取ってしまうのではないかと心配しています。

— whuber

4

私にも線形回帰問題のように見えますが、K最近傍KNNについてはどうでしょう。各車間の距離の式を考え出し、最も近いK（たとえば3）間の平均として価格を計算できます。距離の式は、シリンダーの差、ドアの差、馬力の差などのようにユークリッドに基づくことができます。

線形回帰を使用する場合は、いくつかのことをお勧めします。

インフレを説明するために、ドル価値を現代にまで拡大します。
データをエポックに分割します。たとえば、ww2の前と後のww2に1つのモデルが必要になります。これは単なる予感です。
モデルを相互検証して、過剰適合を回避します。データを5つのチャンクに分割します。4でトレーニングし、5番目のチャンクでモデルをurします。エラーを合計し、すすぎ、他のチャンクについて繰り返します。

別のアイデアは、モデル間のハイブリッドを作成することです。回帰とKNNの両方をデータポイントとして使用し、最終価格を加重平均などとして作成します。

— ドワトソン
ソース

3

言われたことに加えて、すでに行われたいくつかの提案と実際にはまったく違いはありませんが、快楽価格モデルに関する膨大な文献をご覧ください。。要約すると、複合財の価格をその属性の関数として説明しようとする回帰モデルです。

これにより、サンプルにまったく同じような属性の組み合わせが存在しない場合でも、その属性（馬力、サイズ、ブランドなど）を知っている車の価格を設定できます。これは、実質的に複製不可能な資産（実際の状態のプロパティなど）を評価するための非常に一般的なアプローチです。「快楽モデル」をGoogleで検索すると、多くの参考文献や例が見つかります。

— F・タセル
ソース

@F。Tusell：それはいい説明でした。私はすでに他の投稿からこれを一緒に困惑させましたが、これは私のような初心者にとって物事をうまくまとめました。

— murrekatt