市場で買い手と売り手の間の「一致」を観察できると仮定します。また、買い手と売り手の両方の特性を観察して、将来の一致を予測し、市場の両側に推奨事項を作成することもできます。
簡単にするために、N人の買い手とN人の売り手がいて、それぞれが一致するものを見つけると仮定します。N個の一致と(N-1)(N-1)個の不一致があります。すべてを含むトレーニングデータセットには、N +(N-1)*(N-1)個の観測値がありますが、これは非常に大きくなる可能性があります。(N-1)(N-1)の不一致からランダムにサンプリングし、その削減されたデータでアルゴリズムをトレーニングすると、より効率的になると思われます。私の質問は:
(1)トレーニングデータセットを構築するための不一致からのサンプリングは、この問題に対処する合理的な方法ですか?
(2)(1)が真の場合、含める(N-1)(N-1)のチャンクの大きさを決定する厳密な方法はありますか?