データサイエンスvsオペレーションズリサーチ


11

タイトルが示すように、一般的な質問は次のとおりです。

  • DSとOR /最適化の違いは何ですか。

概念的なレベルでは、DS は利用可能なデータから知識を抽出しようとし、主に統計的な機械学習手法を使用することを理解しています。一方、OR データに基づいて意思決定を行うために、たとえば、データ(入力)に対して目的関数(基準)を最適化することにより、データを使用します。

これら2つのパラダイムはどのように比較されるのでしょうか。

  • 他のサブセットですか?
  • 彼らは補完的な分野を考慮していますか?
  • 1つのフィールドが他のフィールドを補完する例や、それらを組み合わせて使用​​する例はありますか?

特に、私は次のことに興味があります。

OR手法を使用してデータサイエンスの質問/問題を解決する例はありますか?


3
これが本当にコンピュータサイエンスの問題かどうかはわかりませんが、十分近いと思います。それは完全に意見の問題のように思われるので、私は一方の側の人々が他方をどう思うかについての部分を編集しました。
David Richerby 2017年

@DavidRicherbyありがとう。それは意見の問題かもしれないと私はあなたに同意します。伝統的に、両方の分野がCSコミュニティから教えられ、創設されたので、これが正しい質問だと思います。
PsySp 2017年


@DWありがとうございます。私は記事を読みましたが、正直なところ、言及された2つのフィールドの重複や相違についての議論はありません。特に、一方が他方をどのように補完するか。
PsySp 2017年

1
データサイエンスは主に、データを介して情報を見つけるための作業を行うことです。Operations Researchは、主に意思決定を改善するための作業を行うことを目的としています。ORは、意思決定に使用するための最適なポリシーを見つける方法を使用していると見なすことがよくあります。ORで使用されるいくつかのメソッドは、CSコミュニティでは強化学習メソッドとして分類できますが、すべてのOR問題がこのタイプであるわけではありません。
spektr 2017年

回答:


9

Operations ResearchとData Scienceはどちらも大量のトピックと領域をカバーしていますが、私はそれぞれの最も代表的で主流の部分として私が見ているものについて私の見解を述べたいと思います。

他の人が指摘したように、Operations Researchの大部分は主に意思決定に関係しています。意思決定の方法を決定するにはさまざまな方法がありますが、ORの最も主流の部分(私の意見では)は、数学プログラミングフレームワークでの意思決定問題のモデリングに焦点を当てています。これらの種類のフレームワークでは、通常、一連の決定変数、これらの変数に対する制約、および最小化または最大化しようとしている決定変数に依存する目的関数があります。決定変数がR値をとることができる場合、制約は決定変数に対する線形不等式であり、目的関数は決定変数の線形関数であり、線形プログラムがあります。-ORの過去60年間の主力製品。他の種類の目的関数または制約がある場合は、整数計画法二次計画法半定計画法などの領域にいることがわかります。

一方、データサイエンスは主に推論を行うことに関係しています。ここでは、通常、大きなデータの山から始めて、大きな山の中でまだ見ていないデータについて何かを推測したいとします。ここに表示される典型的な種類は次のとおりです。1)データの大きな山は2つの異なるオプションの過去の結果を表し、どのオプションが最良の結果をもたらすかを知りたい、2)データの大きな山は時間を表す時系列が将来どのように拡張されるかを知りたい場合、3)大量のデータがラベル付きの観測セットを表し、ラベルなしの新しい観測のラベルを推測したい場合。最初の2つの例は、古典的な統計領域(それぞれ仮説検定と時系列予測)に当てはまりますが、3番目の例は、現代の機械学習トピック(分類)とより密接に関連しています。

そのため、私の意見では、オペレーションズリサーチとデータサイエンスはほとんど重複している分野ですが、一部重複しています。特に、時系列予測はORでは重要な量で表示されると思います。これは、ORの最も重要な非数学プログラミングベースの部分の1つです。Operations Researchは、入力と出力の間に既知の関係がある場合に方向転換します。データサイエンスは、(入力と出力のいくつかの定義について)その関係を特定しようとしている場合に役立ちます。


明確な答えをありがとう。たとえば、DSの問題を解決するためにOR手法を使用できるかどうか疑問に思っていました。私はそのような例に興味がありますが、あなたの答えから、私は何かがあるとは思いません。
PsySp 2017年

@Psyspえっ、たぶん?私は頭の中で何かを考えることはできませんが、それは決定的なものからはほど遠いです。
ムム

1
私はORとDSの分割があなたが信じているように厳密であるとは思いませんが、これはDSを統計の同義語と考えるのではなく、機械学習とデータマイニングとDSの一部として考えるためかもしれません。(残念ながら、DSは流行語であるため、私の知る限り、広く受け入れられている定義はありません)ただし、決定推論のタスクは相互に排他的である必要はありません。機械学習はまさにその両方を組み合わせる分野です。適切な推論を行うために賢い決定を行う必要がある場合もあれば、適切な決定のために賢い推論を使用する場合もあります。
離散トカゲ

@Discretelizard確かに、私はある程度同意します。私はかなり明確な区分(おそらくは似顔絵ですか?)を提示し、各フィールドが通常調整される問題の種類の違いを強調するために、各フィールドのコア部分に集中しています。両方のフィールドのエッジはかなりぼやけている可能性があり(特に、DSの方がはるかに新しい)、おそらくそこにより多くの重複があります。また、DSの主流の多くにMLの要素が含まれていることに同意しますが、DSがMLからどのように分割されるのか正確にはわかりませんでした。
ムム

4

ORとDSの異なる目的を対比するにはmhumが非常に優れているため、これは完全な答えではありません。

むしろ、私はあなたのこのコメントに対処したいと思います:

たとえば、DSの問題を解決するためにOR手法を使用できるかどうか疑問に思っていました。

答えはイエスです。頭に浮かぶ最も明確な例は、サポートベクターマシン(SVM)です。

SVMモデルを一部のデータに「適合」させるには(予測を推論するために使用する前に行う必要があります)、次の最適化問題を解決する必要があります。

デュアルを最大化し、

g(a)=i=1mαi12i=1mj=1mαiαjyiyjxiTxj,

制約を受ける

0αiC,i=1nyiαi=0

これは、ORの分野の多くの場合と同様に、制約付きの最適化問題であり、2次計画法または内点法を使用して解決されます。これらは一般的にDSではなくORの分野に関連付けられていますが、これはより広い適用範囲の例です。

より一般的には、最適化はDSの分野で採用されている多くの統計モデルと機械学習モデルの鍵です。これらのモデルのトレーニングプロセスは、通常、数百年前からの損失/後悔関数を含む最小化問題として定式化できるためです。最新のディープラーニングニューラルネットワークへの線形回帰モデル。

SVMの優れたリファレンスはBishopです。


2

戦略家として、私はこの分野の両面で働く機会がありました。ORとDSが定性的なMBAの幹部にとって何であるかを説明する際に、私の(過度に)単純化された、1行ずつの紹介

または:
DSのコーディング方法を知っているエコノミスト:DSのコーディング方法を知っている統計学者。

実際的には、2つのグループがどのように組み合わされるかが一般的です。OR側は意思決定モデルを開発し、DS側はモデルに供給するための適切なデータ実装を見つけ出します。

それぞれが独自の分野の理論的伝統に依存します-一緒に、彼らは実験を行ってデータを構造化し、モデルを改良して、最適な決定に必要な真の洞察を得ます。それぞれがお互いを知るようになると、彼らの思考と彼らの言語は通常収束します。


1
DSの実際の説明を「コーディングする統計家」として理解していますが、ORの説明は少し奇妙に思えます。または、ロジスティクスと関連するルーティングの問題が含まれます。それは私にとって経済学者にとって自然な場所のようには見えません。おそらく、ORが実際にエコノミストによって行われる理由について詳しく説明できますか?
離散トカゲ

1
@Discretelizard経済学者がORを行うことは間違いありませんが、あなたが言うように、経済学とは何の関係もなく、コンピュータ科学者、数学者などによって行われるORがたくさんあります。
デビッドリチャービー2018年

0

データサイエンスは、一般的にデータを扱う幅広い分野です。これが曖昧に聞こえる場合は、それが実際にあるので、それは正常です。それは今かなり長い間流行語でした。本質的に、データを悪用する方法を見つけようとします。自分のデータで何ができるか(どのような洞察が得られるか)です。

Operations Researchは、数学的最適化の科学です。問題を「方程式」にモデル化し、この数学的モデルを解いて、ソリューションを初期の問題設定に戻します。これは、意思決定に役立つツールです。これを取得するために何をすべきか、または私は何ができるかです。

多くのビジネス上の問題は、最適化の問題と見なすことができます。リソースの制約を考慮して、収入を最大化しようとしていることを考えると、意思決定変数にどのような値を設定する必要があるかについて、ビジネスを正確にどのように実行しますか。スケジューリング、設備計画、サプライチェーン管理などの問題はすべて、最適化手法を活用しています。

ポートフォリオ最適化も、最適化が使用されている典型的な例です。ポートフォリオ内のいくつかの異なる資産に投資でき、それぞれが非決定的リターンを持っていると仮定します。金銭的リターンのレベルを維持しながらポートフォリオ全体のリスクを最小限に抑えるには、ポートフォリオのバランスをどのようにすればよいですか この設定では、目的関数がポートフォリオのリスク/分散になることがよくあります。制約は、投資に対する必要な収益率と、保有している金額です。


3
両方のフィールドの簡単な要約のみをリストします。この回答は、DSとORの違いや類似点には対応していません。その部分に焦点を当てることで、回答を改善できます
離散トカゲ

-1

MLによって駆動されるMLとAIをデータサイエンスの一部として数える場合(私の経験によれば、一部の人々はそうであり、一部の人々はそうではありません)、たとえばAIのMicrosoftプロフェッショナルプログラムには、データサイエンス+機械学習の主要な側面が含まれています(DLとRLの両方を使用) )高校経済学部では、高度な機械学習と実質的に同じMicrosoft cuuriculumの高度な部分を示していますが、両方の分野で使用される数学には多くの類似点があります。例:非線形プログラミング(ラグランジュ乗数、KKT条件...)->サポートベクターマシンの導出に使用...主に回帰に基づく計量経済学--->回帰は、一般的にData Scineceとより具体的には、教師あり学習...統計(通常はORカリキュラムにあります)--->データサイエンスと機械学習のキー... 確率的プロセス--->強化学習で非常に重要...動的プログラミング--->再び強化学習で見つかりました...つまり、データサイエンスといくつかの類似点があり、MLとかなり類似しています。もちろん、これらの分野の目標は異なりますが、これらの分野で使用されている数学には多くの類似点があります。


それは質問にどのように答えますか?
邪悪な
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.