これらの分析手法に関するグローバルなビジョンはありますか?


24

私は現在、出力が入力xにどのように関係しているかを理解するために、基本的に必要なプロジェクトに取り組んでいます。ここでの特殊性は、データy x が一度に1つずつ与えられるため、新しいy x を受け取るたびに分析を更新することです。これは、必要なすべてのデータがあり、すべてのデータを同時に使用して計算を行う「バッチ」処理とは対照的に、「オンライン」処理と呼ばれます。yバツyバツyバツ

だから、私はアイデアを探して、ついに世界は3つに分かれているという結論に達しました。

  • 最初の部分は、統計と計量経済学の土地です。そこにいる人々は、OLS、GLS、機器変数、ARIMA、テスト、相違点の違い、PCA、その他のことをしています。この土地の大部分は線形性に支配されており、「バッチ」処理のみを行います。

  • 2番目の部分は、機械学習の島であり、人工知能、教師あり学習と教師なし学習、ニューラルネットワーク、SVMなどの言葉です。ここでは、「バッチ」処理と「オンライン」処理の両方が行われます。

  • 3番目の部分は、私が発見したばかりの大陸全体で、ほとんどが電気技師によって占められているようです。そこで、人々はしばしば「フィルター」という言葉をツールに追加し、Widrow-Hoffアルゴリズム、再帰最小二乗法WienerフィルターKalmanフィルターなど、まだ発見していないものを発明しました。どうやら彼らはニーズに合っているため、ほとんどが「オンライン」処理を行っているようです。

私の質問は、あなたはこれらすべてについてグローバルなビジョンを持っていますか?私は、世界のこれら3つの部分が互いにあまり話し合っていないという印象を受けています。私が間違っている?Xの関係を理解する大統一理論はありますか?その理論の基礎が定められているリソースを知っていますか?Yバツ

この質問が本当に理にかなっているかどうかはわかりませんが、これらすべての理論の間で少し迷っています。「これまたはそれを使用すべきか?」という質問に対する答えを想像します。「何をしたいか(およびデータ)に依存します」。しかし、これら3つの世界は同じ質問(?)に答えようとしているように感じます。したがって、これらすべてについてより高い見方を持ち、それぞれの手法を特定する理由を深く理解できるはずです。y=fバツ


最近の最初の2つの分野は、お互いにもっと話し合っていると思います。しかし、素晴らしい質問です!
ザック

ダイナマイトのトピックとよく書かれた質問!
rolando2

1
このCWを作成してください。
枢機

1
私は自分自身を統計学者と呼びますが、私は多くのオンライン処理を行い、さまざまな種類の非線形モデリングを行い、少なくとも少しのAIに手を出しました。典型的なツールの違いは、人々が遭遇する傾向のある種類の問題に関係していると思います。問題が収束する場所では、遅かれ早かれ同じツールを見つけるか、または再発明する傾向があります(多くの場合、異なる名前で、わずかに異なるベルとホイッスルで)。
Glen_b -Reinstateモニカ

回答:


4

バッチとオンラインの関係では、私の経験から、両方を組み合わせることがあることがわかります。つまり、モデルの定式化に関連する負荷の高い処理、つまり集中的な処理をオフラインで実行し、これらのモデルを使用するための迅速/適応的な手順を採用します。「新しいデータ」は3つの方法で使用できることがわかりました。1.単に予測する。2.既知のモデルのパラメーターを修正する。3.パラメーターを修正し、場合によってはモデルを修正する。これらの3つのアプローチは「ライブ分析」に使用されており、もちろんこれら3つの手順のいずれかを完了する時間は、使用するソフトウェアと利用可能なハードウェアの両方に依存します。

次に、y対xをモデル化する方法に関する他のポイントに進みます。yの履歴とxの現在およびpas値の影響を引き出すための基礎として、回帰の拡張バージョン(伝達関数またはARMAXモデルと呼ばれる)を使用することを好みます。ガウスの要件を検証し、省略された決定論的構造(外れ値検出による)とARMAコンポーネントによる省略された確率構造の両方のプロキシを必要に応じて組み込むことが重要です。さらに、あまり多くのデータを使用していないことを確認する必要があり(パラメーターの不変性のテスト)、確定的/確率的誤差分散および/またはyの期待値と残差。

現在、歴史的に(または必要に応じてヒステリックに)さまざまな考え方のサイロがアプローチの策定を試みています。先祖が使用するアドホックモデルの多くは、伝達関数のサブセットであることが示されていますが、伝達関数の仮定に挑戦する想像可能なデータセットがあります。これらのデータセットが存在する可能性がありますが、分析によってその結論が得られない限り、それらがあなたに直接影響を与えると想定すべきではありません。

Wei(Addison-Wessley)やBox-Jenkinsのようなテキストは、私のコメントをサポートし、より多くの「答え」に導くための合理的なロードマップを提供する必要があります

ところで、これは素晴らしい質問です!

さらに、使用したいデータがある場合は、ここで説明するさまざまなオプションを示すことができます。あなたのデータをウェブに投稿して、「y to x」を関連付けようと努力しているすべての人に見てください。


ご回答有難うございます!時間があるとすぐにそれをより深く調べ、おそらくあなたに戻ってきます。私はARMAXモデルを知らなかったと言わなければなりません。私はすべて内生のVARに直接行ったと思います。データに関しては、実際にはまだプロジェクトのために他のものを構築しているので、今は多くの関連データがありません。しかし、どうもありがとう、あなたは再び私から聞くべきです!
アーサー

「ガウスの要件を検証する」:ガウス/ノンパラメトリック/忘却モデル化(ペースブライマン)は深い分裂ではないか?
-denis

2

ブライマンは、「統計モデリング:2つの文化」でこの問題に対処しています。優れた質問に対する最初の回答。


感謝!あなたのリンクは私のために機能しませんでした、それは機能し、これは直接pdfにつながります。テキストの要約と一部をランダムに読んだだけで、非常に興味深いように見えます。しかし、彼らは完全に「反古典統計」のようです。再度、感謝します。
アーサー

すばらしい-リンクを更新しました。それは楽しい読み物です-お楽しみください!
ラムAhluwalia

ブライマンの「2つの文化」についてはここで説明しました。いくつかの興味深い点がありますが、自分の考え方を変えたり説明することすら困難です。
デニス

1

この質問に対する答えは、「無料のランチはありません」という線に沿ったものだと思います。おそらく、統計学者、コンピューター科学者、電気技術者がさまざまなアルゴリズムを開発した理由は、さまざまな種類の問題を解決することに関心があるからでしょう。


0

あなたが示したこれらの3つのグループは、確かに2つのグループにすぎないと思います

  • 統計学
  • 機械学習、人工知能、パターン認識。

信号フィルタリングに関連するすべてのブランチは、パターン認識に属する特徴抽出(ウェーブレット、ガボール、フーリエ)と、ハード数学に属する離散フーリエ変換の2つの側面に基づいています。実際、デジタルフィルタリングは、単純で低計算コストのアルゴリズムを使用してこのパターン認識の問題を解決しようとするため、エンジニアリング側により近いものです。しかし本質的に、それは機械学習です。

さらに、フィルタリング、ウェーブレット、ガボール、フーリエは、人工視覚の中核である画像処理で広く使用されています。

統計と機械学習には違いがあります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.