データマイニングにおけるカオス理論の既知の既存の実用的なアプリケーションは何ですか?


13

過去数年間、大衆市場でカオス理論に関するいくつかの作品をさりげなく読んでいるうちに、ニューラルネット、パターン認識、不確実性管理など、データマイニングや関連分野にそのさまざまな側面をどのように適用できるのか疑問に思い始めました。 '公開された研究でそのようなアプリケーションの例が非常に少ないので、a)既知の公開された実験およびプロジェクトで実際に実行されているか、b)そうでない場合、これらの相互関係でほとんど使用されていないのか疑問に思う田畑?

私がこれまで見てきたカオス理論の議論のほとんどは、完全に有用な科学アプリケーションを中心に展開していますが、データマイニングやパターン認識などの関連分野とはほとんど関係ありません。典型的な例の1つは、物理学の3体問題です。私はこの種の通常の科学的応用の議論を控えて、データマイニングと関連分野に明らかに関連する応用だけに質問を制限したいと思います。以下の潜在的なアプリケーションのリストは、公開された研究の検索の出発点として使用できますが、実際に実行されているアプリケーションがある場合は、それらにのみ興味があります。私が探しているのは、データマイニングに対するカオス理論の既知の実装です。潜在的なアプリケーションのリストとは対照的に、はるかに広いです。これは、読んでいるときに私が思いついたデータマイニングアプリケーションの簡単なアイデアの小さなサンプルです。おそらく、それらのどれも実用的ではなく、おそらくいくつかは私たちが話すように実用化されていますが、私はまだ慣れていない用語で行きます:

  1. マンデルブロが数十年前にアナログ電話回線のエラーバーストの場合に実用的な方法で行ったように、パターン認識で自己相似構造を識別します。
  2. マイニングの結果にフェイゲンバウムの定数に出会う(おそらく、研究の過程で予想外の場所にマックスウェルの方程式がポップアップするのを見て、ストリング理論家が驚いたのと同様の方法で)。
  3. ニューラルネットの重みとさまざまなマイニングテストの最適なビット深度を特定します。カオス関連関数の予測不可能性の一部を担っている初期条件への感度が出てくる、非常に小さい数値スケールのために、これについて疑問に思いました。
  4. メンジャースポンジ、コッホカーブ、シェルピンスキーカーペットなど、魅力的なフラクタルの好奇心とは必ずしも関係のない他の方法で、分数次元の概念を使用します。おそらく概念をマイニングモデルの次元に、フラクショナルとして扱うことにより、何らかの有益な方法で適用できますか?
  5. フラクタルで作用するような法則の導出。
  6. フラクタルで遭遇する関数は非線形であるため、非線形回帰への実用的なアプリケーションがあるのだろうかと思います。
  7. カオス理論にはエントロピーとの接線的(そして時には誇張された)関係があるので、カオス理論で使用される関数からシャノンのエントロピー(またはその制限とその親類の制限)を計算する方法はあるのでしょうか?
  8. データの周期倍増動作を識別します。
  9. 有用な方法で「自己組織化」する可能性が最も高いものをインテリジェントに選択することにより、ニューラルネットの最適な構造を特定します。
  10. カオスやフラクタルなども、計算の複雑さに正接しているため、複雑さを使用してカオス構造を特定できるのか、またはその逆の可能性があるのでしょうか。
  11. 私は最初にカオス理論の観点からリアプノフ指数を聞いたことがあり、それから特定のニューラルネットのレシピとエントロピーの議論で数回気づきました。

私がここにリストしていない他の関係はおそらく数十あります。これはすべて私の頭の上から外れました。私はこれらの特定の推測に対する具体的な答えにあまり興味がありませんが、野生に存在する可能性のあるアプリケーションのタイプの例として、それらを単に投げ捨てています。アプリケーションがデータマイニングに特に適用可能である限り、現在の研究の例や、このようなアイデアの既存の実装を含む返信を見たいと思います。

おそらく、私がよく知っている分野(情報理論、ファジィ集合、ニューラルネットなど)や、回帰などの能力がさらに低いものでも、気付いていない既存の実装がおそらく存在します。どういたしまして ここでの私の実用的な目的は、カオス理論の特定の側面について学習するためにもっと投資するかどうかを決定することです。明らかな有用性が見つからない場合は、後回しにします。

CrossValidatedを検索しましたが、データマイニングなどへのカオス理論の実用的なアプリケーションに直接対処するトピックは表示されませんでした。最も近いのは、スレッドカオス理論、方程式のないモデリング、ノンパラメトリック統計です。特定のサブセットで。


コメントは詳細なディスカッション用ではありません。この会話はチャットに移動さました
whuber

回答:


7

実用的なアプローチとしてのデータマイニング(DM)は、数学モデリング(MM)アプローチにほぼ相補的であり、カオス理論(CT)とも矛盾しているようです。最初にDMと一般的なMMについて説明し、次にCTに焦点を当てます。

数学的モデリング

経済モデリングでは、DMはごく最近までほとんどタブーと見なされていました。因果関係を学ぶのではなく、相関関係を探るハックです。SA​​Sブログのこの投稿を参照してください。態度は変わりつつありますが、偽の関係データのdrPハッキングなどに関連する多くの落とし穴があります。

場合によっては、確立されたMMプラクティスがある分野でも、DMは正当なアプローチであると思われます。たとえば、DMは、大量のデータを生成する物理実験で粒子の相互作用を検索するために使用できます。粒子粉砕機を考えてください。この場合、物理学者は粒子がどのように見えるかを考え、データセット内のパターンを検索できます。

カオス理論

カオス系は、おそらくDM手法による分析に対して特に耐性があります。一般的な擬似乱数ジェネレータで使用される、おなじみの線形合同法(LCG)を考えてください。それは本質的に混chaとしたシステムです。これが、乱数を「偽造」するために使用される理由です。優れたジェネレーターは、乱数列と見分けがつきません。これは、統計的手法を使用してランダムであるかどうかを判断できないことを意味します。ここにもデータマイニングを含めます。データマイニングを使用して、RAND()生成シーケンスでパターンを見つけてください!それでも、ご存知のように完全に決定的なシーケンスであり、その方程式も非常に単純です。

カオス理論は、類似性パターンをランダムに探すことではありません。カオス理論は、システムと不安定な動作を作成するシステムで小さなdisturbance乱が増幅するプロセスと動的な関係について学習することを伴いますが、このカオスでは何らかの形で安定したパターンが現れます。このクールなことはすべて、方程式自体の特性のために発生します。その後、研究者はこれらの方程式とそのシステムを研究します。これは、適用されるデータマイニングのマインドセットとは大きく異なります。

たとえば、混oticとしたシステムを学習しながら自己相似パターンについて話すことができ、データマイナーがパターンの検索についても話すことに気付くことができます。ただし、これらは「パターン」の概念を非常に異なって処理します。カオスシステムは、方程式からこれらのパターンを生成します。彼らは実際のシステムなどを観察することによって方程式のセットを考え出そうとするかもしれませんが、常にある時点で方程式を扱います。データマイナーは反対側から来て、システムの内部構造をあまり知らないか推測せずに、パターンを探します。これらの2つのグループが同じ実際のシステムやデータセットを見ることはないと思います。

もう1つの例は、フェイゲンバウムが有名な期間倍増分岐を作成するために使用した最も単純なロジスティックマップです。

ここに画像の説明を入力してください

バツn+1=rバツn1バツn


(+1)。カオスシステムの動作を決定する方程式を特定できる場合、その動作を完全に、またはそれに近い状態で予測できることを付け加えます。データマイニング/予測モデリングでR.2が0.5以上であることはほとんどありません。
rolando2

+1これは、私がしばらく準備していた返信を確実に補完するものであり、数時間後に投稿します。
SQLServerSteve

4

この質問に答えるためにカオス理論を読んだときに私が発見した最も奇妙なことは、データマイニングとその親がカオス理論を活用する公開された研究の驚くべき不足でした。これは、AB belambelの応用カオス理論:複雑さのパラダイムやAlligoodなどのChaos:An Introduction to Dynamical Systems(後者はソースブックとして非常に有用ですこのトピック)と彼らの書誌を襲撃します。結局、私は適格である可能性のある単一の研究を思い付くだけでした、そして私はこのエッジケースを含めるためだけに「データマイニング」の境界を広げなければなりませんでした:テキサス大学のチームで、ベロソフ・ザボチンスキー(BZ)反応(すでに非周期性の傾向があることがすでに知られている)の研究を行っているチームが、カオスパターンのために実験で使用されたマロン酸の不一致を偶然発見し、新しい探索を促すサプライヤー。[1] おそらく他にもあります-私はカオス理論の専門家ではなく、文献を徹底的に評価することはほとんどできません-しかし、物理学からの三体問題のような通常の科学的用途との厳しい不均衡は、すべてを列挙してもほとんど変わりません。実際、この質問が閉じられた暫定的に、「データマイニングおよび関連分野にカオス理論の実装がそれほど多くないのはなぜか」というタイトルで書き直すことを検討しました。これは、データマイニングおよび関連するアプリケーションに多数のアプリケーションが存在するべきであるという不明確でありながら広範な感情とは一致しませんニューラルネット、パターン認識、不確実性管理、ファジーセットなどのフィールド。結局のところ、カオス理論は多くの有用なアプリケーションを備えた最先端のトピックでもあります。私の検索が無意味で、私の印象が間違っている理由を理解するために、これらのフィールド間の境界がどこにあるのかを正確に長く考えなければなりませんでした。

; tldr回答

研究の数と期待からの逸脱におけるこの深刻な不均衡の簡単な説明は、カオス理論とデータマイニングなどが2つのきちんと分離されたクラスの質問に答えているという事実に帰することができます。それらの間の鋭い二分法は、一度指摘されると明らかですが、自分の鼻を見るのと同じように、気付かれないほど基本的です。カオス理論とデータマイニングのようなフィールドの相対的な新しさが実装の不足を説明しているという信念にはある程度の正当性があるかもしれませんが、これらのフィールドが明確に異なる側面に対処するため、これらのフィールドが成熟しても相対的な不均衡が持続すると予想できます同じコイン。これまでのほとんどすべての実装は、明確な出力を備えた既知の機能の研究であり、偶然にもいくつかの不可解なカオス収差を示していました。一方、データマイニングと、ニューラルネットや決定木のような個々の手法はすべて、未知または不十分に定義された関数の決定を伴います。同様に、パターン認識やファジーセットなどの関連フィールドは、その手段も明らかではない場合、未知または定義が不十分な関数の結果の組織として見ることができます。これにより、特定のまれな状況でのみ交差できる、実際に乗り越えられないキャズムが作成されますが、これらも単一のユースケースのルーブリックの下でグループ化できます:データマイニングアルゴリズムとの非周期的な干渉の防止。同様に、パターン認識やファジーセットなどの関連フィールドは、その手段も明らかではない場合、未知または定義が不十分な関数の結果の組織として見ることができます。これにより、特定のまれな状況でのみ交差できる、実際に乗り越えられないキャズムが作成されますが、これらも単一のユースケースのルーブリックの下でグループ化できます:データマイニングアルゴリズムとの非周期的な干渉の防止。同様に、パターン認識やファジーセットなどの関連フィールドは、その手段も明らかではない場合、未知または定義が不十分な関数の結果の組織として見ることができます。これにより、特定のまれな状況でのみ交差できる、実際に乗り越えられないキャズムが作成されますが、これらも単一のユースケースのルーブリックの下でグループ化できます:データマイニングアルゴリズムとの非周期的な干渉の防止。

カオスサイエンスワークフローとの非互換性

「カオスサイエンス」の典型的なワークフローは、分岐図、エノンマップ、ポアンカレ断面、位相図、位相軌跡などの位相空間の視覚的補助とともに、既知の関数の出力の計算分析を実行することです。研究者が計算実験に依存しているという事実は、カオス効果を見つけるのがいかに難しいかを示しています。通常、ペンと紙で判断できるものではありません。また、非線形関数でのみ発生します。このワークフローは、既知の機能を使用しない限り実行できません。データマイニングでは、回帰式、ファジー関数などが得られる可能性がありますが、それらはすべて同じ制限を共有しています。これらは、一般的な近似であり、エラーのウィンドウがはるかに広くなっています。対照的に、カオスの影響を受ける既知の機能は比較的まれであり、カオスパターンを生成する入力の範囲と同様に、カオス効果をテストする場合でも高度な特異性が必要です。未知の関数の位相空間に存在する奇妙なアトラクタは、定義や入力が変更されると確実にシフトまたは消失し、Alligoodなどの著者によって概説された検出手順を大幅に複雑にします。

データマイニング結果の汚染物質としてのカオス

実際、データマイニングとその関連物とカオス理論の関係は、実際には敵対的です。これは、暗号化スキームでカオスを活用することに関する少なくとも1つの研究論文に出くわしたことを考えると、暗号解析をデータマイニングの特定の形式として広く見る場合、文字通り当てはまります(現時点では引用を見つけることができませんが、リクエストに応じてダウンします)。データマイナーにとって、カオスの存在は通常悪いことです。なぜなら、無意味に見える値の範囲が出力するように見えるため、未知の関数を近似するすでに困難なプロセスが大幅に複雑になる可能性があるからです。データマイニングおよび関連フィールドでのカオスの最も一般的な使用法は、それを除外することです。混oticとした影響が存在するが検出されない場合、データマイニングベンチャーに対する影響を克服するのは困難です。普通のニューラルネットまたは決定木がカオスアトラクターの見かけ上無意味な出力をどれだけ簡単にオーバーフィットするか、または入力値の突然のスパイクが回帰分析を確実に混乱させ、不良サンプルまたは他のエラーの原因に帰着する可能性があることを考えてください。すべての関数と入力範囲の間でカオス効果が発生することはほとんどないため、実験者はそれらの調査の優先度を大幅に下げることになります。

データマイニング結果でカオスを検出する方法

カオス理論に関連する特定の尺度は、コルモゴロフエントロピーや位相空間が正のリアプノフ指数を示すという要件など、非周期的な効果を識別するのに役立ちます。これらはABҪambelの応用カオス理論で提供されているカオス検出のチェックリスト[2]の両方にありますが、ほとんどは既知の制限のある明確な関数を必要とするリアプノフ指数などの近似関数には役立ちません。それでも彼が概説する一般的な手順は、データマイニングの状況で役立つ可能性があります。アムベルの目的は、最終的に「カオス制御」、つまり干渉する非周期的効果を排除するプログラムです。[3]カオスにつながる分数次元を検出するためのボックスカウントおよび相関次元の計算など、他の方法は、データマイニングアプリケーションでは、リアプノフや彼のリストにある他の方法よりも実用的かもしれません。カオス効果のもう1つの明白な兆候は、関数の出力に周期の2倍(または3倍以上)のパターンが存在することです。これは、多くの場合、フェーズ図の非周期(つまり「カオス」)動作に先行します。

接線アプリケーションの差別化

この主なユースケースは、カオス理論に正接的にのみ関連するアプリケーションの別のクラスと区別する必要があります。よく見ると、私が質問で提供した「潜在的なアプリケーション」のリストは、カオス理論が依存する概念を活用するためのアイデアで構成されていましたが、非周期的な動作がない場合は独立して適用できます(期間の倍増は除く)。私は最近、局所的な最小値からニューラルネットワークをポップする非周期的な動作を生成する、新しい潜在的なニッチの使用を考えましたが、これも接線アプリケーションのリストに属します。それらの多くは、カオス科学の研究の結果として発見または肉付けされましたが、他の分野にも応用できます。これらの「接線アプリケーション」は、互いにファジーな接続のみを持ちながら、明確なクラスを形成します。データマイニングにおけるカオス理論の主なユースケースからハードな境界によって分離されています。前者は非周期的パターンなしでカオス理論の特定の側面を活用し、後者はデータマイニング結果の複雑な要因としてカオスを排除することに専念します。 。カオス理論とそれが正しく利用する他の概念を区別する場合、前者の応用は通常の科学研究で既知の機能に本質的に制限されていることがわかります。カオスのない状態でこれらの二次概念の潜在的な応用に興奮することには、本当に正当な理由があります。データマイニングが存在する場合、予期しない非周期的な動作がデータマイニングに及ぼす影響を心配する理由もあります。そのような場合はまれですが、その希少性は、それらが検出されないことを意味する可能性があります。Ҫambelの方法は、このような問題を防ぐのに役立つかもしれません。

[1] pp。143-147、Alligood、Kathleen T .; Sauer、Tim D.およびYorke、James A.、2010年、Chaos:An Introduction to Dynamical Systems、Springer:New York。[2] pp。208-213、Ҫambel、AB、1993、Applied Chaos Theory:A Paradigm for Complexity、Academic Press、Inc .: Boston。[3] p。215、アンベル。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.