データの「構造」はブール代数に完全に依存していることを理解していますが、
なぜデータは連続的なものではなく、離散的な数学的実体と見なされるのですか?
これに関連する:
次元の連続したエンティティとしてデータを構造化する際に違反する欠点または不変条件は何ですか?
私は学部の数学の学生なので、この分野の専門家ではないので、誰かが私に5歳のように説明してくれたら本当に感謝しています。
データの「構造」はブール代数に完全に依存していることを理解していますが、
なぜデータは連続的なものではなく、離散的な数学的実体と見なされるのですか?
これに関連する:
次元の連続したエンティティとしてデータを構造化する際に違反する欠点または不変条件は何ですか?
私は学部の数学の学生なので、この分野の専門家ではないので、誰かが私に5歳のように説明してくれたら本当に感謝しています。
回答:
なぜデータは連続的なものではなく、離散的な数学的実体とみなされた
これは選択ではありませんでした。連続的で具体的な値をデジタルコンピューターで表現すること、または実際にあらゆる種類の計算で表現することは、理論上および実際上不可能です。
「離散」は「整数」またはそのようなものを意味しないことに注意してください。「離散」は「連続」の反対です。これは、非離散的なものを本当に格納できるコンピューターを使用するには、2つの数値a
とb
、abs(a-b) < ε
任意の小さい値のを格納できる必要があることを意味しますε
。もちろん、必要なだけ深くすることができます(より多くのストレージスペースを使用することで)が、すべての(物理)コンピューターには常に上限があります。何をするにしても、任意に細かく解決された数値を保存する(物理的な)コンピューターを作ることはできません。
数学的な構造(たとえばπ
)で数値を表現できる場合でも、これによって何も変わりません。グラフまたは数式を表すものを保存する場合、これは他のものと同じように離散的です。
残りは、コンピューターサイエンスの分野を超えたほんの少しの展望です。コメントが示したように、物理的なトピックは議論の余地のないものではなく、ご覧のとおり、次のパラグラフは、それが真実であるかどうかにかなりコミットしない方法で作成しました。「連続体」の概念は些細なものではないという動機として、それをもっと理解してください。上記の答えは、空間が離散的であるかどうかに依存しません。
これはすべてコンピューターの問題ではなく、「継続的」という意味の問題であることに注意してください。たとえば、宇宙が連続的であるということに誰もが同意したわけでも、過去に同意したわけでもありません(たとえば、プランクスケールは時空が離散的であることを意味しますか?)。いくつかの事柄(たとえば、電子のエネルギー状態や量子力学のその他多くの特徴)については、宇宙は連続的ではないことさえ知っています。他の人(例:ポジション...)については、審査員はまだ出ていません(少なくとも研究結果の解釈に関しては...)。(それが連続的であっても、任意の精度=>ハイゼンベルグなどで測定できないという問題にもかかわらず)。
数学では、連続体(つまり、実数)を調べると、メジャー理論のような多くの魅力的な側面が開かれます。
コンピューターは、データの断片を有限数のビット(ゼロと1)として表し、すべての有限ビット文字列のセットは離散的です。たとえば、実数を使用できるのは、それらの有限表現が見つかった場合のみです。たとえば、「このデータは数字対応します」と言うことができますが、πのすべての数字をコンピューターに保存することはできません。したがって、実数で動作するコンピュータープログラムは、実際にはRの離散サブセットでのみ動作します。
すべて実装中です。
考えてみると、コンピュータは本当に連続したデバイスです。これは、それらがどのように機能するかを支配するすべてのEM方程式が連続しているという事実によって簡単に示されます。個別のものは、これらのコンピューティングデバイスの使用方法を決定するために使用するモデルです。計算を記述するために使用する抽象マシンはすべて離散的です。
この大きな利点は、多くの品質管理の課題から独立していることです。コンピューターのモデルがトランジスターとコンデンサーの完全な連続性を活用している場合、すべてのトランジスターを非常にうまく構築することに注意する必要があります。これはオーディオの世界で見ることができます。世界のオーディオ愛好家が住んでいる、それは彼らが望む連続したことを正確に行う10非常に慎重に選択され、一致したトランジスタを持っているかもしれないアンプに2000 ドルを費やすことは合理的です。これとは対照的に、Core i7 CPUに搭載された1,400,000,000個のトランジスターは、400 ドルという莫大な費用がかかります。
計算モデルは離散的であるため、コンピューターに表示されるすべての信号を離散信号といくつかの連続誤差項としてモデル化できます。次に、離散信号の一部として適切な形状ではないことを観察するだけで、エラーを除外できます。
これの主要な部分は、抽象モデルの時間用語の削除です。私たちのモデルの多くは、物理的なプロセスに対する時間ではなく、クロックと呼ばれる「論理的な」信号に対する時間を測定します。クロックを中断すると、システムは停止しますが、故障しません。アナログエラーのクリアを終了し、クロックの次の離散パルスを待機します。連続時間項を削除すると、計算と計算に関する証明が大幅に簡素化されます。代わりに、アルゴリズムのPおよびNP分類に見られるように、時間の概念は離散的に測定されます。
なぜなら:
デジタルコンピューターは、任意の実数を格納できません。
アナログコンピューターは、熱ノイズ(電子の場合)、摩擦(機械的または油圧の場合)、外乱、温度変化に対する感度、避けられない不完全性および経年劣化に悩まされています。そのような困難に対処することが、(実験的な)物理学者とエンジニアの仕事です。ほとんどのコンピューターサイエンスでは、物理学を単純に抽象化します。
実際の計算に関するいくつかの論文は次のとおりです。
マークブレイバーマン、スティーブンクック、現実を越えたコンピューティング:科学コンピューティングの基礎、AMSの通知、2006年3月。
Mark Braverman、実関数の複雑さについて、arXiv:cs / 0502066。
Lenore Blum、実数上のコンピューティング:チューリングとニュートンの出会い、AMSの通知、2004年10月。
Vasco Brattka、実数の計算可能性の現実的なモデル、 2000年4月。
Vasco Brattka、Peter Hertling、Feasible real random access machines、1998年12月
Lenore Blum、Mike Shub、Steve Smale、実数の計算と複雑性の理論について:NP完全性、再帰関数、ユニバーサルマシン、AMSの報告、1989年7月
そして、ここにアナログ計算に関する論文があります:
この言葉data
はラテン語に由来し、datum
与えられたものを意味します。時間が経つにつれて、複数形は使用法を変え、現在では単数形と複数形の両方として一般的に使用されています。また、特に情報と関連付けられるようになりました。
情報の項目(データ)とその表現には違いがあることに注意してください。
情報理論は、(とりわけ)変数によって表される個別の情報を扱います。これらは可算エンティティです。たとえば、速度、位置、質量などはすべて連続的な量ですが、互いに離散しています。質量と位置の間には変換がありません。これらの数量が数値で表されている場合、それらのデータ項目は、表されていても、互いに離散しています。
一方、現在のコンピューターの大部分は、何らかの形式の電荷を使用して情報を表現しています。課金は存在するか、存在しないかのいずれかです。回路に電流が流れているか、流れていない。これも離散的ですが、そうである必要はありません!バイナリ表現を使用するのは、単に当社の技術が開発した方法のためです。量子コンピューティングの開発が近い将来これを変える可能性があります。また、アナログコンピューターが復活し、数字をバイナリで表す必要があるという概念が洗い流されることも考えられません。
要約data
すると、それぞれがデータである個別の情報項目で構成されています。一方、各データムは個別の数学を使用して表す必要はありませんが、現在は純粋に現代の偶然によるものです。
あなたの基本的な前提に挑戦したい:
なぜデータは連続的なものではなく、離散的な数学的実体と見なされるのですか?
そうではありません。
たとえば、アルゴリズムの研究はコンピューターサイエンスの重要なサブフィールドであり、連続データで機能する多くのアルゴリズムがあります。おそらく、2つの自然数の最大公約数を計算するユークリッドのアルゴリズムに精通しているでしょうが、ユークリッドには、2つの通約可能な線の最長共通測度を計算する同じアルゴリズムの幾何学的バージョンもあることをご存知ですか?これは、ユークリッドがこのように考えていなかったとしても、実数、つまり連続データに対するアルゴリズム(したがってコンピューターサイエンスの研究対象)の例です。
アルゴリズムを分類するにはさまざまな方法がありますが、使用される1つの方法は、アルゴリズムを「連続性」で分類することです。
他の回答では、コンピューターサイエンスのもう1つの重要なサブフィールドである計算可能性理論における実際の計算について既に言及しています。
唯一の本当の(非常に意図された)欠点は、そのようなデータを一般的なデジタルコンピューターで表現できないことです。連続データに対するアルゴリズムについて考えることはできますが、アルゴリズムを実行するために通常使用する標準的なマシンでは実行できません。
これが、連続データがデジタルデータほど「可視」ではない主な理由です。
ただし、アナログアルゴリズムの実装は、実際に想像したり構築したりするために複雑にする必要はありません。たとえば、これはアナログアルゴリズムの実装は次のようになりますことでアンドリュードレッセ -自分の仕事、CC BY-SA 3.0、リンク
データは常に離散と見なされるとは限りません。科学的プログラミングには、多くの場合、浮動小数点演算が含まれます。通常、プログラマーは、データが有限精度でのみ保存されるという事実に起因する数値の安定性の問題を念頭に置きながら、関連する変数が連続的であると見せかけます。
コンピューターサイエンスのデータは離散的であると見なされます。