構成データのベストターム?


23

私は例を書いて、いくつかのデータを作成しました。これが実際のデータではないことを読者に明確にしたいのですが、悪意のある印象を与えたくはありません。それは単なる例に過ぎないからです。

この特定のデータに(擬似)ランダムなコンポーネントはないため、「シミュレートされた」は適切ではないと思われます。架空または偽造と呼ぶと、それは不正なデータの印象を与えますか?「作り上げられた」という言葉は科学的な文脈に当てはまるでしょうか?

シミュレートされていない構成データの統計文献の用語は何ですか?


9
いくつかの答えにまたがるコメントを追加するだけです。「合成」は、可能な限り現実的に見えるようにしようとする構成データの良い言葉ですが、「モックアップ」は、特定の何かを示すために作られたデータを提案します。たとえば、「モックアップ」データには、外れ値を適切に処理することがいかに重要であるかを示すために、不合理な外れ値が含まれている場合があります。
コートアンモン-モニカの復職

私は個人的に「シミュレート」という用語を好み、統計文献で最も出会っています(つまり、「モデルとX、Y、Zを比較するためにシミュレーションを実施しました...」
Samir Rachid Zaim

回答:


45

おそらく、このデータを「合成」または「人工」と呼びますが、「シミュレーション」と呼ぶこともあります(シミュレーションは非常に単純です)。


30
「おもちゃのデータ」、「おもちゃの例」、「ダミーのデータ」が聞こえます。また、乱数がない場合でも「シミュレートされた」がうまく適合する可能性があることに同意します。
rolando2

7
「具体的なデータ」または「サンプルデータ」になることがあり、作業
ヘンリー

8
+1「合成データ」と「おもちゃの例」はどちらも、「構築された例」のように、機会が生じた場合に使用する用語です。特に、例が特定の機能を持つように明示的に構築された場合(たとえば、誤った概念に対する反例として設計された場合)、「説明的な例」または同様のことを言うことがあります。
Glen_b-モニカの復職

1
私は、何かを実証するために「乱用」する実際の(測定された)データセットに、玩具データ人工またはシミュレートなし)を使用する傾向があります。
cbeleitesは

1
最適な機能はアプリケーションに少し依存します。たとえば、「偽の」データを使用したプロジェクトも行っていますが、プロジェクトの別の部分では、コンピューターモデルのシミュレーションを使用しています。そのため、読者が私に偽のデータを「シミュレートされた」と呼ぶことを混乱させる可能性があり、誤ってデータがシミュレーションから来ていることを暗示しています。そのため、私は「人工」に頼ってきましたが、データを「製造済み」と表現することもあります。個人的には、この用語は、データが他のデータソースの何らかの組み合わせであることを意味する「合成」を避けます(たとえば、データAとデータBの「合成」)。
セフ

12

自分のデータを架空のものとして参照したい場合、彼は今では有名なカルテットを表すのにフランシスアンスコムという用語を使用しているため、良い会社にいるでしょう。

FJアンスコームから(1973)。「統計分析のグラフ」、Am。統計 27(1):

これらのポイントのいくつかは、表に示す11個の(x、y)ペアで構成される4つの架空のデータセットによって示されます。

しかし、私のOED(v4)はこの架空の使用は時代遅れであることを示しているように見えるので、あなたの注意は適切に置かれていると思います

架空の、a。

(fɪkˈtɪʃəs)

[f。L.fictīci-us(f。fingĕreto fashion、feign)+ -ous:see -itious。]

1.1†a.1.aナチュラル(obs。)とは対照的な人工。b.1.b偽造、「模倣」、偽物; 本物ではない。


読みやすさの点では、最初の提案とコメントがはるかに優れた代替案です。珍しい、複雑な単語を使用する必要はありません。
ティム

1
@ティム:私は同意したいが、私が何に同意するかは完全にはわからない。似たような状況で以前に使用されたことがあるにもかかわらず、架空のものは悪い選択だと言っていますか?それは私が言っていることだからです。
AkselA

7

IT では、モックアップデータと呼ばれることが多く、モックアップ(アプリケーション)を介して表示できます。

モックアップデータは、完全に機能するアプリケーションを介して提示することもできます。たとえば、制御された方法でアプリケーションの機能をテストします。


5
良い点ですが、モックアップデータとシミュレーションデータはまったく同じではないと思います。単体テスト用のモックアップデータを作成する場合、必要なのは実際のデータの非常に基本的なプロパティを保持することだけです。一方、統計分析にシミュレーションデータを使用する場合、通常、より洗練されたデータ例を使用します。
ティム

2
それでも、ErikEが正しいと信じています。分析コードを書くときは、本物かモックデータが必要です。モックデータは、イモにしたいだけの大きさにすることができます。
マティス・セガース

1
おそらく、用語の使用法と同様に慣行は異なると思います。テストと分析の多くでは、セキュリティと匿名性の理由で「デフューズ」されたライブデータを使用します。他の人のために、私たちはティムが説明するように、必要最低限​​のデータを作成します。強い意見はありませんが、モックアップという用語はかなり大まかに使用しています。
ErikE

3

「合成データ」という用語に対する繰り返しの提案を見てきました。ただし、その用語は広く使用されており、表現したいものとは非常に異なる意味を持っています:https : //en.wikipedia.org/wiki/Synthetic_data

一般的に受け入れられている科学用語があるかどうかはわかりませんが、「サンプルデータ」という用語は誤解しにくいようです。


1
その記事は少し混乱しているように見えます。匿名化との関係は非常に希薄です。
マットクラウス

+1しかし、私は以前のコメントに同意します:2番目の段落(合成データは匿名化されたデータの一種であると言う)を除いて、Wikipediaの記事の残りの部分は質問者が望むものを説明しているようです。すなわち、リアルに見える構成データ。
ダレン・クック

3

「偽データ」という用語にかなりの量遭遇しました。私はそれがいくつかの否定的な意味合いを持つ可能性があると思いますが、私にとっては否定的にまったく登録されないほど頻繁に聞いたことがあります。

FWIW、アンドリュー・ゲルマンもそれを使用しています:

https://statmodeling.stat.columbia.edu/2009/09/04/fake-data_simul/

https://statmodeling.stat.columbia.edu/2019/03/23/yes-i-really-really-really-like-fake-data-simulation-and-i-cant-stop-talking-about-it/

https://books.google.dk/books?id=lV3DIdV0F9AC&pg=PA155&lpg=PA155&dq=fake+data+simulation&source=bl&ots=6ljKB6StQ4&sig=ACfU3U17GLP_84q_HfIQB4u5O6wV0yA2Aw&hl=en&sa=X&ved=2ahUKEwiF2_eB0uvjAhWswcQBHSn5Cn04ChDoATAAegQICRAB#v=onepage&q=fake%20data%20simulation&f=false

「偽のデータ」をすばやくGoogle検索すると、同様の用語を使用していると思われる多くの結果が表示されます。

https://scientistseessquirrel.wordpress.com/2016/03/10/good-uses-for-fake-data-part-1/

http://modernstatisticalworkflow.blogspot.com/2017/04/an-easy-way-to-simulate-fake-data-from.html

https://clayford.github.io/dwir/dwr_12_generated_data.html

さらに、fakeRこれが比較的一般的であることを示唆するパッケージもあります:https : //cran.r-project.org/web/packages/fakeR/fakeR.pdf


2

データの使用方法に応じて、異なる単語を使用します。作成されたデータセットが存在していることを確認し、確認的な方法でアルゴリズムを示した場合、「合成」という言葉は問題ありません。

ただし、このタイプのデータを使用するたびに、アルゴリズムの機能を誇示することを目的としてデータを作成することがよくあります。言い換えれば、「良い結果」を得るという特定の目的のためのデータを発明しました。このような状況では、データに対する期待の説明とともに、「仕掛けられた」という用語が好きです。これは、アルゴリズムを私が見つけた任意の合成データセットを指し示していると誤解させたくないからです。アルゴリズムをうまく機能させるために、特に実際にデータを作成するために、厳選したデータがある場合は、そう言います。これは、そのような結果が私のアルゴリズムができる証拠を提供するからですうまく機能しますが、一般的にアルゴリズムがうまく機能することを期待できるという非常に弱い証拠のみを提供します。「工夫された」という言葉は、「良い結果」を念頭に置いてデータを選択したという事実をアプリオリにうまくまとめています。

「それは不正なデータの印象を与えますか?」

いや、しかし、すべてのデータセットのソースとを明確にすることが重要である、あなたのすべてのデータセットに対して、あなたの結果を報告する実験者としてアプリオリ期待。「詐欺」という用語には、何かを覆い隠したり、あからさまに嘘をついたという側面が明確に含まれています。科学における詐欺行為を回避するための一番の方法は、単にデータの性質と期待に正直かつ率直に対応することです。言い換えれば、データが作成されていて、なんらかの言い方をせず、データが作成されていない、またはさらに悪いことに、データが何らかの製造されていない種類で収集されていると主張する何らかの期待がある場合方法の場合、それ"詐欺"。そのことをしないでください。「合成された」など、「より良い」という「製造された」という用語の同義語を使用したい場合、だれもあなたを責めることはありませんが、同時に、あなた以外の違いに誰も気付かないと思います。

サイドノート:

あまり明らかではないのは、実際には事後的な説明である先験的な期待があったと主張する状況です。これは、データの不正分析でもあります。

合成データの場合によくあるアルゴリズムの機能を「見せびらかす」目的でデータを選択すると、この危険があります。

DHHDD

HDHD

あなたがやったことについて正直率直である限り、これを行うことに問題はありません。「良い結果」を与えるデータセットを作成するために苦労した場合は、そうしてください。データ分析で行った手順を読者に知らせる限り、仮説の根拠となる証拠と反対の証拠を効果的に比較するために必要な情報が読者にあります。あなたが正直でないか、率直でない場合、これはあなたの証拠が実際よりも強いという印象を与えるかもしれません。証拠が実際よりも強く見えるようにするために、正直かつ率直言ってあまり知られていないとき、それは確かに不正です

いずれにせよ、これが、私がそのようなデータセットに対して「考案された」という用語を好む理由であり、それらが実際に仮説を念頭に置いて選択されているという簡単な説明もあります。「不自然」は、​​合成データセットを作成しただけでなく、データセットの作成前に仮説がすでに存在していたという事実を反映した特定の意図で作成したという意味を伝えます。

ADx.y

tl; dr

「合成」、「工夫された」、「製造された」、「架空の」など、好きな用語を使用してください。ただし、使用する用語は、結果が誤解を招かないようにするには不十分です。データへの期待や選択したデータを選択した理由など、データがどのように生成されたかについて、レポートで明確にしてください。


ここでの答えは重複しており、ほぼすべてが良い点を示していますが、これは、単一の用語がすべての読者にデータを作成する意図を伝えないというキーポイントを最もよく伝えると思います。理由は、単に適切であるだけでなく、怠iness(貧弱な入門テキスト)を介して目的に不可欠なものから、不正行為や詐欺にまで及びます。なぜそれをある程度行っているのかを説明するのは良い考えかもしれません。
ニックコックス

...理由...
ニックコックス

1

まず、「データセット」と呼ばない理由はありません。「偽物」対「シミュレートされた」対...のデータについては、普遍的に合意された用語はありません。目標が完全に明確である場合、このデータセットが何であるかを修飾するために、単語ではなく文を実際に捧げることが最善です。その後、指定を緩和して、データをデータとして参照することができます。

「合成」、「人工」は、私の心の中の他のMCMCサンプリングされた「シミュレートされた」データセットと区別しません。(適切なトレーニングが指示するように)固定シードで準乱数ジェネレーターを使用すると、合成データセットまたは人工データセットも作成されます。

確率モデルからインスタンスまたは実現を生成するのではなく、特定の図のデータセットをキュレーションするポイントであれば、そのようなデータセットを「サンプルデータセット」と呼ぶ方が良いと思います。これらのデータは、アンスコムのカルテットに似ています。完全に抽象的であり、妥当ではありませんが、ポイントを説明するためのものです。


1

生物学では、神話上の動物のデータセットを使用して分析が実証される場合があります。データがシミュレートされていることを明示的に述べるかどうかは、作成者/校閲者次第です。

2009年の動物モデルの生態学者ガイド

これらのチュートリアルでは、グリフォンの集団に関する一連の定量的遺伝分析について説明します(著者の鳥類と哺乳類のバイアスの妥協点を反映しています)。グリフォンは神話上の獣なので、提供されたデータは必然的にシミュレートされました。

固定効果の分散と再現性と遺伝率の推定:問題と解決策、2017

これを説明するために、ウィルソン(2008)のユニコーンデータセットに戻りましょう。ユニコーンでは、角の長さは個々の体重に応じて変化することが知られています(勾配:年齢、性別、およびそれらの相互作用を含む完全なモデルではβ= 0.403)。


1
興味深いアプローチ!これは、生物学の学生の統計を教えるのに最適だと思います。公共かかわらを提示すると、私は、これは正しい印象オフに与えることになるかわからないんだけど
フランス・ローデンブルク

0

直感的には、「Lorem ipsum ...」が「ダミーテキスト」と呼ばれるのと同じ意味で、「ダミーデータ」という用語に移動します。「ダミー」という言葉は非常に一般的であり、さまざまな背景の人々にとって理解しやすいため、統計的背景の低い読者によって誤解される可能性は低くなります。


2
回帰コンテキストの場合、ダミーデータをエンコードするダミー変数がないように、「ダミー」のオーバーロードを避けます。
マットクラウス

私は同意します、「ダミー」にはすでに回帰の意味合いが含まれているので、個人的にそれを避けるでしょう。利用可能な用語が豊富にあることを考えると、人々によって異なることを意味する可能性のある用語を避けるのがおそらく最善です。
サミールラキドザイム

0

データ与えられたラテン語であり、記録された事実の与えられたセットの速記として現代で使用されています。ですから、ある種の与えられた事実として加工された録音を参照するということは、オープンな矛盾です。

ただし、記録を単純に参照するためのデータの使用が増加しているため、事実の記録の元の推定値に関係なく、真実である場合とそうでない場合がある記録について話すとき、お互いを幸福に理解しています-したがって、実際の/偽のデータ。

製作された録音に対処する方法の私の経験を以下に要約します。使用されるラベルは、データを、さらなる分析を可能にするために適度に現実的に見えるように意図された加工記録としてデータを話しているのか、計算負荷としてデータを話しているのかによって異なります。

  • 分析/データサイエンス/戦略的コンサルタントサークルでは、現実的な仮定の下で生成された記録のセットを、合成データとして、場合によってはシミュレートされたデータとして、最も頻繁に対処します。粗雑な仮定を使用して作成された製造記録は、おもちゃのデータセットと呼ばれます。
  • ソフトウェアエンジニア、の中で偽のデータダミーデータ作らアップのデータモックアップのデータは主年齢データは常に数値である(必ずしも現実的な性質を持っていることを意味するものではない録音へのヒントが、唯一の元のデータとの基本的な性質を共有していることを頻繁にラベルがあります、メールアドレスは常に「@」を含む文字列です。
  • 学術研究者は、作成された記録の現実的なセットを擬似データまたはシミュレートされたデータと呼びます。一部のサークルでは、作成された一連の観測値がモンテカルロシミュレーションの結果である場合、通称でモンテカルロと呼ばれることがあります。半現実的な記録は、一般的に説明目的や代替仮説のテストに使用され、おもちゃのデータセットと呼ばれます

2
「モンテカルロ」はメソッドの名前であるため、「口語的な」名前は非常に誤解を招く可能性があります。
ティム

@Timは確かに、誤解を招くように見えるかもしれません。ただし、言語は、何かを参照する方法として、コミュニティのコンセンサスに基づいたツールにすぎません。このサイトでは、与えられた録音と測定(ラテン語データは英語)を参照しています。私があなたの視点を採用するとしたら、非常に疑わしいものとして、シミュレートされた測定値を偽物として扱うことになります。
ファマルガー

「モンテカルロシミュレーション」を単に「モンテカルロ」と呼ぶのは、「与えられた観測」を「与えられた」と呼ぶ現代版であることがおわかりいただけると思います。答えを編集して、これと、「データ」という言葉の意味と実際の使用法のより多くの考慮事項を取り入れました。
ファマルガー

1
「学術研究者は、偽造された記録の現実的なセットを最も頻繁に擬似データと呼びます」:40年以上の学術研究でこの用語を見たことは今まで覚えていません。「アカデミックは通常、非現実的な録音には役に立たない」:申し訳ありませんが、それはまったく間違っているようです。多くの多くの分野の学者は、いくつかの異なる種類のシミュレーションを使用しています。非現実的なシミュレーションも有用です。たとえば、正常なサンプルの変動性は、非正常性を評価するための重要なコンテキストです。
ニックコックス

@NickCox疑似データは物理学で頻繁に使用されており、生物学や統計で見ました。あなたの分野が何であり、あなたの分野がどのようにシミュレーションを参照しているかを知りたいです。非現実的なデータについては、非現実的なデータと半現実的なデータを区別しました。ユースケースを見逃しましたか?
ファマルガー
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.