私は例を書いて、いくつかのデータを作成しました。これが実際のデータではないことを読者に明確にしたいのですが、悪意のある印象を与えたくはありません。それは単なる例に過ぎないからです。
この特定のデータに(擬似)ランダムなコンポーネントはないため、「シミュレートされた」は適切ではないと思われます。架空または偽造と呼ぶと、それは不正なデータの印象を与えますか?「作り上げられた」という言葉は科学的な文脈に当てはまるでしょうか?
シミュレートされていない構成データの統計文献の用語は何ですか?
私は例を書いて、いくつかのデータを作成しました。これが実際のデータではないことを読者に明確にしたいのですが、悪意のある印象を与えたくはありません。それは単なる例に過ぎないからです。
この特定のデータに(擬似)ランダムなコンポーネントはないため、「シミュレートされた」は適切ではないと思われます。架空または偽造と呼ぶと、それは不正なデータの印象を与えますか?「作り上げられた」という言葉は科学的な文脈に当てはまるでしょうか?
シミュレートされていない構成データの統計文献の用語は何ですか?
回答:
おそらく、このデータを「合成」または「人工」と呼びますが、「シミュレーション」と呼ぶこともあります(シミュレーションは非常に単純です)。
自分のデータを架空のものとして参照したい場合、彼は今では有名なカルテットを表すのにフランシスアンスコムという用語を使用しているため、良い会社にいるでしょう。
FJアンスコームから(1973)。「統計分析のグラフ」、Am。統計 27(1):
これらのポイントのいくつかは、表に示す11個の(x、y)ペアで構成される4つの架空のデータセットによって示されます。
しかし、私のOED(v4)はこの架空の使用は時代遅れであることを示しているように見えるので、あなたの注意は適切に置かれていると思います
架空の、a。
(fɪkˈtɪʃəs)
[f。L.fictīci-us(f。fingĕreto fashion、feign)+ -ous:see -itious。]
1.1†a.1.aナチュラル(obs。)とは対照的な人工。b.1.b偽造、「模倣」、偽物; 本物ではない。
IT では、モックアップデータと呼ばれることが多く、モックアップ(アプリケーション)を介して表示できます。
モックアップデータは、完全に機能するアプリケーションを介して提示することもできます。たとえば、制御された方法でアプリケーションの機能をテストします。
「合成データ」という用語に対する繰り返しの提案を見てきました。ただし、その用語は広く使用されており、表現したいものとは非常に異なる意味を持っています:https : //en.wikipedia.org/wiki/Synthetic_data
一般的に受け入れられている科学用語があるかどうかはわかりませんが、「サンプルデータ」という用語は誤解しにくいようです。
「偽データ」という用語にかなりの量遭遇しました。私はそれがいくつかの否定的な意味合いを持つ可能性があると思いますが、私にとっては否定的にまったく登録されないほど頻繁に聞いたことがあります。
FWIW、アンドリュー・ゲルマンもそれを使用しています:
https://statmodeling.stat.columbia.edu/2009/09/04/fake-data_simul/
「偽のデータ」をすばやくGoogle検索すると、同様の用語を使用していると思われる多くの結果が表示されます。
https://scientistseessquirrel.wordpress.com/2016/03/10/good-uses-for-fake-data-part-1/
http://modernstatisticalworkflow.blogspot.com/2017/04/an-easy-way-to-simulate-fake-data-from.html
https://clayford.github.io/dwir/dwr_12_generated_data.html
さらに、fakeR
これが比較的一般的であることを示唆するパッケージもあります:https :
//cran.r-project.org/web/packages/fakeR/fakeR.pdf
データの使用方法に応じて、異なる単語を使用します。作成されたデータセットが存在していることを確認し、確認的な方法でアルゴリズムを示した場合、「合成」という言葉は問題ありません。
ただし、このタイプのデータを使用するたびに、アルゴリズムの機能を誇示することを目的としてデータを作成することがよくあります。言い換えれば、「良い結果」を得るという特定の目的のためのデータを発明しました。このような状況では、データに対する期待の説明とともに、「仕掛けられた」という用語が好きです。これは、アルゴリズムを私が見つけた任意の合成データセットを指し示していると誤解させたくないからです。アルゴリズムをうまく機能させるために、特に実際にデータを作成するために、厳選したデータがある場合は、そう言います。これは、そのような結果が私のアルゴリズムができる証拠を提供するからですうまく機能しますが、一般的にアルゴリズムがうまく機能することを期待できるという非常に弱い証拠のみを提供します。「工夫された」という言葉は、「良い結果」を念頭に置いてデータを選択したという事実をアプリオリにうまくまとめています。
「それは不正なデータの印象を与えますか?」
いや、しかし、すべてのデータセットのソースとを明確にすることが重要である、あなたのすべてのデータセットに対して、あなたの結果を報告する実験者としてアプリオリ期待。「詐欺」という用語には、何かを覆い隠したり、あからさまに嘘をついたという側面が明確に含まれています。科学における詐欺行為を回避するための一番の方法は、単にデータの性質と期待に正直かつ率直に対応することです。言い換えれば、データが作成されていて、なんらかの言い方をせず、データが作成されていない、またはさらに悪いことに、データが何らかの製造されていない種類で収集されていると主張する何らかの期待がある場合方法の場合、それは"詐欺"。そのことをしないでください。「合成された」など、「より良い」という「製造された」という用語の同義語を使用したい場合、だれもあなたを責めることはありませんが、同時に、あなた以外の違いに誰も気付かないと思います。
あまり明らかではないのは、実際には事後的な説明である先験的な期待があったと主張する状況です。これは、データの不正分析でもあります。
合成データの場合によくあるアルゴリズムの機能を「見せびらかす」目的でデータを選択すると、この危険があります。
あなたがやったことについて正直で率直である限り、これを行うことに問題はありません。「良い結果」を与えるデータセットを作成するために苦労した場合は、そうしてください。データ分析で行った手順を読者に知らせる限り、仮説の根拠となる証拠と反対の証拠を効果的に比較するために必要な情報が読者にあります。あなたが正直でないか、率直でない場合、これはあなたの証拠が実際よりも強いという印象を与えるかもしれません。証拠が実際よりも強く見えるようにするために、正直かつ率直に言ってあまり知られていないとき、それは確かに不正です。
いずれにせよ、これが、私がそのようなデータセットに対して「考案された」という用語を好む理由であり、それらが実際に仮説を念頭に置いて選択されているという簡単な説明もあります。「不自然」は、合成データセットを作成しただけでなく、データセットの作成前に仮説がすでに存在していたという事実を反映した特定の意図で作成したという意味を伝えます。
「合成」、「工夫された」、「製造された」、「架空の」など、好きな用語を使用してください。ただし、使用する用語は、結果が誤解を招かないようにするには不十分です。データへの期待や選択したデータを選択した理由など、データがどのように生成されたかについて、レポートで明確にしてください。
まず、「データセット」と呼ばない理由はありません。「偽物」対「シミュレートされた」対...のデータについては、普遍的に合意された用語はありません。目標が完全に明確である場合、このデータセットが何であるかを修飾するために、単語ではなく文を実際に捧げることが最善です。その後、指定を緩和して、データをデータとして参照することができます。
「合成」、「人工」は、私の心の中の他のMCMCサンプリングされた「シミュレートされた」データセットと区別しません。(適切なトレーニングが指示するように)固定シードで準乱数ジェネレーターを使用すると、合成データセットまたは人工データセットも作成されます。
確率モデルからインスタンスまたは実現を生成するのではなく、特定の図のデータセットをキュレーションするポイントであれば、そのようなデータセットを「サンプルデータセット」と呼ぶ方が良いと思います。これらのデータは、アンスコムのカルテットに似ています。完全に抽象的であり、妥当ではありませんが、ポイントを説明するためのものです。
生物学では、神話上の動物のデータセットを使用して分析が実証される場合があります。データがシミュレートされていることを明示的に述べるかどうかは、作成者/校閲者次第です。
2009年の動物モデルの生態学者ガイド
これらのチュートリアルでは、グリフォンの集団に関する一連の定量的遺伝分析について説明します(著者の鳥類と哺乳類のバイアスの妥協点を反映しています)。グリフォンは神話上の獣なので、提供されたデータは必然的にシミュレートされました。
固定効果の分散と再現性と遺伝率の推定:問題と解決策、2017
これを説明するために、ウィルソン(2008)のユニコーンデータセットに戻りましょう。ユニコーンでは、角の長さは個々の体重に応じて変化することが知られています(勾配:年齢、性別、およびそれらの相互作用を含む完全なモデルではβ= 0.403)。
直感的には、「Lorem ipsum ...」が「ダミーテキスト」と呼ばれるのと同じ意味で、「ダミーデータ」という用語に移動します。「ダミー」という言葉は非常に一般的であり、さまざまな背景の人々にとって理解しやすいため、統計的背景の低い読者によって誤解される可能性は低くなります。
データは与えられたラテン語であり、記録された事実の与えられたセットの速記として現代で使用されています。ですから、ある種の与えられた事実として加工された録音を参照するということは、オープンな矛盾です。
ただし、記録を単純に参照するためのデータの使用が増加しているため、事実の記録の元の推定値に関係なく、真実である場合とそうでない場合がある記録について話すとき、お互いを幸福に理解しています-したがって、実際の/偽のデータ。
製作された録音に対処する方法の私の経験を以下に要約します。使用されるラベルは、データを、さらなる分析を可能にするために適度に現実的に見えるように意図された加工記録としてデータを話しているのか、計算負荷としてデータを話しているのかによって異なります。