(私は統計学者ではないので、これに何をタグ付けするかはわかりません。これがどのフィールドに該当するかわかりません。さらに適切なタグを追加してください。)
私はデータ分析ソフトウェアを製造している会社で働いています。最新の製品をテストしてデモするための適切なデータセットが必要です。プログラムの出力が無意味になるため、乱数ジェネレータの出力をデータベースに入力することはできません。そのようなデータを取得する最も簡単な方法の1つはクライアントからです。実行した試験からの大量のデータがあります。さて、明らかにクライアントの実際のデータを公開することはできないため、少し変更する必要がありますが、実際のデータのように動作する必要があります。
ここでの目的は、一連のデータを取得し、「ファズ」を適用して、具体的にそれらのデータとして認識されないようにすることです。私の統計理論の記憶自体は少しあいまいなので、皆さんがこれを実行したいと思います。
基本的に、(クライアントから)取得したデータは、それ自体が(国または世界に)存在するすべてのデータのサンプルです。私が知りたいのは、サンプルをクライアントのサンプル母集団を強く代表しなくても、世界の母集団を大まかに代表したままにするために適用できる操作の種類です。
参考までに、私たちが知っている限り、私たちが持っているデータは一般的に大まかな正規(ガウス)分布に従います。
元のデータセットは広く利用可能ではありませんが、理論的にはいくつかの地域固有の特性から認識できます(これらの特性が何であるかは不明であり、誰かが十分なレベルに達しているかどうかは疑わしいですが、場所によって変動が存在することがわかっています)場所へ)。とにかく、実践よりもこの理論に興味があります。操作によって、パラメータXでソースデータセットを特定することが不可能(または少なくとも困難)であるかどうか、誰かが持っているかどうかがわかりますそもそもパラメータX。
私が思いついたアプローチは、読み取り値をさまざまなタイプに分離することです(多くのことを与えることなく、グループは「長さ」または「Xを実行するのにかかる時間」であるとしましょう。)それぞれについて、計算します標準偏差。次に、各値に、(n * stddev)の正と負の値の間にランダムな値を追加します。nは、データが十分に「ファジー」されるまで結果を調整するために使用できる小数です。一部の値は他の値よりも大幅に変動するため、静的範囲(たとえば、元の値の90%から110%の間でランダム)を単に適用したくありませんでした。一部の測定では、平均の10%はほとんど目立たない、しかし他の人ではそれはあなたを深刻な外れ値にします。
これは、元のデータのソースをマスクするのに十分ですか?そうでない場合、どの統計的測定によってデータは依然として識別可能であり、結果のデータを漠然と現実的に保ちながら、それらをどのようにマスクしますか?