統計とビッグデータ differential-privacy

ジャーナルScienceはForking Pathes Analysisの庭を支持していますか？

適応データ分析の考え方は、データの詳細を学習するにつれて、データ分析の計画を変更することです。探索的データ分析（EDA）の場合、これは一般に良いアイデアです（データに予期しないパターンを探すことが多い）が、確認研究では、これは非常に欠陥のある分析方法として広く受け入れられています（すべての場合を除く）手順が明確に定義され、高度に適切に計画されています）。そうは言っても、適応データ分析は通常、統計学者をがっかりさせるほど多くの研究者が実際に分析を行う数です。そのため、統計的に有効な方法でこれを行うことができれば、統計的実践に革命をもたらすでしょう。次のScienceの記事は、そのような方法を見つけたと主張しています（私はペイウォールをおizeびしますが、大学にいる場合はアクセスできる可能性が高い）：Dwork et al、2015、The reusable holdout：Preserving Validity in Adaptive Data Analysis。個人的には、私はScienceに掲載された統計記事について常に懐疑的でしたが、これも例外ではありません。実際、補足資料を含めて記事を2回読んだ後、著者が自分の方法が過剰適合を防ぐと主張する理由を（まったく）理解できません。私の理解では、彼らは再利用するホールドアウトデータセットを持っているということです。彼らは、ホールドアウトデータセットの確認分析の出力を「ファジング」することで主張しているようで、過剰適合は防止されます（トレーニングデータの計算された統計が十分に遠い場合、ファジングは単にノイズを追加しているように見えることに注意する価値があります）ホールドアウトデータの計算された統計から）。私の知る限り、これが過剰適合を防ぐ本当の理由はありません。著者が提案していることを間違えていますか？私が見落としている微妙な効果はありますか？それとも、科学はこれまで最悪の統計的実践を支持していたのでしょうか？

29 hypothesis-testing overfitting eda out-of-sample differential-privacy

「ラプラスノイズ」とはどういう意味ですか？

私は現在、Laplaceメカニズムを使用した差分プライバシーのアルゴリズムを書いています。残念ながら、私は統計の背景がないので、多くの用語は私には知られていない。だから今、私はラプラスノイズという言葉につまずきました。データセットの差分を非公開にするには、すべての論文で、ラプラス分布に従ってラプラスノイズを関数値に追加する方法について説明します。 k(X)=f(X)+Y(X)k(X)=f(X)+Y(X)k(X) = f(X) + Y(X) （kは微分プライベート値、fは評価関数による戻り値、Yはラプラスノイズ）これは、ウィキペディアhttps://en.wikipedia.org/wiki/Laplace_distributionから持っているこの関数に従って、ラプラス分布からランダム変数を作成することを意味しますか？ Y=μ−b sgn(U)ln(1−2|U|)Y=μ−b sgn(U)ln⁡⁡(1−2|U|) Y = μ − b\ \text{sgn}(U) \ln ⁡ ( 1 − 2 | U | ) 更新：上記の関数から最大100個のランダム変数をプロットしましたが、これではラプラス分布が得られません（近いものではありません）。しかし、私はそれがラプラス分布をモデル化すべきだと思います。 UPDATE2：それらは私が持っている定義です：（ラプラスのメカニズム）。関数与えられると、ラプラスメカニズムは次のように定義されます：ここで、YはLap（∆f / \ epsilon）から抽出されたiid確率変数ですf:N|X|→Rkf:N|X|→Rkf:N^{|X|}→R^kML(x,f(⋅),ϵ)=f(x)+(Y1,...,Yk)ML(x,f(·),ϵ)=f(x)+(Y1,...,Yk)M_L(x, f(·),\epsilon)=f(x)+(Y_1,...,Y_k)Lap(Δf/ϵ)Lap(∆f/ϵ)Lap(∆f/\epsilon) と同様： Y（X）を生成するための一般的な選択は、平均がゼロでΔ（f）/εスケールパラメーターを持つラプラス分布を使用することです。

9 random-generation laplace-distribution differential-privacy

タグ付けされた質問 「differential-privacy」

タグ付けされた質問「differential-privacy」