統計とビッグデータ metric

距離計量と次元の呪い

あなたが多くのパラメータを持っているなら (x1,x2,…,xn)(x1,x2,…,xn)(x_1, x_2, \ldots, x_n)そして、これらのベクトル間の「類似性メトリック」を見つけようとすると、「次元の呪い」があるかもしれません。これは、ほとんどの類似性スコアが等しくなり、有用な情報を提供しないことを意味すると思います。言い換えると、ほとんどすべてのパートナーベクトルには中程度の距離スコアがあり、分類やクラスタリングなどには役立ちません。それについて私がどこでより詳細に学ぶことができるか知っていますか？この影響を受けにくい指標はありますか？

8 distance similarities metric

Mean（X / Y）とMean（X）/ Mean（Y）の使用法

XとYの2つの列を持つテーブルがあります。各行は、インスタンスの集計統計を表します。新しい列をZ = X / Yとして紹介します。これは、インスタンスに関するもう1つの重要な情報です。ここで、インスタンスの全体的な統計（つまり、平均）を提示したいと思います。ここで私は懸念があります：Zの平均を表すために、Mean（X / Y）とMean（X）/ Mean（Y）のどちらを使用すればよいですか？単に、Z = X / YだからといってMean（X / Y）かもしれません。しかし、私には2つの懸念があります。 Mean（Y）* Mean（Z）！= Mean（X）; それは人々が数字を信頼するのを難しくします。 Mean（X / Y）とMean（X）/ Mean（Y）の違いは重要です。違い自体が統計的に意味のある何かを伝えますか？ //ケースを更新します。テーブルは、システム上のユーザーレコードを保持します。ユーザーはそれにデータをアップロードできます。 X：アップロードの数 Y：アップロードの量 Z：Y / X; アップロードあたりのボリューム私がやりたいのは、そのようなシステムを、実際と同じようなワークロードでシミュレートすることです。 X '= Mean（X）およびZ' = Mean（Z）を使用して、ユーザーのN個のインスタンスを作成します（Nは大きすぎません）。したがって、シミュレーション中に、各ユーザーは合計量のデータをアップロードします：（X '）*（Z'）。次に、シミュレーション結果を集計すると、Mean（Y '）！= Mean（Y）になります。

7 interpretation metric

タグ付けされた質問 「metric」

タグ付けされた質問「metric」