タグ付けされた質問 「metric」

メトリックは、セットの2つの要素間の距離を出力し、特定の厳密な基準を満たす関数です(一部の「距離」関数はメトリックではありません)。

3
距離計量と次元の呪い
あなたが多くのパラメータを持っているなら (x1,x2,…,xn)(x1,x2,…,xn)(x_1, x_2, \ldots, x_n)そして、これらのベクトル間の「類似性メトリック」を見つけようとすると、「次元の呪い」があるかもしれません。これは、ほとんどの類似性スコアが等しくなり、有用な情報を提供しないことを意味すると思います。言い換えると、ほとんどすべてのパートナーベクトルには中程度の距離スコアがあり、分類やクラスタリングなどには役立ちません。 それについて私がどこでより詳細に学ぶことができるか知っていますか? この影響を受けにくい指標はありますか?

2
Mean(X / Y)とMean(X)/ Mean(Y)の使用法
XとYの2つの列を持つテーブルがあります。各行は、インスタンスの集計統計を表します。新しい列をZ = X / Yとして紹介します。これは、インスタンスに関するもう1つの重要な情報です。ここで、インスタンスの全体的な統計(つまり、平均)を提示したいと思います。 ここで私は懸念があります:Zの平均を表すために、Mean(X / Y)とMean(X)/ Mean(Y)のどちらを使用すればよいですか?単に、Z = X / YだからといってMean(X / Y)かもしれません。 しかし、私には2つの懸念があります。 Mean(Y)* Mean(Z)!= Mean(X); それは人々が数字を信頼するのを難しくします。 Mean(X / Y)とMean(X)/ Mean(Y)の違いは重要です。違い自体が統計的に意味のある何かを伝えますか? //ケースを更新します。 テーブルは、システム上のユーザーレコードを保持します。ユーザーはそれにデータをアップロードできます。 X:アップロードの数 Y:アップロードの量 Z:Y / X; アップロードあたりのボリューム 私がやりたいのは、そのようなシステムを、実際と同じようなワークロードでシミュレートすることです。 X '= Mean(X)およびZ' = Mean(Z)を使用して、ユーザーのN個のインスタンスを作成します(Nは大きすぎません)。 したがって、シミュレーション中に、各ユーザーは合計量のデータをアップロードします:(X ')*(Z')。 次に、シミュレーション結果を集計すると、Mean(Y ')!= Mean(Y)になります。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.