複数の変数から品質のインデックスを作成してランクの順序付けを可能にする

22

4つの数値変数があります。それらはすべて土壌の品質の尺度です。変数が大きいほど、品質が高くなります。それらすべての範囲は異なります：

1から10までのVar1

1000から2000までのVar2

150から300までのVar3

0から5までのVar4

4つの変数を組み合わせて、順序を正常にランク付けする単一の土壌品質スコアにする必要があります。

私の考えはとても簡単です。4つの変数すべてを標準化し、それらを合計します。得られるものは、ランク付けする必要があるスコアです。このアプローチの適用に問題はありますか？あなたがお勧めする他の（より良い）アプローチはありますか？

ありがとう

編集：

みんなありがとう。「ドメインの専門知識」については多くの議論が行われました...農業関連...一方で、より多くの統計情報が期待されていました。私が使用するテクニックに関しては、おそらく実験として単純なzスコアの合計+ロジスティック回帰になります。サンプルの大部分の品質が90％低いため、3つの品質カテゴリを1つにまとめ、基本的にバイナリの問題（品質が同じか品質が低いか）を考えます。私は1つの石で2羽の鳥を殺します。イベントレートの観点からサンプルを増やし、サンプルを分類してもらうことで専門家を活用しています。その後、専門家の分類されたサンプルを使用して、log-regモデルに適合させ、専門家との一致/不一致のレベルを最大化します。

ranking valuation

— user333
ソース

19

提案されたアプローチは合理的な結果をもたらすかもしれませんが、偶然によってのみです。この距離で、つまり、変数の意味を偽装して、額面通りに質問を行うと、いくつかの問題が明らかになります。

各変数が「品質」と正に関連していることさえ明らかではありません。 たとえば、「Var1」の10が「品質」を意味する場合、Var1が1のときの品質よりも悪いでしょうか？そして、それを合計に追加することは、できる限り間違ったことです。減算する必要があります。
標準化は、「品質」がデータセット自体に依存することを意味します。したがって、定義は、異なるデータセットまたはこれらのデータの追加と削除によって変更されます。 これにより、「品質」を任意の一時的な非目的の構成にし、データセット間の比較を排除できます。
「品質」の定義はありません。 それはどういう意味ですか？汚染された水の移動をブロックする能力？有機プロセスをサポートする能力？特定の化学反応を促進する能力？これらの目的の1つに適した土壌は、他の土壌に特に悪い場合があります。
前述の問題には目的がありません。 なぜ「品質」をランク付けする必要があるのですか？ランキングは、より多くの分析への入力、「最良の」土壌の選択、科学的仮説の決定、理論の開発、製品の宣伝に使用されますか？
ランキングの結果は明らかではありません。 ランキングが不正確または劣っている場合、どうなりますか？世界は飢え、環境はより汚染され、科学者はより誤解し、庭師はより失望するでしょうか？
変数の線形結合が適切なのはなぜですか？ なぜそれらを掛け算やべき乗、あるいは組み合わせて、共語やもっと難解なものにすべきではないのでしょうか？
通常、未処理の土壌品質の尺度は再表現されます。たとえば、通常、対数透過性は透過性自体よりも有用であり、対数水素イオン活性（pH）は活性よりもはるかに有用です。 「品質」を決定するための変数の適切な再表現とは何ですか？

土壌科学がこれらの質問のほとんどに答え、変数の適切な組み合わせが「品質」の客観的な感覚にどのようなものになるかを示すことを望みます。そうでない場合、多属性評価の問題に直面します。ウィキペディアの記事には、これに対処するための多数の方法がリストされています。私見、それらのほとんどは科学的な質問に対処するには不適切です。確固たる理論と経験的問題への適用可能性を持つ数少ないものの1つは、キーニー＆ライファの複数属性評価理論です（MAVT）。変数の2つの特定の組み合わせについて、どちらが上位にランクされるかを決定できる必要があります。このような比較の構造化されたシーケンスにより、（a）値を再表現する適切な方法が明らかになります。（b）再表現された値の線形結合が正しいランキングを生成するかどうか。（c）線形結合が可能な場合、係数を計算できます。つまり、特定のケースを比較する方法をすでに知っている場合、MAVTは問題を解決するアルゴリズムを提供します。

— ヒューバー
ソース

RE：1. 4つの変数すべてについて、「数値が大きいほど、品質が高い」ことは確かです。RE：2.良い点。2つのデータセットを比較可能にするためにできること

— -user333

2

@user私の推奨事項は最後の段落にあります。科学文献で「品質」の定量的表現を見つけてください。それがなければ、MAVTを適用します。どちらも、データセットに依存しない固定式を生成します。それは比較可能性を保証します。

— whuber

1

@whuber、これを利用可能な情報に基づいて形成的な尺度を作成する問題と見なすことはできませんか？

— アンディW

3

@Andy「形式的尺度」と「入手可能な情報」の意味を説明してください。// 農業に対する土壌適合性の多くの尺度は単調でさえなく、はるかに線形ではないことを指摘する必要があります：たとえば、植物はpHの範囲内で繁栄するが、どちらの方向でもこの範囲を超えるpHで苦しむ可能性があります。土壌特性の単純な線形結合が農業品質と客観的な関係を持っている場合、それは確かに特別な状況です。

— whuber

2

@Andyは、「品質」が土壌サンプルのランク付けに使用される数値であると仮定すると、間違いなく問題は個別の決定の1つです。属性と、どちらがより良い品質ですか？属性の望ましい組み合わせを作成するために、品質とは何かを知る必要があることは正しいです。私が取ったアプローチでは、品質の独立した評価（回帰または応答曲面モデリングの状況になる）がないと仮定していますが、これらの比較は妥当な精度で行うことができます。

(y_{1}, \dots, y_{k})

$(y_1, \ldots, y_k)$

(x_{1}, \dots, x_{k})

$(x_1, \ldots, x_k)$

— whuber

3

誰もがラッセル・G・コンガルトンの「リモートセンシングデータの分類の精度を評価するレビュー」1990？を見ました。これは、変化する行列のエラー行列として知られる手法、また彼が使用する「データの正規化」という用語について説明しています。これにより、すべての異なるベクトルを取得し、「正規化」するか、0から1に等しく設定します。等しい範囲は0〜1です。

— ラグス・パガニーニ
ソース

0

あなたが議論しなかったもう一つのことは、測定のスケールです。V1とV5はランク順になっているように見えますが、他はそうではないようです。そのため、標準化はスコアを歪める可能性があります。したがって、すべての変数をランクに変換し、各変数の重みを決定する方が適切な場合があります。同じ重みを持つ可能性は非常に低いからです。均等な重み付けは、「何もしない」デフォルトです。いくつかの相関分析または回帰分析を行って、いくつかのアプリオリな重みを考え出すことができます。

— ラルフ・ウィンターズ
ソース

相関分析を使用して重量を決定するにはどうすればよいですか？

— user333

すでに専門家の意見など、品質の既存の全体的な尺度がある場合（または他の変数をこのプロキシとして受け入れることを希望している場合）、最高の相関変数を選択し、最高の重みを与えることができます。

— ラルフ冬

-3

Ralph Wintersの回答をフォローアップすると、適切に標準化されたスコアのマトリックスでPCA（主成分分析）を使用できます。これにより、将来のスコアを結合するために使用できる「自然な」重みベクトルが得られます。

すべてのスコアがランクに変換された後にもこれを実行します。結果が非常に類似している場合は、いずれかの方法を続行する正当な理由があります。矛盾がある場合、これは興味深い質問とより良い理解につながります。

— ハンス・エングラー
ソース

4

同意しません。好奇心のためのアイテム間の相関に関心がある可能性が高い一方で、すべての変数は直交していても品質に貢献している可能性があります。馬鹿げた例として、南極の土壌は最適な窒素含有量を持っているかもしれませんが、適切な気候としては十分だとは思いません。

— アンディW

@Andy W：その場合、すべての変数に均等に重み付けする必要があり、PCAがそれを教えてくれます。また、主要なコンポーネントは、スコアマトリックスの全体的な変動性の比較的小さな部分しか占めていないこともわかります。

— ハンスエングラー

3

私はまだ同意しません。スコアを均等に重み付けする必要があるかどうかはわかりません。2つの項目は正の相関を持つ可能性がありますが、それぞれが「品質」とは逆の関係にあります。項目間の相関は、特定のコンテキストでの観測されていないメジャーについて必ずしも何も言っていません。品質が潜在変数であり、変数がその潜在構造の「反射」である場合、それは真実かもしれませんが、この例ではそうではありません。

— アンディW

A

$A$

m \times n

$m \times n$

σ_{1} u v^{T}

$\sigma_1 uv^T$

A

$A$

n

$n$

v_{j}

$v_j$

v_{j}

$v_j$

— ハンスエングラー

3

私はまだ同意しません。関連付けが同じ方向にあると予想される場合でも、アイテム間相関に基づいてインディケーターに本質的に何らかの重みを与える必要があるという意味ではありません。共有された分散は、インジケーター間の関係についてのみ言うことができます。これらの指標から品質の既知の尺度を予測する回帰モデルを考えてください。指標間の項目間の相関関係は、予想される勾配がどうなるかを教えてくれません。

— アンディW