4つの数値変数があります。それらはすべて土壌の品質の尺度です。変数が大きいほど、品質が高くなります。それらすべての範囲は異なります:
1から10までのVar1
1000から2000までのVar2
150から300までのVar3
0から5までのVar4
4つの変数を組み合わせて、順序を正常にランク付けする単一の土壌品質スコアにする必要があります。
私の考えはとても簡単です。4つの変数すべてを標準化し、それらを合計します。得られるものは、ランク付けする必要があるスコアです。このアプローチの適用に問題はありますか?あなたがお勧めする他の(より良い)アプローチはありますか?
ありがとう
編集:
みんなありがとう。「ドメインの専門知識」については多くの議論が行われました...農業関連...一方で、より多くの統計情報が期待されていました。私が使用するテクニックに関しては、おそらく実験として単純なzスコアの合計+ロジスティック回帰になります。サンプルの大部分の品質が90%低いため、3つの品質カテゴリを1つにまとめ、基本的にバイナリの問題(品質が同じか品質が低いか)を考えます。私は1つの石で2羽の鳥を殺します。イベントレートの観点からサンプルを増やし、サンプルを分類してもらうことで専門家を活用しています。その後、専門家の分類されたサンプルを使用して、log-regモデルに適合させ、専門家との一致/不一致のレベルを最大化します。