エキスパートセットを注文またはランク付けするにはどうすればよいですか?


11

ある分野の専門家を多数含むデータベースがあります。これらの各エキスパートについて、私は次のようなさまざまな属性/データポイントを持っています。

  • 経験年数。
  • ライセンス
  • レビューの数
  • それらのレビューのテキストコンテンツ
  • 速度、品質などのさまざまな要因に対する、これらの各レビューの5つ星評価。
  • 賞、協会、会議など

これらの専門家の重要性に基づいて、10人中1人に評価を付けたいと思います。一部の専門家にとって、一部のデータポイントが欠落している可能性があります。今私の質問はどのように私はそのようなアルゴリズムを思いつくのですか?誰かが私にいくつかの関連文献を指摘できますか?

また、私はすべての評価/レビューと同様に、いくつかの値の近くで数値がまとまる可能性があることを懸念しています。たとえば、それらのほとんどが8または5になる可能性があります。わずかな属性の違いを強調して、一部の属性のみのスコアのより大きな違いに変える方法はありますか?

私が考えた他のいくつかの議論は関連しているかもしれません:


客観的な基準に達しない限り、それを行うことはできません。おそらく、ほとんどの可能なレーティングは、パラメーターのいくつかの組み合わせで構成できます。

回答:


12

人々は、複数の基準に基づいて(専門家など)物事を評価するための数多くのシステムを発明しました。リストについては、多基準意思決定分析の Wikipediaページにアクセスしてください。ただし、そこに十分に表されていないのは、最も防御可能な方法の1つであるマルチ属性評価理論です。 これには、(a)個々の変数の値を再表現する適切な方法を決定し、(b)再表現された値を重み付けしてランキングのスコアを取得するために、基準のセット間のトレードオフを評価する一連のメソッドが含まれます。原理は単純で防御可能であり、数学は弾みがなく、理論には空想はありません。任意のスコアリングシステムを発明するのではなく、より多くの人々がこれらの方法を知って実践する必要があります。


これを行うためのRパッケージを知っていますか?
user333

3
@userいいえ、ありません。ちなみに、魔法のソフトウェアの箇条書きはここにはありません。ほとんどすべての作業には、問題を検討し、特定のトレードオフを制御された方法で調査することが含まれます。
whuber

3

結局のところ、これは単なる統計的な演習ではないかもしれません。PCAは非常に強力な定量的方法であり、ランク付けに使用できる最初のいくつかの主成分についてスコアまたは重みを生成できます。ただし、主成分が何であるかを説明することは非常に困難です。それらは定量的な構造です。彼らは弁証法のものではありません。したがって、それらが真に意味することを説明することは時々不可能です。これは、定量的でないオーディエンスがいる場合に特に当てはまります。彼らはあなたが何について話しているのか分からないでしょう。そして、あなたのPCAをいくつかの不可解なブラックボックスと考えます。

代わりに、関連するすべての変数を並べ、重み付けのあり方に基づいて重み付けシステムを使用します。

これを部外者、顧客、ユーザー向けに開発するのであれば、ユーザーへの重み付けを決めるという柔軟性を組み込むことができれば素晴らしいと思います。
一部のユーザーは、長年の経験を認定よりもはるかに高く評価する場合があります。あなたがその決定を彼らに任せることができるなら。このように、あなたのアルゴリズムは彼らが理解していないブラックボックスではなく、彼らは慣れていません。あなたはそれを完全に透明に保ち、重要なものについての彼ら自身の相対的な評価に基づいて彼らに任せます。


@Gaetanさて、PCAの場合、「テキストコンテンツ」などの変数に適した数値コーディングを見つける必要があります...
chl

それは私が提起している問題ではありません。PCAは、提案されているとおりにダミー変数を処理できます。PCAはそのように非常に強力で柔軟性があります。しかし、本当に難しいのは主成分の解釈です。最初の主成分が次のように始まるとしましょう:0.02年の経験-レビューの0.4テキストコンテンツ+ 0.01関連付け...多分あなたはそれを説明することができます。専門家のパフォーマンスは長年の経験に比例しますが、レビューのテキストコンテンツに反比例しますか?ばかげているようです。しかし、PCAはしばしば直観に反する結果を生成します。
Sympa

@Gaetanそれでも、問題は変数をどのように表すかを選択する方法(または有用なメトリックをどのように見つけるか)にあるという私の意見を繰り返します。非連続測定またはデータタイプの混合を処理する場合、変数の線形結合を解釈することの難しさについて、私はあなたに同意します。これが、別の階乗法を探すために別のコメントで提案した理由です。とにかく、(臨床評価で行われるように)ユーザーの好みや専門家によるレビューに基づいてスコアリングルールを作成するには、(少なくともスコアの信頼性を確保するために)ある種の統計的検証も必要です。
2010

@Gaetan、はい、あなたのコメントのいくつかは非常に理にかなっています、そしてあなたはそれが単なる統計的な演習ではなく、より主観的な要素を含んでいると言うのは正しいです。その理由は、ユーザー/顧客の観点からの意図が異なる可能性があるためです。彼がエキスパートを検索していると仮定して、フィルターを追加して、エキスパートを選択できるようにします。X年以上の経験などです。だから私は任意の2つの専門家を比較するための一般的な方法を探しています。
シドミトラ

2
これを指摘するための+1は統計的な演習ではありません。せいぜい、PCAは特定のデータセット内の関係を記述でき、ほぼ共線性を識別することでデータを簡略化できると考えられます。専門家をランク付けする方法についてそれがどのように私たちに知らせることができるかは明らかではありません。
whuber

0

これらすべての属性を定量化できると思いますか?

はいの場合、主成分分析を実行することをお勧めします。すべての相関が正である一般的なケースでは(そして、そうでなければ、いくつかの変換を使用して簡単にそこに到達できます)、最初の主成分は、重み付けされているため、エキスパートの全体的な重要性の尺度と見なすことができますすべての属性の平均(および重みは変数の対応する寄与になります-この観点では、メソッド自体が各属性の重要性を明らかにします)。各エキスパートが最初の主成分で達成するスコアは、それらをランク付けするために必要なものです。


1
これは見栄えが良いですが、最も高い分散の属性と相互相関属性の最大のクラスターを選択するだけではありませんか?

1
あるいは、混合データに対して複数の対応分析または複数の因子分析を実行でき(数値の再コーディングが一部の変数で現実的でない場合)、残りのアイデア(因子スコアの計算と1次元の変数の負荷の確認)が適用されます同様に。
10

3
最初のコンポーネントは、専門家間の共通性の強い方向性を指摘するだけのように思えます。しかし、誰がより良く、誰がより悪いのか、それがどうして私たちにわかるのでしょうか?それには、これらの変数と「良い」または「悪い」専門家であるという品質との関係に関する追加情報が必要です。すべての変数が単調に良い点または悪い点に関連付けられていると私たちが信じる場合、PCAは、極端な(または多分外れている!)専門家のフロンティアを探索するのに役立つでしょう。ただし、注意してください。単調性の仮定でさえ疑わしいものです。
whuber

1
@whuber要点はわかります。たぶん、あなたはこれをあなた自身の応答に追加することができます(これは大歓迎です)?
CHL
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.