多くのデータソースで構成される、緩やかに構造化されたデータのセット(Webテーブル/リンクされたオープンデータなど)を想定します。データが後に続く共通のスキーマはなく、各ソースは同義語属性を使用して値を記述することができます(例:「国籍」対「bornIn」)。
私の目標は、それらが記述するエンティティを何らかの形で「定義」する「重要な」属性を見つけることです。そのため、そのような属性に同じ値が見つかった場合、2つの説明が同じエンティティ(たとえば、同じ人物)についてである可能性が最も高いことがわかります。
たとえば、属性「lastName」は、属性「nationality」よりも差別的です。
他のどの属性よりも重要な属性を(統計的に)見つけることができますか?
単純な解決策は、各属性の値の平均IDFを取得し、これを属性の「重要」要素にすることです。同様のアプローチは、各属性に表示される個別の値の数をカウントすることです。
機械学習で機能という用語または属性選択を見てきましたが、残りの属性を破棄したくはありません。最も重要な属性に高い重みを付けたいだけです。