まず、私はここでは少し深遠だと言っておきます。この質問を言い換えたり、重複としてクローズする必要がある場合は、お知らせください。質問を表現するための適切な語彙がないのかもしれません。
私は、画像の特徴を特定し、形状、サイズ、暗さなどの特性に基づいてそれらを分類する画像処理タスクに取り組んでいます。これの画像処理部分についてはかなり経験がありますが、特徴の分類に使用する方法を改善できました。
現在、測定した各パラメーターにしきい値を設定し、機能がどのしきい値を超えたかに基づいていくつかの単純なロジックに従って機能を分類しています。たとえば、(実際のプロパティとグループ化はより複雑ですが、この質問のためにプロジェクトの無関係な部分を簡略化しようとしています)、機能を「ビッグとダーク」、「ビッグとライト」のグループにグループ化しているとしましょう。そして「小」。次に、機能は「大小」の差分(size(A)> sizeThreshold)&(darkness(A)> darknessThreshold)になります。
目標は、分類が専門家レベルの人間によって行われた分類と一致するようにすることです。そのため、しきい値を設定して、人間とコンピューターが行ったグループ分けをいくつかのテストセットで最適に一致させ、分類が機能することを期待できます。新しいデータでうまく。
これはすでにかなりうまく機能していますが、修正できると思われる特定の障害モードが1つあります。フィーチャーが「Big and Dark」に属することが知られているとしましょう。人間がこのように分類したのは、かろうじて十分な大きさでしたが、非常に暗く、「大きさ」の欠如をある程度補っていたためです。分類は厳密なバイナリロジックに基づいており、すべてのしきい値を超える必要があるため、私のアルゴリズムではこの機能を適切に分類できません。
I would like to improve this failure by making my algorithm better mimic the human guided process, in which a deficiency in one parameter can be compensated by an abundance of another. To do this, I would like to take each of the base properties of my features, and convert them into some sort of score which would be a predictor of the group to which the feature belongs. I have thought of many ways of doing this, but they are mostly ad hoc ideas, based on my background in vector calculus and physics. For example, I've considered treating each feature as a vector in the N-D space of feature properties, and calculating the projection of each feature along certain vectors, each of which would measure the degree to which a feature belongs in the group.
この種のことを行うためのより厳密で確立された手法があると確信していますが、私の背景は統計分析が比較的弱いので、正しい方向への突き出しを探しています。テクニックの名前や教科書へのリンクも役立ちます。
TL; DR: 多数の記述パラメーターに基づいてオブジェクトを分類するのに役立つテクニックは何ですか?