カテゴリー化/セグメンテーション手法

まず、私はここでは少し深遠だと言っておきます。この質問を言い換えたり、重複としてクローズする必要がある場合は、お知らせください。質問を表現するための適切な語彙がないのかもしれません。

私は、画像の特徴を特定し、形状、サイズ、暗さなどの特性に基づいてそれらを分類する画像処理タスクに取り組んでいます。これの画像処理部分についてはかなり経験がありますが、特徴の分類に使用する方法を改善できました。

現在、測定した各パラメーターにしきい値を設定し、機能がどのしきい値を超えたかに基づいていくつかの単純なロジックに従って機能を分類しています。たとえば、（実際のプロパティとグループ化はより複雑ですが、この質問のためにプロジェクトの無関係な部分を簡略化しようとしています）、機能を「ビッグとダーク」、「ビッグとライト」のグループにグループ化しているとしましょう。そして「小」。次に、機能は「大小」の差分（size（）> sizeThreshold）＆（darkness（）> darknessThreshold）になります。 $A$ $A$ $A$

目標は、分類が専門家レベルの人間によって行われた分類と一致するようにすることです。そのため、しきい値を設定して、人間とコンピューターが行ったグループ分けをいくつかのテストセットで最適に一致させ、分類が機能することを期待できます。新しいデータでうまく。

これはすでにかなりうまく機能していますが、修正できると思われる特定の障害モードが1つあります。フィーチャーが「Big and Dark」に属することが知られているとしましょう。人間がこのように分類したのは、かろうじて十分な大きさでしたが、非常に暗く、「大きさ」の欠如をある程度補っていたためです。分類は厳密なバイナリロジックに基づいており、すべてのしきい値を超える必要があるため、私のアルゴリズムではこの機能を適切に分類できません。 $A$

I would like to improve this failure by making my algorithm better mimic the human guided process, in which a deficiency in one parameter can be compensated by an abundance of another. To do this, I would like to take each of the base properties of my features, and convert them into some sort of score which would be a predictor of the group to which the feature belongs. I have thought of many ways of doing this, but they are mostly ad hoc ideas, based on my background in vector calculus and physics. For example, I've considered treating each feature as a vector in the N-D space of feature properties, and calculating the projection of each feature along certain vectors, each of which would measure the degree to which a feature belongs in the group.

この種のことを行うためのより厳密で確立された手法があると確信していますが、私の背景は統計分析が比較的弱いので、正しい方向への突き出しを探しています。テクニックの名前や教科書へのリンクも役立ちます。

TL; DR： 多数の記述パラメーターに基づいてオブジェクトを分類するのに役立つテクニックは何ですか？

classification

— コリンK
ソース

@Colin写真を見ていただければ嬉しいです。あなたはあなたの問題を詳細に説明しました、それは素晴らしい補足になるでしょう。:)

— deps_stats

@deps_stats：励ましをありがとう、私が質問を少なくともある程度まともなものにしたと人々が思うのを見て嬉しく思います。残念ながら、私のデータはおそらく公開ウェブサイトにあるべきものではありません。厳密に分類されているわけではありませんが、公共の消費には使用できません。この質問の目的の良い例となる人工データを生成してみますが、1日ほどそれを行う時間がない場合があります。

— コリンK

@Colin問題ありません。私は現在、薬局卸の市場細分化に取り組んでいます。問題は、データが信号のように見えることです。私の問題とあなたの問題の間には多くの類似点があります。私はあなたを助けるかもしれないいくつかの研究を投稿してみます。

— deps_stats

@deps_stats：私のデータが信号のようなものになってほしいです。この種の統計モデリング/分析よりも、信号処理の方がはるかに快適です。

— コリンK

@Colinこれまでにクラスタリング分析を試しましたか？（k-means、階層的クラスタリング、medoidsのパーティショニング...）

— deps_stats

$N$ $i$ $f_i$

s = \sum_{i} w_{i} f_{i} + o

$s = \sum_i w_i f_i + o$

o

$o$

s > t

$s > t$

t

$t$

s < t

$s < t$ 、それはしません。（個々の特徴値ではなく）スコア全体に適用される単一のしきい値があるため、実際に1つのパラメーターの不足は、別のパラメーターの豊富さによって補うことができます。重みは直感的に解釈できます。重みが高いほど、その機能は重要（または決定的）です。

SVM、LDA（線形判別分析）、線形ニューラルネットワークなど、これを実行できる既製の線形分類器がたくさんあります。線形SVMは多くの場合にうまく機能し、限られたトレーニングデータを許容できるため、最初に線形SVMを実行することから始めます。多くのパッケージ（MatlabやRなど）にも多くのパッケージがあるため、簡単に試すことができます。SVMの欠点は、計算量が多くなる可能性があるため、多くのクラスを学習する必要がある場合は、あまり適切ではない可能性があることです。

$i$ $t_i$

g_{i} = \frac{1}{1 + \exp (f_{i} - t_{i})},

$g_i = \frac{1}{1 + \exp(f_i - t_i)},$

g

$g$

f

$f$

s = \sum_{i} w_{f_{i}}^{i} .

$s = \sum_i w^i_{f_i}.$

f_{i}

$f_i$ 、しかし通常の線形分類器のような乗算ではありません。この場合のスコアは対数確率であり、重みは個々の特徴のその対数確率への寄与です。あなたの場合にこれを使用することの欠点は、特徴値に多くのビンが必要となり、学習が困難になる可能性があることです。回避策はいくつかあります（たとえば、事前分布を使用するなど）が、これについての経験がないため、さらに困難な場合があります。

用語について：この場合、「テストセット」と呼ばれるものは通常「トレーニングセット」と呼ばれ、「新しいデータ」と呼ばれるものは「テストセット」と呼ばれます。

本については、ダダ、ハート、コウノトリの「パターン認識」を読んだ。最初の章は初心者のための非常に良い紹介です。

— シェルドン・クーパー
ソース

私はD、H、Sの「パターン認識」のコピーを購入しました。それは本当に壮観で、すべてが便利でわかりやすいです。再度、感謝します。これは、SEの動作方法とまったく同じです:)

— Colin K