オブジェクトクラスの数が増えると、オブジェクト検出の精度が向上または低下します


7

k個のオブジェクトクラスがラベル付けされたN個の画像を持つオブジェクト検出データセット(たとえば、MS COCOまたはPascal VOC)があるとします。ニューラルネットワーク(例:Faster-RCNNまたはYOLO)をトレーニングし、精度を測定します(例:IOU@0.5)。

ここで、x個の追加オブジェクトクラスを導入し、対応するラベルを元のデータセットに追加して、k + x個のオブジェクトクラスがラベル付けされたN個の画像を持つデータセットを提供します。

訓練されたネットワークの精度は増加または減少しますか?

具体的には、約20のオブジェクトクラスを持つ交通標識データセットがあります。現在、追加の交通標識クラスを追加することを考えています(新しいイメージを追加したり、ネットワークアーキテクチャを変更したりせずに、新しいクラスにラベルを付けます)。これにより、パフォーマンスが低下するか増加するか疑問に思っています。

一方では、オブジェクトクラスが増えると、クラス間の区別が難しくなると思います。さらに、ニューラルネットワークは限られた量の情報しか保持できません。つまり、クラスの数が非常に多くなると、すべてのクラスに対応するのに十分な重みがない可能性があります。

反対に、オブジェクトクラスが増えると、ニューラルネットワークに役立つラベルが増えることになります。さらに、クラス間で学習効果を伝達すると、ネットワークの精度が向上する場合があります。

私の意見では、各ネットワークアーキテクチャにはある種のスイートスポットがあるはずですが、このトピックに関する文献、研究、実験は見つかりませんでした。


あなたが何をしようとしているのか理解できません。私の理解では、トレーニングされたネットワークがあり、関連するすべてのパラメーター(入力、出力、重み、アーキテクチャ)が修正されています。何を変えようとしていますか?入力データを変更した場合、何が起こるかを知る方法はありません。入力、アーキテクチャ、または出力のいずれかの形状を変更すると、ネットワークは定義されていないため、使用できなくなります。
ケルビム2018年

@cherub申し訳ありません。これが不明確な場合、パラメーターの入力、出力、および重みは、より大きなデータセットのトレーニングプロセス中に変更されます(追加のクラスラベルを使用)。ただし、ネットワークの全体的なアーキテクチャは維持する必要があります。
サイボット2018年

回答:


3

特定の分類動作は、分類方法の基礎となる特定のモデル形式に依存します。追加のオブジェクトクラスに対するモデルの正確な応答は、特定の場合に数学的に導出できますが、これは複雑になる場合があります。特定のメソッドの詳細を指定していないため、オブジェクトクラスの追加または削除に対する分類モデルの一般的な応答に関心があると思います。これに答えるために、このような状況の合理的なモデルで何を期待すべきかを直感的に説明します。モデルがこの直感的な結果から逸脱する限り、広い条件下では、それは欠陥と見なされます。したがって、私は以下の応答をオブジェクト予測システムの望ましいものと見なします。


任意のオブジェクトクラスを持つモデルでの予測:この問題の分析を容易にするために、N それぞれ単一の道路標識(またはその他)の画像 mタイプ。一般性を失うことなく、θ1,...,θNM{1,2,...,m}ことが真のあなたが分類しようとしているオブジェクトのタイプ、とM真のオブジェクトタイプです。各画像を有限セットのタイプに分類する検出システムを課するとしますSN、ここで注意 S にあるラベルを含めることができます Mただし、このセットに含まれていない値を含めることもできます(つまり、検出システムがそこにないオブジェクトタイプを見つけようとしている可能性があります)。

この種の検出システムは、各画像からの画像データを調べ、このデータを使用して、モデル内の許容可能なタイプに基づいて、各画像を推定タイプに分類します。一般的に、これは次のコンポーネントで説明できます。

DataModel TypesEstimatesx1,...,xNSθ^1,...,θ^NS

画像が正しく分類される確率 i タイプを持つモデルの場合 S です:

pi(S)P(θ^i=θi|x,S)=sM  SP(θ^i=s|x,S)I(θi=s).

後者の合計の要素は、確率制約の影響を受けます。

sM  SP(θ^i=s|x,S)=1.

今、明らかに θiS その後、私たちは持っています pi(S)=0、真のオブジェクトタイプはモデルに含まれていないため。したがって、の要素がある場合M にない S、これにより、これらの不足している要素タイプを正しく識別できなくなります。一方、要素をセットから除外するとS次に、ceteris paribusの場合、予測の確率を合計すると1になるため、残りのオブジェクトタイプの予測の確率が高くなります。したがって、オブジェクトタイプを除外すると、他のオブジェクトタイプの予測の確率が高くなる傾向があり、真のオブジェクトタイプの正しい予測の確率が高くなります。S

より詳細な分析では、データ間の接続を推定する必要があります xとオブジェクトの予測。特定のモデルは指定されていないため、ここではその問題について詳しく説明しません。しかし、我々は、彼らが見てオブジェクトの種類を区別大きな困難持っている傾向があるだろうという予測モデルの一般的なプロパティとしてそれを取ることに類似して見えるオブジェクトの種類を区別あまり難しく有する傾向が類似しないと。したがって、セットからのオブジェクトタイプの除外S データがこれらのタイプの1つを助長している場合、この除外されたオブジェクトと同様に見える、このセット内の他のオブジェクトタイプの予測の確率を高める傾向があります。


上記の説明は、予測における確率制約を強調する一般的なガイダンス、およびこれが正しい予測の確率に影響を与える方法を示すように設計されています。これは、合理的に構築された分類モデルの次の一般原則につながります。 Ceteris paribus、以下が(少なくとも大まかに)保持されるはずです:

  • 真のオブジェクトタイプが分類モデルから除外されると、そのオブジェクトタイプの正しい予測の確率はゼロになりますが、他のオブジェクトタイプ(特にこのようなオブジェクトタイプ)の正しい予測の確率は高くなる傾向があります。除外されたタイプ);

  • 真のオブジェクトタイプが分類モデルに追加されると、モデルはそのオブジェクトタイプの正しい予測のゼロ以外の確率を持つことができますが、他のオブジェクトタイプ(特にオブジェクト)の正しい予測の確率が低下する傾向があります。追加されたタイプのように見えるタイプ);

  • 偽のオブジェクトタイプが分類モデルから除外されると、すべての真のオブジェクトタイプ(特に、この除外されたタイプのように見えるオブジェクトタイプ)の正しい予測の確率が高くなる傾向があります。そして

  • 偽のオブジェクトタイプが分類モデルに追加されると、すべての真のオブジェクトタイプ(特に、追加されたタイプのように見えるオブジェクトタイプ)の正しい予測の確率が低下する傾向があります。

画像間に複雑な多重共線性がある場合、これらの一般的な原則には、特定のモデルでいくつかの病理学的例外があります。ただし、これらは一般的なルールとして、広範な条件下で適切に動作するモデルに現れるはずです。


精巧な答えをありがとう、それは私にいくつかの重要な洞察を与えました。答えは、「オブジェクトクラスが増えるとクラス間の区別が難しくなる」という私の仮定に焦点を当てています。私が私の質問で述べた4つの影響について、これが最も重要な要素だと思いますか?私はまだもっとラベルがこの効果を相殺するかもしれないと感じています(少なくともある程度まで)。特に、ネットワークの地域提案部分は、より多くのデータから確実に利益を得ます。
SaiBot

1
言うのは本当に難しいです。これらの種類の多変量問題は、使用するデータ行列の主成分(固有ベクトルと固有値)の影響を受ける傾向があります。新しい画像を追加すると、これに重要な影響が出ます。これは数学的に複雑です。2つの反対の効果を追加すると、効果の相殺があることに同意しますが、全体的な効果を言うのは非常に困難です。
ベン-モニカを

@ベンさん、ありがとうございます。これは非常に良い答えですが、部分的な答えです。私は報奨金を授与しますが、この理由でそれを受け入れません。
SaiBot

問題ありません(そして賞金のおかげで)、しかし、おそらく、より詳細な答えには、使用している特定のモデルフォームの仕様が必要になるため、人々がその数学的特性を調査できるようになると思います。あなたの問題で頑張ってください。
ベン-モニカを

1

このトピックに関する詳細な理論的分析を次に示します。https://arxiv.org/pdf/1506.01567.pdf

それは特定の問題とモデルに依存すると思います。上記の答えの数学的命題は、一般的な統計モデルについてのみ言えます。画像データでは、非常に高い次元を調べており、そのレベルの数学(深いモデルの極端な非線形性も追加する)は非常に複雑になります。(判別関数アプローチを使用して)直観的に考えることができるのは、クラスが多いほど(クラス間変動が十分であれば)、クラス間で判別関数を描画できるモデルが増えることです。したがって、判別関数がより詳細である場合、モデルの一般化機能は、目に見えない画像/例を予測するときに大きくなります。

非常に高い次元でのデータクラスター間の分離と考えてください。クラスターをより正確に切り離すことができる場合は、着信した見えない例/画像を分類する可能性が高くなります。

ところで、実験について私たちに知らせてください、そしてそれは増加したかどうか。TIA。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.