適切なPAC学習VCディメンションの境界


11

VC次元が概念クラス、を取得するだけで十分であることはよく知られてい PACのラベル付きの例は学習します。(これらの多くのサンプルを使用する)PAC学習アルゴリズムが適切であるか不適切であるかは、私には明確ではありませんか?カーンズとヴァジラニ、アンソニーとビッグスの教科書では、PAC学習アルゴリズムが不適切であるように見えます(つまり、出力仮説はません)CdO(dεlog1ε)CC

  1. 同様の上限が適切なPAC学習設定にも当てはまるかどうかを誰かが明確にできますか?もしそうなら、これが明示的に言及されており、自己完結した証拠も含まれている参照を私にくれませんか?

  2. 最近、ハネケは要素を取り除くことでこの境界を改善しました。が適切なPAC学習設定で削除可能であることがわかっているかどうかを誰かが明確にできますか?それとも未解決の質問ですか?log(1/ε)log(1/ε)


あなたが言及しているこのハネケ紙はどれですか?
gradstudent 2018

回答:


9

この問題を指摘してくれたAryehに感謝します。

他は述べたように、(1)に対する答えがはい、とに経験的リスク最小化の簡単な方法達成するサンプルの複雑さ( Vapnik and Chervonenkis、1974; Blumer、Ehrenfeucht、Haussler、and Warmuth、1989を参照)。CO((d/ε)log(1/ε))

(2)に関しては、実際にスペースが存在することが知られています。このスペース では適切な学習アルゴリズムではよりも優れたサンプル複雑度は達成されません。したがって、適切な学習では、最適なサンプルの複雑さを実現できません。私の知る限り、この事実は実際に公開されたことはありませんが、ダニエリとシャレフシュワルツ(COLT 2014)の関連する議論に基づいています(元々、マルチクラス学習における別の関連した質問のために公式化されました)。C Ω D / ε ログ1 / ε O D / ε Ω((d/ε)log(1/ε))O(d/ε)

考慮する単純なケース、及び空間置くなどを、およびであるシングルトン:つまり、各分類子は、 1つの点をとして、その他の点をとして分類し。下限については、ターゲット関数をランダムシングルトン、ここで、およびは周辺分布です。均一ですd=1X{1,2,...,1/ε}Cfz(x):=I[x=z],zXCX10fxxUniform(X)PXX{x}1 Z 1つのCの ZのXを{ X * } 1 / 2 F Z、Z X * 1 / 2 Ω 1 / ε ログ1 / ε X{ X * } Ω 1 / ε log 1 / ε 。今、学習者は、任意の例では、ラベル見たことがないが、それはポイントを選択する必要がありに推測ラベル付けされた(重要なのは、 ``すべてゼロ「」機能がされていないで、任意の適切な学習者はそうしなければならないいくつかの推測)、そしてすべての点がは、可能性が少なくともあります(つまり、に事後確率)は少なくとも)。クーポンコレクターの主張は、1z1CzX{x}1/2fzzx1/2Ω((1/ε)log(1/ε))サンプルを使用して、すべてのポイントを確認します。したがって、これはすべての適切な学習者の下限を証明し。X{x}Ω((1/ε)log(1/ε))

一般的な場合、を、を分類として使用正確にのサイズのセットに対して、ターゲット関数をからランダムに選択し、ターゲット関数が分類する点のみでを一様として再び取得し(したがって、学習者はこれを見ることはありません)というラベルの付いたポイント)。次に、クーポンコレクター引数の一般化は、少なくともを表示するためにサンプルが必要であることを意味します d>1X{1,2,...,d/(4ε)}CIAAXdCP01Ω((d/ε)log(1/ε))|X|2dからの個別の点、およびこの多くの個別の点を見ずに、適切な学習者は、選択された仮説で間違った点の推測のよりも大きくなる可能性が少なくとも。エラー率がより大きいことを意味します。したがって、この場合、サンプルの複雑度がより小さい適切な学習者は存在しません。つまり、適切な学習者が最適なサンプルの複雑度達成することはありません。。X1/3d/4AdhAεΩ((d/ε)log(1/ε))O(d/ε)

結果は、構築されたスペースに固有のものであることに注意してください。適切な学習者が最適なサンプルの複雑さを達成できるスペースが存在し、実際に完全な式(Hanneke、2016a)から。一般的なERM学習者のいくつかの上限と下限は(Hanneke、2016b)で開発され、空間のプロパティの観点から定量化され、特定の適切な学習者が時々最適を達成できるいくつかのより特殊なケースについても議論されていますサンプルの複雑さ。CCO(d/ε)O((d/ε)+(1/ε)log(1/δ))C

参照:

Vapnik and Chervonenkis(1974)。パターン認識の理論。ナウカ、モスクワ、1974。

Blumer、Ehrenfeucht、Haussler、およびWarmuth(1989)。学習可能性とVapnik-Chervonenkisディメンション。Journal of the Association for Computing Machinery、36(4):929–965。

Daniely and Shalev-Shwartz(2014)。マルチクラス問題の最適学習者。第27回学習理論会議の議事録。

ハネケ(2016a)。PAC学習の最適なサンプルの複雑さ。Journal of Machine Learning Research、Vol。17(38)、1〜15ページ。

ハネケ(2016b)。いくつかの学習アルゴリズムの洗練された誤差範囲。Journal of Machine Learning Research、Vol。17(135)、1〜55ページ。


興味深い... 適切なPAC学習がサンプル最適であるクラス組み合わせ特性はありますか?または、少なくとも十分な条件(交差点での閉鎖、労働組合?)C
クレメントC.

2
@ClementC。一般に、適切な学習者が達成可能な最適なレートを持つクラスの完全な特性は知られていない。参照された論文「Refined error bounds ...」は、どのクラスがすべてのERM学習者に最適なレートを認めるかの組み合わせの特性を示しています(結果14)。関連する数量は「スター番号」です。単一のポイントのラベルを他のラベルを変更せずに反転できるようにするための最大ポイント数です(定義9)。交差点で閉じたクラスには、最適な適切な学習者である「閉包」algがあります(論文の定理5、およびDarnstädt、2015でも証明されています)。
S. Hanneke

ありがとうございました!
クレメントC.

6

あなたの質問(1)と(2)は関連しています。最初に、適切なPAC学習について話しましょう。ゼロのサンプルエラーを達成しながら、例を必要とする適切なPAC学習者がいることが知られています。依存関係の簡単な証明のために、均一分布の下での区間の概念クラスを考えます。最小の一貫した間隔を選択すると、サンプルの複雑度はます。ただし、一貫性のある最大の間隔を選択し、ターゲットの概念がような点間隔であるとしますΩ(dϵlog1ϵ)ϵ[a,b][0,1]O(1/ϵ)[0,0]。次に、単純なcoupon-collector引数は、大まかに例を受信しない限り、負の例の間の間隔に騙されてしまうことを示します(私たちが目にする唯一の種類) )- 均一な分布の下で、 [サンプルサイズ]の特徴的な動作があります。このタイプのより一般的な下限は、1ϵlog1ϵ1/

P. Auer、R。Ortner。交差点で閉じたコンセプトクラスの新しいPACバウンド。機械学習66(2-3):151-163(2007) http://personal.unileoben.ac.at/rortner/Pubs/PAC-intclosed.pdf

適切なPACについての重要な点は、抽象的なケースで肯定的な結果が得られる場合、ERMを超えるアルゴリズムを指定できないことです。これは、「ラベル付けされたサンプルと一致する概念を見つける」と述べています。間隔などの追加の構造がある場合は、上記のように、2つの異なるERMアルゴリズムを調べることができます。そして、これらは異なるサンプルの複雑さを持っています!

不適切なPACの威力は、さまざまな投票方式を設計できることです(ハネケの結果はそのような結果です)。この追加の構造により、レートが改善されたことを証明できます。(話は不可知論のPACの方が簡単です。ERMは定数まで、可能な限り最高の最悪のケースのレートを提供します。)

編集。今では、D。Haussler、N。Littlestone、Md K. Warmuthの1包含グラフ予測戦略が発生します。ランダムに描かれた点での{0,1}関数の予測。INF 計算。115(2):248-292(1994)は普遍的な適切なPAC学習者の自然な候補かもしれません。O(d/ϵ)


ありがとう!わかりましたので、私が正しく理解している場合、不適切なPAC学習のサンプルの複雑さはあり、適切なPAC学習の場合はです。後者の下限は、指定した例で達成されます。そうですか?Θ(d/ϵ)Θ(d/ϵlog(1/ϵ))
18

はい、PACが不適切な場合は、古いERMだけでなく、特定のアルゴリズム(Hannekeのアルゴリズム)を使用する必要があるというわずかな予約があります。答えはお気軽に
どうぞ

私はパーティーに遅れましたが、上記の適切なPACの下限は、特定の学習アルゴリズム(またはその制限されたクラス)のサンプルの複雑さの下限ではありませんか?つまり、そのような制限がなければ、情報があり、理論的には、適切なPACと不適切なPACは区別されません。(したがって、などの計算上の仮定がない限り、分離はありません)?)NPRP
Clement C.

1
PAC学習可能性の通常の定義では、ポリタイムアルゴリズムが求められます。私のポイントは、(i)それを緩和すること、適切なものと不適切なものは同じサンプルの複雑さを持っているということです。(ii)この要件では、適切なものと不適切なものの間の無条件の分離を証明することはできません(本質的に、NPがRPに等しくないことを証明するため)。(ただし、特定の適切な学習アルゴリズムのサンプルの複雑さの下限を証明できます。これは、私が理解している限り、Aryehのリファレンスが行うことです。)
Clement C.

1
@ClementC。以前のコメントの1つで、不適切なPACアルゴリズムを実行した後、学習者は不適切な可能性のある仮説を取得し、学習者は概念クラスから(最も多くのサンプルなしで)最も近い適切な仮説を見つけることができます。しかし、学習者は、サンプルが与えられている分布を知らずに、これをどのように行うことができますか?最も近いのは未知の分布に従って測定されていませんか?
2018

5

現在受け入れられている回答に追加するには:

  1. はい。 上限サンプルの複雑さは、適切なPACは、同様に学習する保持それはないことに留意することが重要であるが(計算効率の高い学習アルゴリズムにつながります。ない限り、一部のクラスが効率的に適切なPAC学習可能ではないことがわかっているため、これは正常です。言及)。は仮説クラス備えた一貫した仮説ファインダーがある ため、これは実際にはカーンズ-ヴァジラーニの本(定理3.3)に示されています。[1]も参照してください。NP=RPLH=C

    O(dεlog1ε)
    NP=RPLH=C
  2. わからない。ハネケのアルゴリズム[2]は不適切な学習アルゴリズムです。サンプルの複雑さにおけるこの余分な要素を削除して、適切なPAC学習(理論的には情報、つまり計算効率の要件を行うことができるかどうか は、未解決の問題です。Cf. [3]の最後にある未解決の質問:log(1/ε)

    古典的には、適切なPAC学習のために[1]の上限にある -factor が必要かどうかは未解決の問題です。ε δ log(1/ε)(ε,δ)

    (同じ論文の脚注1も関連します)


[1] A. Blumer、A。Ehrenfeucht、D。Haussler、およびMK Warmuth。学習可能性とVapnik-Chervonenkisディメンション。Journal of the ACM、36(4):929–965、1989。

[2] S.ハネケ。PAC学習の最適なサンプルの複雑さ。J.マッハ 学ぶ。解像度 17、1、1319-1333、2016。

[3] S.アルナチャラムとR.デウルフ。学習アルゴリズムの最適な量子サンプルの複雑さ。2017年第32回計算複雑性会議(CCC)の議事録。


Haussler et al。の1包含グラフは、そのような最適なPAC学習者はいますか?
2018

@Aryehわかりません。私が見つけたものから、ウォームスは2004年にそう推測しました。それ以上は知りません。
クレメントC.
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.