このため、PReLU、ELU、または0に消えるだけでなく、学習を続けるためにxが負になると0.1 * xのようなものに落ちる他の漏れやすいReLUのようなアクティベーションを使用するのがおそらく良い考えです。ReLUはシグモイドのような歴史であるように長い間思えましたが、何らかの理由で人々はまだこれらの論文を発行しています。どうして?知りません。
Dmytro Mishkinと他の人は実際にたくさんの異なるアクティベーションタイプでネットワークをテストしました。異なるアクティベーション機能と他のもののパフォーマンスに関する彼らの調査結果を調べる必要があります。ただし、XORなどの一部の機能は、単純なReLUを使用してよりよく学習できます。ニューラルネットは進行中の作業が非常に多いため、ドグマの観点からニューラルのことを考えないでください。世界のだれも、実際に神の真実を伝えるのに十分な知識と理解を持っている人はいません。誰も。物事を試して、あなた自身の発見をしてください。ReLUの使用自体はごく最近の開発であり、何十年もの間、この分野のさまざまな博士号取得者は、今や笑いしかねないほど複雑なアクティベーション機能を使用していることに注意してください。あまりにも多くのことを「知る」ことは、あなたに悪い結果をもたらします。ニューラルネットワークは厳密な科学ではないことを理解することが重要です。数学では、ニューラルネットワークが実際に機能するということはありません。ヒューリスティックです。そして、それは非常に順応性があります。
参考までに、絶対値アクティベーションでも、XORのような問題など、いくつかの問題で良い結果が得られます。さまざまなアクティベーション機能は、さまざまな目的により適しています。私はabs()でCifar-10を試してみましたが、パフォーマンスが悪いようです。しかし、「事前認識が最適であるかどうかなどわからないため、「視覚認識にとっては悪い起動機能」とは言えません。それが比較的学習していたという事実驚いた。
また、実際には、backpropに渡す「デリバティブ」は、必ずしも実際の数学的デリバティブと一致する必要はありません。
「デリバティブ」と呼ぶことを禁止し、他の何かと呼ぶことを始めるべきだとさえ言えます。 error activation functions
彼らをいじくり回す可能性に心を閉ざさないために。たとえば、実際にはReLUアクティベーションを使用できますが、x <0の微分として0ではなく0.1などを提供します。ある意味では、単純なReLUがありますが、ニューロンは「適応性から死ぬ」ことができません。私はこれをNecroReluと呼んでいます。なぜなら、それは死ぬことのできないReLUだからです。また、場合によっては(ほとんどの場合は間違いなく)、プレーンなLeakyReLUよりもうまく機能します。実際には、x <0で0.1の微分係数を持ち、通常のReLUよりも優れています。しかし、このような関数を調査した他の人はあまり多くないと思いますが、これや類似したものは、実際には数学に集中しているという理由だけで誰も考えていない、一般的にクールなアクティベーション関数かもしれません。
一般的に使用されるものに関しては、tanH(x)アクティベーション関数では、物事をより速く計算するために、1-tanH(x)²の代わりに1-tanH(x)²を導関数として渡すのが普通です。
また、ReLUは、たとえばTanHよりも「明らかに優れている」わけではないことに注意してください。場合によっては、おそらくTanHの方が優れている可能性があります。ただ、視覚認識ではないようです。ただし、たとえばELUには少しシグモイドの柔らかさがあり、現時点での視覚認識のための最もよく知られているアクティベーション関数の1つです。試したことはありませんが、同じレイヤーレベルで異なるアクティベーション機能を持つ複数のグループを有利に設定できると思います。なぜなら、異なるロジックは異なるアクティベーション関数でより良く記述されるからです。また、時にはいくつかのタイプの評価が必要になることもあります。
アクティベーション関数のタイプに対応する初期化を持つことが重要であることに注意してください。Leaky ReLUには、たとえば、プレーンなReLUなどの他の初期化が必要です。
編集:実際には、標準のReLUは、現代のアーキテクチャで漏れやすいものと比べて、過剰適合しにくい傾向があります。少なくとも画像認識では。膨大な量のパラメータを使用して非常に高精度のネットを使用する場合は、単純なReLUとリーキーオプションを使用することをお勧めします。しかし、もちろん、これらすべてを自分でテストしてください。たぶん、より多くの正規化が与えられた場合、いくつかの漏れやすいものがよりうまく機能するでしょう。