回答:
はい、できます。どのレイヤーでも異なるアクティベーション関数を使用することに対する厳しいルールはなく、これら2つのタイプを組み合わせても数値的な問題は発生しません。
実際、目標が単一クラスまたは非排他的複数クラスの確率のメンバーシップを予測することである場合、非表示層にタンを入れ、最後の層にシグモイドを設けることは良い選択です。シグモイド出力は、独立した確率を予測するのに適しています(たとえば、対数損失(別名クロスエントロピー)目的関数を使用して)。
すべてのレイヤーでシグモイドを使用するよりも優れているかどうかは、ネットワークの他の機能、データ、および解決しようとしている問題によって異なります。通常、少なくとも精度に関して、どちらが優れているかを見つけるための最良の方法は、いくつかのバリエーションを試して、交差検証データセットでどのスコアが最適かを確認することです。私の経験では、隠れ層でtanhを使用するか、シグモイドを使用するかによって、小さな違いがしばしばあります。