TL; DR、開発、特に展開の自動化が変更の失敗率を改善することをどのように証明しますか?
私たちは皆、現在の(主に手動の)手段を使用して、「デプロイメントの失敗」に関するメトリックをキャプチャしようとしています。残念ながら、「失敗」はめったに起こりませんよね?何かがうまくいかないとき、チームは一緒に(通常は英雄的に)問題を修正します(通常はアクセス許可、構成の欠落、ドリルを知っています)。だから...展開がどのように進んだかを尋ねると、答えは「うまくいった」です。
しかし、直感的には、それは良くないことです。2017年の開発状況レポートによると、約31〜45%の「変更失敗率」があります。それは直感的には正しいように聞こえますが、インシデントとして追跡されていますか?いや。通常は検証中にかなり迅速に修正されるためです。実際にデプロイメントをロールバックすることは、はるかにまれです。
したがって、故障率を正確に報告するには規律が必要です。私たちは物事が機能することを望んでおり、それを実現するために必要なことをしているので、そのように報告することに無関心です。
では、開発、特に展開の自動化が変更失敗率を改善することをどのように証明しますか?
(PSはこれに「#devops-capability-model」のタグを付けようとしました)