分散分析を学びたいです。アルゴリズムのしくみ(どのような計算を行う必要があるか)とその理由を学ぶ前に、まずANOVAで実際に解決する問題、または回答しようとする答えを知りたいと思います。言い換えると、アルゴリズムの入力と出力は何ですか?
入力として何を使用するか理解しています。数字のセットがあります。各数値には、1つ以上のカテゴリ変数(「因子」とも呼ばれます)の値が付属しています。例えば:
+------------+------------+-------+
| factor 1 | factor 2 | value |
+------------+------------+-------+
| "A" | "a" | 1.0 |
| "A" | "a" | 2.4 |
| "A" | "b" | 0.3 |
| "A" | "b" | 7.4 |
| "B" | "a" | 1.2 |
| "B" | "a" | 8.4 |
| "B" | "b" | 0.4 |
| "B" | "b" | 7.2 |
+------------+------------+-------+
ANOVAは、値の平均に対する因子の影響がないことを示す帰無仮説のp値を計算すると言っても正しいですか?つまり、上記のデータをアルゴリズムに与え、結果として帰無仮説のp値を取得しますか?
その場合、p値を計算するために実際に使用する指標は何ですか。たとえば、帰無仮説Mが1%のケースで偶然に観測されたものと同じかそれ以上(またはそれ以上)になる可能性があると言えます。Mとは?
分散分析の因子も個別に調査しませんか?ANOVAは、factor_1には効果があるが、factor_2には効果がないと言えますか?ANOVAは、値「A」、「B」、および「C」に対応する特定の因子の値は統計的に区別できない(たとえば、同じ意味を持つ)が、値「D」は効果があると言えるでしょうか?