従属変数がパーセンテージである反復測定実験があり、独立変数として複数の要因があります。このセットアップに直接対応していると思われるためglmer
、Rパッケージから使用してlme4
(を指定してfamily=binomial
)ロジスティック回帰問題として扱いたいと思います。
私のデータは次のようになります。
> head(data.xvsy)
foldnum featureset noisered pooldur dpoolmode auc
1 0 mfcc-ms nr0 1 mean 0.6760438
2 1 mfcc-ms nr0 1 mean 0.6739482
3 0 melspec-maxp nr075 1 max 0.8141421
4 1 melspec-maxp nr075 1 max 0.7822994
5 0 chrmpeak-tpor1d nr075 1 max 0.6547476
6 1 chrmpeak-tpor1d nr075 1 max 0.6699825
そして、これが適切だと思っていたRコマンドです:
glmer(auc~1+featureset*noisered*pooldur*dpoolmode+(1|foldnum), data.xvsy, family=binomial)
これに関する問題は、コマンドが従属変数が整数ではないことについて文句を言うことです:
In eval(expr, envir, enclos) : non-integer #successes in a binomial glm!
そして、この(パイロット)データの分析は結果として奇妙な答えを与えます。
binomial
家族が整数(はい、いいえ)を期待する理由を理解していますが、パーセンテージデータを直接回帰しても問題ないようです。これを行う方法?
1
10個中5個は1000個中500個と同じ情報ではないため、私には問題ないようです。応答をnoの1つのカウントとして表現してください。「成功」と1つのカウント。「失敗」。
—
Scortchi -復活モニカ
@Scortchiありがとう、あなたは正しいと思う。私は、確率の決定から導出されたパーセンテージの連続的な性質について、stats.stackexchange.com / questions / 77376 / …と同様に考えていましたが、整数カウントへの意味のある変換によってデータを表現できると思います。
—
ダンStowell