私がいじっているデータがあります。簡単にするために、ブロガーが投稿した投稿の数と、その人のブログを購読している人の数の情報がデータに含まれているとしましょう(これは単なる例です)。
#件の投稿と#件の登録者の関係の大まかなモデルを取得したいのですが、ログとログのプロットを見ると、次のように表示されます。
これは大まかな線形関係(対数-対数目盛)のように見え、残差をすばやく確認すると一致するように見えます(明らかなパターンはなく、正規分布からの顕著な逸脱はありません)。
だから私の質問は:この線形モデルを使用しても大丈夫ですか?対数-対数プロットの線形回帰を使用してべき乗則分布を推定するのに問題があることを漠然と知っていますが、私のデータはべき乗則確率分布ではありません(単に大まかに従うように見えるものです)モデル; 特に、1)を合計する必要はないので、同じ批評が当てはまるかどうかはわかりません。(おそらく、同じ文の「log-log」と「線形回帰」について言及しているので、私は過度に修正しています...)また、私が本当にやろうとしているのは、次のことだけです。
- 残差が正のブログと残差が負のブログにパターンがあるかどうかを確認します。
- 購読者が投稿数にどのように関連しているかの大まかなモデルを提案します。
2
末尾の変動がさらに重要になるため、常に対数-対数プロットの線形回帰にうんざりしている必要があります...リンクする投稿には、役に立つかもしれないRおよびMatlabコードが含まれているはずです。
—
Artem Kaznatcheev