このグラフを解釈できません。私の従属変数は、ショーで販売される映画チケットの総数です。独立変数は、ショーの前に残った日数、季節性ダミー変数(曜日、年、月、休日)、価格、日付までに販売されたチケット、映画の評価、映画の種類(スリラー、コメディなど)です。 )。また、映画館の定員は固定ですのでご了承ください。つまり、最大xの人数のみをホストできます。線形回帰ソリューションを作成していますが、テストデータに適合していません。だから私は回帰診断から始めることを考えました。データは、需要を予測したい単一の映画館からのものです。
は多変量データセットです。日付ごとに、ショーの前日を表す90の重複行があります。したがって、2016年1月1日のレコードは90です。ショーの何日前かを示す 'lead_time'変数があります。つまり、2016年1月1日の場合、lead_timeの値が5であれば、ショーの日付の5日前までチケットが販売されます。従属変数、販売されたチケットの合計では、同じ値が90回得られます。
また、余談として、残差プロットを解釈して後でモデルを改善する方法を説明した本はありますか?