環境データに基づいて作物収量を予測する機械学習モデルを構築する


10

私は、10年間(2005〜2014年)の農場の気温、降水量、大豆収量に関するデータを含むデータセットを持っています。このデータに基づいて、2015年の利回りを予測したいと思います。

作物の収穫は作物の生育シーズンの終わりに行われるため、データセットには気温と降水量のDAILY値がありますが、収量は1年に1つしかありません。

回帰または他のいくつかの機械学習ベースのモデルを構築して、2015年の収穫を予測します。これは、前年の収穫と温度および降水量との関係を研究することによって導出された回帰/その他のモデルに基づいています。

scikit-learnを使用した機械学習の実行に精通しています。ただし、この問題をどのように表すかはわかりません。ここで注意が必要なのは、気温と降水量は毎日ですが、収量は1年に1つの値に過ぎないということです。

これにどのように取り組みますか?


作物の収量を予測するためのモデルを構築しようとしています。あなたが従っているアプローチについての詳細を教えてください。
ニッツ

完全な回答を得ることができましたか。いいえの場合は、お知らせください。同じドメインで作業している場合の対処方法について、詳細な回答を書かせていただきます
89_Simple

@ Crop89、それは素晴らしいでしょう!あなたの答えを楽しみにしています
user308827

あなたはそれを理解しましたか?私も同じ問題に直面しています。うまくいったら、詳細を教えてください。どうもありがとう
エリック・ファン2018年

回答:


3

まず、前年の日次データに基づいて、翌年の利回りを予測できます。毎年のデータを1つの「ポイント」と見なしてモデルパラメーターを推定し、相互検証を使用してモデルを検証できます。このモデルは、過去1年以上を考慮することで拡張できますが、振り返ると、モデルとオーバーフィットの検証に問題が生じます。


@Emreに感謝します。私の混乱は、1年分のデータを1ポイントとしてどのように扱うのですか?データの各行(1日を表す)は、scikit-learnの命名法のサンプルを構成していませんか?1年全体を365ではなく1つのサンプルとして扱うにはどうすればよいですか?
user308827

1
私はsklearnの詳細には触れていませんでしたが、あなたが尋ねたのでsklearn.cross_validation、名前に「Label」が含まれるメソッド(sklearn.cross_validation.LabelKFoldなど)を使用したいと考えています。
Emre

@Emreに感謝します。アイデアは毎年1つのラベルを割り当てることですよね?
user308827

はい、@ user308827。
Emre

おかげで再び@Emreは、フォローアップの質問を見てください。datascience.stackexchange.com/questions/9612/...
user308827


1

10個のデータポイントがあり、各データポイントには365(毎日の気温)+ 365(毎日の降水量)ディメンションがあります。理想的には、PCAなどの機械学習手法を使用して最初に次元を削減します。次に、機械学習手法を使用して予測モデルを構築します。ただし、データセットが小さいため、問題に機械学習手法は適切ではないと思います。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.