タグ付けされた質問 「predictive-models」

予測モデルは、特定の仮説をテストしたり、現象を機構的に説明したりするモデルとは対照的に、システムの他の観測を最適に予測することを主な目的とする統計モデルです。そのため、予測モデルでは、解釈可能性は重視されず、パフォーマンスが重視されます。

5
切片がゼロの線形回帰モデルの予測が切片があるモデルよりも優れているのはなぜですか?
多くの教科書や論文は、傍受を抑制すべきではないと述べています。最近、トレーニングデータセットを使用して、切片がある場合とない場合の線形回帰モデルを作成しました。切片がないモデルは、独立した検証データセットのrmseの点で切片があるモデルよりも予測が優れていることを発見して驚いた。予測精度は、ゼロ切片モデルを使用する必要がある理由の1つですか?


2
モデリングでの出力変数の部分測定の使用
私の質問は次のとおりです。トレーニングセットで部分的に測定された出力データをどのように使用できますか?これは曖昧なので、風変わりな話で具体化します。 リスにはナッツがありますが、いくつですか? セットアップ 森にはリスのセットと木のセットがあります。リス はナットがあります。リスは、1本の木または森の中のさまざまな木にナッツを保管します。特定のリスがリスの重量と頬の容量などの入力機能から収集したナッツの数を予測したいと思います。SSSTTTsi∈Ssi∈Ss_i \in Sni∈Nni∈Nn_i \in N 研究フェーズ1: リスのサブセットを監視しました。彼らの測定値(体重と頬の容量)を取り、数えました 彼らが集めたナッツの数と 彼らがそれらを保管した何本の木 (例:リス#55は1つのツリーに5つのナッツ、別のツリーに10つのナッツ、別のツリーに500つのナッツ[3つのツリーは不明です]を保存しました) 研究フェーズ2: 木のサブセットを監視しました。リスが私たちの木の1つに到着したら、IDを付け(後で研究サブセットの別の木に行ったかどうかを知るため)、それらを測定し(体重と頬の容量)、落とした木の実の数を数えました。これにより、リスのサブセットの部分的なナットコレクションが測定されました。 (たとえば、ツリー#23では、リス#99から10個、リス#88から50個、ツリー#24では50個のナッツを収集しました...) (重要な注意:リスIDはフェーズ間で保持されません。) 質問 フェーズ2のリスのナットの総数をモデル化するとします。モデリングの結果を増やすために、それらの部分ナット測定をどのように使用できますか? さらに、部分的に測定された出力をトレーニングセットにどのように導入できますか?

2
x1> x2の確率の計算
私は、R、線形モデル、および確率計算を使用して確率について自己学習しています。現在、モデルからの2つの予測を比較する方法にこだわっています。私が使用しているデータはここからダウンロード(無料)されています:wmbriggs.com/public/sat.csv df <- read.csv("sat.csv") # Load data lm <- lm(cgpa~hgpa+sat+ltrs,data=df) # model to predict College GPA new.df <- data.frame(hgpa=c(4,3),sat=c(1168,1168),ltrs=c(6,6)) # 2 scenario data. Same SAT and LTRS, differing Highschool GPA predict(lm,new.df) # plug our scenario data into the model to predict cgpa based on input 1 2 2.881214 2.508154 これが設定データです。より高い予測 …

2
障害が発生する前にその兆候を特定するための予測保守モデル
状況 センサーデータを使用して、障害が発生する前にマシンの障害を予測する問題に取り組んでいます。調査する方法についてアドバイスが必要です。 具体的には、実際に障害が発生する前に、差し迫った障害の兆候を特定したいと考えています。理想的には、これにより、障害が発生する前に何が起こっても修正できる十分なリードタイムが得られます。 問題 私がいる概念的なロードブロックは、さまざまな分類モデル(ロジスティック回帰、決定木、最近傍など)をデータに適合させて、その時点で特定のパラメーターが与えられた場合の失敗の確率を特定できることを知っています。ただし、実際に何かを行うのに十分な時間をかけて、次の障害の兆候を特定する方法を理解することはできません。 可能なアプローチ 私はサバイバル分析に精通していますが、複数のマシンからのデータがないため、修理後にマシンが100%に戻ったとは言えないので、必ずしも適切であるとは思いません。 また、障害が発生した時間を取り、それを1時間戻し、その点をどれだけ正確に予測できるかを考えました。可能な場合は、ターゲットをさらに1時間戻し、自信を持って予測できるリードタイムを確認します。しかし、これが適切かどうかはわかりません。 利用可能なデータ 私が持っているデータは、1台のマシンから1年間にわたって記録されています。2分ごとに記録される約60個のセンサーがあります。これらのセンサーは、マシンを構成するさまざまなコンポーネントの温度(サーモスタットの設定と実際の温度を含む)、マシンの動作速度、マシン全体の蒸気圧、ファン速度、マシンが動作しているかどうかなどの変数を測定します、など センサーの読み取り値に加えて、マシンが実行されていない理由(シフトの変更、予防保守、故障など)も含まれるようにデータセットを充実させました。この記事の最後に、データがどのように表示されるかについての例をまとめました。データセット全体でキャプチャされた多様性の一部をキャプチャするように例を変更しました。実際には、マシンが実行を停止すると、理由にもよりますが、2分から2日の間停止します。また、変数は以下の例のように必ずしもそれほど急速に変化するわけではありませんが、いくつかの種類を提供したいと思いました。 +-----------------+----------+-------------+------------+------------+-------+-------+-----+--------------------------+------------+ | Datetime | CircFan | CircFanAct | EntrySpeed | ExhaustFan | Speed | Temp1 | Run | Reason | TimeBtwRun | +-----------------+----------+-------------+------------+------------+-------+-------+-----+--------------------------+------------+ | 2009-10-19 0:00 | 100 | 600 | 461 | 40 | 45 | 1126 | …
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.