タグ付けされた質問 「modeling」

このタグは、統計モデルまたは機械学習モデルを作成するプロセスを説明します。常により具体的なタグを追加します。

1
このグラフの線の周りのぼかしはどういう意味ですか?
私は次のコマンドを使用してggplot2をいじって、データに行を合わせました。 ggplot(data=datNorm, aes(x=Num, y=Val)) + geom_point() + stat_summary(fun.data = "mean_cl_boot", geom="errorbar", colour="red", width=0.8) + stat_sum_single(median) + stat_sum_single(mean, colour="blue") + geom_smooth(level = 0.95, aes(group=1), method="lm") 赤い点は中央値、青は平均値、垂直の赤い線はエラーバーを示します。最後のステップとして、geom_smooth線形平滑化を使用して線をフィットするために使用しましたmethod="lm"。ラインに沿って、ラインの周りにも鈍い色合いが生成されました。ドキュメントから削除する方法を見つけましたが、オフにするために使用したオプションは次のとおりです。 se: display confidence interval around smooth? 誰かが私が線の周りの陰から理解すべきことを教えてもらえますか?具体的には、解釈の仕方を理解しようとしています。それはおそらくその行に適したものであるに違いありませんが、追加の情報は私にとって非常に役立つでしょう。助言がありますか?

1
機械学習手法を使用した時系列センサーデータのモデリング?
私は大気質センサーに取り組んでいます。そのうちのいくつかは電気化学ガスセンサーです。背景として、これらのセンサーは、バイアス電圧を印加し、センサーを流れる電流を測定するポテンシオスタット回路によって刺激されます(通常、ナノアンペアのオーダー)。センサーを流れる電流の量は、センサーがさらされたターゲットガスの濃度に関係します。電流はまた、圧力、相対湿度、温度、およびクロスセンシティブなガスへの曝露にも関連しており、私の存在の悩みの種です。 従来、データモデリングアプローチを使用して、センサーから測定された電流をセンサーメーカーの推奨に基づいてターゲットガスの濃度として解釈していました。これを行うには、清浄な空気に対する応答を温度範囲で測定し、その特性を使用して、特性評価されたベースライン応答からの偏差をターゲットガスへの暴露に起因すると解釈します。 参照機器も、制御された濃度のガスにセンサーをさらす手段もないため、そのモデルの品質を実際に評価する手段はありませんが、センサーを対象のガスに順番にさらすことができますターゲットガスにかなり反応していることを確認します。 私が経験している課題は、前述の特性化によってパラメータ化されたデータモデルが長期間(つまり1週間)にわたって、温度、相対湿度、および圧力の自然変動の下で清浄な空気にさらされると、不合理に大きい解釈された濃度の変動。うるさくはありませんが、ドリフトします。そのため、データモデルが非常に不足していると思います。 そのため、アルゴリズム(機械学習)アプローチがより良い結果をもたらす可能性があると私は思いました。清浄な空気条件下での温度、相対湿度、圧力、およびセンサー電流(すべて実数値)の1分の解像度データがある場合、センサー電流を温度、相対湿度の関数としてモデリングするのに最適なツールはどれですか。と圧力?私が最も心配しているのは、入力空間の妥当な断面を表す条件を実際に作成できないことです。 次に、従来のデータモデルを使用して、予測ベースラインからの偏差を解釈し、ガス濃度を推定します。 片側の注意点は、温度と相対湿度は物理的に相関しているということですが、絶対湿度を温度、相対湿度、および圧力から数学的に取り消すことができました。 更新/説明 これが上記から明らかでない場合、目標は、変化する圧力、湿度、および温度条件下の清浄な空気環境でセンサーによって生成されるベースライン電圧を推定できるようにすることです-その偏差を使用する手段としてターゲット種ガスの濃度を計算する際の対象信号として予測ベースライン。したがって、基本的には、計装ドメインで通常ゼロキャリブレーションと呼ばれるものに対する代替アプローチを調査しています。 対象種に関する真実のデータがあれば、予測ベースラインからの偏差に関するビジネスをスキップして、電圧、温度、湿度、および圧力の時間ベクトルから直接濃度を推定できる可能性があるようです。

2
ベイジアン階層モデルでは、交換可能性が保持されない場合、何が問題になりますか?
多くの教科書では、古典的なノーマル-ノーマルモデルなどのベイジアンモデルが提示されると、試験は交換可能でなければならないというある種の簡単な言及があります。なぜこれが必要なのか、交換可能性が保持されない場合は何がうまくいかないのでしょうか。誰かが簡潔な答えを持っていますか?

2
非整数パラメーターによるガンマ分布の動機
Erlang分布は、ポアソンプロセスで事前定義された数のイベントが発生するまでの待機時間、または事前定義された数の指数確率変数の合計に関して、簡単に解釈できます。ガンマ分布は、非整数パラメーターを許容するため、より一般的ですが、通常、同じ動機が与えられます。私はこの質問が何度か出されたことを知っていますが、満足のいく答えが見当たらないので、もう一度提起します:ガンマ分布ランダム変数を発生させるランダムプロセスの正規または少なくともプロトタイプの例は何ですか?同時にErlang確率変数ではありませんか?

1
カウントデータがポアソン分布に適合しない場合の対処
私は博士の統計学の学生です。カウントデータのデータセットを使用しています。n方向のリアルタイムチャット会話に関与しているユーザーの数です。ユーザー数は1〜6人で、セットには約300個のデータがあります。 私の最初の動機は、データがポアソン分布に適合するかどうかを理解することでした。良い適合が見つかった場合、この結果をさらに推論するために使用できると考えていました。 長い話を短くするために、データを適合させようとしたところ、0.05の有意水準で適合できませんでした。したがって、私の仮説を拒否できます(ポアソン分布を使用してデータセットを近似できる)。 密度プロットを見ると、このように適合度が低いのは、「2人のユーザーに対して記録された値が多すぎるためです。ポアソン分布は、このビンの値が少ないほどよく適合します。しかし、私自身のデータ私は外れ値があると信じる理由はありません(つまり、上位または下位のビンに割り当てられる2人のユーザーとの会話) users <- c(1, 2, 2, 1, 1, 1, 1, 2, 2, 3, 2, 2, 2, 1, 1, 1, 2, 2, 1, 1, 4, 3, 3, 3, 1, 2, 1, 1, 2, 4, 3, 2, 2, 1, 2, 3, 2, 2, 1, 1, 1, 2, 2, 1, …

2
スポーツでの勝ち負けの結果のモデリング
私はさまざまなチーム、プレーヤーなどに関するデータを持っています。ホームチームの勝利、ホームチームの敗北、または引き分けに終わる可能性がある試合の結果をモデル化する最良の方法を見つけようとしています。これをモデリングするのに問題があります。 たとえば、ポアソン回帰を使用して各チームが得点するゴールの数をモデル化し、それらの確率のグリッドを計算できますが、独立性の仮定にはあまり満足していません。また、2変量ポアソンを行うこともできましたが、これにはあまり経験がありません。結果が相互に排他的であるという事実を維持しながら、結果の2つのチームへの依存をモデル化するための適切なアプローチは何なのかと思います(ドローの損失に勝つために割り当てられた確率は合計で1になるはずです)。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.