タグ付けされた質問 「multiple-regression」

2つ以上の非定数の独立変数を含む回帰。

1
相互に排他的でないカテゴリを分類できる深層学習モデル
例:仕事の説明に「英国のJavaシニアエンジニア」という文があります。 私は2つのカテゴリとして、それを予測することは、深い学習モデルを使用したい:English とIT jobs。従来の分類モデルを使用する場合softmax、最後のレイヤーで機能を持つ1つのラベルのみを予測できます。したがって、2つのモデルのニューラルネットワークを使用して、両方のカテゴリで「はい」/「いいえ」を予測できますが、さらに多くのカテゴリがあると、コストがかかりすぎます。では、2つ以上のカテゴリを同時に予測するためのディープラーニングまたは機械学習モデルはありますか? 「編集」:従来のアプローチによる3つのラベルでは、[1,0,0]によってエンコードされますが、私の場合、[1,1,0]または[1,1,1]によってエンコードされます 例:3つのラベルがあり、文がこれらすべてのラベルに収まる場合。したがって、softmax関数からの出力が[0.45、0.35、0.2]である場合、3つのラベルまたは2つのラベルに分類する必要がありますか、それとも1つにすることができますか?それを行うときの主な問題は、1、2、または3つのラベルに分類するための適切なしきい値は何ですか?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

1
データ空間、変数空間、観測空間、モデル空間(例:線形回帰)
我々はデータ行列があるとであり、N行列P、およびラベルベクトルYであり、nは -by-一つ。ここで、行列の各行は観測値であり、各列は次元/変数に対応しています。(n > pと仮定)バツX\mathbf{X}んnnpppYYYんnnn>pn>pn>p 次に何をすべきかdata space、variable space、observation space、model space意味ですか? 列ベクトルにまたがる空間は、ランクpでありながらn座標を持っているため、(退化した) -D空間であり、変数ベクトルにまたがるため、可変空間と呼ばれますか?それとも、各次元/座標が観測に対応するため、観測空間と呼ばれますか?nnnnnnppp そして、行ベクトルがまたがる空間はどうですか?

1
コンターは、関数興味深い特徴を回帰によって得ていますか?
私は回帰の一般的なセットアップを想定しています。つまり、連続関数は、ファミリーから選択され、与えられたデータに適合します。(は立方体ような任意の空間、または実際には適切なトポロジー空間です)いくつかの自然な基準に従います。hθ:X→Rnhθ:X→Rnh_\theta:X\to \mathbb R^n{hθ}θ{hθ}θ\{h_\theta\}_\theta(xi,yi)∈X×Rn,i=1,…,k(xi,yi)∈X×Rn,i=1,…,k(x_i,y_i)\in X\times \mathbb R^n, i=1,\ldots, kXXX[0,1]m[0,1]m[0,1]^m 一つは輪郭に興味があり、回帰のアプリケーションが存在するの一部ポイントのため例えばゼロセット-?h−1(y)h−1(y)h^{-1}(y)hhhy∈Rny∈Rny\in \mathbb R^nh−1(0)h−1(0)h^{-1}(0) 私の興味の説明は以下の通りです:多くの状況で学んだに添付不確実性があるため(不正確またはデータの欠如)が、一つはゼロセットを分析することができます "しっかり」。つまり、すべての「摂動」に共通するゼロセットの特徴を調べます。最近、非常に一般的な設定において、摂動がノルムのに近い任意の連続写像になる可能性があることで、非常によく理解されています。または、基本的に同等に、は任意の連続であり、すべてのに対してが存在します。hθhθh_\thetah−1(0)h−1(0)h^{-1}(0)hhhfffhhhℓ∞ℓ∞\ell_\inftyfffx∈Xx∈Xx\in X|f(x)−h(x)|≤c(x)|f(x)−h(x)|≤c(x)|f(x)-h(x)|\le c(x)c:X→Rc:X→Rc:X\to\mathbb Rはごとに信頼値を提供します。xxx 理論とアルゴリズムを開発する主な動機は、背後にあるエキサイティングな数学です(本質的にすべての問題/質問がホモトピー理論に還元されます)。ただし、現在の段階では、アルゴリズムをさらに開発して実装するために、より具体的な設定と目標を選択する必要があります。



3
とを回帰に含める方法、およびそれらを中央に配置するかどうか
私は長期含めるとその広場、私は低い値と仮定しているため回帰に(予測変数)を従属変数にプラスの効果を有し、高い値が負の効果を持ちます。高い値の影響を捉える必要があります。したがって、の係数は正になり、係数は負になると思います。ほかに、他の予測変数も含めます。x 2 x x 2 x x 2 xxxxx2x2x^2xxxx2x2x^2xxxx2x2x^2xxx 私はここでいくつかの投稿を読みましたが、多重共線性を回避するために、この場合は変数を中央に配置することをお勧めします。 重回帰を実行するとき、いつ予測変数を中心に置く必要があり、いつ標準化する必要がありますか? 両方の変数を別々に(平均で)中央揃えする必要がありますか、それとものみを中央から正方形をとるか、またはのみを中央て元のを含める必要がありますか?x 2 xxxxx2x2x^2xxx がカウント変数である場合、それは問題ですか?xxx がカウント変数になるのを避けるために、理論的に定義された面積、たとえば5平方キロメートルで除算することを考えました。これは、点密度の計算に少し似ているはずです。xxx ただし、この状況では、およびx²= 4の場合のように、係数の符号に関する私の最初の仮定はもう成り立たないと思います。x=2x=2x=2x²=4x²=4x²=4 x=2/5 km2x=2/5 km2x= 2 / 5 \text{ km}^2 = 0.4 km20.4 km20.4 \text{ km}^2 ただし、x ^ 2 =(2/5)^ 2 = 0.16であるため、x2x2x^2は小さくなり ます。x2=(2/5)2=0.16x2=(2/5)2=0.16x^2= (2/5)^2= 0.16

4
連続従属変数にロジスティック回帰を使用する
最近、研究論文の改訂版を入手しました。以下は、私の論文に対する査読者のコメントです。 1つのモデルから得られた結果はあまり説得力がありません。特に、線形回帰は通常、外れ値の処理に欠陥があります。著者はまた、ロジスティック回帰を試み、対応する結果を現在の結果と比較することをお勧めします。同様の観察結果が得られれば、結果はより確実になります。 レビューアのコメントは正しいですか?ロジスティック回帰は、多重線形回帰よりも優れていますか? 問題は、私の従属変数がカテゴリカルではなく、スケール変数であることです。私は今何ができますか?私のモデルを評価するために、他にどのような回帰方法をお勧めしますか? スコアは次の表の従属変数です。最新性、頻度、在職期間、最終スコアは独立変数です。 私はサイトからこれらの変数を抽出していると私は、これらのことを仮定した独立変数が持っている重要な影響にスコアを。したがって、私は次のモデルを表します。 ちなみに、この線形モデルのR 2乗の値は0.316です。レビューアもこの値についてコメントしました: 学習された係数の質に関する指標がないため、結果は説得力がありません。小さなR ^ 2は、モデルが過剰適合している可能性があるため、良好なパフォーマンスを示すことはできません。 Rの2乗に対して0.316は非常に低いですか?以前の論文で、私は同様の価値観をたくさん見ました。

2
これまでのすべての努力を無視してきたこの非線形重回帰を当てはめる
編集:この投稿を作成して以来、私はここに追加の投稿を続けています。 以下のテキストの要約:私はモデルに取り組んでいて、線形回帰、ボックスコックス変換、およびGAMを試しましたが、あまり進歩していません を使用してR、現在、メジャーリーグ(MLB)レベルでマイナーリーグの野球選手の成功を予測するモデルに取り組んでいます。従属変数は、交換(oWAR)上記の攻撃のキャリアの勝利は、MLBレベルでの成功のためのプロキシで、プレイヤーは彼のキャリア(ここでは詳細にわたってに関与しているすべてのプレイに攻勢寄与の合計として測定される- のhttp ://www.fangraphs.com/library/misc/war/)。独立変数は、年齢を含むメジャーリーグレベルでの成功の重要な予測因子であると考えられる統計のzスコアのマイナーリーグ攻撃変数であり(年齢が若いプレーヤーほど成功率が高い傾向にあります)、取り消し率[SOPct ]、歩行率[BBrate]および調整された生産(攻撃的な生産のグローバルな尺度)。さらに、マイナーリーグには複数のレベルがあるため、マイナーリーグのプレーのレベル(ダブルA、ハイA、ローA、ルーキー、トリプルAのショートシーズン[メジャーリーグの前の最高レベル])のダミー変数を含めました。参照変数として])。注:WARを0から1に変化する変数に再スケーリングしました。 変数scatterplotは次のとおりです。 参考までに、従属変数oWARには次のプロットがあります。 線形回帰から始めてoWAR = B1zAge + B2zSOPct + B3zBBPct + B4zAdjProd + B5DoubleA + B6HighA + B7LowA + B8Rookie + B9ShortSeason、次の診断プロットを取得しました。 残差の不偏性の欠如とランダムな変動の欠如には明らかな問題があります。さらに、残差は正常ではありません。回帰の結果を以下に示します。 前のスレッドのアドバイスに従って、Box-Cox変換を試みましたが、成功しませんでした。次に、ログリンクを使用してGAMを試し、これらのプロットを受け取りました。 元の 新しい診断プロット スプラインがデータの近似に役立ったように見えますが、診断プロットはまだ不十分な近似を示しています。編集:私は当初、残差対適合値を見ていると思いましたが、私は間違っていました。最初に表示されたプロットはオリジナル(上記)としてマークされ、後でアップロードしたプロットは新しい診断プロット(上記も)としてマークされます。 モデルのが増加しましたR2R2R^2 しかし、コマンドによって生成された結果gam.check(myregression, k.rep = 1000)はそれほど有望ではありません。 誰もがこのモデルの次のステップを提案できますか?これまでの進捗状況を理解するのに役立つと思われるその他の情報を提供させていただきます。あなたが提供できる助けをありがとう。

2
データの正規化に関連する混乱
私は線形回帰モデルを学ぼうとしています。ただし、データの正規化に関して混乱しています。特徴/予測子をゼロ平均および単位分散に正規化しました。ターゲットについても同じようにする必要がありますか?もしそうなら、なぜですか?

2
regsubsetの計算、解釈、およびモデル選択手順に関する一般的な質問
を使用してモデルを選択したいregsubsets()。私はolympiadatenと呼ばれるデータフレームを持っています(アップロードされたデータ:http : //www.sendspace.com/file/8e27d0)。最初にこのデータフレームを添付してから分析を開始します。私のコードは次のとおりです。 attach(olympiadaten) library(leaps) a<-regsubsets(Gesamt ~ CommunistSocialist + CountrySize + GNI + Lifeexp + Schoolyears + ExpMilitary + Mortality + PopPoverty + PopTotal + ExpEdu + ExpHealth, data=olympiadaten, nbest=2) summary(a) plot(a,scale="adjr2") summary(lm(Gesamt~ExpHealth)) プロットのスクリーンショット: ここでの問題は、「手動で」最適なモデルをもう一度フィットさせて確認したいのですが、調整されたRの2乗の値がregsubsetsの出力と同じではないということです。これは、他のモデルにも当てはまります。たとえば、グラフィックで最も単純なモデルを実行するとします。 summary(lm(Gesamt~ExpHealth)) 図は、約0.14の調整済みR二乗が必要であることを示していますが、出力を見ると、0.06435の値を取得しています。 これは次の出力ですsummary(lm(Gesamt~ExpHealth)): Call: lm(formula = Gesamt ~ ExpHealth) Residuals: Min 1Q Median 3Q Max …

4
ノンパラメトリック回帰を使用するのはいつですか?
SASでPROC GLMを使用して、次の形式の回帰方程式を当てはめています Y= b0+ b1バツ1+ b2バツ2+ b3バツ3+ b4tY=b0+b1バツ1+b2バツ2+b3バツ3+b4t Y = b_0 + b_1X_1 + b_2X_2 + b_3X_3 + b_4t 結果の赤残差のQQプロットは、正規性からの逸脱を示します。変換は、残差を正規化するのに役立ちません。YYY この時点で、PROC LOESSなどのノンパラメトリックメソッドに安全に切り替えられますか? 私はすでにPROC LOESSを使用しており、PROC GLMよりフィット感が良く見えます。しかし、私はノンパラメトリック回帰についてはあまり知識がありません。パラメトリック回帰よりもノンパラメトリック回帰をいつ選択するかわかりません。 誰かがこれを手伝ってくれる? 先に進み、別の質問を追加します。以下は、モデル内の変数の説明です。 時々、負の予測コストを受け取ります。これは意味がありません。この問題にどのように対処できますか?Y= 医療費バツ1= 注射回数バツ2= 手術の数バツ3= 理学療法の数t = 時間Y=医療費バツ1=注射回数バツ2=手術の数バツ3=理学療法の数t=時間 Y =\text{cost of medical care}\\ X_1 =\text{number of injections}\\ X_2 =\text{number of surgeries}\\ X_3 =\text{number of …

2
一部の予測子は非常に異なるスケールにあります-線形回帰モデルを近似する前にそれらを変換する必要がありますか?
多次元データセットに対して線形回帰を実行したいと思います。次元の大きさに関しては、異なる次元間で違いがあります。たとえば、ディメンション1の値の範囲は通常[0、1]で、ディメンション2の値の範囲は[0、1000]です。 異なる次元のデータ範囲が同じスケールであることを確認するために変換を行う必要がありますか?もしそうなら、この種の変革のためのガイダンスはありますか?

1
座標を予測子とする回帰による空間トレンドのモデリング
データに存在する空間トレンドを調整するために、回帰方程式に共変量として座標を含める予定です。その後、ランダム変動の空間自己相関の残差をテストしたいと思います。いくつか質問があります。 独立変数のみが座標と座標である線形回帰を実行してから、空間自己相関の残差をテストする必要がありますか、それとも共変量として座標だけでなく他の変数も含めてから残差をテストする必要があります。yxxxyyy 二次傾向があると予想し、だけでなく、、、も含める場合、それらの一部(および)は、値がしきい値- より大きな値を持つ変数を重要ではないものとして除外する必要がありますか?次に、傾向をどのように解釈すればよいでしょうか?これは確かにもう二次式ではありませんか?x y x 2 y 2 x y y 2 p px,yx,yx,yxyxyxyx2x2x^2y2y2y^2xyxyxyy2y2y^2pppppp 私は座標と座標を他の共変量と同様に扱い、部分残差プロットを作成して従属変数との線形関係をテストする必要があると思いますが、一度変換すると(変換が必要であることがわかった場合)、それはできませんそのような傾向になります(特に、次傾向の、およびを含める場合)。これは、ことを示していることがあり一方で、例えば、変換を必要としないか、そうですか?これらの状況でどのように対応すべきですか?y x y x 2 y 2 x 2 xxxxyyyxyxyxyx2x2x^2y2y2y^2x2x2x^2xxx ありがとうございました。

1
予測変数が欠落している重回帰
(y、x1、x2、⋯ 、xん)(y、バツ1、バツ2、⋯、バツん)(y,x_{1},x_{2},\cdots, x_{n})との形式のデータセットが与えられたとします(y、x1、x2、⋯ 、xn − 1)(y、バツ1、バツ2、⋯、バツん−1)(y,x_{1},x_{2},\cdots, x_{n-1})。xの値に基づいてyyyを予測するタスクが与えられます。:我々は2つの回帰どこ見積もり yとバツバツxyy= f1(x1、⋯ 、xn − 1、xん)= f2(x1、⋯ 、xn − 1)(1)(2)(1)y=f1(バツ1、⋯、バツん−1、バツん)(2)y=f2(バツ1、⋯、バツん−1) \begin{align} y &=f_{1}(x_{1},\cdots, x_{n-1}, x_{n}) \tag{1} \\ y &=f_{2}(x_{1},\cdots, x_{n-1}) \tag{2} \end{align} 我々はまた、の値を予測する回帰推定の値に基づいて、(X 1、⋯ 、X N - 1):であり、 X N =をfを3(X 1、⋯ 、X N - 1)バツんバツんx_{n}(x1、⋯ 、xn − 1)(バツ1、⋯、バツん−1)(x_{1},\cdots, x_{n-1})バツん= f3(x1、⋯ 、xn − 1)(3)(3)バツん=f3(バツ1、⋯、バツん−1) …


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.