タグ付けされた質問 「linear-regression」

1つ(または複数)の「従属」変数と「独立」変数の間の関係を分析する手法。

3
「曲線」は「線形」と見なされますか?
線形回帰では、多項式を一連のデータポイントに近似します。Bishopのパターン認識と機械学習の本には、フィットが曲線または直線である例がいくつかあります。曲線が線形であるかどうか、私は少し混乱しています。線形という用語は、近似が線形関数または次数1の多項式、つまり直線であることを意味します。しかし、多くのリソースでは、フィットが次数3、9などの多項式になる例が示されています。したがって、これらの高次多項式は線形ですか?


1
指定された変数に直交する(相関しない)予測を生成する
私が持っているXマトリックス、y変数、および他の変数をORTHO_VAR。私はをy使用して変数を予測する必要がありますXが、そのモデルからの予測は、可能な限りORTHO_VAR相関する一方で、直交する必要がありますy。 私は予測がノンパラメトリックな方法で生成されることを望みxgboost.XGBRegressorますが、どうしても必要な場合は線形法を使用できます。 このコード: import numpy as np import pandas as pd from sklearn.datasets import make_regression from xgboost import XGBRegressor ORTHO_VAR = 'ortho_var' TARGET = 'target' PRED = 'yhat' # Create regression dataset with two correlated targets X, y = make_regression(n_features=20, random_state=245, n_targets=2) indep_vars = ['var{}'.format(i) for i in range(X.shape[1])] # …
8 correlation  machine-learning  dataset  logistic-regression  prediction  linear-regression  prediction  dummy-variables  neural-network  image-classification  python  k-nn  python  neural-network  neural-network  deep-learning  keras  tensorflow  image-classification  tensorflow  reinforcement-learning  policy-gradients  machine-learning  decision-trees  neural-network  overfitting  data-analysis  metric  python  scikit-learn  distance  scipy  machine-learning  python  scikit-learn  decision-trees  logistic-regression  keras  image-classification  implementation  machine-learning  python  scikit-learn  random-forest  decision-trees  machine-learning  feature-selection  feature-engineering  word2vec  word-embeddings  natural-language-process  scikit-learn  time-series  clustering  k-means  python  cross-validation  pyspark  statistics  cross-validation  multiclass-classification  evaluation  machine-learning  nlp  machine-translation  neural-network  deep-learning  keras  tensorflow  image-classification  machine-learning  python  similarity  distance  lstm  text  named-entity-recognition  machine-learning  keras  optimization  gan  learning-rate  neural-network  data-mining  dataset  databases  books  neural-network  rnn 

2
可変長の特徴ベクトルを扱う
サイズが異なる可能性がある特徴ベクトルをどのように処理しますか? オブジェクトごとに、4つの特徴を計算するとします。特定の回帰問題を解決するために、これらのオブジェクトを1つ、2つ、またはそれ以上(10以下)持つ場合があります。したがって、特徴ベクトルの長さは4 * Nです。これは通常どのように対処されますか? オブジェクトは、オブザーバーに関する物理的なオブジェクト(他の人など)を表します。タイムスライスの場合、オブジェクトは横方向、縦方向に配置でき、ある程度の速度と方向を持ちます(4つの機能)。解決しようとすること:人が最も快適に感じる場所。オブジェクトが1つしかない場合もありますが、2つ以上ある場合もあります。 免責事項:私はMLアプローチについての知識が限られています。私は何年も前に大学で授業をしていて、Andrew NgのMLコースを復習としてオンラインで受講しましたが、それ以外の点ではスピードが出ませんでした。見てみるところに感謝します。

3
残差二乗和と通常の最小二乗の違いは何ですか?
私には同じように見えますが、よくわかりません。 更新:振り返ってみると、これはあまり良い質問ではありませんでした。OLSはラインをデータに適合させることを指し、RSSはOLSが使用するコスト関数です。二乗誤差の残差の合計が最小になるパラメーターを見つけます。OLSでは通常と呼ばれますが、これは線形近似を行っていることを意味します。

1
線形回帰の仮定
簡単に言えば、線形回帰の仮定は何ですか? 線形回帰モデルをデータセットに適用できることを知りたいだけです。

1
データセット全体で構築できない場合、データセットの「チャンク」で線形モデルを構築できますか?
データセット全体でモデルを構築できない場合、データセットの「チャンク」で線形モデルを構築できますか? 特に、私はまだ88kを超える変数(機能)を残しており、大量のメモリがなければ、それらを使って多くを行うことはできません。しかし、「ブロック」でモデルを実行すると、ブロック間で発生する相互作用が失われますか、またはこれらを「集約」するためのテクニックはありますか?

1
Pythonでの確率的勾配降下法の実装
Pythonで2次元線形回帰の基本的な確率勾配降下アルゴリズムを実装しようとしています。バニラGDのボイラープレートコードが渡され、SGDで動作するように変換しようとしました。 具体的には、私は一般的に回帰に不慣れなため、損失関数と偏微分を正しく実装したかどうかは少しわかりません。 エラーは予想どおり「ジグザグ」になる傾向があります。以下は正しい実装のように見えますか、それとも何か間違いをしましたか? #sample data data = [(1,1),(2,3),(4,3),(3,2),(5,5)] def compute_error_for_line_given_points(b, m, points): totalError = 0 x = points[0] y = points[1] return float(totalError + (y - (m * x + b)) ** 2) def step_gradient(b_current, m_current, points, learningRate): N = float(1) for i in range(0, 1): x = points[0] y …


2
理論上の限界-回帰誤差
ベイズエラー率は、いくつかのデータが与えられた場合に、分類問題の最低のエラー率を決定する理論上の限界です。回帰アルゴリズムの場合に同等の概念が存在するかどうか疑問に思っていました。私の目的は、回帰アルゴリズムのエラーがその理論上の限界からどれだけ離れているかを判断することです。これは、私が可能な最良のソリューションからどれだけ離れているかを評価する方法です。特定のデータセットの最小の回帰誤差の範囲を取得する方法はありますか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.