タグ付けされた質問 「regression」

1つ(または複数)の「従属」変数と「独立」変数の間の関係を分析する手法。

3
多重出力回帰のためのニューラルネットワーク
34の入力列と8つの出力列を含むデータセットがあります。 この問題を解決する1つの方法は、34の入力を取得し、各出力列に対して個別の回帰モデルを構築することです。 特にニューラルネットワークを使用して、この問題を1つのモデルだけで解決できるかどうか疑問に思っています。 多層パーセプトロンを使用しましたが、線形回帰のように複数のモデルが必要です。Sequence to Sequenceは実行可能なオプションですか? TensorFlowを使用しています。コードはありますが、多層パーセプトロン理論の観点から見落としていることを理解することがより重要だと思います。 MLPでは、1つの出力ノードがある場合、1つの出力を提供することを理解しています。10個の出力ノードがある場合、それはマルチクラスの問題です。10個の出力の中から最も確率の高いクラスを選択します。しかし、私の場合、同じ入力に対して8つの出力があることは確かです。 たとえば、入力のセットに対して、何か(X、Y、Z)の3D座標を取得するとしましょう。同様に、入力= {1,10,5,7}出力= {1,2,1}。したがって、同じ入力{1,10,5,7}に対して、X値Y値とZのモデルを作成する必要があります。1つの解決策は、MLPを使用して3つの異なるモデルを作成することです。しかし、私は1つのモデルを持つことができるかどうかを見たいです。そこで、seq2seqの使用を考えました。エンコーダは一連の入力を受け取り、デコーダは一連の出力を提供するためです。しかし、テンソルフローのseq2seqはfloat値を処理できないようです。私はこれについて間違っている可能性があります。

5
シーボーンヒートマップを大きくする
corr()元のdfからdf を作成します。corr()DFは、70 X 70から出てきたし、ヒートマップを可視化することは不可能です... sns.heatmap(df)。を表示しようとするcorr = df.corr()と、テーブルが画面に収まらず、すべての相関関係を確認できます。dfサイズに関係なく全体を印刷する方法ですか、ヒートマップのサイズを制御する方法ですか?
16 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

2
なぜ1つのダミー変数を破棄する必要があるのですか?
回帰モデルを作成するには、カテゴリー変数をダミー変数に変換して処理する必要があることを学びました。例として、データセットに場所のような変数がある場合: Location ---------- Californian NY Florida 次のように変換する必要があります。 1 0 0 0 1 0 0 0 1 ただし、ダミー変数がいくつあっても、1つのダミー変数を破棄する必要があることが示唆されました。 なぜ1つのダミー変数を破棄する必要があるのですか?

3
歪んだデータを正規分布に変換する理由
Kaggle(住宅価格に関するヒューマンアナログのカーネル:Advance Regression Techniques)での住宅価格競争の解決策を経験していて、この部分に出会いました: # Transform the skewed numeric features by taking log(feature + 1). # This will make the features more normal. from scipy.stats import skew skewed = train_df_munged[numeric_features].apply(lambda x: skew(x.dropna().astype(float))) skewed = skewed[skewed > 0.75] skewed = skewed.index train_df_munged[skewed] = np.log1p(train_df_munged[skewed]) test_df_munged[skewed] = np.log1p(test_df_munged[skewed]) 歪んだ分布を正規分布に変換する必要があるかどうかはわかりません。誰かが詳細に説明できますか: なぜこれがここで行われているのですか?またはこれはどのように役立ちますか? これは機能のスケーリングとどう違うのですか? これは機能エンジニアリングに必要なステップですか?この手順をスキップするとどうなりますか?

3
特徴とターゲット変数の相関関係を確認するにはどうすればよいですか?
Regressionモデルを構築しようとしていますが、機能とターゲット変数の間に相関関係があるかどうかを確認する方法を探していますか? これは私のサンプルです dataset Loan_ID Gender Married Dependents Education Self_Employed ApplicantIncome\ 0 LP001002 Male No 0 Graduate No 5849 1 LP001003 Male Yes 1 Graduate No 4583 2 LP001005 Male Yes 0 Graduate Yes 3000 3 LP001006 Male Yes 0 Not Graduate No 2583 4 LP001008 Male No 0 Graduate No …


2
航空運賃-競争力のある価格設定行動と価格の相関関係を検出するには、どのような分析を使用する必要がありますか?
航空会社の価格設定行動、特に競合他社の価格設定に対する航空会社の反応を調査したいと思います。 より複雑な分析についての私の知識はかなり限られていると言えますが、データの全体的なビューを収集するために、ほとんどすべての基本的な方法を実行しました。これには、類似のパターンを識別するのにすでに役立つ簡単なグラフが含まれます。SAS Enterprise 9.4も使用しています。 しかし、私はより多くの数値ベースのアプローチを探しています。 データセット 私が使用している(自己)収集データセットには、約54.000の運賃が含まれています。すべての運賃は、毎日(毎晩00:00)60日以内に収集されました。 したがって、その時間枠内のすべての運賃は、運賃の利用可能日および運賃の回収日までに通過するフライトの出発日を条件としてnnn回発生します。 (フライトの出発日が過去の場合、フライトの運賃を徴収することはできません) 基本的に次のように見える書式なし:(偽のデータ) +--------------------+-----------+--------------------+--------------------------+---------------+ | requestDate | price| tripStartDeparture | tripDestinationDeparture | flightCarrier | +--------------------+-----------+--------------------+--------------------------+---------------+ | 14APR2015:00:00:00 | 725.32 | 16APR2015:10:50:02 | 23APR2015:21:55:04 | XA | +--------------------+-----------+--------------------+--------------------------+---------------+ | 14APR2015:00:00:00 | 966.32 | 16APR2015:13:20:02 | 23APR2015:19:00:04 | XY | +--------------------+-----------+--------------------+--------------------------+---------------+ | 14APR2015:00:00:00 | 915.32 …

2
不等間隔の時系列のモデリング
1年の期間にわたって不規則な間隔でサンプリングされた連続変数があります。1日あたり1回以上の観測がある日もあれば、何日も観測されない日もあります。これにより、時系列のパターンを検出することが特に困難になります。これは、一部の月(たとえば10月)は高度にサンプリングされ、他の月はそうではないためです。 私の質問は、この時系列をモデル化するための最良のアプローチは何でしょうか? ほとんどの時系列分析手法(ARMAなど)には固定周波数が必要だと思います。一定のサンプルを取得したり、非常に詳細なデータのサブセットを選択したりするために、データを集計できます。両方のオプションを使用すると、元のデータセットからいくつかの情報が失われ、異なるパターンが明らかになる可能性があります。 シリーズをサイクルで分解する代わりに、モデルにデータセット全体をフィードして、パターンを取得することを期待できます。たとえば、時間、平日、月をカテゴリー変数に変換し、重回帰を試みて良い結果を出しました(R2 = 0.71) 私はANNなどの機械学習手法でもこれらのパターンを不均一な時系列から選択できると考えていますが、誰かがそれを試したのではないかと思っていました。

1
LSTMセルはいくつ使用すればよいですか?
使用する必要があるLSTMセルの最小、最大、および「妥当な」量に関する経験則(または実際の規則)はありますか?具体的には、TensorFlowとプロパティのBasicLSTMCellに関連していnum_unitsます。 私が定義する分類問題があると仮定してください: t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples たとえば、トレーニングの例の数は次の数よりも多い必要がありますか? 4*((n+1)*m + m*m)*c cセルの数はどこですか?これに基づいています:LSTMネットワークのパラメーターの数を計算する方法?私が理解しているように、これはパラメータの総数を与えるはずであり、トレーニング例の数よりも少なくなければなりません。
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

2
スパースデータを含む方程式系を解く
40の独立変数(x1、...、x40)と1つの従属変数(y)を含む方程式のセットを解こうとしています。方程式の合計数(行数)は約300であり、yと予測値の間の平方和誤差の合計を最小化する40個の係数のセットを解きたい。 私の問題は、行列が非常にスパースであり、スパースデータを使用して連立方程式を解くための最良の方法がわかりません。データセットの例を以下に示します。 y x1 x2 x3 x4 x5 x6 ... x40 87169 14 0 1 0 0 2 ... 0 46449 0 0 4 0 1 4 ... 12 846449 0 0 0 0 0 3 ... 0 .... 私は現在、これを解決するために遺伝的アルゴリズムを使用しており、結果は、観測されたものと期待されたもののおよそ2倍の違いで出てきます。 スパースデータを使用して方程式のセットを解くことができるさまざまな方法や手法を誰かが提案できますか?

3
回帰木は継続的に予測できますか?
ような滑らかな関数があるとしますf(x 、y)= x2+ y2f(x,y)=x2+y2f(x, y) = x^2+y^2。トレーニングセットそしてもちろん、私は知りませんが、どこでもを評価できます。F FD ⊊ { ((X 、Y)、f(x 、y))| (x 、y)∈ R2}D⊊{((x,y),f(x,y))|(x,y)∈R2}D \subsetneq \{((x, y), f(x,y)) | (x,y) \in \mathbb{R}^2\}ffffff 回帰木は関数の滑らかなモデルを見つけることができますか(したがって、入力の小さな変化は出力の小さな変化のみを与えるはずです)? 講義10:回帰ツリーで読んだことから、回帰ツリーは基本的に関数値をビンに入れるように見えます: 従来の回帰木の場合、各セルのモデルは、Yの一定の推定値です。 彼らが「クラシック」と書いているとき、細胞がより興味深い何かをするバリアントがあると思いますか?

3
マルチパーティシステムでの選挙の結果を計算するために使用する回帰
議会選挙の結果を予測したい。私の出力は、各当事者が受け取る%になります。3つ以上の関係者がいるため、ロジスティック回帰は実行可能なオプションではありません。パーティごとに個別の回帰を行うこともできますが、その場合、結果は何らかの形で互いに独立しています。結果の合計が100%になるとは限りません。 どの回帰(または他の方法)を使用する必要がありますか?特定のライブラリを介してRまたはPythonでこのメソッドを使用することは可能ですか?

3
機械学習のコンテキストで「ベースライン」とはどういう意味ですか?
機械学習とデータサイエンスのコンテキストで「ベースライン」とはどういう意味ですか? 誰かが私に書いた: ヒント:適切なベースラインでは、約200のRMSEが得られます。 わかりません。彼は、トレーニングデータの私の予測モデルが500未満のRMSEを持っている場合、それは良いことを意味しますか? 「ベースラインアプローチ」とは何でしょうか。

3
最適な通話時間を予測する
カリフォルニア州のさまざまな都市にいる顧客のセット、各顧客の呼び出し時間、および呼び出しのステータス(顧客が呼び出しに応答する場合はTrue、応答しない場合はFalse)を含むデータセットがあります。 電話に出る確率が高くなるように、将来の顧客を呼び込む適切な時期を見つけなければなりません。それで、この問題の最良の戦略は何ですか?時間(0、1、2、... 23)がクラスである分類問題と見なす必要がありますか?それとも、時間が連続変数である回帰タスクと見なす必要がありますか?電話に出る確率が高いことを確認するにはどうすればよいですか? 任意の助けいただければ幸いです。同様の問題を紹介していただければ幸いです。 以下はデータのスナップショットです。

2
テストデータの機能がトレーニングデータよりも少ない場合はどうすればよいですか?
店舗の売上を予測していて、トレーニングデータに2つの機能セットがあるとします。 日付のある店舗の売上に関する1つ(「店舗」フィールドは一意ではありません) 店舗タイプに関する1つ(「店舗」フィールドはここでは一意です) したがって、マトリックスは次のようになります。 +-------+-----------+------------+---------+-----------+------+-------+--------------+ | Store | DayOfWeek | Date | Sales | Customers | Open | Promo | StateHoliday | +-------+-----------+------------+---------+-----------+------+-------+--------------+ | 1 | 5 | 2015-07-31 | 5263.0 | 555.0 | 1 | 1 | 0 | | 2 | 5 | 2015-07-31 | 6064.0 | 625.0 …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.