データサイエンス regression

2

N個のサンプルを持つデータセットを使用して、確率的勾配降下回帰アルゴリズムをトレーニングしたいとします。データセットのサイズは固定なので、データをT回再利用します。各反復または「エポック」で、トレーニングセット全体をランダムに並べ替えた後、各トレーニングサンプルを1回だけ使用します。私の実装はPythonとNumpyに基づいています。したがって、ベクトル演算を使用すると、計算時間を大幅に短縮できます。バッチ勾配降下法のベクトル化された実装を考え出すことは非常に簡単です。ただし、確率的勾配降下法の場合、各エポックですべてのサンプルを反復する外部ループを回避する方法を理解できません。誰かが確率的勾配降下法のベクトル化された実装を知っていますか？編集：データセットのサイズが固定されている場合、オンライン勾配降下法を使用する理由を尋ねられました。 [1]から、オンライン勾配降下法は、バッチ勾配降下法よりも経験的コストの最小値まで収束が遅いことがわかります。ただし、一般化のパフォーマンスを測定する予想コストの最小値に速く収束します。これらの理論上の結果が私の特定の問題に及ぼす影響を、相互検証によってテストしたいと思います。ベクトル化された実装がない場合、私のオンライン勾配降下コードはバッチ勾配降下コードよりもはるかに遅くなります。これにより、相互検証プロセスが完了するまでの時間が大幅に増加します。編集：私は、ffriendからの要求に応じて、オンライン勾配降下法の実装の疑似コードをここに含めます。回帰問題を解決しています。 Method: on-line gradient descent (regression) Input: X (nxp matrix; each line contains a training sample, represented as a length-p vector), Y (length-n vector; output of the training samples) Output: A (length-p+1 vector of coefficients) Initialize coefficients (assign value 0 to all coefficients) Calculate outputs …

10 python gradient-descent regression

3

Tensorflowでバッチ内積を行う方法は？

2つのテンソルがありa:[batch_size, dim] b:[batch_size, dim]ます。バッチ内のすべてのペアに対して内積を行い、を生成c:[batch_size, 1]しc[i,0]=a[i,:].T*b[i,:]ます。どうやって？

10 tensorflow scikit-learn svm cross-validation feature-selection bayesian machine-learning decision-trees parameter-estimation neural-network convnet neural-network regularization visualization machine-learning similarity python pandas indexing r data-cleaning machine-learning predictive-modeling data-cleaning recommender-system python sequential-pattern-mining software-recommendation r visualization gaussian distribution machine-learning data-mining bigdata apache-hadoop predictive-modeling logistic-regression sampling machine-learning regression feature-selection mongodb neural-network inception machine-learning classification dataset databases logistic-regression deep-learning backpropagation classification data-mining multilabel-classification text-mining data-cleaning unsupervised-learning anomaly-detection python r python pandas

2

線形回帰、ディシジョンツリー、またはランダムフォレスト回帰を選択するのはいつですか？[閉まっている]

休業。この質問には、より焦点を当てる必要があります。現在、回答を受け付けていません。この質問を改善してみませんか？質問を更新して、この投稿を編集するだけで1つの問題に焦点を当てます。 4年前休業。私はプロジェクトに取り組んでおり、どのアルゴリズムを選択するかを決定するのが困難ですregression。私は1つを選ぶ必要がありますどのような条件の下で知りたいlinear regressionか、Decision Tree regressionまたはRandom Forest regression？上記のツリーの中で特定のアルゴリズムに移行することを決定するデータの特定の特性はありますか？決定を下すためにデータセットを調べる必要がある特性は何ですか？そして、もう一つが選択になるだろういくつかの理由があるdecision treeかrandom forest、アルゴリズム同じ正しさをすることによって達成することができたとしてもはlinear regression？

10 machine-learning algorithms random-forest linear-regression decision-trees machine-learning predictive-modeling forecast r clustering similarity data-mining dataset statistics text-mining text-mining data-cleaning data-wrangling machine-learning classification algorithms xgboost data-mining dataset dataset regression graphs svm unbalanced-classes cross-validation optimization hyperparameter genetic-algorithms visualization predictive-modeling correlation machine-learning predictive-modeling apache-spark statistics normalization apache-spark map-reduce r correlation confusion-matrix r data-cleaning classification terminology dataset image-classification machine-learning regression apache-spark machine-learning data-mining nlp parsing machine-learning dimensionality-reduction visualization clustering multiclass-classification evaluation unsupervised-learning machine-learning machine-learning data-mining supervised-learning unsupervised-learning machine-learning data-mining classification statistics predictive-modeling data-mining clustering python pandas machine-learning dataset data-cleaning data bigdata software-recommendation

1

Octaveにシグモイド関数を実装するにはどうすればよいですか？[閉まっている]

休業。この質問には詳細または明確さが必要です。現在、回答を受け付けていません。この質問を改善してみませんか？詳細を追加し、この投稿を編集して問題を明確にしてください。 2年前休業。シグモイド関数がhθ（x）= g（θ^（T）x）として定義されている場合、g = zeros（size（z））が指定されている場合、この関数をOctaveにどのように実装できますか？

9 regression logistic-regression octave

3

Scikit-LearnのRandom Forest Regressorから重み（式）をエクスポートする

Scikit Learn in Python（ランダムフォレストリグレッサー）を使用して予測モデルをトレーニングし、手動で予測するためのExcelツールを作成するために、各機能の重みを何らかの方法で抽出したいと考えています。私が見つけた唯一のものはですがmodel.feature_importances_、それは助けにはなりません。それを達成する方法はありますか？ def performRandomForest(X_train, y_train, X_test, y_test): '''Perform Random Forest Regression''' from sklearn.ensemble import RandomForestRegressor model = RandomForestRegressor() model.fit( X_train , y_train ) #make predictions expected = y_test predicted = model.predict( X_test ) #summarize the fit of the model mse = np.mean(( predicted - expected )** …

9 python predictive-modeling regression random-forest scikit-learn

2

Pythonの多変量線形回帰

多変量線形回帰を実装するPythonパッケージを探しています。（用語の注記：多変量回帰は複数の従属変数がある場合を扱い、多重回帰は1つの従属変数があるが複数の独立変数がある場合を扱います。）

9 python regression library software-recommendation

1

トレーニングラベルの信頼度を使用して予測精度を向上させることはできますか？

バイナリ値でラベル付けされたトレーニングデータがあります。また、これらの各ラベルの信頼度を収集しました。つまり、0.8の信頼度は、人間のラベラーの80％がそのラベルに同意することを意味します。この信頼性データを使用して分類子の精度を向上させることはできますか？以下はうまくいくでしょうか？ 1a）ラベルが0で、そのラベルの信頼度データが0.8の場合、トレーニングデータに0.2の新しいラベルを付けます。 1b）ラベルが1で、そのラベルの信頼性データが0.8の場合、トレーニングデータに0.8の新しいラベルを付けます。 2）トレーニングセットのすべてのエントリに対して、この方法を使用して新しいラベルを計算します 3）問題を回帰問題として扱います（ラベルの範囲は0〜1）。 4）新しいラベルが特定の値の上か下かに基づいて、ラベルのないデータを分類します。つまり、すべての予測ラベルにX未満の場合はクラス0を、Xを超える場合はクラス1を指定します。現在、モデルにRBFカーネルを備えたSVMを使用しています。前もって感謝します！

9 machine-learning classification regression scikit-learn svm

2

タスク期間を予測する

タスクの期間を予測する回帰モデルを作成しようとしています。私が持っているトレーニングデータは、これらの変数を使用して約4万の完了したタスクで構成されています。誰がタスクを実行したか（約250人）プロジェクトのどの部分（サブプロジェクト）でタスクが実行されたか（約20の異なる部分）タスクのタイプタスクの開始日（10年分のデータ）タスクを実行しなければならない人がそれがかかると推定する時間このタスクが完了するまでにかかった実際の期間所要時間は30分から数百時間の間で変動しますが、かなり正確に歪んでいます（ほとんどのタスクは10時間以内に完了します）。対数スケールでは、分布はまだわずかに右に歪んでいます。予測は完璧である必要はありませんが、私は人々の推定を改善しようとしています。質問の1つは、「定義されたbeterをどのような尺度で使用できるか」です。大きな誤差は小さな誤差よりもはるかに悪いため、平均二乗誤差（MSE）が最良の測定になると思います。機械学習に移る前に、平均または中央値の誤差で推定値を調整したり、サブプロジェクトでグループ化された人別の平均値/中央値誤差で調整したりするなど、いくつかの単純なアプローチを試しましたが、これらはそれぞれパフォーマンスが低下しました。機械学習で最初に遭遇した問題の1つは、カテゴリ変数の数でした。これは、ほとんどのモデルでこれらを何らかの方法でエンコードする必要があるためです（例：ワンホット）。とにかく、私はいくつかの線形モデルを適用しようとしました。たとえば、確率的勾配降下法では、私のアプローチは次のようになります。カテゴリ機能をワンホットエンコード日付をUNIXタイムスタンプに変換 0と1の間にないすべての機能を正規化するデータを80/20学習セットとテストセットに分割します。グリッド検索の相互検証と学習セットを使用して、最適なハイパーパラメーターを見つけ、モデルに適合させます。テストセットで予測するエラー/スコアを計算する今気づいたことの1つは、結果がかなり異なるということでした。ある実行では、MSEは別の実行（150および280）の2倍に近かったです。もう1つは、人々の推定値のMSEが約80であるため、モデルのパフォーマンスが少し悪いことです。パフォーマンスを改善するための私の努力の間に、私は誰かが生存モデルを使用することを提案するこの質問を偶然見つけました。現在、私はこれらの種類のモデルに慣れていませんが、それは有望に聞こえましたが、これを使用した最初のテスト中に、目的に対して遅すぎる（データセットが大きすぎる）ことがわかりました。生存モデル（およびWikipediaページ）の使用を提案したのと同じデータサイエンスの回答で、ポアソン回帰についても言及しましたが、これを自分のケースにどのように適用するかはわかりません。つまり、2つの質問があります。1. SGDを使用する私のアプローチは「正しい」ものでしたか、それによって結果を改善できると思いますか？2.他のモデルはこの種の予測により適していますか？そうであれば、私がそれらをどのように使用するかを少し説明できますか？

9 regression survival-analysis

2

Advanced Optimizationアルゴリズムでオーバーフィッティングが発生する可能性はありますか？

Andrew Ngがコースラで機械学習に関するオンラインコースを受講しているときに、オーバーフィッティングというトピックに出くわしました。勾配降下法が線形回帰またはロジスティック回帰で使用される場合に発生することはわかっていますが、「共役勾配」、「BFGS」、「L-BFGS」などの高度な最適化アルゴリズムが使用される場合にも発生する可能性はありますか？

8 machine-learning regression optimization gradient-descent overfitting

2

大きな点群を通る線のあてはめ

パーティクルトラック（カメラで撮影された時間内のxy平面での移動、つまり3d-256x256pxと私のサンプルセットでは約3kフレーム）とノイズによって形成された大きなポイントセット（10kポイントのオーダー）があります。これらの粒子は、ほぼ直線上をほぼ同じ方向に移動しますが、それらの軌道を分析するために、点を通る線をフィットさせようとしています。シーケンシャルRANSACを使用しようとしましたが、TとJリンケージと同様に、誤検出を確実に選択するための基準を見つけることができませんでした。これは、シーケンシャルランサックで得られた適合性の良いデータセットと不良なデータセットの一部の画像です。ここでは、粒子ブロブの重心を使用しています。ブロブサイズは1ピクセルと約20ピクセルの間で変化します。たとえば、10フレームごとにのみ使用するサブサンプルも非常にうまく機能するため、処理するデータサイズをこの方法で削減できることがわかりました。ニューラルネットワークで実現できるすべてのことについてブログの投稿を読んで、これを読み始める前に、これが実現可能なアプリケーションかどうかを尋ねたいと思います（私は数学の知識がないので、かなりのことをしなければなりません少し読んでください）？または、別の方法を提案できますか？ありがとう！補遺：以下は、Matlab関数が30本の平行なノイズのあるラインを含むサンプルの点群を生成するコードです。これは、まだ区別できません。 function coords = generateSampleData() coords = []; for i = 1:30 randOffset = i*2; coords = vertcat(coords, makeLine([100+randOffset 100 100], [200+randOffset 200 200], 150, 0.2)); end figure scatter3(coords(:,1),coords(:,2),coords(:,3),'.') function linepts = makeLine(startpt, endpt, numpts, noiseOffset) dirvec = endpt - startpt; linepts = …

8 machine-learning clustering regression

2

可変長の特徴ベクトルを扱う

サイズが異なる可能性がある特徴ベクトルをどのように処理しますか？オブジェクトごとに、4つの特徴を計算するとします。特定の回帰問題を解決するために、これらのオブジェクトを1つ、2つ、またはそれ以上（10以下）持つ場合があります。したがって、特徴ベクトルの長さは4 * Nです。これは通常どのように対処されますか？オブジェクトは、オブザーバーに関する物理的なオブジェクト（他の人など）を表します。タイムスライスの場合、オブジェクトは横方向、縦方向に配置でき、ある程度の速度と方向を持ちます（4つの機能）。解決しようとすること：人が最も快適に感じる場所。オブジェクトが1つしかない場合もありますが、2つ以上ある場合もあります。免責事項：私はMLアプローチについての知識が限られています。私は何年も前に大学で授業をしていて、Andrew NgのMLコースを復習としてオンラインで受講しましたが、それ以外の点ではスピードが出ませんでした。見てみるところに感謝します。

8 machine-learning regression linear-regression

1

予測の信頼スコアを取得するにはどうすればよいですか？

回帰問題で、XGBoostやニューラルネットワークなどのモデルを指定して、特定の予測の信頼性/信頼性スコアを計算することはできますか？

7 machine-learning neural-network regression decision-trees xgboost

1

入力数が柔軟なニューラルネットワーク？

入力が異なる長さのベクトルである場合、一貫した出力を提供するニューラルネットワークを作成することは可能ですか？私は現在、さまざまな長さのオーディオファイルを多数サンプリングし、ニューラルネットワークをトレーニングして、特定の入力で必要な出力が得られる状況にあります。異なる番号の入力を行う、長さが異なるオーディオファイルのサンプルを指定して、MFCC機能を生成できる回帰ネットワークを作成しようとしています。

7 neural-network regression tensorflow supervised-learning audio-recognition

2

Pythonでセグメント化線形回帰を実行するライブラリはありますか？

Rでセグメント化されたという名前のパッケージがあります。Pythonにも同様のパッケージはありますか？

7 python regression linear-regression

2

理論上の限界-回帰誤差

ベイズエラー率は、いくつかのデータが与えられた場合に、分類問題の最低のエラー率を決定する理論上の限界です。回帰アルゴリズムの場合に同等の概念が存在するかどうか疑問に思っていました。私の目的は、回帰アルゴリズムのエラーがその理論上の限界からどれだけ離れているかを判断することです。これは、私が可能な最良のソリューションからどれだけ離れているかを評価する方法です。特定のデータセットの最小の回帰誤差の範囲を取得する方法はありますか？

7 regression linear-regression

タグ付けされた質問 「regression」

タグ付けされた質問「regression」