データサイエンス

データサイエンスの専門家、機械学習の専門家、およびこの分野に関する知識が豊富な方へ

4
データセットサイズでの過適合/過適合
下のグラフでは、 x軸=> データセットサイズ y軸=> 交差検証スコア 赤い線はトレーニングデータ用です 緑の線はテストデータ用です 私が言及しているチュートリアルで、著者は、赤い線と緑の線が重なる点は、 より多くのデータを収集しても、汎化のパフォーマンスが向上する可能性は低く、データが不足しがちな地域にいます。したがって、より多くの容量を持つモデルを試してみるのは理にかなっています 太字の意味とその意味がよくわかりません。 どんな助けにも感謝します。


1
SVMの正則化パラメーターの直感
SVMの正則化パラメーターを変更すると、分離不可能なデータセットの決定境界がどのように変更されますか?(大小の正則化のための)制限的な動作に関する視覚的な回答やコメントが非常に役立ちます。
11 svm 

2
SVMとロジスティック回帰の違い
私は読んでいてSVM、カーネル化されSVMsていないのは線形セパレータにすぎないという点に直面しました。したがって、SVM境界とロジスティック回帰の唯一の違いは、境界を選択する基準ですか? どうやら、SVM最大マージン分類子を選択し、ロジスティック回帰はcross-entropy損失を最小化するものです。SVM ロジスティック回帰またはその逆のパフォーマンスが向上する状況はありますか?

1
トレーニングの精度とテストの精度と混同行列
ランダムフォレストを使用して予測モデルを開発した後、次のメトリックを取得します。 Train Accuracy :: 0.9764634601043997 Test Accuracy :: 0.7933284397683713 Confusion matrix [[28292 1474] [ 6128 889]] これは、このコードの結果です。 training_features, test_features, training_target, test_target, = train_test_split(df.drop(['bad_loans'], axis=1), df['target'], test_size = .3, random_state=12) clf = RandomForestClassifier() trained_model = clf.fit(training_features, training_target) trained_model.fit(training_features, training_target) predictions = trained_model.predict(test_features) Train Accuracy: accuracy_score(training_target, trained_model.predict(training_features)) Test Accuracy: accuracy_score(test_target, predictions) Confusion …

2
Catboostのカテゴリ機能の処理オプション(CTR設定)?
連続的なターゲット変数(つまり、回帰)を予測する多数のカテゴリ特徴(> 80%)を持つデータセットを使用しています。カテゴリ機能を処理する方法についてかなり読んでいます。そして、私が過去に使用したワンホットエンコーディングは、特に多くのレベルを持つ多くのカテゴリ機能に関しては、非常に悪い考えであることを学びました(これらの投稿とこれを読んでください)。 カテゴリベースの機能のターゲットベースのエンコード(スムージング)などの方法に出くわしましたが、多くの場合、Kaggleのこの投稿/カーネルの各機能のターゲット値の平均に基づいています。それでも、CandBoostがYandexグループによって昨年リリースされた意思決定ツリーに対するオープンソースのグラディエントブースティングを見つけるまで、より具体的な方法を見つけるのに苦労しています。これらは、カテゴリ機能に対して追加の統計カウントオプションを提供しているようで、単純なワンホットエンコーディングやスムージングよりもはるかに効率的です。 問題は、ドキュメントがCTR設定の設定方法に役立たないことです。別の方法を試しましたが、うまくいきません。このドキュメントでは、CTR設定はsimple_ctrであり、(CTR設定セクション)として指定されています。 ['CtrType[:TargetBorderCount=BorderCount][:TargetBorderType=BorderType][:CtrBorderCount=Count][:CtrBorderType=Type][:Prior=num_1/denum_1]..[:Prior=num_N/denum_N]', 'CtrType[:TargetBorderCount=BorderCount][:TargetBorderType=BorderType][:CtrBorderCount=Count][:CtrBorderType=Type][:Prior=num_1/denum_1]..[:Prior=num_N/denum_N]', ...] これは非常に単純な例です。データは次のようになります。 import pandas as pd import catboost data = [{'profit': '342','country': 'holland','account': 'Jones LLC', 'saving': 150, 'debt': -60, 'age': 28}, {'profit': '875','country': 'germany','account': 'Alpha Co', 'saving': 200, 'debt': -10, 'age': 42}, {'profit': '127','country': 'italy','account': 'Blue Inc', 'saving': 50, 'debt': -300, 'age': 38 }] …

1
xgboost binary:logisticとreg:logisticの違いは何ですか
binary:logisticとreg:logisticのxgboostのRの違いは何ですか?評価指標のみですか? はいの場合、バイナリ分類のRMSEはエラー率とどのように比較されますか?メトリック間の関係は多かれ少なかれ単調であり、1つのメトリックのチューニングからの出力は、これらの2つのアプローチ間で大幅に異なるべきではありませんか?



3
機械学習のコンテキストで「ベースライン」とはどういう意味ですか?
機械学習とデータサイエンスのコンテキストで「ベースライン」とはどういう意味ですか? 誰かが私に書いた: ヒント:適切なベースラインでは、約200のRMSEが得られます。 わかりません。彼は、トレーニングデータの私の予測モデルが500未満のRMSEを持っている場合、それは良いことを意味しますか? 「ベースラインアプローチ」とは何でしょうか。

2
TF-IDFによるWord2Vec埋め込み
(たとえば、gensimを使用して)word2vecモデルをトレーニングするときは、単語/文のリストを指定します。しかし、たとえばTF-IDFを使用して計算された単語の重みを指定する方法はないようです。 ワードベクトルの埋め込みに関連するTF-IDFウェイトを乗算する通常の方法はありますか?あるいは、word2vecはこれらを何らかの形で有機的に利用できますか?

1
Y軸に単一のDataFrameの2つの列をプロットする方法
2つのDataFrames(Action、Comedy)があります。アクションには2つの列(年、評価)の評価が含まれ、列には年に関する平均評価が含まれます。コメディデータフレームには、平均値が異なる同じ2つの列が含まれています。 両方のデータフレームをtotal_year Dataframeにマージします total_yearの出力 今度は、X軸に年の列が含まれ、Y軸にアクション列とコメディー列の両方が含まれる折れ線グラフにtotal_yearをプロットします。 次のコードを使用して、Y軸に一度に1列のみをプロットできます。 total_year[-15:].plot(x='year', y='action' ,figsize=(10,5), grid=True ) Y軸に両方の列をプロットするにはどうすればよいですか? 私はこの方法でグラフを描きたい人に知らせるためにグーグルからこの写真を撮りました

2
ポリシーグラディエント強化学習を行うときに割引特典を正規化するのはなぜですか?
カートポール問題を解決するための政策勾配アプローチを理解しようとしています。このアプローチでは、ポリシーの各パラメーターに対する損失の勾配を、シーケンス内のすべてのアクションのポリシー勾配の勾配の合計の期待値として表現し、そのシーケンスの割引された報酬の合計で重み付けします。 ∇θL(θ)=E[G(S0:T,A0:T)∑t=0T∇θlogπθ(At|St)]∇θL(θ)=E[G(S0:T,A0:T)∑t=0T∇θlogπθ(At|St)]\nabla_\theta L(\theta) = E[ G(S_{0:T}, A_{0:T})\sum_{t=0}^{T}\nabla_\theta log\pi_\theta (A_t|S_t) ] そして、エピソードのすべてのサンプルの経験的平均を使用してそれを推定します。 しかし、直感的ではない部分は、いくつかの実装でエピソード間の利点を正規化するための一般的な慣行を見た(そして実際にそれがよりうまく機能する)ことです。したがって、彼らが計算した後、彼らは直接利点を使用するのではなく、むしろそれを正規化します。例えば、ここでは彼らはすべてのエピソードの後に​​行います: discounted_epr = discount_rewards(epr) discounted_epr -= np.mean(discounted_epr) discounted_epr /= np.std(discounted_epr) それの正当化は何ですか-理論と直観の両方で?エピソードが長く、大きな利点がある場合、3ムーブのエピソードよりもそのエピソードから多くを学ぶ価値があるように私には思えます。何が欠けていますか?

2
データの線形回帰とスケーリング
次のプロットは、線形回帰で得られた係数を示しています(mpgターゲット変数として、その他すべてを予測子として)。 データをスケーリングする場合としない場合の両方のmtcarsデータセット(こことここ)の場合: これらの結果をどのように解釈しますか?変数hpとdispは、データがスケーリングされている場合にのみ重要です。あるamとqsec同様に重要であるかamよりも重要qsec?どちらの変数が重要な決定要因mpgか? あなたの洞察をありがとう。

3
科学計算に最適な言語[終了]
閉じた。この質問はより集中する必要があります。現在、回答を受け付けていません。 この質問を改善したいですか?この投稿を編集するだけで1つの問題に焦点を当てるように質問を更新します。 5年前に閉鎖されました。 ほとんどの言語では、いくつかの科学計算ライブラリが利用できるようです。 Pythonは Scipy Rust 持っている SciRust C++持っているなど、いくつかのViennaCLとArmadillo Java持っているJava NumericsとColtだけでなく、他のいくつかの 以下のような言語は言うまでもありませんRし、Julia科学技術計算のために明示的に設計されています。 非常に多くのオプションを使用して、タスクに最適な言語をどのように選択しますか?さらに、どの言語が最もパフォーマンスが高くなりますか?PythonそしてR宇宙の中で最も牽引力を持っているように見えるが、それは、より良い選択となるように、論理的にコンパイルされた言語がそうです。そして、これまでに何よりも優れているFortranでしょうか?さらに、コンパイルされた言語はGPUアクセラレーションを備えている傾向がありますが、インタープリター言語はそうではRありPythonません。言語を選択するときは何を考慮すればよいですか。また、ユーティリティとパフォーマンスのバランスが最も良い言語はどれですか。また、私が見逃した重要な科学計算リソースを持つ言語はありますか?
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.