タグ付けされた質問 「accuracy」

3
AUCと標準精度の利点
私は曲線下面積(AUC)を調べ始めていましたが、その有用性について少し混乱しています。最初に説明したとき、AUCはパフォーマンスの優れた尺度であるように見えましたが、私の研究では、高標準精度測定と低AUCで「ラッキー」モデルをキャッチするのに最適であるという点で、その利点はほとんど限界に達していないということがわかりました。 したがって、モデルの検証にAUCに依存することを避けるべきですか、それとも組み合わせが最善でしょうか?ご助力いただきありがとうございます。

4
データセット全体を使用して最終モデルをトレーニングする方が常に良いですか?
好みの機械学習モデルをトレーニング、検証、テストした後の一般的な手法は、テストサブセットを含む完全なデータセットを使用して、製品などに展開する最終モデルをトレーニングすることです。 私の質問は、そうすることは常に最善のことですか?実際にパフォーマンスが低下した場合はどうなりますか? たとえば、テストサブセットの分類でモデルのスコアが約65%である場合を想定します。これは、モデルのトレーニングが不十分であるか、テストサブセットが外れ値で構成されていることを意味します。後者の場合、それらを使用して最終モデルをトレーニングするとパフォーマンスが低下し、展開後に初めて確認できます。 最初の質問の言い換え: 高価なロケット実験に搭載された組み込み電子機器にモデルを展開するなど、モデルの1回限りのデモンストレーションがあった場合、最終ステップでテストサブセットを使用して再トレーニングされたモデルを信頼できますか?新しいパフォーマンスでテストしましたか?

3
職場での期待をどのように管理していますか?
データサイエンス、機械学習、およびすべてのサクセスストーリーに関連するすべての問題により、データサイエンティストとその予測モデルからの正当化された期待と過剰な期待の両方があります。 統計学者、機械学習の専門家、データサイエンティストの実践に対する私の質問は、特にモデルの予測精度に関して、社内のビジネスマンからの期待をどのように管理していますか?簡単に言えば、最高のモデルが90%の精度しか達成できず、上級管理職が99%以上を期待している場合、このような状況をどのように処理しますか?

1
機械学習のLBスコアとは何ですか?
私はを経た記事 kaggleブログに。繰り返し、著者は「LBスコア」と「LBフィット」)を機械学習の有効性の指標として(クロス検証(CV)スコアとともに)言及しています。 「LB」の意味の研究でかなりの時間を費やしましたが、一般的に人々はそれを直接LBと呼ぶことに気付きました。 だから私の質問は-「LB」とは何ですか?

2
分類器の精度を上げる方法は?
OpenCV letter_recog.cppの例を使用して、ランダムツリーやその他の分類子を実験しています。この例には、ランダムツリー、ブースティング、MLP、kNN、単純ベイズ、SVMの6つの分類子が実装されています。20000のインスタンスと16の機能を備えたUCI文字認識データセットが使用されます。これをトレーニングとテストのために半分に分割しました。SVMの経験があるため、その認識エラーをすばやく3.3%に設定しました。いくつかの実験の後、私が得たのは: UCI文字認識: RTrees-5.3% ブースト-13% MLP-7.9% kNN(k = 3)-6.5% ベイズ-11.5% SVM-3.3% 使用されるパラメーター: RTrees-max_num_of_trees_in_the_forrest = 200、max_depth = 20、min_sample_count = 1 ブースト-boost_type = REAL、weak_count = 200、weight_trim_rate = 0.95、max_depth = 7 MLP-method = BACKPROP、param = 0.001、max_iter = 300(デフォルト値-実験するには遅すぎる) kNN(k = 3)-k = 3 ベイズ-なし SVM-RBFカーネル、C = 10、ガンマ= 0.01 その後、同じパラメーターを使用し、最初に勾配フィーチャ(ベクトルサイズ200要素)を抽出して、DigitsおよびMNISTデータセットでテストしました。 数字: RTrees-5.1% ブースト-23.4% MLP-4.3% …

3
KS、AUROC、およびGiniの関係
コルモゴロフ–スミルノフ検定(KS)、AUROC、ジニ係数などの一般的なモデル検証統計はすべて機能的に関連しています。しかし、私の質問は、これらがすべて関連していることを証明することに関係しています。誰かがこれらの関係を証明するのを手伝ってくれる人がいるかどうか知りたいです。私はオンラインで何も見つけることができませんでしたが、証明がどのように機能するかについて本当に興味があります。たとえば、私はGini = 2AUROC-1を知っていますが、私の最良の証明はグラフを指すことです。正式な証明に興味があります。どんな助けでも大歓迎です!

1
トレーニングの精度とテストの精度と混同行列
ランダムフォレストを使用して予測モデルを開発した後、次のメトリックを取得します。 Train Accuracy :: 0.9764634601043997 Test Accuracy :: 0.7933284397683713 Confusion matrix [[28292 1474] [ 6128 889]] これは、このコードの結果です。 training_features, test_features, training_target, test_target, = train_test_split(df.drop(['bad_loans'], axis=1), df['target'], test_size = .3, random_state=12) clf = RandomForestClassifier() trained_model = clf.fit(training_features, training_target) trained_model.fit(training_features, training_target) predictions = trained_model.predict(test_features) Train Accuracy: accuracy_score(training_target, trained_model.predict(training_features)) Test Accuracy: accuracy_score(test_target, predictions) Confusion …

3
科学計算に最適な言語[終了]
閉じた。この質問はより集中する必要があります。現在、回答を受け付けていません。 この質問を改善したいですか?この投稿を編集するだけで1つの問題に焦点を当てるように質問を更新します。 5年前に閉鎖されました。 ほとんどの言語では、いくつかの科学計算ライブラリが利用できるようです。 Pythonは Scipy Rust 持っている SciRust C++持っているなど、いくつかのViennaCLとArmadillo Java持っているJava NumericsとColtだけでなく、他のいくつかの 以下のような言語は言うまでもありませんRし、Julia科学技術計算のために明示的に設計されています。 非常に多くのオプションを使用して、タスクに最適な言語をどのように選択しますか?さらに、どの言語が最もパフォーマンスが高くなりますか?PythonそしてR宇宙の中で最も牽引力を持っているように見えるが、それは、より良い選択となるように、論理的にコンパイルされた言語がそうです。そして、これまでに何よりも優れているFortranでしょうか?さらに、コンパイルされた言語はGPUアクセラレーションを備えている傾向がありますが、インタープリター言語はそうではRありPythonません。言語を選択するときは何を考慮すればよいですか。また、ユーティリティとパフォーマンスのバランスが最も良い言語はどれですか。また、私が見逃した重要な科学計算リソースを持つ言語はありますか?
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

3
精度と再現率の逆の関係
精度と再現率を学習するために検索を行ったところ、一部のグラフが精度と再現率の逆関係を表していることがわかり、主題を明確にするためにそれについて考え始めました。逆の関係が常に成り立つのだろうか?バイナリ分類の問題があり、ポジティブとネガティブのラベル付きクラスがあるとします。トレーニング後、実際のポジティブな例のいくつかは真のポジティブとして予測され、それらのいくつかは偽陰性であり、実際のネガティブの例のいくつかは真のネガティブとして予測され、いくつかはそれらの偽陽性です。精度を計算して再現するために、次の式を使用します および偽陰性を減らすと真陽性が増加し、その場合はそうしませんt精度と再現率の両方が増加しますか?PR E 、C 、I S I O N =TPTP+ FPPrecision=TPTP+FPPrecision = \frac{TP}{TP + FP}R e c a l l =TPTP+ FNRecall=TPTP+FNRecall = \frac{TP}{TP + FN}

2
n個の異なる分類から集約混同行列を取得する方法
方法論の精度をテストしたい。私はそれを約400回実行し、実行ごとに異なる分類を得ました。また、グラウンドトゥルース、つまり、テストする実際の分類もあります。 分類ごとに混同行列を計算しました。次に、全体的な混同行列を取得するために、これらの結果を集計します。どうすればそれを達成できますか? 全体の混同行列を取得するために、すべての混同行列を合計できますか?

2
検証とテストとトレーニングの精度。オーバーフィットを主張するために私はどちらを比較すべきですか?
こことインターネットでいくつかの回答を読みましたが、クロス検証は、モデルが一般化するかどうか、およびオーバーフィットについて一般化するかどうかを示すのに役立ちます。 しかし、私は、モデルが過適合であるかどうかを確認するために、テスト/トレーニング/検証の間でどの2つの精度/エラーを比較すべきか混乱していますか? 例えば: データを70%のトレーニングと30%のテストに分割します。 10倍の相互検証を実行すると、平均/平均をとることができる10の精度が得られます。これはどういう意味validation accuracyですか? その後、30%のテストデータでモデルをテストし、を取得しTest Accuracyます。 この場合、何になりますtraining accuracyか?また、モデルが過適合であるかどうかを確認するには、どの2つの精度を比較する必要がありますか?

2
結果に自信を抱くものは何ですか?上司の読み書きができない技術者に自分の作品を提示できるのはどの時点だと思いますか?
モデルが得られるデータと同じくらい優れていることを理解しています。設計が悪いと、本当に悪いデータが生成される可能性があります。非ランダムサンプリング、不均衡/不完全な設計、交絡は、データ分析を非常に困難にする可能性があります。 彼らが有用なモデルを実行したと確信できるのはどの時点ですか?トレーニング/テストデータセットで相互検証を行い、それを1日と呼びますか?明らかに「すべてのモデルが間違っている、いくつかは有用である」が、ある時点で、LASSOingによる過度のパラメーターの除外と、BICを下げることによる奇妙な変換とのトレードオフが明らかになります。 一日の終わりにtl; drを実行すると、「会社/プロジェクトに正しいことをしたので、これでうまくいく」

2
Coursera ML-最適化アルゴリズムの選択は、マルチクラスロジスティック回帰の精度に影響しますか?
最近、Pythonを使用したCourseraでのAndrew Ngの機械学習の演習3を完了しました。 演習のパート1.4から1.4.1を最初に完了すると、トレーニング済みモデルが予想される94.9%に一致する精度を持っていることを確認するのが困難になりました。デバッグして、コストと勾配関数にバグがないこと、および予測子コードが正しく機能していることを確認した後でも、精度は90.3%しかありませんでした。で共役勾配(CG)アルゴリズムを使用していましたscipy.optimize.minimize。 好奇心から、別のアルゴリズムを試すことにし、ブロイデン-フレッチャー-ゴールドファーブ-シャノン(BFGS)を使用しました。驚いたことに、精度は大幅に96.5%に向上し、予想を上回りました。これら2つの異なる結果のCGとBFGSの比較は、ノートブックのヘッダー「最適化アルゴリズムの違いによる精度の違い」の下で確認できます。 最適化アルゴリズムの選択が異なるため、この精度の違いの理由はありますか?はいの場合、誰かが理由を説明できますか? また、これを引き起こしている関数にバグがないことを確認するためだけにコードをレビューしていただければ幸いです。 ありがとうございました。 編集:ここで、読者にJupyterノートブックへのリンクを紹介するのではなく、このページで行うコメントのリクエストに、質問に含まれるコードを追加しました。 モデルのコスト関数: def sigmoid(z): return 1 / (1 + np.exp(-z)) def compute_cost_regularized(theta, X, y, lda): reg =lda/(2*len(y)) * np.sum(theta[1:]**2) return 1/len(y) * np.sum(-y @ np.log(sigmoid(X@theta)) - (1-y) @ np.log(1-sigmoid(X@theta))) + reg def compute_gradient_regularized(theta, X, y, lda): gradient = np.zeros(len(theta)) XT = X.T beta …
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.