タグ付けされた質問 「evaluation」

6
マルチクラス分類設定でのマイクロ平均とマクロ平均のパフォーマンス
3つのクラスでマルチクラス分類設定を試しています。クラス分布は歪んでおり、ほとんどのデータは3つのクラスのうち1つに分類されます。(クラスラベルは1,2,3で、データの67.28%がクラスラベル1に含まれ、11.99%のデータがクラス2にあり、クラス3に残ります) このデータセットでマルチクラス分類器をトレーニングしており、次のパフォーマンスが得られています。 Precision Recall F1-Score Micro Average 0.731 0.731 0.731 Macro Average 0.679 0.529 0.565 なぜすべてのマイクロ平均がわからないのか パフォーマンスは同等であり、マクロ平均パフォーマンスが非常に低い理由でもあります。

4
ブートストラップと相互検証の違いは何ですか?
私は以前、機械学習モデルのロバスト評価にK分割交差検証を適用していました。しかし、この目的のためのブートストラップメソッドの存在も知っています。ただし、パフォーマンスの見積もりに関しては、両者の主な違いはわかりません。 私の知る限り、ブートストラップは一定の数のランダムなトレーニング+テストサブセットを(別の方法ではありますが)生成するので、CVよりもこの方法を使用する利点は何ですか?ブートストラップの場合、事実上任意の数のそのようなサブセットを人工的に生成できる可能性があることを私が理解できる唯一のことは、CVの場合、インスタンスの数はこれに対する一種の制限です。しかし、この側面はごくわずかな迷惑のようです。


1
ランダムフォレストを使用してサンプリングするフィーチャの数
Wikipediaのページ引用符「統計的学習の要素は、」言います: 通常、特徴を持つ分類問題の 場合、各分割で特徴が使用されます。ppp⌊p–√⌋⌊p⌋\lfloor \sqrt{p}\rfloor 私はこれがかなり良い教育された推測であり、おそらく経験的証拠によって確認されたことを理解していますが、平方根を選ぶ他の理由はありますか?そこで起こっている統計現象はありますか? これは何らかの形でエラーの分散を減らすのに役立ちますか? これは回帰と分類で同じですか?

1
Kerasでカスタムパフォーマンスメトリックを定義する方法
以下に従ってKeras(Tensorflowバックエンド)でカスタム指標関数(F1-Score)を定義しようとしました: def f1_score(tags, predicted): tags = set(tags) predicted = set(predicted) tp = len(tags & predicted) fp = len(predicted) - tp fn = len(tags) - tp if tp>0: precision=float(tp)/(tp+fp) recall=float(tp)/(tp+fn) return 2*((precision*recall)/(precision+recall)) else: return 0 これまでのところ、とても良いですが、モデルのコンパイルに適用しようとすると: model1.compile(loss="binary_crossentropy", optimizer=Adam(), metrics=[f1_score]) エラーが発生します: TypeError Traceback (most recent call last) <ipython-input-85-4eca4def003f> in <module>() 5 model1.add(Dense(output_dim=10, …

3
ニューラルネットワーク-損失と精度の相関
ニューラルネットワークでの損失と精度のメトリックの共存に少し混乱しています。両方ともの比較の「正確さ」レンダリングするようになっているyyyとyは、そうではありませんか?では、トレーニングエポックで2つのアプリケーションを重複して使用するのではないでしょうか。さらに、なぜそれらは相関しないのですか?y^y^\hat{y}

3
科学計算に最適な言語[終了]
閉じた。この質問はより集中する必要があります。現在、回答を受け付けていません。 この質問を改善したいですか?この投稿を編集するだけで1つの問題に焦点を当てるように質問を更新します。 5年前に閉鎖されました。 ほとんどの言語では、いくつかの科学計算ライブラリが利用できるようです。 Pythonは Scipy Rust 持っている SciRust C++持っているなど、いくつかのViennaCLとArmadillo Java持っているJava NumericsとColtだけでなく、他のいくつかの 以下のような言語は言うまでもありませんRし、Julia科学技術計算のために明示的に設計されています。 非常に多くのオプションを使用して、タスクに最適な言語をどのように選択しますか?さらに、どの言語が最もパフォーマンスが高くなりますか?PythonそしてR宇宙の中で最も牽引力を持っているように見えるが、それは、より良い選択となるように、論理的にコンパイルされた言語がそうです。そして、これまでに何よりも優れているFortranでしょうか?さらに、コンパイルされた言語はGPUアクセラレーションを備えている傾向がありますが、インタープリター言語はそうではRありPythonません。言語を選択するときは何を考慮すればよいですか。また、ユーティリティとパフォーマンスのバランスが最も良い言語はどれですか。また、私が見逃した重要な科学計算リソースを持つ言語はありますか?
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

2
線形回帰、ディシジョンツリー、またはランダムフォレスト回帰を選択するのはいつですか?[閉まっている]
休業。この質問には、より焦点を当てる必要があります。現在、回答を受け付けていません。 この質問を改善してみませんか?質問を更新して、この投稿を編集するだけで1つの問題に焦点を当てます。 4年前休業。 私はプロジェクトに取り組んでおり、どのアルゴリズムを選択するかを決定するのが困難ですregression。私は1つを選ぶ必要がありますどのような条件の下で知りたいlinear regressionか、Decision Tree regressionまたはRandom Forest regression?上記のツリーの中で特定のアルゴリズムに移行することを決定するデータの特定の特性はありますか?決定を下すためにデータセットを調べる必要がある特性は何ですか?そして、もう一つが選択になるだろういくつかの理由があるdecision treeかrandom forest、アルゴリズム同じ正しさをすることによって達成することができたとしてもはlinear regression?
10 machine-learning  algorithms  random-forest  linear-regression  decision-trees  machine-learning  predictive-modeling  forecast  r  clustering  similarity  data-mining  dataset  statistics  text-mining  text-mining  data-cleaning  data-wrangling  machine-learning  classification  algorithms  xgboost  data-mining  dataset  dataset  regression  graphs  svm  unbalanced-classes  cross-validation  optimization  hyperparameter  genetic-algorithms  visualization  predictive-modeling  correlation  machine-learning  predictive-modeling  apache-spark  statistics  normalization  apache-spark  map-reduce  r  correlation  confusion-matrix  r  data-cleaning  classification  terminology  dataset  image-classification  machine-learning  regression  apache-spark  machine-learning  data-mining  nlp  parsing  machine-learning  dimensionality-reduction  visualization  clustering  multiclass-classification  evaluation  unsupervised-learning  machine-learning  machine-learning  data-mining  supervised-learning  unsupervised-learning  machine-learning  data-mining  classification  statistics  predictive-modeling  data-mining  clustering  python  pandas  machine-learning  dataset  data-cleaning  data  bigdata  software-recommendation 

2
Fメジャーが分類タスクに推奨されるのはなぜですか?
Gメジャー(またはFowlkes–Mallowsインデックス)が(教師なし)クラスタータスクに一般的に使用されるのに対し、Fメジャーは通常(教師付き)分類タスクに使用されるのはなぜですか? Fメジャーは、精度と再現率の調和平均です。 Gメジャー(またはFowlkes–Mallowsインデックス)は、精度と再現率の幾何平均です。 以下は、異なる平均のプロットです。 = 2 ⋅ P R E 、C 、I S I O N ⋅ R E C A L LP R E 、C 、I S I O N + R E C A L L=2⋅prec私s私oん⋅recallprec私s私oん+recall= 2\cdot\frac{precision\cdot recall}{precision + recall} = P R E 、C 、I S I …

1
指定された変数に直交する(相関しない)予測を生成する
私が持っているXマトリックス、y変数、および他の変数をORTHO_VAR。私はをy使用して変数を予測する必要がありますXが、そのモデルからの予測は、可能な限りORTHO_VAR相関する一方で、直交する必要がありますy。 私は予測がノンパラメトリックな方法で生成されることを望みxgboost.XGBRegressorますが、どうしても必要な場合は線形法を使用できます。 このコード: import numpy as np import pandas as pd from sklearn.datasets import make_regression from xgboost import XGBRegressor ORTHO_VAR = 'ortho_var' TARGET = 'target' PRED = 'yhat' # Create regression dataset with two correlated targets X, y = make_regression(n_features=20, random_state=245, n_targets=2) indep_vars = ['var{}'.format(i) for i in range(X.shape[1])] # …
8 correlation  machine-learning  dataset  logistic-regression  prediction  linear-regression  prediction  dummy-variables  neural-network  image-classification  python  k-nn  python  neural-network  neural-network  deep-learning  keras  tensorflow  image-classification  tensorflow  reinforcement-learning  policy-gradients  machine-learning  decision-trees  neural-network  overfitting  data-analysis  metric  python  scikit-learn  distance  scipy  machine-learning  python  scikit-learn  decision-trees  logistic-regression  keras  image-classification  implementation  machine-learning  python  scikit-learn  random-forest  decision-trees  machine-learning  feature-selection  feature-engineering  word2vec  word-embeddings  natural-language-process  scikit-learn  time-series  clustering  k-means  python  cross-validation  pyspark  statistics  cross-validation  multiclass-classification  evaluation  machine-learning  nlp  machine-translation  neural-network  deep-learning  keras  tensorflow  image-classification  machine-learning  python  similarity  distance  lstm  text  named-entity-recognition  machine-learning  keras  optimization  gan  learning-rate  neural-network  data-mining  dataset  databases  books  neural-network  rnn 

2
SMOTE実行後のトレーニング/テスト分割
私は非常に不均衡なデータを扱っているので、SMOTEアルゴリズムを使用してデータセットをリサンプリングしました。 SMOTEリサンプリング後、トレーニングセットを使用してモデルを構築し、テストセットを使用してモデルを評価することで、リサンプリングされたデータセットをトレーニング/テストセットに分割しました。 ただし、テストセットの一部のデータポイントが実際にトレーニングセットのデータポイントからジッターされる可能性がある(つまり、情報がトレーニングセットからテストセットにリークしている)ため、テストセットは実際にはクリーンセットではないテスト。 誰か似たような経験はありますか?情報は本当にトレーニングからテストに漏れていますか?または、SMOTEアルゴリズムが実際に処理してくれて、心配する必要はありませんか? どうもありがとう!
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.