データサイエンス machine-learning

2

この質問に対する明確な答えはないことはわかっていますが、大量のデータを持つ巨大なニューラルネットワークがあり、入力に新しい機能を追加したいとします。「最良の」方法は、新しい機能を使用してネットワークをテストし、結果を確認することですが、機能が非常に役立つかどうかをテストする方法はありますか？相関測定（http://www3.nd.edu/~mclark19/learn/CorrelationComparison.pdf）などが好きですか？

16 machine-learning neural-network feature-selection feature-extraction

3

不均衡で不均一な負のバックグラウンドを持つ1クラスの差別的分類？

{protein}シーケンスを特定のクラス（ニューロペプチドホルモン前駆体）に属するかどうかに分類するために、既存の教師付き分類子の改善に取り組んでいます。約1,300万のタンパク質配列のバックグラウンド（「不明/不十分な注釈付きのバックグラウンド」）に対して約1,150の既知の「陽性」、またはさまざまな特性で注釈付けされた約100,000のレビューされた関連タンパク質があります（ただし、「ネガティブ」な方法）。私の以前の実装では、これをバイナリ分類問題と見なしていました。ポジティブセット=ニューロペプチドとしてマークされたタンパク質。ネガティブセット：ほぼ同様の長さ方向の分布の残りのタンパク質の中から1,300サンプル（合計）のランダムサンプリング。それはうまくいきましたが、マシンの識別能力を大幅に改善したいです（現在、ランダムにサンプリングされた複数のネガティブセットで、精度、AUC、F1、CVで測定すると約83〜86％です）。私の考えは次のとおりでした：1）これをマルチクラスの問題にし、プロパティ/機能クラスによって、（おそらく）ランダムにサンプリングされた別のセットとともに、明確にネガティブになる2-3種類のタンパク質を選択します。（ここでの優先順位は、特性/特徴がポジティブセットに似ているネガティブセットですが、定義する特性があります）。2）1つのクラスの学習-素晴らしいと思いますが、私が理解するように、それは異常検出のためだけのものであり、差別的なアプローチよりもパフォーマンスが劣ります。 *）きれいに聞こえるPU学習について聞いたことがありますが、私はプログラミングN00bであり、そのための既存の実装については知りません。（Python / sci-kitで学習）。それでは、アプローチ1は理論上のPOVで意味がありますか？複数のネガセットを作成する最良の方法はありますか？（「ネガティブ」タンパク質の大規模な[50K]ピックを使用することもできますが、それらはすべて非常に大きく異なるため、分類器がそれらを1つの大きなアンバランスミックスとしてどれだけうまく処理できるかわかりません。）。ありがとう！

16 machine-learning data-mining python classification

6

少数の連続変数の対数変換を行う理由は何ですか？

私は分類の問題をやっており、多くの人々のコードとチュートリアルを読んでいます。私が気づいたことの1つは、多くの人がnp.log、またはなどのlogような連続変数を取得していることですloan_amountapplicant_income その理由を理解したいだけです。モデルの予測精度を向上させるのに役立ちますか。必須ですか？またはその背後にあるロジックはありますか？可能であれば、いくつかの説明を提供してください。ありがとうございました。

16 machine-learning python classification scikit-learn

5

シーボーンヒートマップを大きくする

corr()元のdfからdf を作成します。corr()DFは、70 X 70から出てきたし、ヒートマップを可視化することは不可能です... sns.heatmap(df)。を表示しようとするcorr = df.corr()と、テーブルが画面に収まらず、すべての相関関係を確認できます。dfサイズに関係なく全体を印刷する方法ですか、ヒートマップのサイズを制御する方法ですか？

16 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

3

Kerasのストリーミングテストデータでpredict_generatorで予測を取得する方法は？

でKerasゼロからトレーニングconvnetsにブログ、コードのショーは唯一のネットワークは、トレーニングや検証データ上で実行されています。テストデータはどうですか？検証データはテストデータと同じですか（そうではないと思います）。trainおよびvalidationフォルダーと同様の行に個別のテストフォルダーがあった場合、テストデータの混同マトリックスを取得する方法を教えてください。これを行うにはscikit learnまたは他のパッケージを使用する必要があることはわかっていますが、テストデータのクラスごとの確率に沿って何かを取得するにはどうすればよいですか？これを混同行列に使用したいと思っています。

16 machine-learning python deep-learning keras confusion-matrix

3

xgboostの確率を予測する方法は？

以下の予測関数は-ve値も提供しているため、確率にはなりません。 param <- list(max.depth = 5, eta = 0.01, objective="binary:logistic",subsample=0.9) bst <- xgboost(param, data = x_mat, label = y_mat,nround = 3000) pred_s <- predict(bst, x_mat_s2) グーグルで試しましたpred_s <- predict(bst, x_mat_s2,type="response") が、うまくいきませんでした。質問代わりに確率を予測する方法は？

16 machine-learning r predictive-modeling decision-trees

7

リコールよりも精度が重要になるのはいつですか？

精度が重要な例を挙げたり、リコールが重要な例を挙げたりできますか？

16 machine-learning evaluation

2

なぜ1つのダミー変数を破棄する必要があるのですか？

回帰モデルを作成するには、カテゴリー変数をダミー変数に変換して処理する必要があることを学びました。例として、データセットに場所のような変数がある場合： Location ---------- Californian NY Florida 次のように変換する必要があります。 1 0 0 0 1 0 0 0 1 ただし、ダミー変数がいくつあっても、1つのダミー変数を破棄する必要があることが示唆されました。なぜ1つのダミー変数を破棄する必要があるのですか？

16 machine-learning regression categorical-data

8

ニューラルネットワークの学習方法

私は、1年生の学部生です（私の不慣れさを許すために、これについて言及しています）。教授の指導に基づいて、3ノードのニューラルネットワーク（動作する）をコーディングしました。ただし、AIとデータサイエンスでのキャリアを追求したいので、これらについて適切に詳細に学習したいと思います。ニューラルネットワーク構造、ディープラーニングなどについてもっと教えてくれる本やリソースはありますか。推奨事項はありますか？注：私はJava、Python、Bash、JavaScript、Matlabに精通しており、C ++を少し知っています。

15 machine-learning neural-network

3

単語ベースと文字ベースのテキスト生成RNNの違いは何ですか？

リカレントニューラルネットワークIとテキスト生成について読んでいる間、いくつかの例は、テキストを生成するために実施されたことに気づいた単語単位で、他の文字によって文字実際に理由を述べずに。だから、テキストを予測するRNNモデルの違いは何ですごとの単語の基礎とテキスト予測するものにつき-CHAR根拠は？単語ベースのRNNには、より大きなコーパスサイズが必要ですか？文字ベースのRNNはより一般化されていますか？たぶん、唯一の違いは入力表現（ワンホットエンコーディング、単語埋め込み）でしょうか？テキスト生成に選択するものはどれですか？

15 machine-learning neural-network nlp rnn

4

R：GPUでの機械学習

GPUを利用してトレーニング速度を改善できるR向けの機械学習パッケージはありますか（Pythonの世界のtheanoのようなもの）？ gpuでコードを実行できるgputoolsと呼ばれるパッケージがありますが、機械学習のためのより完全なライブラリを探しています。

15 machine-learning r gpu

4

重要な属性を指定する方法は？

多くのデータソースで構成される、緩やかに構造化されたデータのセット（Webテーブル/リンクされたオープンデータなど）を想定します。データが後に続く共通のスキーマはなく、各ソースは同義語属性を使用して値を記述することができます（例：「国籍」対「bornIn」）。私の目標は、それらが記述するエンティティを何らかの形で「定義」する「重要な」属性を見つけることです。そのため、そのような属性に同じ値が見つかった場合、2つの説明が同じエンティティ（たとえば、同じ人物）についてである可能性が最も高いことがわかります。たとえば、属性「lastName」は、属性「nationality」よりも差別的です。他のどの属性よりも重要な属性を（統計的に）見つけることができますか？単純な解決策は、各属性の値の平均IDFを取得し、これを属性の「重要」要素にすることです。同様のアプローチは、各属性に表示される個別の値の数をカウントすることです。機械学習で機能という用語または属性選択を見てきましたが、残りの属性を破棄したくはありません。最も重要な属性に高い重みを付けたいだけです。

15 machine-learning statistics feature-selection

2

アクティベーション関数が単調でなければならないのはなぜですか？

現在、ニューラルネットワークに関する試験の準備をしています。以前の試験のいくつかのプロトコルで、ニューロンの活性化機能（多層パーセプトロン）は単調でなければならないことを読みました。アクティベーション関数は微分可能でなければならず、ほとんどの点で0でない導関数を持ち、非線形でなければならないことを理解しています。単調であることが重要である/役立つ理由がわかりません。次のアクティベーション関数を知っており、それらは単調であることを知っています。 ReLU シグモイドタン Softmax：単調性の定義が関数適用可能かどうかわかりません withf：Rn→ Rmf：Rn→Rmf: \mathbb{R}^n \rightarrow \mathbb{R}^mn 、m > 1n、m>1n, m > 1 ソフトプラス（身元）ただし、たとえばような理由はまだわかりません。φ （x ）= x2φ（バツ）=バツ2\varphi(x) = x^2 アクティベーション関数が単調でなければならないのはなぜですか？（関連する質問：対数/指数関数がアクティベーション関数として使用されない理由はありますか？）

15 machine-learning neural-network

2

Mahoutのアイテムベースとユーザーベースの推奨の違い

ユーザーベースの推奨事項とアイテムベースの推奨事項がどれだけ正確に異なるかを知りたい。それを定義しますユーザーベース：同様のユーザーを見つけてアイテムを推奨します。多くの場合、ユーザーの動的な性質のため、これをスケーリングするのは困難です。アイテムベース：アイテム間の類似性を計算し、推奨事項を作成します。通常、アイテムはあまり変化しないため、多くの場合、オフラインで計算できます。しかし、2種類の推奨事項がありますが、私が理解しているのは、これらの両方が何らかのデータモデル（たとえば、1,2または1,2、.5としてitem1、item2、valueまたはuser1、user2、valueが値ではない場合）必須）そして、選択した類似度測定値とリコメンダービルトイン関数としてすべての計算を実行し、同じデータに対してユーザー/アイテムベースの推奨の両方を実行できます（これは正しい仮定ですか??）。したがって、これら2つのタイプのアルゴリズムがどのように正確にどの側面で異なるかを知りたいと思います。

15 machine-learning data-mining algorithms recommender-system

4

XGBoost出力は極端になる傾向があります

私は現在リスク予測にXGBoostを使用していますが、バイナリ分類部門ではうまく機能しているようですが、確率出力はかなりずれています。つまり、観測値の特徴の値を少しだけ変更すると、確率が高くなります。 0.5から0.99への出力ジャンプ。 0.6〜0.8の範囲の出力はほとんど見えません。すべての場合において、確率は0.99または1未満です。 Platt ScalingやLogistic Correctionなどのトレーニング後のキャリブレーション方法は知っていますが、XGBoostトレーニングプロセスで調整できることがあるかどうか疑問に思っていました。私はFFIを使用してさまざまな言語からXGBoostを呼び出します。そのため、他のキャリブレーションライブラリを導入せずにこの問題を修正できると便利です。たとえば、評価メトリックをAUCからログ損失に変更します。

15 machine-learning classification xgboost probability probability-calibration

タグ付けされた質問 「machine-learning」

タグ付けされた質問「machine-learning」