タグ付けされた質問 「machine-learning」

「経験とともに自動的に改善するコンピューターシステム」を構築する方法と原則。

2
ニューラルネットワークの機能を選択する方法は?
この質問に対する明確な答えはないことはわかっていますが、大量のデータを持つ巨大なニューラルネットワークがあり、入力に新しい機能を追加したいとします。「最良の」方法は、新しい機能を使用してネットワークをテストし、結果を確認することですが、機能が非常に役立つかどうかをテストする方法はありますか?相関測定(http://www3.nd.edu/~mclark19/learn/CorrelationComparison.pdf)などが好きですか?

3
不均衡で不均一な負のバックグラウンドを持つ1クラスの差別的分類?
{protein}シーケンスを特定のクラス(ニューロペプチドホルモン前駆体)に属するかどうかに分類するために、既存の教師付き分類子の改善に取り組んでいます。 約1,300万のタンパク質配列のバックグラウンド(「不明/不十分な注釈付きのバックグラウンド」)に対して約1,150の既知の「陽性」、またはさまざまな特性で注釈付けされた約100,000のレビューされた関連タンパク質があります(ただし、 「ネガティブ」な方法)。 私の以前の実装では、これをバイナリ分類問題と見なしていました。ポジティブセット=ニューロペプチドとしてマークされたタンパク質。ネガティブセット:ほぼ同様の長さ方向の分布の残りのタンパク質の中から1,300サンプル(合計)のランダムサンプリング。 それはうまくいきましたが、マシンの識別能力を大幅に改善したいです(現在、ランダムにサンプリングされた複数のネガティブセットで、精度、AUC、F1、CVで測定すると約83〜86%です)。 私の考えは次のとおりでした:1)これをマルチクラスの問題にし、プロパティ/機能クラスによって、(おそらく)ランダムにサンプリングされた別のセットとともに、明確にネガティブになる2-3種類のタンパク質を選択します。(ここでの優先順位は、特性/特徴がポジティブセットに似ているネガティブセットですが、定義する特性があります)。2)1つのクラスの学習-素晴らしいと思いますが、私が理解するように、それは異常検出のためだけのものであり、差別的なアプローチよりもパフォーマンスが劣ります。 *)きれいに聞こえるPU学習について聞いたことがありますが、私はプログラミングN00bであり、そのための既存の実装については知りません。(Python / sci-kitで学習)。 それでは、アプローチ1は理論上のPOVで意味がありますか?複数のネガセットを作成する最良の方法はありますか?(「ネガティブ」タンパク質の大規模な[50K]ピックを使用することもできますが、それらはすべて非常に大きく異なるため、分類器がそれらを1つの大きなアンバランスミックスとしてどれだけうまく処理できるかわかりません。 )。ありがとう!

6
少数の連続変数の対数変換を行う理由は何ですか?
私は分類の問題をやっており、多くの人々のコードとチュートリアルを読んでいます。私が気づいたことの1つは、多くの人がnp.log、またはなどのlogような連続変数を取得していることですloan_amountapplicant_income その理由を理解したいだけです。モデルの予測精度を向上させるのに役立ちますか。必須ですか?またはその背後にあるロジックはありますか? 可能であれば、いくつかの説明を提供してください。ありがとうございました。

5
シーボーンヒートマップを大きくする
corr()元のdfからdf を作成します。corr()DFは、70 X 70から出てきたし、ヒートマップを可視化することは不可能です... sns.heatmap(df)。を表示しようとするcorr = df.corr()と、テーブルが画面に収まらず、すべての相関関係を確認できます。dfサイズに関係なく全体を印刷する方法ですか、ヒートマップのサイズを制御する方法ですか?
16 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

3
Kerasのストリーミングテストデータでpredict_generatorで予測を取得する方法は?
でKerasゼロからトレーニングconvnetsにブログ、コードのショーは唯一のネットワークは、トレーニングや検証データ上で実行されています。テストデータはどうですか?検証データはテストデータと同じですか(そうではないと思います)。trainおよびvalidationフォルダーと同様の行に個別のテストフォルダーがあった場合、テストデータの混同マトリックスを取得する方法を教えてください。これを行うにはscikit learnまたは他のパッケージを使用する必要があることはわかっていますが、テストデータのクラスごとの確率に沿って何かを取得するにはどうすればよいですか?これを混同行列に使用したいと思っています。

3
xgboostの確率を予測する方法は?
以下の予測関数は-ve値も提供しているため、確率にはなりません。 param <- list(max.depth = 5, eta = 0.01, objective="binary:logistic",subsample=0.9) bst <- xgboost(param, data = x_mat, label = y_mat,nround = 3000) pred_s <- predict(bst, x_mat_s2) グーグルで試しましたpred_s <- predict(bst, x_mat_s2,type="response") が、うまくいきませんでした。 質問 代わりに確率を予測する方法は?


2
なぜ1つのダミー変数を破棄する必要があるのですか?
回帰モデルを作成するには、カテゴリー変数をダミー変数に変換して処理する必要があることを学びました。例として、データセットに場所のような変数がある場合: Location ---------- Californian NY Florida 次のように変換する必要があります。 1 0 0 0 1 0 0 0 1 ただし、ダミー変数がいくつあっても、1つのダミー変数を破棄する必要があることが示唆されました。 なぜ1つのダミー変数を破棄する必要があるのですか?

8
ニューラルネットワークの学習方法
私は、1年生の学部生です(私の不慣れさを許すために、これについて言及しています)。教授の指導に基づいて、3ノードのニューラルネットワーク(動作する)をコーディングしました。ただし、AIとデータサイエンスでのキャリアを追求したいので、これらについて適切に詳細に学習したいと思います。ニューラルネットワーク構造、ディープラーニングなどについてもっと教えてくれる本やリソースはありますか。推奨事項はありますか? 注:私はJava、Python、Bash、JavaScript、Matlabに精通しており、C ++を少し知っています。

3
単語ベースと文字ベースのテキスト生成RNNの違いは何ですか?
リカレントニューラルネットワークIとテキスト生成について読んでいる間、いくつかの例は、テキストを生成するために実施されたことに気づいた単語単位で、他の文字によって文字実際に理由を述べずに。 だから、テキストを予測するRNNモデルの違いは何ですごとの単語の基礎とテキスト予測するものにつき-CHAR根拠は?単語ベースのRNNには、より大きなコーパスサイズが必要ですか?文字ベースのRNNはより一般化されていますか?たぶん、唯一の違いは入力表現(ワンホットエンコーディング、単語埋め込み)でしょうか?テキスト生成に選択するものはどれですか?

4
R:GPUでの機械学習
GPUを利用してトレーニング速度を改善できるR向けの機械学習パッケージはありますか(Pythonの世界のtheanoのようなもの)? gpuでコードを実行できるgputoolsと呼ばれるパッケージがありますが、機械学習のためのより完全なライブラリを探しています。

4
重要な属性を指定する方法は?
多くのデータソースで構成される、緩やかに構造化されたデータのセット(Webテーブル/リンクされたオープンデータなど)を想定します。データが後に続く共通のスキーマはなく、各ソースは同義語属性を使用して値を記述することができます(例:「国籍」対「bornIn」)。 私の目標は、それらが記述するエンティティを何らかの形で「定義」する「重要な」属性を見つけることです。そのため、そのような属性に同じ値が見つかった場合、2つの説明が同じエンティティ(たとえば、同じ人物)についてである可能性が最も高いことがわかります。 たとえば、属性「lastName」は、属性「nationality」よりも差別的です。 他のどの属性よりも重要な属性を(統計的に)見つけることができますか? 単純な解決策は、各属性の値の平均IDFを取得し、これを属性の「重要」要素にすることです。同様のアプローチは、各属性に表示される個別の値の数をカウントすることです。 機械学習で機能という用語または属性選択を見てきましたが、残りの属性を破棄したくはありません。最も重要な属性に高い重みを付けたいだけです。

2
アクティベーション関数が単調でなければならないのはなぜですか?
現在、ニューラルネットワークに関する試験の準備をしています。以前の試験のいくつかのプロトコルで、ニューロンの活性化機能(多層パーセプトロン)は単調でなければならないことを読みました。 アクティベーション関数は微分可能でなければならず、ほとんどの点で0でない導関数を持ち、非線形でなければならないことを理解しています。単調であることが重要である/役立つ理由がわかりません。 次のアクティベーション関数を知っており、それらは単調であることを知っています。 ReLU シグモイド タン Softmax:単調性の定義が関数適用可能かどうかわかりません withf:Rn→ Rmf:Rn→Rmf: \mathbb{R}^n \rightarrow \mathbb{R}^mn 、m > 1n、m>1n, m > 1 ソフトプラス (身元) ただし、たとえばような理由はまだわかりません。φ (x )= x2φ(バツ)=バツ2\varphi(x) = x^2 アクティベーション関数が単調でなければならないのはなぜですか? (関連する質問:対数/指数関数がアクティベーション関数として使用されない理由はありますか?)

2
Mahoutのアイテムベースとユーザーベースの推奨の違い
ユーザーベースの推奨事項とアイテムベースの推奨事項がどれだけ正確に異なるかを知りたい。 それを定義します ユーザーベース:同様のユーザーを見つけてアイテムを推奨します。多くの場合、ユーザーの動的な性質のため、これをスケーリングするのは困難です。 アイテムベース:アイテム間の類似性を計算し、推奨事項を作成します。通常、アイテムはあまり変化しないため、多くの場合、オフラインで計算できます。 しかし、2種類の推奨事項がありますが、私が理解しているのは、これらの両方が何らかのデータモデル(たとえば、1,2または1,2、.5としてitem1、item2、valueまたはuser1、user2、valueが値ではない場合)必須)そして、選択した類似度測定値とリコメンダービルトイン関数としてすべての計算を実行し、同じデータに対してユーザー/アイテムベースの推奨の両方を実行できます(これは正しい仮定ですか??)。 したがって、これら2つのタイプのアルゴリズムがどのように正確にどの側面で異なるかを知りたいと思います。

4
XGBoost出力は極端になる傾向があります
私は現在リスク予測にXGBoostを使用していますが、バイナリ分類部門ではうまく機能しているようですが、確率出力はかなりずれています。つまり、観測値の特徴の値を少しだけ変更すると、確率が高くなります。 0.5から0.99への出力ジャンプ。 0.6〜0.8の範囲の出力はほとんど見えません。すべての場合において、確率は0.99または1未満です。 Platt ScalingやLogistic Correctionなどのトレーニング後のキャリブレーション方法は知っていますが、XGBoostトレーニングプロセスで調整できることがあるかどうか疑問に思っていました。 私はFFIを使用してさまざまな言語からXGBoostを呼び出します。そのため、他のキャリブレーションライブラリを導入せずにこの問題を修正できると便利です。たとえば、評価メトリックをAUCからログ損失に変更します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.