タグ付けされた質問 「machine-learning」

「経験とともに自動的に改善するコンピューターシステム」を構築する方法と原則。

8
地理的位置座標のクラスタリング(緯度、経度のペア)
位置情報クラスタリングの正しいアプローチとクラスタリングアルゴリズムは何ですか? 次のコードを使用して、地理位置座標をクラスター化しています。 import numpy as np import matplotlib.pyplot as plt from scipy.cluster.vq import kmeans2, whiten coordinates= np.array([ [lat, long], [lat, long], ... [lat, long] ]) x, y = kmeans2(whiten(coordinates), 3, iter = 20) plt.scatter(coordinates[:,0], coordinates[:,1], c=y); plt.show() 距離関数としてHaversine式ではなくユークリッド距離を使用するため、地理位置情報クラスタリングにK-meansを使用するのは正しいですか?

8
機械学習で過剰適合が悪いのはなぜですか?
ロジックは、モデルを過剰適合させると、一般化する能力が制限されることをしばしば述べていますが、これは、過剰適合は、特定の複雑さの後にモデルの改善を止めることを意味するにすぎません。過剰適合は、データの複雑さに関係なく、モデルを悪化させますか?もしそうなら、なぜそうなのですか? 関連:上記の質問「モデルはいつ適合しませんか?」のフォローアップ

4
ニューラルネットワーク:使用するコスト関数?
主にニューラルネットワークを使用した実験にTensorFlowを使用しています。かなりの実験(XOR-Problem、MNIST、いくつかのリグレッションなど)を行っていますが、全体的に初心者と見なされる可能性があるため、特定の問題に対して「正しい」コスト関数を選択するのに苦労しています。 TensorFlowに来る前に、PythonとNumPyを使用して、完全に接続されたMLPとリカレントネットワークをいくつかコーディングしましたが、ほとんどの場合、単純な2乗誤差と単純な勾配不足で十分な問題がありました。 ただし、TensorFlowはカスタムコスト関数を作成するだけでなく、かなり多くのコスト関数を提供するので、ニューラルネットワークのコスト関数専用のチュートリアルがあるかどうか知りたいのですが?(私はすでに公式のTensorFlowチュートリアルの半分のように実行しましたが、特定のコスト関数または学習者が特定の問題に使用される理由を実際には説明していません-少なくとも初心者には) いくつか例を挙げます: cost = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(y_output, y_train)) 1つのベクトルの合計が1になるように、両方の入力にsoftmax関数を適用すると思いますが、ロジットとのクロスエントロピーは正確には何ですか?私はそれが値を合計し、クロスエントロピーを計算すると思った...だからメトリック測定?!出力を正規化し、合計して二乗誤差を取ると、これは非常に同じではないでしょうか?さらに、なぜこれがMNISTなどに使用されるのですか(またはさらに難しい問題)?私は10または多分1000のクラスのように分類したい場合は、に関する情報破棄完全に値を合計しません。これは、実際の出力はクラスでしたの? cost = tf.nn.l2_loss(vector) これは何のため?l2の損失はほぼ二乗誤差であると考えましたが、TensorFlowのAPIは、入力が1つのテンソルに過ぎないことを示しています。まったく考えがつかないのですか?! 加えて、クロスエントロピーについてこれをかなり頻繁に見ました: cross_entropy = -tf.reduce_sum(y_train * tf.log(y_output)) ...しかし、なぜこれが使用されるのですか?数学的にクロスエントロピーの損失ではありません: -1/n * sum(y_train * log(y_output) + (1 - y_train) * log(1 - y_output)) (1 - y_train) * log(1 - y_output)ほとんどのTensorFlowの例の一部はどこにありますか?不足していませんか? 回答:この質問は非常に開かれていることは知っていますが、すべての問題/コスト関数が詳細にリストされている10ページほどになるとは思いません。どのコスト関数を使用するかについての簡単な要約(一般的にもTensorFlowでも、私にとっては重要ではありません)と、このトピックに関する説明が必要です。および/または初心者向けのソース;)

9
ベイジアンネットワークがニューラルネットワークよりも優れているドメインはありますか?
ニューラルネットワークは、コンピュータービジョンタスクで最高の結果を得ます(MNIST、ILSVRC、Kaggle Galaxy Challengeを参照)。コンピュータービジョンの他のすべてのアプローチよりも優れているようです。しかし、他のタスクもあります: Kaggle分子活動チャレンジ 回帰:Kaggle Rain予測、2位 把握して持ち上げる2位も3位 -脳波記録から手の動きを特定する ASR(自動音声認識)と機械翻訳についてはあまりよくわかりませんが、(リカレント)ニューラルネットワーク(他のアプローチよりも優れている)も聞いたことがあると思います。 現在、ベイジアンネットワークについて学んでいますが、これらのモデルは通常どのような場合に適用されるのでしょうか。だから私の質問は: 最先端技術がベイジアンネットワークまたは少なくとも非常に類似したモデルである挑戦/(Kaggle)競争はありますか? (サイドノート:私も見てきた決定木、2、3、4、5、6、7、いくつかの最近のKaggleの挑戦で勝利を)

5
「バランスのとれた」データセットと「代表的な」データセットのどちらを選ぶべきですか?
私の「機械学習」タスクは、悪意のあるトラフィックから良性のインターネットトラフィックを分離することです。現実の世界のシナリオでは、インターネットトラフィックのほとんど(たとえば90%以上)が無害です。したがって、モデルのトレーニングにも同様のデータ設定を選択する必要があると感じました。しかし、「クラスバランシング」データアプローチを使用してモデルをトレーニングし、同数の良性および悪意のあるトラフィックのインスタンスを暗示している研究論文(私の研究分野)に出会いました。 一般に、機械学習モデルを構築している場合、実世界の問題を代表するデータセット、またはモデルの構築に適したバランスの取れたデータセットを選択する必要があります(特定の分類子がクラスの不均衡でうまく動作しないため、または私に知られていない他の理由による)? 誰かが選択の長所と短所、そしてどちらを選択するかを決定する方法の長所と短所にもっと光を当てることができますか?


4
時系列モデルLSTMへの機能の追加
LSTMと時系列でのLSTMの使用について少し読んでおり、興味深いが同時に難しかった。私が理解するのに苦労したことの1つは、既に時系列機能のリストであるものに追加機能を追加するアプローチです。データセットが次のようになっていると仮定します。 t-3、t-2、t-1、出力 次に、出力に影響する機能があることを知っていると言いましょうが、必ずしも時系列機能であるとは限りません。外の天気を言ってみましょう。これはあなたがただ追加できるもので、LSTMは時系列の側面とそうでないものを区別することができますか?

10
機械学習モデルがブラックボックスと呼ばれるのはなぜですか?
私は、金融界がAIのブラックボックスを開きたいというタイトルのこのブログ記事を読んでいました。著者はMLモデルを「ブラックボックス」と繰り返し呼んでいます。 MLモデルを参照する場合、いくつかの場所で同様の用語が使用されています。なぜそうですか? MLのエンジニアがニューラルネットの内部で何が起こっているのかを知らないわけではありません。すべてのレイヤーは、使用するアクティベーション関数、そのタイプのレイヤーが何をするか、エラーがどのように伝播されるかなどを知っているMLエンジニアによって選択されます。

4
すべてのトレーニングデータを含む単一の「バッチ」よりもミニバッチサイズの方が優れているのはなぜですか?
ディープラーニングモデルの場合、通常のプラクティスは、いくつかのトレーニングエポックにミニバッチ(通常は小さなバッチ、32/64)を適用することです。この理由を本当に理解することはできません。 誤解がない限り、バッチサイズとは、トレーニングの反復中にモデルから見られるトレーニングインスタンスの数です。エポックは、各トレーニングインスタンスがモデルによって認識されたときの完全なターンです。その場合、各ターンで利用可能なトレーニングインスタンスをすべてモデルに公開することで「最大バッチ」を適用するのとは対照的に、トレーニングインスタンスのほとんど意味のないサブセットを数回反復する利点を見ることができません(もちろん、想い出)。このアプローチの利点は何ですか?

10
機械学習アルゴリズムはスポーツのスコアやプレーを予測できますか?
さまざまなNFLデータセットがあり、それらは良いサイドプロジェクトになりそうですが、まだ何もしていません。 このサイトに来て、機械学習アルゴリズムについて考えました。サッカーの試合の結果や次の試合の結果を予測するのにどれほど優れているのか疑問に思いました。 特定できる傾向があるように思われます。3日目と1日目には、理論的に強いランニングバックを持つチームは、その状況でボールを走らせる傾向があります。 得点を予測するのはより難しいかもしれませんが、勝利チームはそうかもしれません。 私の質問は、これらが機械学習アルゴリズムに投げかけるのに適した質問かどうかです。以前に1000人が試したことがあるかもしれませんが、スポーツの性質上、信頼性の低いトピックになっています。

11
C(またはC ++)のデータサイエンス
私はR言語プログラマーです。私は、データサイエンティストと見なされているが、CS以外の学問分野から来た人々のグループにも所属しています。 これは、データサイエンティストとしての私の役割ではうまく機能しますが、R他のスクリプト/ Web言語の基本的な知識しか持たずにキャリアを開始することにより、2つの重要な分野でやや不十分だと感じました。 プログラミング理論の確かな知識の欠如。 競争力のあるような、より速く、より広く使われている言語のスキルのレベルの欠如C、C++およびJavaパイプラインとビッグデータの計算を高速化するだけでなく、より容易に高速に開発することができDS /データ製品を作成するために利用することができ、バックエンドスクリプトまたはスタンドアロンアプリケーション。 解決策はもちろん簡単です。プログラミングについて学びましょう。これは、いくつかのクラス(現在はCプログラミング)に登録することで行っていることです。 しかし、今私はアドレスの問題#1、#2上記に始めていることを、私は「自分自身を求めて左てるだけのような言語どのように生きているCとC++、データ・サイエンスのため?」。 たとえば、データを非常にすばやく移動し、ユーザーとうまくやり取りできますが、高度な回帰、機械学習、テキストマイニング、その他の高度な統計操作についてはどうでしょうか。 そう。C仕事をすることができます-高度な統計、ML、AI、およびデータサイエンスの他の分野で利用できるツールは何ですか?またはC、Rスクリプトや他の言語を呼び出すことでプログラミングすることで得られる効率のほとんどを失う必要がありますか? 私はこれまでCで見つけた最高のリソースが呼び出されるライブラリであるシャーク与え、C/ C++サポートベクターマシン、線形回帰(ない非線形および多項プロビットのような他の先進回帰、など)、およびその他の最終候補リストを使用する能力を(素晴らしいが)統計関数。

5
GBM対XGBOOST?主な違いは?
GBMとXGBOOSTの主な違いを理解しようとしています。私はそれをグーグルで検索しようとしましたが、2つのアルゴリズムの違いとxgboostがGBMよりもほとんど常に優れている理由を説明する良い答えを見つけることができませんでした。XGBOOSTの高速化の理由は何ですか?

3
何を使用するか-機械学習[終了]
最近、UPC / BarcelonaのOriol Pujol教授の機械学習クラスで、広範な機械学習関連タスクに使用する最も一般的なアルゴリズム、原理、および概念について説明しました。ここでそれらをあなたと共有し、あなたに尋ねます: タスクをさまざまなタイプの機械学習関連の問題に関連するアプローチまたは方法と一致させる包括的なフレームワークはありますか? 単純なガウスをどのように学習しますか? 確率、確率変数、分布; 推定、収束および漸近、信頼区間。 混合ガウス分布(MoG)を学習するにはどうすればよいですか?尤度、期待値最大化(EM); 汎化、モデル選択、相互検証。k平均、隠れマルコフモデル(HMM) 密度を知るにはどうすればよいですか?パラメトリック対非パラメトリック推定、ソボレフおよびその他の機能空間。ĺ2エラー; カーネル密度推定(KDE)、最適カーネル、KDE理論 連続変数(回帰)を予測するにはどうすればよいですか?線形回帰、正則化、リッジ回帰、およびLASSO。局所線形回帰; 条件付き密度推定。 離散変数(分類)を予測するにはどうすればよいですか?ベイズ分類器、単純ベイズ、生成的vs識別的; パーセプトロン、重量減衰、線形サポートベクターマシン。最近傍分類器と理論 どの損失関数を使用する必要がありますか?最尤推定理論; l -2推定; ベイジアン推定; ミニマックスと決定理論、ベイジアン主義対頻度主義 どのモデルを使用する必要がありますか?AICおよびBIC; Vapnik-Chervonenskis理論; 交差検証理論; ブートストラップ; おそらく近似修正(PAC)理論。Hoeffdingから派生した境界 より複雑な(組み合わせた)モデルを学習するにはどうすればよいですか?アンサンブル学習理論; ブースティング; バギング; スタッキング 奇抜な(非線形)モデルを学習するにはどうすればよいですか?一般化線形モデル、ロジスティック回帰。コルモゴロフの定理、一般化された加法モデル。カーネル化、カーネルヒルベルト空間の再現、非線形SVM、ガウス過程回帰 より複雑な(構成的)モデルを学習するにはどうすればよいですか?再帰モデル、決定木、階層的クラスタリング; ニューラルネットワーク、逆伝播、深い信念ネットワーク。グラフィカルモデル、HMMの混合、条件付きランダムフィールド、最大マージンマルコフネットワーク。対数線形モデル; 文法 機能を削減または関連付けるにはどうすればよいですか?特徴選択対次元削減、特徴選択のためのラッパーメソッド; 因果性対相関、偏相関、ベイズネット構造学習 新しい機能を作成するにはどうすればよいですか?主成分分析(PCA)、独立成分分析(ICA)、多次元スケーリング、多様体学習、教師あり次元削減、計量学習 データを削減または関連付けるにはどうすればよいですか?クラスタリング、バイクラスタリング、制約付きクラスタリング。アソシエーションルールとマーケットバスケット分析; ランキング/序数回帰; リンク分析; リレーショナルデータ 時系列をどのように扱うのですか?ARMA; カルマンフィルターと統計空間モデル、粒子フィルター。機能データ分析; 変化点検出; 時系列の相互検証 理想的でないデータをどのように扱うのですか?共変量シフト; クラスの不均衡。欠損データ、不規則にサンプリングされたデータ、測定エラー。異常検出、堅牢性 パラメータを最適化するにはどうすればよいですか?制約なし対制約付き/凸最適化、導関数のない方法、1次および2次の方法、バックフィット; 自然な勾配; バウンド最適化とEM …

2
XGBoostの重要性の出力を解釈する方法は?
xgboostモデルを実行しました。の出力を解釈する方法が正確にはわかりませんxgb.importance。 ゲイン、カバー、および周波数の意味は何ですか?それらをどのように解釈しますか? また、Split、RealCover、およびRealCover%はどういう意味ですか?ここにいくつかの追加パラメーターがあります 機能の重要性についてさらに詳しく説明できる他のパラメーターはありますか? Rのドキュメントから、GainはInformation gainに似ており、Frequencyはすべてのツリーで機能が使用される回数であることがある程度理解できます。Coverが何なのかわかりません。 リンクで指定されたサンプルコードを実行しました(そして、私が取り組んでいる問題でも同じことを試みました)が、そこに指定された分割定義は、計算した数値と一致しませんでした。 importance_matrix 出力: Feature Gain Cover Frequence 1: xxx 2.276101e-01 0.0618490331 1.913283e-02 2: xxxx 2.047495e-01 0.1337406946 1.373710e-01 3: xxxx 1.239551e-01 0.1032614896 1.319798e-01 4: xxxx 6.269780e-02 0.0431682707 1.098646e-01 5: xxxxx 6.004842e-02 0.0305611830 1.709108e-02 214: xxxxxxxxxx 4.599139e-06 0.0001551098 1.147052e-05 215: xxxxxxxxxx 4.500927e-06 0.0001665320 1.147052e-05 216: xxxxxxxxxxxx …


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.