プログラミング machine-learning

21

休業。この質問には、より焦点を当てる必要があります。現在、回答を受け付けていません。この質問を改善してみませんか？質問を更新して、この投稿を編集するだけで1つの問題に焦点を当てます。昨年休業。この質問を改善する誰かがデータマイニングにおける分類とクラスタリングの違いを説明できますか？可能であれば、両方の例を挙げて主要なアイデアを理解してください。

195 machine-learning classification cluster-analysis data-mining terminology

7

データセットをトレーニングセットと検証セットに分割するための経験則はありますか？

データをトレーニングセットと検証セットに最適に分割するための経験則はありますか？50/50に均等に分割することをお勧めしますか？または、検証データに比べてトレーニングデータが多い（またはその逆）ことの明らかな利点はありますか？または、この選択はアプリケーションにかなり依存していますか？私は主にそれぞれ80％/ 20％のトレーニングと検証データを使用してきましたが、私は何の理由もなくこの部門を選びました。機械学習の経験が豊富な誰かが私に助言できますか？

194 machine-learning

6

scikit-learnで分類子をディスクに保存する

トレーニング済みの単純ベイズ分類器をディスクに保存し、それを使用してデータを予測するにはどうすればよいですか？ scikit-learnのWebサイトにある次のサンプルプログラムがあります。 from sklearn import datasets iris = datasets.load_iris() from sklearn.naive_bayes import GaussianNB gnb = GaussianNB() y_pred = gnb.fit(iris.data, iris.target).predict(iris.data) print "Number of mislabeled points : %d" % (iris.target != y_pred).sum()

191 python machine-learning scikit-learn classification

7

scikit-learn K-Means Clusteringを使用して独自の距離関数を指定することは可能ですか？

172 python machine-learning cluster-analysis k-means scikit-learn

14

高次元データの最近傍？

私は数日前に、与えられたベクトルの最近傍を見つける方法について質問しました。私のベクトルは21次元になりました。先に進む前に、私は機械学習や数学のドメインからではないため、いくつかの基本的な質問を自問し始めています。ユークリッド距離は、そもそも最近傍を見つけるための良い測定基準ですか？そうでない場合、私の選択肢は何ですか？さらに、k近傍を決定するための適切なしきい値をどのように決定するのでしょうか。この値を把握するために実行できる分析はありますか？以前は、kd-Treesを使用するよう提案されましたが、Wikipediaのページでは、高次元の場合、kd-Treeはブルートフォース検索とほぼ同等であると明確に述べています。その場合、100万点のデータセットで最近傍を効率的に見つけるための最良の方法は何ですか？誰かが上記の質問のいくつか（またはすべて）を明確にしていただけますか？

163 algorithm language-agnostic search machine-learning nearest-neighbor

11

binary_crossentropyとcategorical_crossentropyが同じ問題に対して異なるパフォーマンスを提供するのはなぜですか？

CNNをトレーニングして、テキストをトピックごとに分類しようとしています。バイナリクロスエントロピーを使用すると、最大80％の精度が得られます。カテゴリカルクロスエントロピーでは、最大50％の精度が得られます。なぜなのかわかりません。これはマルチクラスの問題です。それは、カテゴリクロスエントロピーを使用する必要があり、バイナリクロスエントロピーを使用した結果は無意味であることを意味しませんか？ model.add(embedding_layer) model.add(Dropout(0.25)) # convolution layers model.add(Conv1D(nb_filter=32, filter_length=4, border_mode='valid', activation='relu')) model.add(MaxPooling1D(pool_length=2)) # dense layers model.add(Flatten()) model.add(Dense(256)) model.add(Dropout(0.25)) model.add(Activation('relu')) # output layer model.add(Dense(len(class_id_index))) model.add(Activation('softmax')) 次にcategorical_crossentropy、損失関数として次のようにコンパイルします。 model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy']) または model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy']) 直観的には、カテゴリカルクロスエントロピーを使用する理由は理にかなっていますが、バイナリで良い結果が得られ、カテゴリで悪い結果が得られる理由がわかりません。

160 machine-learning keras neural-network deep-learning conv-neural-network

21

scikit-learnディシジョンツリーからディシジョンルールを抽出する方法は？

意思決定ツリーの学習済みツリーから、基になる決定ルール（または「決定パス」）をテキストリストとして抽出できますか？何かのようなもの： if A>0.4 then if B<0.2 then if C>0.8 then class='X' ご協力いただきありがとうございます。

157 python machine-learning scikit-learn decision-tree random-forest

6

局所性に敏感なハッシュを理解するには？

LSHは、高次元のプロパティを持つ同様のアイテムを見つけるための良い方法のように思えます。論文http://www.slaney.org/malcolm/yahoo/Slaney2008-LSHTutorial.pdfを読んだ後も、これらの式と混同されています。その簡単な方法を説明するブログや記事を誰か知っていますか？

156 c machine-learning hashmap nearest-neighbor locality-sensitive-hash

9

人工ニューラルネットワークの入力を正規化する必要があるのはなぜですか？

ニューラルネットワークの理論に関して、これは主要な質問です。ニューラルネットワークの入力を正規化する必要があるのはなぜですか？たとえば、入力値が非数値の場合、特定の変換を実行する必要があることもありますが、数値入力がある場合はどうでしょうか。なぜ数値は一定の間隔でなければならないのですか？データが正規化されていないとどうなりますか？

151 tensorflow machine-learning neural-network normalization

5

データを3つのセット（トレーニング、検証、テスト）に分割する方法は？

私はパンダのデータフレームを持っていて、それを3つの別々のセットに分割したいと思います。からtrain_test_splitを使用sklearn.cross_validationすると、データを2つのセット（trainとtest）に分割できることがわかります。しかし、データを3つのセットに分割することに関する解決策は見つかりませんでした。できれば、元のデータのインデックスが欲しいです。回避策は、train_test_split2回使用し、インデックスを調整することです。しかし、データを2つではなく3つのセットに分割する、より標準的な/組み込みの方法はありますか？

146 pandas numpy dataframe machine-learning scikit-learn

4

TensorFlow、なぜPythonが選ばれた言語なのですか？

最近、ディープラーニングやその他のML手法の研究を開始し、ネットの構築とトレーニングのプロセスを簡略化するフレームワークの検索を開始したところ、TensorFlowはフィールドでの経験がほとんどないことがわかりました。ディープラーニングを使用する場合に大きなMLシステムをさらに作成するための大きな要因、それでTensorFlowを作成するためになぜpythonがGoogleによって選ばれたのですか？コンパイルして解釈できない言語で作成した方がいいのではないでしょうか。機械学習でC ++などの言語よりもPythonを使用する利点は何ですか？

143 python c++ machine-learning tensorflow

8

ニューラルネットワークではなく、遺伝的アルゴリズムをいつ使用すればよいですか？[閉まっている]

現在のところ、この質問はQ＆A形式には適していません。事実、参考文献、専門知識によって回答が裏付けられることを期待していますが、この質問は、討論、議論、投票、または拡張ディスカッションを求める可能性があります。この質問が改善され、場合によっては再開できると思われる場合は、ヘルプセンターにアクセスしてください。 7年前休業。問題を解決するためにニューラルネットワーク（またはその逆）とは対照的に、遺伝的アルゴリズムをいつ使用するかを決定するための経験則（または一連の例）はありますか？両方の方法を混在させることができる場合があることは承知していますが、2つの方法の大まかな比較を探しています。

139 artificial-intelligence machine-learning neural-network genetic-algorithm

7

ビジュアル入力を使用してDiablo 2を再生するように人工ニューラルネットワークをトレーニングする方法

私は現在、ANNにビデオゲームをプレイしてもらうことを目指しています。ここのすばらしいコミュニティから助けを借りたいと思っていました。私はディアブロ2に落ち着きました。したがって、ゲームのプレイはリアルタイムで、アイソメトリックの観点から、プレーヤーはカメラの中心にある1つのアバターを制御します。物事を具体的にするために、タスクは、ヘルスを0に落とさずにキャラクターx経験値を取得することです。この場合、経験値はモンスターを倒すことによって獲得されます。これはゲームプレイの例です：今、私はネットを画面上のピクセルから取得した情報のみに基づいて動作させたいので、効率的に再生するためには非常に豊かな表現を学習する必要があります。ゲームの世界をオブジェクトに分割し、それらと対話する方法。そして、これらすべての情報はどういうわけかネットに教えられなければなりません。私の人生では、これをどのように訓練するかを考えることはできません。私の唯一のアイデアは、画面からゲームの本質的に良い/悪いもの（健康、ゴールド、経験など）を視覚的に抽出し、その統計を強化学習手順で使用する別のプログラムを用意することです。それは答えの一部になると思いますが、それで十分だとは思いません。生の視覚的入力から目標指向の動作までの抽象化のレベルが多すぎて、私の生涯でネットを訓練するにはそのような限られたフィードバックがありません。だから、私の質問：このタスクの少なくとも一部を実行するようにネットをトレーニングするには、他にどのような方法が考えられますか？何千ものラベル付けされた例を作成せずに。もう少し方向付けをします。この設定で有用な情報を抽出するために、強化学習の他のソースや、監視されていない方法を探しています。または、手動でラベル付けする必要なしに、ゲームの世界からラベル付けされたデータを取得する方法を考えることができる場合は、監視付きアルゴリズム。更新（12/04/27）：不思議なことに、私はまだこれに取り組んでおり、進歩しているようです。ANNコントローラを機能させる最大の秘訣は、タスクに適した最新のANNアーキテクチャを使用することです。したがって、時間差の逆伝播（つまり、標準の強化学習）で微調整する前に、教師なしで（ゲームをプレイしているビデオで）訓練した因数分解された制限付きボルツマンマシンで構成される深い信念ネットを使用してきましたフィードフォワードANN）。ただし、特にリアルタイムでのアクション選択の問題と、ANN処理用にカラー画像をエンコードする方法について、さらに価値のある入力を探しています:-) 更新（10/21/15）：私がこの質問を過去にしたことを思い出しただけで、これはもうおかしな考えではないことを述べておかなければならないと思いました。前回の更新以降、DeepMindは、ニューラルネットワークで視覚入力からAtariゲームをプレイできるようにするためのネイチャーペーパーを公開しました。確かに、私が彼らのアーキテクチャを使用してDiablo 2の限られたサブセットをプレイするのを妨げている唯一のことは、基礎となるゲームエンジンへのアクセスの欠如です。画面にレンダリングしてからネットワークにリダイレクトするのは、適度な時間でトレーニングするには遅すぎるだけです。したがって、おそらくこのようなボットがディアブロ2をプレイするのはすぐにはわかりませんが、それは、オープンソースまたはレンダリングターゲットへのAPIアクセスで何かをプレイするためです。（おそらく地震？）

139 machine-learning computer-vision neural-network video-processing reinforcement-learning

12

逆伝播ニューラルネットワークで非線形活性化関数を使用する必要があるのはなぜですか？

私はニューラルネットワークについていくつか読んでおり、単層ニューラルネットワークの一般的な原理を理解しています。追加のレイヤーの必要性を理解しましたが、なぜ非線形活性化関数が使用されるのですか？この質問の後に、次の質問が続きます。逆伝搬で使用されるアクティベーション関数の派生物は何ですか？

139 math machine-learning neural-network deep-learning

20

Pythonで1つのホットエンコードを行うにはどうすればよいですか？

80％のカテゴリカル変数を使用した機械学習分類問題があります。分類に分類子を使用する場合、1つのホットエンコーディングを使用する必要がありますか？エンコードせずにデータを分類子に渡すことはできますか？機能を選択するために次のことを実行しようとしています。私は列車のファイルを読みました： num_rows_to_read = 10000 train_small = pd.read_csv("../../dataset/train.csv", nrows=num_rows_to_read) カテゴリー特徴のタイプを「カテゴリー」に変更します。 non_categorial_features = ['orig_destination_distance', 'srch_adults_cnt', 'srch_children_cnt', 'srch_rm_cnt', 'cnt'] for categorical_feature in list(train_small.columns): if categorical_feature not in non_categorial_features: train_small[categorical_feature] = train_small[categorical_feature].astype('category') 私は1つのホットエンコーディングを使用しています： train_small_with_dummies = pd.get_dummies(train_small, sparse=True) 問題は、強力なマシンを使用しているにもかかわらず、3番目の部分が頻繁にスタックすることです。したがって、1つのホットエンコーディングがないと、機能の重要性を判断するために機能を選択できません。何がお勧めですか？

132 python pandas machine-learning anaconda one-hot-encoding

タグ付けされた質問 「machine-learning」

タグ付けされた質問「machine-learning」