タグ付けされた質問 「machine-learning」

「経験とともに自動的に改善するコンピューターシステム」を構築する方法と原則。

1
ReLUが他のアクティベーション機能より優れている理由
ここでの答えは、-のsigmoidような活性化関数にあった勾配の消失と爆発を指しますが、Relu不利な点があり、それはその期待値です。の出力に制限はないReluため、その期待値はゼロではありません。Reluそれtanhが機械学習の専門家の間で最も人気があった前の時代を覚えていsigmoidます。その理由は、の期待値がtanhゼロに等しく、それがより深い層での学習がニューラルネットでより速くなるのを助けたからです。Reluこの特性はありませんが、その派生的な優位性を脇に置いておくとなぜうまく機能するのでしょうか。さらに、派生物も影響を受ける可能性があると思います。アクティベーション(の出力Relu)更新ルールの計算に関与しています。

3
ディープニューラルネットワークでのバギングとドロップアウト
バギングは、単一の予測子としてアンサンブルとして機能する複数の予測子の生成です。ドロップアウトは、考えられるすべてのサブネットワークを平均化するためにニューラルネットワークに教える手法です。最も重要なKaggleのコンペティションを見ると、この2つの技術は非常に頻繁に使用されているようです。実際の実装以外に理論的な違いは見られません。実際のアプリケーションで両方を使用する理由を誰が説明できますか?そして、両方を使用するとパフォーマンスが向上するのはなぜですか?

2
Doc2Vec-段落にラベルを付ける方法(gensim)
gensimでdoc2vecを使用して文/段落/文書にラベルを付ける(タグ付けする)方法を考えています-実際的な観点から。 各文/段落/文書に固有のラベル(「Sent_123」など)を付ける必要がありますか?これは、「 "Sent_123"というラベルの付いた特定の1つの文に最も似ている単語や文を言いたい場合に便利です。 内容に基づいてラベルを繰り返すことはできますか?たとえば、各文/段落/ドキュメントが特定の製品アイテムに関するものである場合(および特定の製品アイテムに複数の文/段落/ドキュメントがある場合)、アイテムに基づいて文にラベルを付けてから、単語または単語間の類似性を計算できます文とこのラベル(製品アイテムに関係するすべての文の平均に似ていると思います)?

3
最近傍データによる非常に高次元のデータの検索
私は、ユーザーと彼らが好むアイテムの大きなまばらなマトリックスを持っています(100万ユーザーと100Kアイテムのオーダーで、非常に低いレベルのスパース性があります)。kNN検索を実行する方法を模索しています。データセットのサイズと実行した初期テストを考えると、使用する方法は並列または分散のいずれかである必要があるという前提があります。そこで、2つのクラスの可能なソリューションを検討しています。1つは単一のマルチコアマシンで利用可能(または合理的に簡単な方法で実装可能)、もう1つはSparkクラスター、つまりMapReduceプログラムとして利用可能です。私が検討した3つの広範なアイデアは次のとおりです。 コサイン類似度メトリックを想定して、正規化された行列とその転置(外積の合計として実装)の完全な乗算を実行します。 局所性依存ハッシュ(LSH)の使用 最初にPCAで問題の次元を減らす この問題に取り組むことができる他の可能な方法についての考えやアドバイスをいただければ幸いです。

5
異常検出による猫の視覚的検出
私は趣味のプロジェクトを持っています。これは、これまで限られた機械学習の経験を増やす方法としてコミットすることを考えています。トピックに関するCoursera MOOCを取得して完了しました。私の質問は、プロジェクトの実行可能性に関するものです。 タスクは次のとおりです。 近所の猫は時々私の庭を訪れますが、私の芝生で排泄する傾向があるので嫌いです。猫がいると警告を発する警告システムが欲しいので、スーパーソーカーを使って追い払うことができます。簡単にするために、私は黒と白の色の猫しか気にしないと言ってください。 庭の一部のビデオや写真をキャプチャできるカメラモジュールを備えたラズベリーパイをセットアップしました。 サンプル画像: 私の最初のアイデアは、猫または猫のようなオブジェクトを識別する分類器を訓練することでしたが、十分な数の陽性サンプルを取得できないことに気付いた後、異常検出を支持してそれを放棄しました。 1日ごとに写真を撮ると、1日に猫(日光のある約6万枚)を含む写真が5枚になると推定されます。 これは異常検出を使用して実行可能ですか?その場合、どの機能を提案しますか?これまでの私のアイデアは、特定の色を持つピクセルの数を単純に数えることです。何らかの種類のblob検出/画像分割(どのように行うのかわからないため回避したい)を行い、それらに対して同じ色分析を実行します。

2
セマンティック分析のためにビッグデータでliblinearを使用する
Libsvmを使用して、データをトレーニングし、セマンティック分析の問題の分類を予測します。ただし、セマンティック分析はn次元の問題に関係するため、大規模データのパフォーマンスの問題があります。 昨年、Liblinearがリリースされ、パフォーマンスのボトルネックを解決できます。しかし、メモリが多すぎます。あるMapReduceはビッグデータに意味解析の問題を解決する唯一の方法?または、Liblinearでメモリのボトルネックを改善できる他の方法はありますか?

2
検証セットとテストセットの両方を使用する理由
ニューラルネットワークについて考えます。 特定のデータセットについて、トレーニング、検証、テストセットに分割します。古典的な60:20:20の比率でそれを行うと仮定し、検証セットでチェックすることによりネットワークを検証することにより、過剰適合を防ぎます。次に、パフォーマンスを確認するためにテストセットでテストする必要はありますか? ネットワークの場合、検証セットと同じように見えないデータであり、両方の数も同じであるため、テストセットのエラーは検証セットと同じではありませんか? 代わりに、テストセットをマージしてトレーニングセットを増やし、トレーニングデータを増やしてネットワークトレーニングを改善し、検証セットを使用してオーバーフィットを防ぐことはできませんか?なぜこれをしないのですか?

5
機械学習で疎データと密データを結合してパフォーマンスを改善する
予測可能なスパースな特徴があり、また予測的ないくつかの濃い特徴があります。これらの機能を組み合わせて、分類器の全体的なパフォーマンスを改善する必要があります。 今、これらを一緒にしようとすると、密な特徴が疎な特徴よりも支配する傾向があるため、密な特徴のみのモデルと比較してAUCが1%しか改善されません。 誰かが同様の問題に遭遇しましたか?入力を本当に感謝します。私はすでに多くの異なる分類器、分類器の組み合わせ、特徴変換、異なるアルゴリズムでの処理を試しました。 助けてくれてありがとう。 編集: 私はすでにコメントに記載されている提案を試しました。私が観察したのは、データのほぼ45%でスパースフィーチャが非常によく機能し、スパースフィーチャのみで約0.9のAUCが得られることですが、残りのものでは約0.75のAUCで密なフィーチャが良好に機能します。これらのデータセットを分離しようとしましたが、AUCが0.6になるため、モデルを単純にトレーニングして使用する機能を決定することはできません。 コードスニペットに関して、私は非常に多くのことを試しましたので、何を正確に共有すべきかわかりません:(

2
テストデータにも正規化を適用する必要がありますか?
著者識別問題に関するプロジェクトを行っています。データのトレーニングにtf-idf正規化を適用し、そのデータでsvmをトレーニングしました。 分類子を使用する場合、テストデータも正規化する必要があります。正規化の基本的な目的は、学習中に、学習アルゴリズムがより重要な機能により重点を置くようにすることだと感じています。そのため、トレーニングが完了すると、どの機能が重要であり、どれが重要ではないかをすでに知っています。正規化をテストデータにも適用する必要はありますか? この分野は初めてです。質問が愚かに見える場合は無視してください?


2
ワークフローのどこで欠落データを処理する必要がありますか?
私は(Pythonの使用、私の場合には、機械学習モデルを作成するためのワークフローを構築していますpandasし、sklearn非常に大規模なデータベースから引き出されたデータからパッケージ)(ここでは、にVerticaは、SQLとの方法によりpyodbc)、そのプロセスにおける重要なステップが含ま帰行方不明予測子の値。これは、単一の分析プラットフォームまたは統計プラットフォーム(Python、R、Stataなど)内では簡単ですが、マルチプラットフォームワークフローでこのステップを見つけるのに最適な場所が知りたいです。 sklearn.preprocessing.Imputerクラスで、pandas.DataFrame.fillnaメソッドを使用して、または手動で(使用される代入メソッドの複雑さに応じて)Pythonでこれを行うのは十分簡単です。しかし、私はこれを何億ものレコードの数十または数百の列に使用するので、事前にSQLを介して直接これを行うより効率的な方法があるのだろうかと思います。Verticaのような分散プラットフォームでこれを行う潜在的な効率は別として、これはテーブルの「完全な」バージョンを構築するための自動化されたパイプラインを作成できるという追加の利点があるので、新しいセットを記入する必要はありませんモデルを実行するたびに、ゼロから欠損値を取得します。 私はこれについて多くのガイダンスを見つけることができませんでしたが、私たちはできると思います: 不完全な列ごとに代替値の表(全体またはグループごとの平均/中央値/モードなど)を作成します 代替値テーブルを元のテーブルと結合して、各行と不完全な列に代替値を割り当てます 一連のcaseステートメントを使用して、使用可能な場合は元の値を取得し、それ以外の場合は代替値を取得します これはVertica / SQLで行うのが合理的なことですか、それともわずらわずPythonで処理するだけの正当な理由がありますか?後者の場合、スケルンではなくパンダでこれを行うための強力なケースがありますか、その逆ですか?ありがとう!

3
深層学習における重みとバイアスとは何ですか?
Tensorflow Webサイトから機械学習を学び始めています。ディープラーニングプログラムがたどる流れについて、非常に初歩的な理解を身に付けました(この方法は、本や大きな記事を読む代わりに、速く学ぶことができます)。 私が遭遇したいくつかの紛らわしいことがありますが、そのうちの2つは次のとおりです。 バイアス 重量 tensorflowウェブサイトに関するMNISTチュートリアルでは、画像内の特定のパターンの存在の証拠を見つけるためにバイアスと重みが必要であると述べています。私が理解できないのは、BiasとWeightの値がどこでどのように決定されるかです。 これらの値を提供する必要がありますか、それともTensorFlowライブラリはトレーニングデータセットに基づいてこれらの値を自動的に計算しますか? また、ディープラーニングで私のペースを加速する方法についていくつかの提案を提供できれば、それは素晴らしいことです! Tensorflow初心者向けチュートリアル

1
機械学習のLBスコアとは何ですか?
私はを経た記事 kaggleブログに。繰り返し、著者は「LBスコア」と「LBフィット」)を機械学習の有効性の指標として(クロス検証(CV)スコアとともに)言及しています。 「LB」の意味の研究でかなりの時間を費やしましたが、一般的に人々はそれを直接LBと呼ぶことに気付きました。 だから私の質問は-「LB」とは何ですか?

2
サポートベクターマシンにはどのような学習問題が適していますか?
サポートベクターマシンを使用して特定の学習問題に取り組むことができることを示す特徴または特性は何ですか? 言い換えれば、学習の問題を見ると、ニューラルネットワークやデシジョンツリーなどではなく、「これには間違いなくSVMを使用する必要があります」ということになります。

2
分類器の精度を上げる方法は?
OpenCV letter_recog.cppの例を使用して、ランダムツリーやその他の分類子を実験しています。この例には、ランダムツリー、ブースティング、MLP、kNN、単純ベイズ、SVMの6つの分類子が実装されています。20000のインスタンスと16の機能を備えたUCI文字認識データセットが使用されます。これをトレーニングとテストのために半分に分割しました。SVMの経験があるため、その認識エラーをすばやく3.3%に設定しました。いくつかの実験の後、私が得たのは: UCI文字認識: RTrees-5.3% ブースト-13% MLP-7.9% kNN(k = 3)-6.5% ベイズ-11.5% SVM-3.3% 使用されるパラメーター: RTrees-max_num_of_trees_in_the_forrest = 200、max_depth = 20、min_sample_count = 1 ブースト-boost_type = REAL、weak_count = 200、weight_trim_rate = 0.95、max_depth = 7 MLP-method = BACKPROP、param = 0.001、max_iter = 300(デフォルト値-実験するには遅すぎる) kNN(k = 3)-k = 3 ベイズ-なし SVM-RBFカーネル、C = 10、ガンマ= 0.01 その後、同じパラメーターを使用し、最初に勾配フィーチャ(ベクトルサイズ200要素)を抽出して、DigitsおよびMNISTデータセットでテストしました。 数字: RTrees-5.1% ブースト-23.4% MLP-4.3% …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.