データサイエンス machine-learning

3

畳み込みの説明を読んである程度理解しました。誰かがこの操作がたたみ込みニューラルネットのたたみ込みにどのように関連しているかを理解するのを手伝ってくれませんか？gウェイトをかけるフィルターのような機能ですか？

10 machine-learning neural-network deep-learning cnn convolution machine-learning ensemble-modeling machine-learning classification data-mining clustering machine-learning feature-selection convnet pandas graphs ipython machine-learning apache-spark multiclass-classification naive-bayes-classifier multilabel-classification machine-learning data-mining dataset data-cleaning data machine-learning data-mining statistics correlation machine-learning data-mining dataset data-cleaning data beginner career python r visualization machine-learning data-mining nlp stanford-nlp dataset linear-regression time-series correlation anomaly-detection ensemble-modeling data-mining machine-learning python data-mining recommender-system machine-learning cross-validation model-selection scoring prediction sequential-pattern-mining categorical-data python tensorflow image-recognition statistics machine-learning data-mining predictive-modeling data-cleaning preprocessing classification deep-learning tensorflow machine-learning algorithms data keras categorical-data reference-request loss-function classification logistic-regression apache-spark prediction naive-bayes-classifier beginner nlp word2vec vector-space-models scikit-learn decision-trees data programming

3

機能の選択は必要ですか？

データセットでランダムフォレスト、勾配ブースティング、SVMなどの機械学習モデルを実行したいと思います。データセットには200を超える予測変数があり、ターゲットクラスはバイナリ変数です。モデルフィッティングの前に特徴選択を実行する必要がありますか？すべての予測子変数を使用してモデルを直接当てはめると、モデルのパフォーマンスに大きな影響を与えますか、それとも大きな違いはありませんか？

10 machine-learning predictive-modeling feature-selection random-forest

3

Tensorflowでバッチ内積を行う方法は？

2つのテンソルがありa:[batch_size, dim] b:[batch_size, dim]ます。バッチ内のすべてのペアに対して内積を行い、を生成c:[batch_size, 1]しc[i,0]=a[i,:].T*b[i,:]ます。どうやって？

10 tensorflow scikit-learn svm cross-validation feature-selection bayesian machine-learning decision-trees parameter-estimation neural-network convnet neural-network regularization visualization machine-learning similarity python pandas indexing r data-cleaning machine-learning predictive-modeling data-cleaning recommender-system python sequential-pattern-mining software-recommendation r visualization gaussian distribution machine-learning data-mining bigdata apache-hadoop predictive-modeling logistic-regression sampling machine-learning regression feature-selection mongodb neural-network inception machine-learning classification dataset databases logistic-regression deep-learning backpropagation classification data-mining multilabel-classification text-mining data-cleaning unsupervised-learning anomaly-detection python r python pandas

2

線形回帰、ディシジョンツリー、またはランダムフォレスト回帰を選択するのはいつですか？[閉まっている]

休業。この質問には、より焦点を当てる必要があります。現在、回答を受け付けていません。この質問を改善してみませんか？質問を更新して、この投稿を編集するだけで1つの問題に焦点を当てます。 4年前休業。私はプロジェクトに取り組んでおり、どのアルゴリズムを選択するかを決定するのが困難ですregression。私は1つを選ぶ必要がありますどのような条件の下で知りたいlinear regressionか、Decision Tree regressionまたはRandom Forest regression？上記のツリーの中で特定のアルゴリズムに移行することを決定するデータの特定の特性はありますか？決定を下すためにデータセットを調べる必要がある特性は何ですか？そして、もう一つが選択になるだろういくつかの理由があるdecision treeかrandom forest、アルゴリズム同じ正しさをすることによって達成することができたとしてもはlinear regression？

10 machine-learning algorithms random-forest linear-regression decision-trees machine-learning predictive-modeling forecast r clustering similarity data-mining dataset statistics text-mining text-mining data-cleaning data-wrangling machine-learning classification algorithms xgboost data-mining dataset dataset regression graphs svm unbalanced-classes cross-validation optimization hyperparameter genetic-algorithms visualization predictive-modeling correlation machine-learning predictive-modeling apache-spark statistics normalization apache-spark map-reduce r correlation confusion-matrix r data-cleaning classification terminology dataset image-classification machine-learning regression apache-spark machine-learning data-mining nlp parsing machine-learning dimensionality-reduction visualization clustering multiclass-classification evaluation unsupervised-learning machine-learning machine-learning data-mining supervised-learning unsupervised-learning machine-learning data-mining classification statistics predictive-modeling data-mining clustering python pandas machine-learning dataset data-cleaning data bigdata software-recommendation

2

深層学習を使用して暗号化を解読できますか？

数百万の行と属性プレーンテキスト、キー、出力暗号文のデータセットがあるとします。理論的には、深層学習を使用して、暗号文の解読に役立つ出力のパターンを見つけることができますか？他の潜在的なアプローチはありますか？

10 machine-learning deep-learning

1

Rのキャレットパッケージの180のアルゴリズムのどれが実行可能ですか？

Rのキャレットパッケージは180モデルで動作します。著者は、パッケージの一部がトップチョイスモデルよりも処理が遅いか、精度が低い可能性があることを警告しています。著者はこれについて間違っていません。私はBorutaモデルとevtreeモデルをトレーニングしようとしましたが、クラスターで5時間を超えて実行した後はあきらめなければなりませんでした。著者は一連の機械学習ベンチマークにリンクしていますが、それらは少数のアルゴリズムのパフォーマンスをカバーし、さまざまな実装を比較しています。 180のモデルのうちどれを試してみる価値があるか、どれが非常に不正確か、不合理に遅いかについてのガイダンスとして、他に参考にできるリソースはありますか？

10 machine-learning r

1

バックプロップ中にCNNのフィルターの重みを変更しないことの影響

逆伝播中にCNNのフィルターの重みを変更しないことの影響は何ですか？MNISTデータセットのトレーニング中に完全に接続されたレイヤーの重みのみを変更しましたが、ほぼ99％の精度を達成しました。

9 machine-learning cnn mnist

2

特定の単語を名前、携帯電話番号、住所、電子メール、州、郡、市などとして分類するために使用される機械/ディープラーニング/ nlpテクニック

一連の単語または文字列をスキャンし、機械学習またはディープラーニングを使用して、それらを名前、携帯電話番号、住所、都市、州、国、およびその他のエンティティとして分類できるインテリジェントモデルを生成しようとしています。私はアプローチを探していましたが、残念ながら、どのようなアプローチを取るべきかわかりませんでした。文字列が名前であるか都市であるかなどを予測するために、バッグオブワードモデルとグローブワードの埋め込みを試しました。しかし、私はバッグオブワードモデルでは成功しませんでした。GloVeには、埋め込み例でカバーされていない名前がたくさんあります。-laurenはGloveに存在し、laurenaは存在しません私はこの投稿をここで見つけましたが、それは合理的な答えでしたが、NLPとSVMがそれを解決するために使用されたという事実を除いて、その問題を解決するために使用されたアプローチはできませんでした。どんな提案もありがたいですよろしくお願いいたします。SaiCharan Adurthi。

9 machine-learning deep-learning text-mining natural-language-process

1

マルチクラスデータセットで誤った分類を引き起こす不均衡なデータ

39のカテゴリ/クラスと850万件のレコードがあるテキスト分類に取り組んでいます。（将来的にはデータとカテゴリーが増えるでしょう）。私のデータの構造またはフォーマットは次のとおりです。 ---------------------------------------------------------------------------------------- | product_title | Key_value_pairs | taxonomy_id | ---------------------------------------------------------------------------------------- Samsung S7 Edge | Color:black,Display Size:5.5 inch,Internal | 211 Storage:128 GB, RAM:4 GB,Primary Camera:12 MP Case cover Honor 8 | Color:transparent,Height:15 mm,width:22 mm | 212 Ruggers Men's T-Shirt | Size:L,ideal for:men,fit:regular, | 111 sleeve:half sleeve Optimum Nutrition Gold | …

9 machine-learning python classification scikit-learn multiclass-classification

2

適切なポイントを選択するために適用するアルゴリズム

下の写真は、原点の周りの7つのポイントを示しています。それらの1つは、ルールと経験に基づいて人間によって選択されており、赤（左下の四分円にある1つ）に色分けされています。現在、これらのポイントのセットは1000以上あり、各セットに対して人間が単一のポイントを選択しています。これらの条件はすべてのセットに適用されます。各セットには約3〜10のポイントがあります外れ値はありませんポイントは正と負の値を持つことができますポイントを選択するときに間違いはありませんでした私の質問は、これらのセットと人間が行った選択から学習する機械学習アルゴリズムがあり、新しいポイントのセットが与えられたときにどのポイントを選択するかを自動的に決定できるかどうかです。この新しいセットは、もちろん上記の最初の3つの条件を満たす。 2つの最後の発言：私が挙げた例は、ランダムに作成された例であり、選択された原点とともに、原点の周りの平面内の点に関するアイデアをサポートします。実際にはもっと多くの構造があるかもしれませんが、今のところ私は好奇心が強く、このケースで何が可能か知りたいです。バリエーションは可能ですか？それが約2つの選択されたポイントであるか、またはポイントの代わりに特定の半径を持つ円があるとします。

9 machine-learning

1

クラスの1つが「他のどれでもない」によって定義されている分類問題にどのようにアプローチしますか

3つのクラスc1c1c_1、c2c2c_2、ます。しかし、私のデータセットには実際にはさらにいくつかの実際のクラスます。c3c3c_3(cj)nj=4(cj)j=4n(c_j)_{j=4}^n 明白な答えは、新しいクラスを定義することで、C 4、すべてのクラスを意味し、C J、J > 3を、私は、これは中のサンプル以来、良いアイデアではありません疑いますc^4c^4\hat c_4cjcjc_jj>3j>3j>3互いに非常に類似したまれではないだろう。c^4c^4\hat c_4 私は、私は、次の2つの変数空間を持っているとクラスとし、言うことをしようとしているものを可視化するために、C 2、C 3、C 4 = ⋃ N J = 4のC jは緑、ゴマ、赤で描かれており、それぞれ黒。これは私のデータがどのように見えるかと私が思う方法です。c1c1c_1c2c2c_2c3c3c_3c^4=⋃nj=4cjc^4=⋃j=4ncj\hat c_4= \bigcup_{j=4}^n c_j この問題に取り組むための標準的な方法はありますか？最も効率的な分類器は何ですか？なぜですか？

9 machine-learning classification

2

「ディープノーザーの定理」：対称制約の構築

固有の対称性が必要な学習問題がある場合、学習を強化するために学習問題に対称制約を適用する方法はありますか？たとえば、画像認識を行う場合、2D回転対称性が必要になる場合があります。つまり、画像の回転されたバージョンは元の画像と同じ結果になるはずです。または、私が三目並べをプレイすることを学んでいる場合、90度回転させると同じゲームプレイが得られます。これについて何か研究が行われましたか？

9 machine-learning

3

ハイパーパラメータチューニング基準のテストデータとモデル選択基準の検証データを実行した後、データ全体で最終モデルをトレーニングしませんか？

データ全体とは、トレーニング+テスト+検証を意味します検証データを使用してハイパーパラメーターを修正し、テストデータを使用してモデルを選択したら、モデル全体をトレーニングするのではなく、データ全体でモデルをトレーニングして、パラメーターをトレーニングする方が良いでしょう。データのトレーニング

9 machine-learning

3

従来のCVテンプレートマッチングよりも目視検査タスクに畳み込みNNを使用する理由

私たちが取り組んでいるプロジェクトに基づいて興味深いディスカッションがありました。なぜテンプレートマッチングアルゴリズムに対してCNN目視検査システムを使用するのですか？背景：特定のタイプのオブジェクトが「壊れている」/欠陥があるかどうか（この場合はPCB回路基板）を検出する単純なCNNビジョンシステム（ウェブカメラ+ラップトップ）のデモを示しました。私のCNNモデルは、静的な背景に適切な、壊れた回路基板（それぞれ約100枚の画像）の例を示していました。私たちのモデルは、事前に訓練されたVGG16（imagenet上）の最初のいくつかのconv / maxpoolレイヤーを使用し、次にいくつかの密集度を持ついくつかのさらにトレーニング可能なconvs / poolsを追加し、分類のためのdim-3 one hotエンコードされたベクトル化された出力に導きました：（is_empty、has_good_product、has_defective_product）。モデルはかなり簡単にトレーニングされ、問題なく99％の検証に達しました。また、データセットが小さいことがわかっているため、さまざまなデータ拡張を使用してトレーニングを行いました。実際には、10回のうち約9回動作しましたが、同じ回路基板のいくつかのランダムな変換/回転により、逆のクラスに配置される場合があります。おそらく、より積極的なデータ拡張が役立つでしょう。とにかく、プロトタイプのコンセプトプロジェクトについては私たちは幸せでした。今、私たちは別のエンジニアと彼の同僚に提示していました、そして彼はNNがこれには過剰であるという議論を持ち出しました、ただテンプレートマッチングを使うべきです、なぜCNNをしたいのでしょうか？私たちのアプローチが特定のアプリケーション（たとえば、検査する他の部品）でより優れている理由について、良い答えはありませんでした。私たちが提起したいくつかのポイント： 1）不変性に対してよりロバスト（たとえば、データ拡張を介して） 2）システムを改善するためにオンライン学習を行うことができます（たとえば、人間はどの例が間違っているかをソフトウェアに伝えることができます） 3）従来のコンピュータービジョンアルゴリズムのようにしきい値を設定する必要はありません。皆さんはどう思いますか、このタイプの検査タスクのためのCNNシステムにはもっと利点がありますか？どのような場合に、テンプレートマッチングよりも優れていますか？深いNNが仕事の技術になる可能性がある場合のいくつかのランダムなアイデア：入力の一部として3D深度センシングを必要とするシステム、または変形/ストレッチ/押しつぶすことができるが、依然として「良好」である任意のタイプのオブジェクト不良品ではない（例：ぬいぐるみ、ワイヤーなど）。あなたの考えを聞いて興味があります:)

9 machine-learning convnet image-classification

1

畳み込み層のパラメーター数

この高度に引用された論文、著者らは、重みパラメータの数に関する以下の説明を与えます。なぜパラメータがあるのか、私にはよくわかりません私はそれがあるべきだと思う49 Cの各以来、Cの入力チャネルを共有している同じフィルタ、49個のパラメータを。49C249C249C^249C49C49CCCC494949

9 machine-learning deep-learning computer-vision

タグ付けされた質問 「machine-learning」

タグ付けされた質問「machine-learning」