タグ付けされた質問 「machine-learning」

「経験とともに自動的に改善するコンピューターシステム」を構築する方法と原則。

3
数学の畳み込みとCNNの関係
畳み込みの説明を読んである程度理解しました。誰かがこの操作がたたみ込みニューラルネットのたたみ込みにどのように関連しているかを理解するのを手伝ってくれませんか?gウェイトをかけるフィルターのような機能ですか?
10 machine-learning  neural-network  deep-learning  cnn  convolution  machine-learning  ensemble-modeling  machine-learning  classification  data-mining  clustering  machine-learning  feature-selection  convnet  pandas  graphs  ipython  machine-learning  apache-spark  multiclass-classification  naive-bayes-classifier  multilabel-classification  machine-learning  data-mining  dataset  data-cleaning  data  machine-learning  data-mining  statistics  correlation  machine-learning  data-mining  dataset  data-cleaning  data  beginner  career  python  r  visualization  machine-learning  data-mining  nlp  stanford-nlp  dataset  linear-regression  time-series  correlation  anomaly-detection  ensemble-modeling  data-mining  machine-learning  python  data-mining  recommender-system  machine-learning  cross-validation  model-selection  scoring  prediction  sequential-pattern-mining  categorical-data  python  tensorflow  image-recognition  statistics  machine-learning  data-mining  predictive-modeling  data-cleaning  preprocessing  classification  deep-learning  tensorflow  machine-learning  algorithms  data  keras  categorical-data  reference-request  loss-function  classification  logistic-regression  apache-spark  prediction  naive-bayes-classifier  beginner  nlp  word2vec  vector-space-models  scikit-learn  decision-trees  data  programming 

3
機能の選択は必要ですか?
データセットでランダムフォレスト、勾配ブースティング、SVMなどの機械学習モデルを実行したいと思います。データセットには200を超える予測変数があり、ターゲットクラスはバイナリ変数です。 モデルフィッティングの前に特徴選択を実行する必要がありますか?すべての予測子変数を使用してモデルを直接当てはめると、モデルのパフォーマンスに大きな影響を与えますか、それとも大きな違いはありませんか?

3

2
線形回帰、ディシジョンツリー、またはランダムフォレスト回帰を選択するのはいつですか?[閉まっている]
休業。この質問には、より焦点を当てる必要があります。現在、回答を受け付けていません。 この質問を改善してみませんか?質問を更新して、この投稿を編集するだけで1つの問題に焦点を当てます。 4年前休業。 私はプロジェクトに取り組んでおり、どのアルゴリズムを選択するかを決定するのが困難ですregression。私は1つを選ぶ必要がありますどのような条件の下で知りたいlinear regressionか、Decision Tree regressionまたはRandom Forest regression?上記のツリーの中で特定のアルゴリズムに移行することを決定するデータの特定の特性はありますか?決定を下すためにデータセットを調べる必要がある特性は何ですか?そして、もう一つが選択になるだろういくつかの理由があるdecision treeかrandom forest、アルゴリズム同じ正しさをすることによって達成することができたとしてもはlinear regression?
10 machine-learning  algorithms  random-forest  linear-regression  decision-trees  machine-learning  predictive-modeling  forecast  r  clustering  similarity  data-mining  dataset  statistics  text-mining  text-mining  data-cleaning  data-wrangling  machine-learning  classification  algorithms  xgboost  data-mining  dataset  dataset  regression  graphs  svm  unbalanced-classes  cross-validation  optimization  hyperparameter  genetic-algorithms  visualization  predictive-modeling  correlation  machine-learning  predictive-modeling  apache-spark  statistics  normalization  apache-spark  map-reduce  r  correlation  confusion-matrix  r  data-cleaning  classification  terminology  dataset  image-classification  machine-learning  regression  apache-spark  machine-learning  data-mining  nlp  parsing  machine-learning  dimensionality-reduction  visualization  clustering  multiclass-classification  evaluation  unsupervised-learning  machine-learning  machine-learning  data-mining  supervised-learning  unsupervised-learning  machine-learning  data-mining  classification  statistics  predictive-modeling  data-mining  clustering  python  pandas  machine-learning  dataset  data-cleaning  data  bigdata  software-recommendation 


1
Rのキャレットパッケージの180のアルゴリズムのどれが実行可能ですか?
Rのキャレットパッケージは180モデルで動作します。著者は、パッケージの一部がトップチョイスモデルよりも処理が遅いか、精度が低い可能性があることを警告しています。 著者はこれについて間違っていません。私はBorutaモデルとevtreeモデルをトレーニングしようとしましたが、クラスターで5時間を超えて実行した後はあきらめなければなりませんでした。 著者は一連の機械学習ベンチマークにリンクしていますが、それらは少数のアルゴリズムのパフォーマンスをカバーし、さまざまな実装を比較しています。 180のモデルのうちどれを試してみる価値があるか、どれが非常に不正確か、不合理に遅いかについてのガイダンスとして、他に参考にできるリソースはありますか?


2
特定の単語を名前、携帯電話番号、住所、電子メール、州、郡、市などとして分類するために使用される機械/ディープラーニング/ nlpテクニック
一連の単語または文字列をスキャンし、機械学習またはディープラーニングを使用して、それらを名前、携帯電話番号、住所、都市、州、国、およびその他のエンティティとして分類できるインテリジェントモデルを生成しようとしています。 私はアプローチを探していましたが、残念ながら、どのようなアプローチを取るべきかわかりませんでした。文字列が名前であるか都市であるかなどを予測するために、バッグオブワードモデルとグローブワードの埋め込みを試しました。 しかし、私はバッグオブワードモデルでは成功しませんでした。GloVeには、埋め込み例でカバーされていない名前がたくさんあります。-laurenはGloveに存在し、laurenaは存在しません 私はこの投稿をここで見つけましたが、それは合理的な答えでしたが、NLPとSVMがそれを解決するために使用されたという事実を除いて、その問題を解決するために使用されたアプローチはできませんでした。 どんな提案もありがたいです よろしくお願いいたします。SaiCharan Adurthi。

1
マルチクラスデータセットで誤った分類を引き起こす不均衡なデータ
39のカテゴリ/クラスと850万件のレコードがあるテキスト分類に取り組んでいます。(将来的にはデータとカテゴリーが増えるでしょう)。 私のデータの構造またはフォーマットは次のとおりです。 ---------------------------------------------------------------------------------------- | product_title | Key_value_pairs | taxonomy_id | ---------------------------------------------------------------------------------------- Samsung S7 Edge | Color:black,Display Size:5.5 inch,Internal | 211 Storage:128 GB, RAM:4 GB,Primary Camera:12 MP Case cover Honor 8 | Color:transparent,Height:15 mm,width:22 mm | 212 Ruggers Men's T-Shirt | Size:L,ideal for:men,fit:regular, | 111 sleeve:half sleeve Optimum Nutrition Gold | …

2
適切なポイントを選択するために適用するアルゴリズム
下の写真は、原点の周りの7つのポイントを示しています。それらの1つは、ルールと経験に基づいて人間によって選択されており、赤(左下の四分円にある1つ)に色分けされています。 現在、これらのポイントのセットは1000以上あり、各セットに対して人間が単一のポイントを選択しています。これらの条件はすべてのセットに適用されます。 各セットには約3〜10のポイントがあります 外れ値はありません ポイントは正と負の値を持つことができます ポイントを選択するときに間違いはありませんでした 私の質問は、これらのセットと人間が行った選択から学習する機械学習アルゴリズムがあり、新しいポイントのセットが与えられたときにどのポイントを選択するかを自動的に決定できるかどうかです。この新しいセットは、もちろん上記の最初の3つの条件を満たす。 2つの最後の発言: 私が挙げた例は、ランダムに作成された例であり、選択された原点とともに、原点の周りの平面内の点に関するアイデアをサポートします。実際にはもっと多くの構造があるかもしれませんが、今のところ私は好奇心が強く、このケースで何が可能か知りたいです。 バリエーションは可能ですか?それが約2つの選択されたポイントであるか、またはポイントの代わりに特定の半径を持つ円があるとします。

1
クラスの1つが「他のどれでもない」によって定義されている分類問題にどのようにアプローチしますか
3つのクラスc1c1c_1、c2c2c_2、ます。しかし、私のデータセットには実際にはさらにいくつかの実際のクラスます。c3c3c_3(cj)nj=4(cj)j=4n(c_j)_{j=4}^n 明白な答えは、新しいクラスを定義することで、C 4、すべてのクラスを意味し、C J、J > 3を、私は、これは中のサンプル以来、良いアイデアではありません疑いますc^4c^4\hat c_4cjcjc_jj>3j>3j>3互いに非常に類似したまれではないだろう。c^4c^4\hat c_4 私は、私は、次の2つの変数空間を持っているとクラスとし、言うことをしようとしているものを可視化するために、C 2、C 3、C 4 = ⋃ N J = 4のC jは緑、ゴマ、赤で描かれており、それぞれ黒。これは私のデータがどのように見えるかと私が思う方法です。c1c1c_1c2c2c_2c3c3c_3c^4=⋃nj=4cjc^4=⋃j=4ncj\hat c_4= \bigcup_{j=4}^n c_j この問題に取り組むための標準的な方法はありますか?最も効率的な分類器は何ですか?なぜですか?

2
「ディープノーザーの定理」:対称制約の構築
固有の対称性が必要な学習問題がある場合、学習を強化するために学習問題に対称制約を適用する方法はありますか? たとえば、画像認識を行う場合、2D回転対称性が必要になる場合があります。つまり、画像の回転されたバージョンは元の画像と同じ結果になるはずです。 または、私が三目並べをプレイすることを学んでいる場合、90度回転させると同じゲームプレイが得られます。 これについて何か研究が行われましたか?

3
ハイパーパラメータチューニング基準のテストデータとモデル選択基準の検証データを実行した後、データ全体で最終モデルをトレーニングしませんか?
データ全体とは、トレーニング+テスト+検証を意味します 検証データを使用してハイパーパラメーターを修正し、テストデータを使用してモデルを選択したら、モデル全体をトレーニングするのではなく、データ全体でモデルをトレーニングして、パラメーターをトレーニングする方が良いでしょう。データのトレーニング

3
従来のCVテンプレートマッチングよりも目視検査タスクに畳み込みNNを使用する理由
私たちが取り組んでいるプロジェクトに基づいて興味深いディスカッションがありました。なぜテンプレートマッチングアルゴリズムに対してCNN目視検査システムを使用するのですか? 背景:特定のタイプのオブジェクトが「壊れている」/欠陥があるかどうか(この場合はPCB回路基板)を検出する単純なCNNビジョンシステム(ウェブカメラ+ラップトップ)のデモを示しました。私のCNNモデルは、静的な背景に適切な、壊れた回路基板(それぞれ約100枚の画像)の例を示していました。私たちのモデルは、事前に訓練されたVGG16(imagenet上)の最初のいくつかのconv / maxpoolレイヤーを使用し、次にいくつかの密集度を持ついくつかのさらにトレーニング可能なconvs / poolsを追加し、分類のためのdim-3 one hotエンコードされたベクトル化された出力に導きました:(is_empty、has_good_product、has_defective_product)。 モデルはかなり簡単にトレーニングされ、問題なく99%の検証に達しました。また、データセットが小さいことがわかっているため、さまざまなデータ拡張を使用してトレーニングを行いました。実際には、10回のうち約9回動作しましたが、同じ回路基板のいくつかのランダムな変換/回転により、逆のクラスに配置される場合があります。おそらく、より積極的なデータ拡張が役立つでしょう。とにかく、プロトタイプのコンセプトプロジェクトについては私たちは幸せでした。 今、私たちは別のエンジニアと彼の同僚に提示していました、そして彼はNNがこれには過剰であるという議論を持ち出しました、ただテンプレートマッチングを使うべきです、なぜCNNをしたいのでしょうか? 私たちのアプローチが特定のアプリケーション(たとえば、検査する他の部品)でより優れている理由について、良い答えはありませんでした。私たちが提起したいくつかのポイント: 1)不変性に対してよりロバスト(たとえば、データ拡張を介して) 2)システムを改善するためにオンライン学習を行うことができます(たとえば、人間はどの例が間違っているかをソフトウェアに伝えることができます) 3)従来のコンピュータービジョンアルゴリズムのようにしきい値を設定する必要はありません。皆さんはどう思いますか、このタイプの検査タスクのためのCNNシステムにはもっと利点がありますか?どのような場合に、テンプレートマッチングよりも優れていますか? 深いNNが仕事の技術になる可能性がある場合のいくつかのランダムなアイデア:入力の一部として3D深度センシングを必要とするシステム、または変形/ストレッチ/押しつぶすことができるが、依然として「良好」である任意のタイプのオブジェクト不良品ではない(例:ぬいぐるみ、ワイヤーなど)。あなたの考えを聞いて興味があります:)

1
畳み込み層のパラメーター数
この高度に引用された論文、著者らは、重みパラメータの数に関する以下の説明を与えます。なぜパラメータがあるのか​​、私にはよくわかりません 私はそれがあるべきだと思う49 Cの各以来、Cの入力チャネルを共有している同じフィルタ、49個のパラメータを。49C249C249C^249C49C49CCCC494949

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.