タグ付けされた質問 「machine-learning」

「経験とともに自動的に改善するコンピューターシステム」を構築する方法と原則。

4
決定木とKNN
どのケースでデシジョンツリーを使用し、他のケースではKNNを使用した方が良いですか? 特定のケースでそれらの1つを使用する理由 そして、別のケースで他の?(アルゴリズムではなく、その機能を見ることにより) これについての説明や参考文献はありますか?

3
さまざまなタイプの属性を持つデータセットを分類する最良の方法
テキストと数値など、さまざまな種類の属性で構成されるデータセットを分類する最良の方法は何かを知りたいと思います。テキストをブール値に変換できることは知っていますが、語彙は多様であり、データがあまりにもまばらになります。また、属性のタイプを個別に分類し、メタ学習手法で結果を結合しようとしましたが、うまくいきませんでした。

2
抄録をクロールするためのAPIはありますか?
論文名のリストが非常に長い場合、インターネットまたはデータベースからこれらの論文の要約を取得するにはどうすればよいですか? 紙の名前は「公衆衛生の領域のためのWebマイニングにおけるユーティリティの評価」のようなものです。 誰かが私に解決策を与えることができるAPIを知っていますか?Google学者をクロールしようとしましたが、Googleがクローラーをブロックしました。

4
LSTM時系列予測の予測間隔
LSTM(または他のリカレント)ニューラルネットワークからの時系列予測の周りの予測間隔(確率分布)を計算する方法はありますか? たとえば、最後の10個の観測されたサンプル(t-9からt)に基づいて、未来(t + 1からt + 10)までの10個のサンプルを予測しているとすると、t + 1での予測はより大きくなると予想します。 t + 10での予測よりも正確です。通常、予測の周りにエラーバーを描画して、間隔を示します。ARIMAモデル(正規分布エラーを想定)を使用すると、各予測値の周囲の予測間隔(95%など)を計算できます。LSTMモデルから同じもの(または予測間隔に関連するもの)を計算できますか? 私はより多くの例以下、Keras / PythonでLSTMsで作業されていmachinelearningmastery.com私のサンプルコードは、(下記)に基づいているから、。私は問題を離散的なビンへの分類として再構成することを検討しています。それはクラスごとの信頼を生み出しますが、それは不十分な解決策のようです。 同様のトピックがいくつかありますが(以下など)、LSTM(または実際に他の)ニューラルネットワークからの予測間隔の問題に直接対処するものはないようです。 /stats/25055/how-to-calculate-the-confidence-interval-for-time-series-prediction ARIMAとLSTMを使用した時系列予測 from keras.models import Sequential from keras.layers import Dense from keras.layers import LSTM from math import sin from matplotlib import pyplot import numpy as np # Build an LSTM network and train def fit_lstm(X, …


4
大きなカテゴリ値のホットエンコーディングの代替手段の1つ?
こんにちは1600カテゴリを超える大きなカテゴリ値を持つデータフレームがあります。1600列を超えないように代替手段を見つける方法はありますか。 私はこれを興味深いリンクの下に見つけましたhttp://amunategui.github.io/feature-hashing/#sourcecode しかし、彼らは私が望まないクラス/オブジェクトに変換しています。さまざまな機械学習モデルでテストできるように、最終出力をデータフレームとして必要ですか?または、生成された行列を使用して、ロジスティック回帰またはXGBoost以外の他の機械学習モデルをトレーニングする方法はありますか? とにかく実装できますか?

4
次元性と多様体
教師なし機械学習でよく聞かれる文章は 高次元の入力は通常、低次元の多様体の上または近くに存在します ディメンションとは何ですか?マニホールドとは何ですか?違いはなんですか? 両方を説明する例を挙げられますか? ウィキペディアのマニホールド: 数学では、多様体は各点の近くのユークリッド空間に似たトポロジー空間です。より正確には、n次元多様体の各点には、n次元のユークリッド空間に同型の近傍があります。 ウィキペディアのディメンション: 物理学と数学では、数学的な空間(またはオブジェクト)の次元は、その内部の任意の点を指定するために必要な座標の最小数として非公式に定義されます。 ウィキペディアは素人の言葉で何を意味していますか?ほとんどの機械学習の定義のような奇妙な定義のように聞こえますか? どちらも空間です。ユークリッド空間(つまり、多様体)と次元空間(つまり、特徴に基づく)の違いは何ですか。

4
ドロップアウトによりモデルの一部のニューロンが抑制されるため、ドロップアウトレイヤーを追加するとディープ/機械学習のパフォーマンスが向上するのはなぜですか?
いくつかのニューロンを削除すると、モデルのパフォーマンスが向上する場合は、そもそも層数とニューロン数が少ない単純なニューラルネットワークを使用してみませんか?最初に大きくて複雑なモデルを作成し、後でその一部を抑制するのはなぜですか?


1
Kerasでのマルチタスク学習
Kerasで共有レイヤーを実装しようとしています。Kerasにはがあることがわかりますがkeras.layers.concatenate、その使用に関するドキュメントからはわかりません。複数の共有レイヤーを作成するために使用できますか?以下に示すように、Kerasを使用して単純な共有ニューラルネットワークを実装する最良の方法は何でしょうか? 3つのNNすべての入力、出力、共有レイヤーの形状はすべて同じであることに注意してください。3つのNNには複数の共有レイヤー(および非共有レイヤー)があります。色付きのレイヤーは各NNに固有であり、同じ形状を持っています。 基本的に、この図は、複数の共有非表示層が続く3つの同一のNNを表し、その後に複数の非共有非表示層が続きます。 Twitterの例のように複数のレイヤーを共有する方法がわかりません。共有レイヤーは1つしかありません(APIドキュメントの例)。


5
ニューラルネットワーク用の最高のジュリアライブラリ
基本的なニューラルネットワークの構築と分析にこのライブラリを使用しています。 ただし、多層ニューラルネットワークなどの構築はサポートされていません。 それで、私はジュリアで高度なニューラルネットワークとディープラーニングを行うための素晴らしいライブラリを知りたいです。

1
ハッシュトリック-実際に何が起こるか
MLアルゴリズム、たとえばVowpal Wabbitや、クリックスルーレートコンペティション(Kaggle)に勝ついくつかの因数分解マシンが、機能が「ハッシュ化されている」と言及するとき、実際にはモデルにとって何を意味するのでしょうか?インターネットアドのIDを表す変数があり、「236BG231」などの値をとるとしましょう。次に、この機能がランダムな整数にハッシュされることを理解しています。しかし、私の質問は: モデルで現在使用されている整数(整数(数値)または ハッシュされた値は、実際にはまだカテゴリー変数のように扱われ、ワンホットエンコードされていますか?したがって、ハッシュのトリックは、単に大きなデータで何らかの形でスペースを節約することですか?

3
非構造化テキスト分類
非構造化テキスト文書、つまり構造が不明なWebサイトを分類します。私が分類しているクラスの数は限られています(この時点で、3つ以上はないと考えています)。誰が私がどのように始めることができるかについて提案していますか? 「言葉の袋」アプローチはここで実行可能ですか?後で、文書構造(おそらく決定木)に基づいて別の分類段階を追加できます。 私はMahoutとHadoopにある程度精通しているため、Javaベースのソリューションを好みます。必要に応じて、ScalaやSparkエンジン(MLライブラリ)に切り替えることができます。

2
絵文字の感情データ
実験では、多くのツイートに埋め込まれた絵文字を、単純な定量的衛生分析のグラウンドトゥルース/トレーニングデータとして使用したいと思います。通常、ツイートは構造化されていないため、NLPがうまく機能しません。 とにかく、Unicode 6.0には722個の絵文字があり、Unicode 7.0にはおそらく250個の絵文字が追加されるでしょう。 センチメントアノテーションを含むデータベース(SentiWordNetなど)はありますか? (SentiWordNetは曖昧な意味も許容していることに注意してください。例えば、面白いだけでなく、「これは面白い味」はおそらくプラスではありません;-)。通常の単語よりも絵文字の方が...) また、感情分析にそれらを使用した経験がある場合、私は聞いてみたいと思います。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.