タグ付けされた質問 「neural-networks」

人工ニューラルネットワーク(ANN)は、生物学的ニューラルネットワークに大まかに基づいた広範なクラスの計算モデルです。これらには、フィードフォワードNN(「ディープ」NNを含む)、畳み込みNN、反復NNなどが含まれます。

1
ニューラルネットワーク文献のテンソル:最も単純な定義は何ですか?
ニューラルネットワークの文献では、「テンソル」という言葉に遭遇することがよくあります。 ベクターとは違うのですか?そして、マトリックスから?その定義を明確にする具体的な例はありますか? 私はその定義について少し混乱しています。ウィキペディアは役に立たず、時々、その定義は使用されている特定の機械学習環境(TensorFlow、Caffee、Theano)に依存するという印象を受けます。

2
'69年のデータから学ぶ一般的な最先端技術
私は、ニューラルネットワークにとって非常に重要な1969年の有名なミンスキーとペーパーの本「パーセプトロン」の文脈を理解しようとしています。 私が知る限り、パーセプトロンを除いて、他の一般的な教師あり学習アルゴリズムはまだありませんでした。決定木は実際には70年代後半にのみ有用になり始め、ランダムフォレストとSVMは90年代です。ジャックナイフ法はすでに知られているようですが、k-cross validation(70s)やbootstrap(1979?)ではありません。 ウィキペディアによると、ハイブリッド理論を説明する最初の試みはすでに40年代にあったにもかかわらず、ネイマンピアソンとフィッシャーの古典的な統計フレームワークは50年代にはまだ意見の相違がありました。 したがって、私の質問:データから予測する一般的な問題を解決するための最先端の方法は何でしたか?

3
ニューラルネットワークでのtanhとシグモイド
私はまだこのことを理解しようとしているという事実をおaびします。私は、ニューロン活性化関数にtanh(マップ-1から1)とシグモイド(マップ0から1)を使用することの長所と短所を理解しようとしています。私の読書から、それはわずかな違いのある小さなもののように聞こえました。私の問題の実際には、シグモイドの方が訓練しやすく、奇妙なことに、シグモイドは一般的な解決策をよりよく見つけているようです。これにより、シグモイドバージョンのトレーニングが完了すると、参照(トレーニングされていない)データセットでうまく機能し、tanhバージョンは参照で不十分にしながらトレーニングデータで正しい答えを得ることができるようです。これは同じネットワークアーキテクチャ用です。 私が持っている直感の1つは、シグモイドを使用すると、ニューロンがほぼ完全にオフになり、後続のレイヤーに入力が提供されなくなることです。tanhは入力を完全にキャンセルする必要があるため、ここではより困難です。それ以外の場合は、常に次のレイヤーに値を与えます。たぶん、この直感は間違っています。 長い投稿。一番下の行、貿易は何ですか、それは大きな違いを生むべきですか?

1
畳み込みニューラルネットワークの特徴マップの数
たたみ込みニューラルネットワークを学習するとき、次の図に関する質問があります。 1)レイヤー1のC1には6つの機能マップがありますが、これは6つの畳み込みカーネルがあることを意味していますか?各畳み込みカーネルは、入力に基づいて機能マップを生成するために使用されます。 2)レイヤー2のS1には6個の機能マップがあり、C2には16個の機能マップがあります。S1の6つの機能マップに基づいてこれらの16の機能マップを取得するプロセスはどのように見えますか?

3
畳み込みニューラルネットワークの畳み込みステップは何をしますか?
コンピュータービジョンへの応用のため、畳み込みニューラルネットワーク(CNN)を研究しています。私はすでに標準のフィードフォワードニューラルネットワークに精通しているので、ここの一部の人々がCNNを理解するための追加のステップを手伝ってくれることを望んでいます。CNNについて私が考えることは次のとおりです。 従来のフィードフォワードNNでは、各要素が「入力レイヤー」でNNに入力する特徴ベクトルで構成されるトレーニングデータがあるため、画像認識では、各ピクセルを1つの入力にすることができます。これらは私たちの特徴ベクトルです。または、他の(おそらく小さい)特徴ベクトルを手動で作成することもできます。 CNNの利点は、画像の歪みと位置により不変な、より強力な特徴ベクトルを生成できることです。次の図に示すように(このチュートリアルから)、CNNは機能マップを生成し、それが標準のニューラルネットワークに送られます(実際、これは巨大な前処理ステップです)。 これらの「より良い」機能を得る方法は、畳み込みとサブサンプリングを交互に行うことです。サブサンプリングの仕組みを理解しています。各機能マップについて、ピクセルのサブセットを取得するか、ピクセルの値を平均化できます。 しかし、私が主に混乱しているのは、畳み込みステップの仕組みです。私は確率理論(2つのランダム変数の合計の密度)からの畳み込みに精通していますが、CNNでどのように機能し、なぜ効果的ですか? 私の質問はこれに似ていますが、特に、最初の畳み込みステップが機能する理由がわかりません。

2
ニューラルネットワークの複雑さを測定するためのVC次元の代替手段は何ですか?
ニューラルネットワークの複雑さを測定するいくつかの基本的な方法に出会いました。 素朴で非公式:ニューロン、隠れニューロン、層、または隠れ層の数を数える VC次元(Eduardo D. Sontag [1998]「ニューラルネットワークのVC次元」[ pdf ]) との等価性によるTC0dTCd0TC^0_d粗化および漸近計算の複雑さの尺度。 他の選択肢はありますか? 推奨されます: 複雑さのメトリックを使用して、同じスケールで異なるパラダイムからのニューラルネットワークを測定できる場合(バックプロップ、ダイナミクスニューラルネット、カスケード相関など)。たとえば、ネットワーク上のさまざまなタイプ(またはニューラルネットワーク以外のもの)でVC次元を使用できますが、ニューロンの数は、活性化関数、信号(基本和とスパイク)、およびその他の非常に特定のモデル間でのみ役立ちますネットワークのプロパティは同じです。 ネットワークで学習可能な機能の複雑さの標準的な尺度にうまく対応している場合 特定のネットワークでメトリックを簡単に計算できる場合(ただし、最後のネットワークは必須ではありません。) ノート この質問は、CogSci.SEに関するより一般的な質問に基づいています。

2
予測のためのニューラルネットワークの概要
時系列予測にニューラルネットワークを使用するには、いくつかのリソースが必要です。私はいくつかの論文を実装し、彼らが彼らの方法の可能性を大いに表明していることを知ることに警戒しています。そのため、これらのメソッドの経験がある場合は、さらに素晴らしいことを提案しています。

3
多層パーセプトロンとディープニューラルネットワーク
これは用語の問題です。時々、ディープニューラルネットワークを「多層パーセプトロン」と呼ぶ人がいますが、これはなぜですか?私が教えられたパーセプトロンは、重みをトレーニングする特定の方法を使用したバイナリしきい値出力を持つバックレイヤーではない単層分類器(またはリグレッサー)です。パーセプトロンの出力がターゲットの出力と一致しない場合、重みに入力ベクトルを加算または減算します(パーセプトロンが偽陽性または偽陰性を与えたかどうかに応じて)。これは非常に原始的な機械学習アルゴリズムです。トレーニング手順は、多層ケースに一般化されていないようです(少なくとも修正なしでは)。ディープニューラルネットワークはbackpropを介してトレーニングされます。backpropはチェーンルールを使用して、ネットワークのすべての重みを通してコスト関数の勾配を伝播します。 だから、問題は。「多層パーセプトロン」は「ディープニューラルネットワーク」と同じものですか?もしそうなら、なぜこの用語は使用されますか?不必要に混乱させるようです。さらに、用語がある程度互換性があると仮定すると、完全に接続された層(畳み込み層や繰り返し接続なし)で構成されるフィードフォワードネットワークを指すとき、用語「多層パーセプトロン」のみを見ました。この用語はどのくらい広範ですか?たとえば、インセプションネットを指す場合、「多層パーセプトロン」という用語を使用しますか?NLPで使用されるLSTMモジュールを使用するリカレントネットワークについてはどうですか?

3
小さな検証セットを使用できますか?
データをテストセットと検証セットに分割する背後にある理由を理解しています。また、スプリットのサイズは状況によって異なりますが、一般的には50/50から90/10に変わることも理解しています。 RNNを作成して、スペルを修正し、約500万文のデータセットから開始します。50万文を削り取り、残りの約450万文で訓練します。トレーニングが完了したら、検証セットを取得して精度を計算します。 興味深いことに、検証セットのわずか4%で69.4%の精度が得られ、このパーセンテージはどちらの方向でも0.1%以上変化しません。最終的には、数値が69.5%のままであるため、検証を短くしました。 では、おそらく1%で済ませる可能性があるのに、なぜ検証のために10%を切り捨てるのでしょうか?それは重要ですか?

2
損失値が高いにもかかわらず精度が高い
単純なニューラルネットワークバイナリ分類器のトレーニング中に、クロスエントロピーを使用して高い損失値を取得します。それにもかかわらず、検証セットの精度の値は非常に良好です。何か意味がありますか?損失と精度の間に厳密な相関関係はありませんか? これらの値のトレーニングと検証については、0.4011-acc:0.8224-val_loss:0.4577-val_acc:0.7826です。これはNNを実装する最初の試みであり、機械学習にアプローチしたばかりなので、これらの結果を適切に評価することはできません。

4
勾配ブースティングマシンの精度は、反復回数が増えると低下します
caretR のパッケージを介して勾配ブースティングマシンアルゴリズムを試しています。 小さな大学入学データセットを使用して、次のコードを実行しました。 library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

1
RNNがモデル化するための実行可能なシーケンス長とは何ですか?
私は、時系列データのモデリングにリカレントニューラルネットワーク(RNN)のLSTM(長期短期記憶)バージョンを使用することを検討しています。データのシーケンス長が長くなると、ネットワークの複雑さが増します。したがって、どの長さのシーケンスが良好な精度でモデル化するのに適しているのでしょうか? 最先端のアプローチを実装するのが難しいことなく、LSTMの比較的単純なバージョンを使用したいと思います。私の時系列の各観測値には、おそらく4つの数値変数があり、観測値の数は約100.000〜1.000.000です。

4
テキストマイニング:人工知能でテキスト(ニュース記事など)をクラスター化する方法は?
Pongのプレイ、手書きの数字の分類など、さまざまなタスクのために、いくつかのニューラルネットワーク(MLP(完全接続)、Elman(繰り返し))を構築しました... さらに、複数桁の手書きノートを分類するなど、いくつかの最初の畳み込みニューラルネットワークを構築しようとしましたが、25x25サイズの画像などの標準化された入力に依存できる画像認識/クラスタリングタスクなど、テキストを分析およびクラスター化することはまったく新しいです。 RGBまたはグレースケールなど...前提条件の機能がたくさんあります。 テキストマイニング、たとえばニュース記事の場合、入力のサイズは常に変化しています(異なる単語、異なる文、異なるテキスト長など)。 人工知能、できればニューラルネットワーク/ SOMを利用した最新のテキストマイニングツールをどのように実装できますか? 残念ながら、簡単なチュートリアルを最初から見つけることができませんでした。複雑な科学論文は読みにくく、トピックを学ぶための最良の選択肢ではありません(私の意見では)。MLP、ドロップアウトテクニック、畳み込みニューラルネットワークなどに関するかなりの論文をすでに読んでいますが、テキストマイニングに関する基本的なものを見つけることができませんでした-私が見つけたのは、非常に限られたテキストマイニングスキルにはあま​​りにも高レベルでした。

4
人工ニューラルネットワークとは何ですか?
ニューラルネットワークの文献を詳しく調べると、ニューロモーフィックトポロジ(「ニューラルネットワーク」のようなアーキテクチャ)を使用した他の方法を特定することができます。そして、私は普遍近似定理について話していません。以下に例を示します。 それから、不思議に思う:人工ニューラルネットワークの定義は何ですか?そのトポロジーはすべてをカバーしているように見えます。 例: 最初に行う識別の1つは、PCAと、エンコーダーとデコーダーの結合重みとボトルネックレイヤーのしきい値付きアクティブ化を備えた線形オートエンコーダーの間です。 また、線形モデル(特別なロジスティック回帰)と、非表示層および単一の出力層のないニューラルネットワークとの間で共通の識別が行われます。この識別はいくつかの扉を開きます。 フーリエ級数とテイラー級数?ANN。SVM?ANN。ガウス過程?ANN(無限の非表示ユニットを持つ単一の非表示レイヤー)。 そのため、同様に簡単に、これらのアルゴリズムの特殊な損失関数を持つ任意の正規化バージョンをニューラルネットワークフレームワークに組み込むことができます。 しかし、掘り下げるほど、より多くの類似点が現れます。Deep Neural Decision Treesに出会ったところです。これにより、ディシジョンツリーを使用して特定のANNアーキテクチャを識別し、ANNメソッド(勾配降下逆伝搬など)で学習できるようになりました。これから、ニューラルネットワークトポロジのみからランダムフォレストと勾配ブーストディシジョンツリーを構築できます。 すべてを人工ニューラルネットワークとして表現できる場合、人工ニューラルネットワークを定義するものは何ですか?

2
ニューラルネットワークとその他すべて
これに対する満足のいく答えがgoogleから見つかりませんでした。 もちろん、私が持っているデータが数百万のオーダーである場合、深層学習が道です。 そして、ビッグデータがない場合は、機械学習で他の方法を使用した方が良いかもしれないことを読みました。指定された理由は、過剰適合です。機械学習:すなわち、データの参照、特徴抽出、収集されたものからの新しい特徴の作成など。機械学習全体の9ヤードなど、重相関変数の削除など。 そして、私は疑問に思っていました:なぜ1つの隠れ層を持つニューラルネットワークが機械学習問題の万能薬ではないのですか?それらは普遍的な推定量であり、過剰適合はドロップアウト、l2正則化、l1正則化、バッチ正規化で管理できます。トレーニングの例が50,000件しかない場合、通常、トレーニング速度は問題になりません。テスト時は、ランダムフォレストよりも優れています。 なぜそうではないのですか?データをきれいにし、一般的に行うように欠損値を代入し、データを中央に配置し、データを標準化し、1つの隠れ層を持つニューラルネットワークのアンサンブルに投げ、過剰適合が見られないように正規化を適用してから訓練しますそれらを最後まで。勾配爆発や勾配消失は、2層のネットワークであるため問題ありません。深い層が必要な場合、それは階層的な機能を学習することを意味し、他の機械学習アルゴリズムも同様に良くありません。たとえば、SVMはヒンジ損失のみのニューラルネットワークです。 他のいくつかの機械学習アルゴリズムが、慎重に正規化された2層(おそらく3?)のニューラルネットワークよりも優れている例はありがたいです。問題へのリンクを教えていただければ、できる限り最高のニューラルネットワークをトレーニングし、2層または3層のニューラルネットワークが他のベンチマーク機械学習アルゴリズムに及ばないかどうかを確認できます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.