タグ付けされた質問 「machine-learning」

機械学習アルゴリズムは、トレーニングデータのモデルを構築します。「機械学習」という用語は漠然と定義されています。これには、統計学習、強化学習、教師なし学習などとも呼ばれるものが含まれます。常に、より具体的なタグを追加します。

1
R / mgcv:なぜte()とti()テンソル積が異なる表面を生成するのですか?
のmgcvパッケージにRは、テンソル積の相互作用をフィッティングするための2つの関数がte()ありti()ます。私は2つの作業の基本的な分業を理解しています(非線形の相互作用を当てはめるか、この相互作用を主効果と相互作用に分解するか)。私が理解していないのは、なぜte(x1, x2)、そしてti(x1) + ti(x2) + ti(x1, x2)(わずかに)異なる結果を生成するのかということです。 MWE(から適応?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

2
文字列パターンを学習するための機械学習手法
自分で定義したさまざまなカテゴリに属する​​単語のリストがあります。各カテゴリには独自のパターンがあります(たとえば、1つは特殊文字を含む固定長で、もう1つはこの「単語」のカテゴリでのみ発生する文字の存在です...)。 例えば: "ABC" -> type1 "ACC" -> type1 "a8 219" -> type2 "c 827" -> type2 "ASDF 123" -> type2 "123123" -> type3 ... 私は、トレーニングデータに基づいて、これらのパターンを独自に学習するための機械学習手法を探しています。私はすでに自分でいくつかの予測変数(たとえば、語長、特殊文字の数など)を定義しようとし、ニューラルネットワークを使用してカテゴリを学習および予測しました。しかし、それは実際には私が望むものではありません。各カテゴリーのパターンを自分で習得するテクニック、つまり、私が考えたこともないパターンを習得するテクニックも必要です。 したがって、アルゴリズム学習データ(単語カテゴリの例からなる)を指定し、各カテゴリのパターンを学習して、後で類似または等しい単語からカテゴリを予測するようにします。 それを行うための最先端の方法はありますか? ご協力いただきありがとうございます

2
フィルターとアクティベーションマップは、畳み込みニューラルネットワークでどのように接続されますか?
特定のレイヤーのアクティベーションマップは、そのレイヤーのフィルターにどのように接続されていますか?フィルターとアクティベーションマップの間でたたみ込み演算を行う方法については質問していません。これら2つが持つ接続の種類について質問しています。 たとえば、完全な接続を実行したいとします。特定のレイヤーにf個のフィルターとn個のアクティベーションマップがあります。次のレイヤーでf * n個のアクティベーションマップを取得すると、新しいレイヤーごとにアクティベーションマップの数が増加します。これは、私が想定している方法です。 または、各フィルターが1つのアクティベーションマップのみに接続されていると言うこともできます。この場合、フィルターの数はアクティベーションマップの数と等しくなり、すべてのレイヤーは同じ数のフィルターとアクティベーションマップを持ちます。これは私のネットワークの現在のアーキテクチャであり、うまく学習しているようです。 私の混乱の主な原因は、私がオンラインで見るconvnetsの図を見ていることです。それらのいくつかは、次のように、フィルターとアクティブ化マップの間に「完全な接続」 を持っています- 最初のレイヤーには、4つのアクティブ化マップと、おそらく2つのフィルターがあります。各マップは各フィルターで畳み込まれ、次のレイヤーに8つのマップが作成されます。素晴らしく見える。 しかし、ここには私には意味をなさないアーキテクチャがあります- 最初のレイヤーの6つのマップから2番目のレイヤーの16のマップにどのように進むのですか?6枚から16枚の地図を取得する方法は考えられますが、意味がありません。

1
Scikit二項偏差損失関数
これはscikit GradientBoostingの2項偏差偏差関数です。 def __call__(self, y, pred, sample_weight=None): """Compute the deviance (= 2 * negative log-likelihood). """ # logaddexp(0, v) == log(1.0 + exp(v)) pred = pred.ravel() if sample_weight is None: return -2.0 * np.mean((y * pred) - np.logaddexp(0.0, pred)) else: return (-2.0 / sample_weight.sum() * np.sum(sample_weight * ((y * pred) …

1
オートエンコーダーでReLUをアクティベーション機能として使用できますか?
ニューラルネットワークでオートエンコーダを実装する場合、ほとんどの人はシグモイドをアクティベーション関数として使用します。 代わりにReLUを使用できますか?(ReLUには上限に制限がないため、基本的に、シグモイドが使用されるときの自動エンコーダーの制限された基準とは異なり、入力画像は1より大きいピクセルを持つことができます)。


2
言葉の連続袋についての質問
この文を理解できません。 最初に提案されたアーキテクチャは、フィードフォワードNNLMに似ています。非線形の隠れ層が削除され、投影層がすべての単語(投影行列だけでなく)で共有されます。したがって、すべての単語が同じ位置に投影されます(それらのベクトルは平均化されます)。 投影層と投影行列とは何ですか?すべての単語が同じ位置に投影されるとはどういう意味ですか?そして、なぜそれはそれらのベクトルが平均化されることを意味するのですか? この文は、ベクトル空間での単語表現の効率的な推定(Mikolov et al。2013)のセクション3.1の最初のものです。

2
log-oddsディストリビューションとは何ですか?
私は機械学習の教科書(Wittenらによるデータマイニング、2011年)を読んでいて、この箇所に出くわしました。 ...さらに、さまざまなディストリビューションを使用できます。通常、正規分布は数値属性には適していますが、最小値が事前に決定されているが上限はない属性には適していません。この場合、「対数正規」分布がより適切です。上と下にバインドされている数値属性は、「log-odds」分布によってモデル化できます。 このディストリビューションについて聞いたことがありません。「log-odds distribution」を探しましたが、関連する完全一致は見つかりませんでした。誰かが私を助けてくれますか?この分布とは何ですか?なぜそれが上下の境界を持つ数値に役立つのですか? PS私は統計学者ではなくソフトウェアエンジニアです。

3
最初の主成分はクラスを分離しませんが、他のPCは分離します。そんなことがあるものか?
インスタンスを2つのクラスに分類するための教師付き機械学習で使用される、より小さな変数のセット、つまり主成分を取得するために、17個の量的変数に対してPCAを実行しました。PCAの後、PC1はデータの分散の31%を占め、PC2は17%を占め、PC3は10%を占め、PC4は8%を占め、PC5は7%を占め、PC6は6%を占めます。 ただし、2つのクラス間のPCの平均の違いを見ると、驚いたことに、PC1は2つのクラスの優れた識別器ではありません。残りのPCは優れた弁別子です。さらに、PC1は、決定木で使用されると関係がなくなります。つまり、枝刈り後、PC1はツリーに存在しなくなります。ツリーはPC2-PC6で構成されています。 この現象の説明はありますか?派生変数に何か問題がありますか?

1
畳み込みニューラルネットワークのトレーニング
現在、畳み込みニューラルネットワークを使用して顔を認識する顔認識ソフトウェアに取り組んでいます。私の測定値に基づいて、トレーニング中の時間を節約するために、畳み込みニューラルネットワークが重みを共有していることを集めました。しかし、畳み込みニューラルネットワークで使用できるように、逆伝播をどのように適応させるのでしょうか。逆伝播では、これに似た式を使用して重みをトレーニングします。 New Weight = Old Weight + LEARNING_RATE * 1 * Output Of InputNeuron * Delta ただし、畳み込みニューラルネットワークでは重みが共有されているため、各重みは複数のニューロンで使用されるので、どのニューロンを使用するかをどのように決定しOutput of InputNeuronますか? つまり、重みは共有されているので、重みをどれだけ変更するかをどのように決定すればよいのでしょうか。

2
パーセプトロンの決定境界プロット
パーセプトロンアルゴリズムの決定境界をプロットしようとしていますが、いくつかのことで本当に混乱しています。私の入力インスタンスの形式は、基本的には2D入力インスタンス(x 1およびx 2)とバイナリクラスのターゲット値(y)[1または0]です。[ (x1、x2)、y][(x1,x2),y][(x_{1},x_{2}), y]バツ1x1x_{1}バツ2x2x_{2}yyy したがって、私の重みベクトルはという形式です。[ w1、w2][w1,w2][w_{1}, w_{2}] ここで、追加のバイアスパラメーターを組み込む必要があるため、私の重みベクトルは3 × 1ベクトルになりますか?それは1 × 3のベクトル?ベクトルは1行とn列しかないので、1 × 3にする必要があると思います。w0w0w_{0}3 × 13×13 \times 11 × 31×31 \times 31 × 31×31 \times 3 今度はをランダムな値にインスタンス化するとします。これの決定境界をどのようにプロットしますか?ここで、w 0は何を意味するのですか?あるwは0 / N O R M (ワット)原点から判定領域の距離?もしそうなら、これをどのようにキャプチャし、matplotlib.pyplotまたは同等のMatlabを使用してPythonでプロットしますか?[ w0、w1、w2][w0、w1、w2][w_{0}, w_{1}, w_{2}]w0w0w_{0}w0/ norm(w)w0/んorメートル(w)w_{0}/norm(w) この件に関して少しでも助けていただければ幸いです。

1
ランダムフォレストアルゴリズムステップの背後にある動機
ランダムフォレストを構築するためによく知っている方法は次のとおりです(http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htmから) フォレスト内にツリーを構築するには、次のようにします。 サイズNのサンプルをブートストラップします。ここで、Nはトレーニングセットのサイズです。このブートストラップサンプルを、このツリーのトレーニングセットとして使用します。 ツリーの各ノードで、M個の特徴のm個をランダムに選択します。分割するこれらのm個の特徴の中から最適なものを選択します。(ここで、mはランダムフォレストのパラメーターです) 各ツリーを可能な限り最大に成長させます-つまり剪定はしません。 このアルゴリズムは手順レベルで意味があり、確かに良い結果が得られますが、手順1、2、3の背後にある理論的な動機は何かはわかりません。誰かがこの手順を思いついた動機とその理由を説明できますか?うまくいく? 例:なぜステップ1を実行する必要があるのですか?通常の分散減少の目的でブートストラップしているようには見えません。

1
スプライン/スムーズ回帰で新しいデータを予測する方法
予測モデルにスムース/スプラインを使用するときに、新しいデータの予測がどのように行われるかについての概念的な説明を誰かが提供できますか?たとえば、R gamboostのmboostパッケージでp-スプラインを使用して作成されたモデルがある場合、新しいデータの予測はどのように行われますか?トレーニングデータから何が使用されますか? 独立変数xの新しい値があり、yを予測するとします。モデルのトレーニング時に使用されるノットまたはdfを使用して、この新しいデータ値にスプライン作成の式が適用され、トレーニングされたモデルの係数が適用されて予測を出力しますか? これはRの例です。新しいデータの平均値として899.4139を出力するために、概念的に何を予測しているのですかmean_radius = 15.99? #take the data wpbc as example library(mboost) data(wpbc) modNew<-gamboost(mean_area~mean_radius, data = wpbc, baselearner = "bbs", dfbase = 4, family=Gaussian(),control = boost_control(mstop = 5)) test<-data.frame(mean_radius=15.99) predict(modNew,test)

1
分類子の評価:学習曲線とROC曲線
大規模なトレーニングデータセットを使用するマルチクラステキスト分類問題の2つの異なる分類子を比較したいと思います。2つの分類子を比較するためにROC曲線を使用するか、学習曲線を使用する必要があるか疑問です。 一方、学習曲線は、分類器が学習を停止する(場合によっては低下させる)データセットのサイズを見つけることができるため、トレーニングデータセットのサイズを決定するのに役立ちます。したがって、この場合の最適な分類子は、最小のデータセットサイズで最高の精度に到達する分類子です。 一方、ROC曲線を使用すると、感度/特異度の間で適切なトレードオフのあるポイントを見つけることができます。この場合の最適な分類子は、左上部分に近い分類子で、FPRのTPRが最も高くなります。 両方の評価方法を使用する必要がありますか?より良い学習曲線を持つメソッドがより悪いROC曲線を持つことは可能ですか?

2
ニューラルネットワークのVC次元の計算
固定非反復(DAG)トポロジー(ノードとエッジの固定セットですが、学習アルゴリズムはエッジの重みを変えることができます)の場合、入力ニューロンを持つを入力として、1つの出力に導きます(0から離れた特定の固定しきい値の場合、1に切り上げるか、-1に切り捨てる実際の値を出力します)。このネットワークのVC次元を計算(または概算)するための高速な方法はありますか?nnn{−1,1}n{−1,1}n\{-1,1\}^n ノート 私はCS.SEでもう少し正確なアルゴリズムの再公式化を求めました: ニューラルネットワークのVC次元を効率的に計算または近似する

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.