統計とビッグデータ machine-learning

1

R / mgcv：なぜte（）とti（）テンソル積が異なる表面を生成するのですか？

のmgcvパッケージにRは、テンソル積の相互作用をフィッティングするための2つの関数がte()ありti()ます。私は2つの作業の基本的な分業を理解しています（非線形の相互作用を当てはめるか、この相互作用を主効果と相互作用に分解するか）。私が理解していないのは、なぜte(x1, x2)、そしてti(x1) + ti(x2) + ti(x1, x2)（わずかに）異なる結果を生成するのかということです。 MWE（から適応?ti）： require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

2

文字列パターンを学習するための機械学習手法

自分で定義したさまざまなカテゴリに属する単語のリストがあります。各カテゴリには独自のパターンがあります（たとえば、1つは特殊文字を含む固定長で、もう1つはこの「単語」のカテゴリでのみ発生する文字の存在です...）。例えば： "ABC" -> type1 "ACC" -> type1 "a8 219" -> type2 "c 827" -> type2 "ASDF 123" -> type2 "123123" -> type3 ... 私は、トレーニングデータに基づいて、これらのパターンを独自に学習するための機械学習手法を探しています。私はすでに自分でいくつかの予測変数（たとえば、語長、特殊文字の数など）を定義しようとし、ニューラルネットワークを使用してカテゴリを学習および予測しました。しかし、それは実際には私が望むものではありません。各カテゴリーのパターンを自分で習得するテクニック、つまり、私が考えたこともないパターンを習得するテクニックも必要です。したがって、アルゴリズム学習データ（単語カテゴリの例からなる）を指定し、各カテゴリのパターンを学習して、後で類似または等しい単語からカテゴリを予測するようにします。それを行うための最先端の方法はありますか？ご協力いただきありがとうございます

11 machine-learning classification similarities supervised-learning

2

フィルターとアクティベーションマップは、畳み込みニューラルネットワークでどのように接続されますか？

特定のレイヤーのアクティベーションマップは、そのレイヤーのフィルターにどのように接続されていますか？フィルターとアクティベーションマップの間でたたみ込み演算を行う方法については質問していません。これら2つが持つ接続の種類について質問しています。たとえば、完全な接続を実行したいとします。特定のレイヤーにf個のフィルターとn個のアクティベーションマップがあります。次のレイヤーでf * n個のアクティベーションマップを取得すると、新しいレイヤーごとにアクティベーションマップの数が増加します。これは、私が想定している方法です。または、各フィルターが1つのアクティベーションマップのみに接続されていると言うこともできます。この場合、フィルターの数はアクティベーションマップの数と等しくなり、すべてのレイヤーは同じ数のフィルターとアクティベーションマップを持ちます。これは私のネットワークの現在のアーキテクチャであり、うまく学習しているようです。私の混乱の主な原因は、私がオンラインで見るconvnetsの図を見ていることです。それらのいくつかは、次のように、フィルターとアクティブ化マップの間に「完全な接続」を持っています- 最初のレイヤーには、4つのアクティブ化マップと、おそらく2つのフィルターがあります。各マップは各フィルターで畳み込まれ、次のレイヤーに8つのマップが作成されます。素晴らしく見える。しかし、ここには私には意味をなさないアーキテクチャがあります- 最初のレイヤーの6つのマップから2番目のレイヤーの16のマップにどのように進むのですか？6枚から16枚の地図を取得する方法は考えられますが、意味がありません。

11 machine-learning deep-learning conv-neural-network

1

Scikit二項偏差損失関数

これはscikit GradientBoostingの2項偏差偏差関数です。 def __call__(self, y, pred, sample_weight=None): """Compute the deviance (= 2 * negative log-likelihood). """ # logaddexp(0, v) == log(1.0 + exp(v)) pred = pred.ravel() if sample_weight is None: return -2.0 * np.mean((y * pred) - np.logaddexp(0.0, pred)) else: return (-2.0 / sample_weight.sum() * np.sum(sample_weight * ((y * pred) …

11 machine-learning scikit-learn boosting loss-functions

1

オートエンコーダーでReLUをアクティベーション機能として使用できますか？

ニューラルネットワークでオートエンコーダを実装する場合、ほとんどの人はシグモイドをアクティベーション関数として使用します。代わりにReLUを使用できますか？（ReLUには上限に制限がないため、基本的に、シグモイドが使用されるときの自動エンコーダーの制限された基準とは異なり、入力画像は1より大きいピクセルを持つことができます）。

11 machine-learning neural-networks deep-learning autoencoders

2

ランダムフォレストの近接性とはどういう意味ですか？

ランダムフォレストの近接という用語に出くわしました。しかし、私はそれがランダムな森で何をしているのか理解できませんでした。分類の目的でどのように役立ちますか？

11 machine-learning random-forest

2

言葉の連続袋についての質問

この文を理解できません。最初に提案されたアーキテクチャは、フィードフォワードNNLMに似ています。非線形の隠れ層が削除され、投影層がすべての単語（投影行列だけでなく）で共有されます。したがって、すべての単語が同じ位置に投影されます（それらのベクトルは平均化されます）。投影層と投影行列とは何ですか？すべての単語が同じ位置に投影されるとはどういう意味ですか？そして、なぜそれはそれらのベクトルが平均化されることを意味するのですか？この文は、ベクトル空間での単語表現の効率的な推定（Mikolov et al。2013）のセクション3.1の最初のものです。

11 machine-learning neural-networks natural-language word-embeddings language-models

2

log-oddsディストリビューションとは何ですか？

私は機械学習の教科書（Wittenらによるデータマイニング、2011年）を読んでいて、この箇所に出くわしました。 ...さらに、さまざまなディストリビューションを使用できます。通常、正規分布は数値属性には適していますが、最小値が事前に決定されているが上限はない属性には適していません。この場合、「対数正規」分布がより適切です。上と下にバインドされている数値属性は、「log-odds」分布によってモデル化できます。このディストリビューションについて聞いたことがありません。「log-odds distribution」を探しましたが、関連する完全一致は見つかりませんでした。誰かが私を助けてくれますか？この分布とは何ですか？なぜそれが上下の境界を持つ数値に役立つのですか？ PS私は統計学者ではなくソフトウェアエンジニアです。

11 machine-learning distributions

3

最初の主成分はクラスを分離しませんが、他のPCは分離します。そんなことがあるものか？

インスタンスを2つのクラスに分類するための教師付き機械学習で使用される、より小さな変数のセット、つまり主成分を取得するために、17個の量的変数に対してPCAを実行しました。PCAの後、PC1はデータの分散の31％を占め、PC2は17％を占め、PC3は10％を占め、PC4は8％を占め、PC5は7％を占め、PC6は6％を占めます。ただし、2つのクラス間のPCの平均の違いを見ると、驚いたことに、PC1は2つのクラスの優れた識別器ではありません。残りのPCは優れた弁別子です。さらに、PC1は、決定木で使用されると関係がなくなります。つまり、枝刈り後、PC1はツリーに存在しなくなります。ツリーはPC2-PC6で構成されています。この現象の説明はありますか？派生変数に何か問題がありますか？

11 machine-learning classification pca dimensionality-reduction

1

畳み込みニューラルネットワークのトレーニング

現在、畳み込みニューラルネットワークを使用して顔を認識する顔認識ソフトウェアに取り組んでいます。私の測定値に基づいて、トレーニング中の時間を節約するために、畳み込みニューラルネットワークが重みを共有していることを集めました。しかし、畳み込みニューラルネットワークで使用できるように、逆伝播をどのように適応させるのでしょうか。逆伝播では、これに似た式を使用して重みをトレーニングします。 New Weight = Old Weight + LEARNING_RATE * 1 * Output Of InputNeuron * Delta ただし、畳み込みニューラルネットワークでは重みが共有されているため、各重みは複数のニューロンで使用されるので、どのニューロンを使用するかをどのように決定しOutput of InputNeuronますか？つまり、重みは共有されているので、重みをどれだけ変更するかをどのように決定すればよいのでしょうか。

11 machine-learning neural-networks computer-vision backpropagation conv-neural-network

2

パーセプトロンの決定境界プロット

パーセプトロンアルゴリズムの決定境界をプロットしようとしていますが、いくつかのことで本当に混乱しています。私の入力インスタンスの形式は、基本的には2D入力インスタンス（x 1およびx 2）とバイナリクラスのターゲット値（y）[1または0]です。[ （x1、x2）、y][(x1,x2),y][(x_{1},x_{2}), y]バツ1x1x_{1}バツ2x2x_{2}yyy したがって、私の重みベクトルはという形式です。[ w1、w2][w1,w2][w_{1}, w_{2}] ここで、追加のバイアスパラメーターを組み込む必要があるため、私の重みベクトルは3 × 1ベクトルになりますか？それは1 × 3のベクトル？ベクトルは1行とn列しかないので、1 × 3にする必要があると思います。w0w0w_{0}3 × 1３×13 \times 11 × 31×３1 \times 31 × 31×３1 \times 3 今度はをランダムな値にインスタンス化するとします。これの決定境界をどのようにプロットしますか？ここで、w 0は何を意味するのですか？あるwは0 / N O R M （ワット）原点から判定領域の距離？もしそうなら、これをどのようにキャプチャし、matplotlib.pyplotまたは同等のMatlabを使用してPythonでプロットしますか？[ w0、w1、w2][w0、w1、w2][w_{0}, w_{1}, w_{2}]w0w0w_{0}w0/ norm（w）w0/んorメートル（w）w_{0}/norm(w) この件に関して少しでも助けていただければ幸いです。

11 machine-learning neural-networks python decision-theory perceptron

1

ランダムフォレストアルゴリズムステップの背後にある動機

ランダムフォレストを構築するためによく知っている方法は次のとおりです（http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htmから）フォレスト内にツリーを構築するには、次のようにします。サイズNのサンプルをブートストラップします。ここで、Nはトレーニングセットのサイズです。このブートストラップサンプルを、このツリーのトレーニングセットとして使用します。ツリーの各ノードで、M個の特徴のm個をランダムに選択します。分割するこれらのm個の特徴の中から最適なものを選択します。（ここで、mはランダムフォレストのパラメーターです）各ツリーを可能な限り最大に成長させます-つまり剪定はしません。このアルゴリズムは手順レベルで意味があり、確かに良い結果が得られますが、手順1、2、3の背後にある理論的な動機は何かはわかりません。誰かがこの手順を思いついた動機とその理由を説明できますか？うまくいく？例：なぜステップ1を実行する必要があるのですか？通常の分散減少の目的でブートストラップしているようには見えません。

11 machine-learning classification random-forest

1

スプライン/スムーズ回帰で新しいデータを予測する方法

予測モデルにスムース/スプラインを使用するときに、新しいデータの予測がどのように行われるかについての概念的な説明を誰かが提供できますか？たとえば、R gamboostのmboostパッケージでp-スプラインを使用して作成されたモデルがある場合、新しいデータの予測はどのように行われますか？トレーニングデータから何が使用されますか？独立変数xの新しい値があり、yを予測するとします。モデルのトレーニング時に使用されるノットまたはdfを使用して、この新しいデータ値にスプライン作成の式が適用され、トレーニングされたモデルの係数が適用されて予測を出力しますか？これはRの例です。新しいデータの平均値として899.4139を出力するために、概念的に何を予測しているのですかmean_radius = 15.99？ #take the data wpbc as example library(mboost) data(wpbc) modNew<-gamboost(mean_area~mean_radius, data = wpbc, baselearner = "bbs", dfbase = 4, family=Gaussian(),control = boost_control(mstop = 5)) test<-data.frame(mean_radius=15.99) predict(modNew,test)

11 regression machine-learning predictive-models splines

1

分類子の評価：学習曲線とROC曲線

大規模なトレーニングデータセットを使用するマルチクラステキスト分類問題の2つの異なる分類子を比較したいと思います。2つの分類子を比較するためにROC曲線を使用するか、学習曲線を使用する必要があるか疑問です。一方、学習曲線は、分類器が学習を停止する（場合によっては低下させる）データセットのサイズを見つけることができるため、トレーニングデータセットのサイズを決定するのに役立ちます。したがって、この場合の最適な分類子は、最小のデータセットサイズで最高の精度に到達する分類子です。一方、ROC曲線を使用すると、感度/特異度の間で適切なトレードオフのあるポイントを見つけることができます。この場合の最適な分類子は、左上部分に近い分類子で、FPRのTPRが最も高くなります。両方の評価方法を使用する必要がありますか？より良い学習曲線を持つメソッドがより悪いROC曲線を持つことは可能ですか？

11 machine-learning classification roc accuracy

2

ニューラルネットワークのVC次元の計算

固定非反復（DAG）トポロジー（ノードとエッジの固定セットですが、学習アルゴリズムはエッジの重みを変えることができます）の場合、入力ニューロンを持つを入力として、1つの出力に導きます（0から離れた特定の固定しきい値の場合、1に切り上げるか、-1に切り捨てる実際の値を出力します）。このネットワークのVC次元を計算（または概算）するための高速な方法はありますか？nnn{−1,1}n{−1,1}n\{-1,1\}^n ノート私はCS.SEでもう少し正確なアルゴリズムの再公式化を求めました：ニューラルネットワークのVC次元を効率的に計算または近似する

11 machine-learning neural-networks algorithms vc-dimension

タグ付けされた質問 「machine-learning」

タグ付けされた質問「machine-learning」