統計とビッグデータ machine-learning

4

私の質問はばかげているかもしれません。あらかじめお詫び申し上げます。私はスタンフォードNLPグループ（リンク）によって事前トレーニングされたGLOVEモデルを使用しようとしていました。しかし、私の類似性の結果がいくつかの負の数を示していることに気づきました。すぐに、単語ベクトルデータファイルを確認するように求められました。どうやら、単語ベクトルの値は負になることが許されていました。これが、コサインの負の類似性を見た理由です。 [0、1]で値が制限されている周波数ベクトルのコサイン類似度の概念に慣れています。ベクトル間の角度に応じて、内積と余弦関数が正または負になる場合があることを知っています。しかし、私はこの否定的な余弦の類似性を理解して解釈するのに本当に苦労しています。たとえば、類似性が-0.1の単語のペアがある場合、類似性が0.05の別のペアよりも類似性が低いですか？-0.9と0.8の類似度を比較してみませんか？または私はちょうどからの最低限の角度差の絶対値になります？スコアの絶対値は？nはπnπn\pi とても感謝しています。

17 machine-learning word2vec cosine-similarity

1

教師あり学習は強化学習のサブセットですか？

教師あり学習の定義は強化学習のサブセットであり、ラベル付きデータに基づく特定のタイプの報酬関数（環境内の他の情報とは対照的）のようです。これは正確な描写ですか？

16 machine-learning terminology reinforcement-learning supervised-learning definition

4

解釈可能なモデルが必要な場合、線形回帰以外の方法はありますか？

ランダムフォレストや勾配ブースティングなどの「MLモデル」は説明が難しい、または「解釈できない」と考えているため、予測に線形回帰以外のモデルを使用しない統計学者がいました。線形回帰では、仮定のセットが検証されると（エラーの正規性、等分散性、多重共線性なし）、t検定は変数の有意性をテストする方法を提供します。ランダムフォレストまたは勾配ブースティングモデル。したがって、私の質問は、独立変数のセットで従属変数をモデル化するかどうかです。解釈可能性のために、常に線形回帰を使用する必要がありますか？

16 regression machine-learning multiple-regression model-interpretation

3

因果関係は数学的にどのように定義されていますか？

2つのランダム変数間の因果関係の数学的な定義は何ですか？ 2つのランダム変数との共同分布からのサンプルが与えられた場合、が引き起こすのはいつだろうか？XXXYYYXXXYYY 文脈のために、私は因果発見に関するこの論文を読んでいます。

16 machine-learning causality

1

機械学習で赤池情報量基準が使用されないのはなぜですか？

「赤池情報量基準」に出会ったばかりで、モデル選択に関するこの膨大な文献に気づきました（BICのようなものも存在するようです）。なぜ現代の機械学習方法は、これらのBICおよびAICモデル選択基準を活用しないのですか？

16 machine-learning model-selection aic bic

2

ロジスティック回帰設定で損失の二乗を使用すると、ここで何が起こっていますか？

損失の二乗を使用して、玩具データセットのバイナリ分類を試みています。私が使用していmtcarsた透過型を予測するために、データセット、ガロンあたりの利用マイルと体重を。以下のプロットは、異なる色の2種類の透過型データと、異なる損失関数によって生成された判定境界を示しています。二乗損失があるグランドトゥルースラベル（0または1）であり、予測確率である。言い換えれば、私はロジスティック損失を分類設定の平方損失に置き換えています。他の部分は同じです。∑私（y私− p私）2∑私（y私−p私）2\sum_i (y_i-p_i)^2y私y私y_ip私p私p_ip私= ロジット− 1（βTバツ私）p私=ロジット−1（βTバツ私）p_i=\text{Logit}^{-1}(\beta^Tx_i) mtcarsデータを使用したおもちゃの例では、多くの場合、ロジスティック回帰に「類似した」モデルが得られました（ランダムシード0の次の図を参照）。しかし、ある場合（そうする場合set.seed(1)）、二乗損失はうまく機能していないようです。ここで何が起きてるの？最適化は収束しませんか？ロジスティック損失は、二乗損失と比較して最適化が容易ですか？任意の助けをいただければ幸いです。コード d=mtcars[,c("am","mpg","wt")] plot(d$mpg,d$wt,col=factor(d$am)) lg_fit=glm(am~.,d, family = binomial()) abline(-lg_fit$coefficients[1]/lg_fit$coefficients[3], -lg_fit$coefficients[2]/lg_fit$coefficients[3]) grid() # sq loss lossSqOnBinary<-function(x,y,w){ p=plogis(x %*% w) return(sum((y-p)^2)) } # ---------------------------------------------------------------- # note, this random seed is important for squared loss work # ---------------------------------------------------------------- set.seed(0) x0=runif(3) x=as.matrix(cbind(1,d[,2:3])) y=d$am opt=optim(x0, lossSqOnBinary, …

16 r machine-learning logistic optimization loss-functions

4

優れたログ損失とは何ですか？

私はログ損失とその仕組みをよりよく理解しようとしていますが、見つけることができないように思われることの1つは、ログ損失数を何らかのコンテキストに入れることです。モデルのログ損失が0.5の場合、それは良いですか？良い点と悪い点とは何ですか？これらのしきい値はどのように変化しますか？

16 machine-learning loss-functions log-loss

5

アンサンブルメソッドはどのようにすべての構成要素よりも優れていますか？

私はアンサンブル学習について少し混乱しています。簡単に言うと、k個のモデルを実行し、これらのk個のモデルの平均を取得します。k個のモデルの平均がどのモデルよりも優れていることをどのように保証できますか？バイアスが「広がる」または「平均化される」ことを理解しています。しかし、アンサンブルに2つのモデルがあり（つまりk = 2）、一方が他方よりも悪い場合、アンサンブルはより良いモデルよりも悪くないでしょうか？

16 machine-learning ensemble

1

どの因果関係の理論を知っておくべきですか？

応用統計学者/計量経済学者として、因果関係に対するどの理論的アプローチを知るべきですか？私は知っています（ほんの少し） Neyman-Rubin因果モデル（およびRoy、Haavelmoなど）因果関係に関するパールの研究グレンジャー因果関係（ただし、治療志向性は低い）どのコンセプトを見逃しているか、または知っておくべきですか？関連：機械学習の因果関係の基礎となる理論はどれですか？私は、これらの興味深い質問と回答（読んだことが1、2、3）が、私は別の質問だと思います。また、たとえば、「因果関係」が統計学習の要素で言及されていないことに驚いた。

16 machine-learning causality theory treatment-effect

1

畳み込みニューラルネットワークの特徴マップの数

たたみ込みニューラルネットワークを学習するとき、次の図に関する質問があります。 1）レイヤー1のC1には6つの機能マップがありますが、これは6つの畳み込みカーネルがあることを意味していますか？各畳み込みカーネルは、入力に基づいて機能マップを生成するために使用されます。 2）レイヤー2のS1には6個の機能マップがあり、C2には16個の機能マップがあります。S1の6つの機能マップに基づいてこれらの16の機能マップを取得するプロセスはどのように見えますか？

16 machine-learning neural-networks deep-learning pattern-recognition conv-neural-network

2

適切な機械学習アルゴリズムを選択するための探索的データ分析の方法

Machine Learning：A Probabilistic Perspective（Kevin Murphy）で機械学習を研究しています。テキストは各アルゴリズムの理論的基礎を説明していますが、どの場合にどのアルゴリズムが優れているか、そしてどのアルゴリズムが優れているかについては、どのケースにいるのかをどのように伝えるかについては述べていません。たとえば、カーネルを選択するために、探索的データ分析を行ってデータの複雑さを測定するように言われました。単純な2次元データでは、線形カーネルまたは放射カーネルが適切かどうかをプロットして確認できます。しかし、高次元で何をすべきか？より一般的には、アルゴリズムを選択する前に「データを知る」と言うとき、人々は何を意味しますか？今のところ、分類アルゴリズムと回帰アルゴリズム、および線形アルゴリズムと非線形アルゴリズム（これは確認できません）のみを区別できます。編集：私の最初の質問は普遍的な経験則に関するものですが、特定の問題に関する詳細情報を提供するように頼まれました。データ：各行が国月（合計30,000行、最大15年で最大165か国）のパネル。応答：関心のある5つのバイナリ変数（つまり、その月に抗議/クーデター/危機などが発生するかどうか）。機能：〜400個の変数（連続、カテゴリ、バイナリの組み合わせ）により、過去2か月間の特性の詳細が示されます（より長いラグを作成できます）。目標は予測であるため、遅延変数のみを使用します。例としては、為替レート、GDP成長率（継続的）、フリープレスのレベル（カテゴリ別）、民主主義、競合があるかどうか（バイナリ）などがあります。これらの400個の機能の多くは時間差変数であることに注意してください。

16 machine-learning eda

1

分類器とモデルと推定器

分類器、モデル、推定器の違いは何ですか？私が言えることから：推定量は回帰アルゴリズムから発見された予測量です分類子は、分類アルゴリズムから見つかった予測子ですモデルは推定器または分類器の両方にすることができますしかし、オンラインで見ると、これらの定義が混同されているように見えます。それでは、機械学習の文脈における真の定義は何でしょうか？

16 machine-learning

4

KNNは識別学習アルゴリズムですか？

KNNは差別的な学習アルゴリズムのようですが、これを確認するオンラインソースを見つけることができないようです。 KNNは識別学習アルゴリズムですか？

16 machine-learning classification k-nearest-neighbour

3

不均衡なデータのROC曲線の下の領域またはPR曲線の下の領域？

使用するパフォーマンス測定値、ROC曲線下の領域（FPRの関数としてのTPR）または精度-リコール曲線下の領域（リコールの関数としての精度）について疑問があります。私のデータは不均衡です。つまり、負のインスタンスの数は正のインスタンスよりもはるかに多くなっています。 wekaの出力予測を使用しています。サンプルは次のとおりです。 inst#,actual,predicted,prediction 1,2:0,2:0,0.873 2,2:0,2:0,0.972 3,2:0,2:0,0.97 4,2:0,2:0,0.97 5,2:0,2:0,0.97 6,2:0,2:0,0.896 7,2:0,2:0,0.973 そして、私はpROCおよびROCR rライブラリーを使用しています。

16 r machine-learning roc precision-recall auc

2

勾配ブースティングマシンがランダムフォレストより優れているのはどの条件ですか？

フリードマンの勾配ブースティングマシンは、ブライマンのランダムフォレストよりも優れたパフォーマンスを達成できますか？もしそうなら、どの条件またはどの種類のデータセットがgbmを改善できますか？

16 machine-learning data-mining random-forest boosting

タグ付けされた質問 「machine-learning」

タグ付けされた質問「machine-learning」