統計とビッグデータ machine-learning

7

レコメンダーシステムの開発に適用できる優れた情報のある本を推奨できますか？

13 machine-learning references recommender-system

1

SVMに関する知識が限られているため、短くて太いデータマトリックス（機能が多く、インスタンスが多すぎない）には適していますが、ビッグデータには適していません。XXX 1つの理由は、カーネルマトリックスがマトリックスであることを理解しています。ここで、はデータ内のインスタンスの数です。100Kデータと言った場合、カーネル行列は要素を持ち、約80Gのメモリを必要とする場合があります。KKKn×nn×nn \times nnnnKKK1010101010^{10} 大きなデータで使用できるSVMの変更はありますか？（100Kから100万のデータポイントのスケールで言うと？）

13 machine-learning svm large-data

1

（d-prime）とAUC（ROC曲線下の領域）の間の接続。基礎となる仮定

機械学習では、ROC曲線の下の領域（多くの場合、省略されたAUCまたはAUROC）を使用して、システムが2つのカテゴリーをどれだけうまく区別できるかを要約します。信号検出理論では、d′d′d'（感度指数）が同様の目的で使用されることがよくあります。この2つは密接に関連しており、特定の前提条件が満たされていれば、両者は同等であると思います。の計算は、通常、（例えば、上記のリンクウィキペディアを参照）の信号分布のために正規分布を仮定に基づいて提示されます。ROC曲線の計算ではこの仮定は行われません。これは、しきい値処理可能な連続値の決定基準を出力する分類子に適用できます。d′d′d' ウィキペディアによれば、は2 AUC − 1に相当します。両方の仮定が満たされている場合、これは正しいようです。しかし、仮定が同じでない場合、それは普遍的な真実ではありません。d′d′d'2AUC−12AUC−12 \text{AUC} - 1 仮定の違いを「AUCは基礎となる分布についての仮定を少なくする」と特徴づけることは公正ですか？または、実際にはAUCと同じくらい広く適用できますが、d ′を使用する人々が正規分布を仮定する計算を使用する傾向があるのは、単なる一般的な慣習ですか？私が見逃した根本的な仮定に他の違いはありますか？d′d′d'd′d′d'

13 machine-learning roc auc signal-detection d-prime

5

MLEとMAPの推定、どちらを使用するか

MLE =最尤推定 MAP =事後最大 MLEは直感的で素朴です。つまり、パラメーター（つまり、尤度関数）が指定された観測の確率でのみ始まり、観測と最もよく一致するパラメーターを見つけようとします。ただし、事前の知識は考慮されていません。 MAPはベイズの法則による事前の知識を考慮に入れるため、より合理的です。ここに関連する質問がありますが、答えは完全ではありません。 /signals/13174/differences-using-maximum-likelihood-or-maximum-a-posteriori-for-deconvolution-d したがって、MAPの方がはるかに優れていると思います。そうですか？そして、いつどちらを使用すればよいですか？

13 machine-learning bayesian estimation maximum-likelihood inference

1

確率的勾配降下法（SGD）に適したミニバッチサイズの選択

確率的勾配降下法を実行するときにミニバッチサイズの選択を調べる文献はありますか？私の経験では、これは経験的な選択であるように思われ、通常、相互検証またはさまざまな経験則を使用して見つかります。検証エラーが減少するにつれて、ミニバッチのサイズを徐々に大きくすることは良い考えですか？これは汎化エラーにどのような影響を及ぼしますか？非常に小さなミニバッチを使用して、モデルを数十万回更新する方がよいですか？非常に小さい値とバッチの間のどこかでバランスの取れた数値を使用した方がよいでしょうか？ミニバッチのサイズをデータセットのサイズ、またはデータセット内の予想されるフィーチャ数に合わせてスケーリングする必要がありますか？私は明らかにミニバッチ学習スキームの実装について多くの質問をしています。残念ながら、私が読んだほとんどの論文は、このハイパーパラメータをどのように選択したかを具体的に示していません。私はYann LeCunのような著者から、特に論文のTricks of the Tradeコレクションから、いくつかの成功を収めてきました。しかし、私はこれらの質問が完全に対処されているのを見ていません。誰かが論文の推奨事項、または機能を学習するときに適切なミニバッチサイズを決定するために使用できる基準に関するアドバイスを持っていますか？

13 machine-learning gradient-descent hyperparameter deep-learning

4

Gaussian Processes：GPMLを多次元出力に使用する方法

GPMLを使用して多次元出力（おそらく相関）でガウスプロセス回帰を実行する方法はありますか？でデモスクリプト私は1Dの例を見つけることができます。同様の質問 CV上の多次元入力のタックルケース。私は彼らの本を読み、何かを見つけることができるかどうかを確認しました。で第九章この本（9.1節）の、彼らは、複数の出力のこのケースを言及しています。彼らはこれに対処するためのいくつかの方法について言及しました。1つは相関ノイズプロセスを使用し、2つはCokriging（事前相関）を使用します。これらのアイデアをどのようにしてGPMLフレームワークに組み込むことができるのか、まだわかりません。また、多次元出力をサポートする他のGPライブラリ/フレームワークはありますか？

13 regression machine-learning matlab gaussian-process nonparametric-bayes

3

ポイントワイズ積でのカーネル関数の近さの証明

2つのカーネル関数の個別の積がカーネル関数であることをどのように証明できますか？

13 machine-learning kernel-trick

2

最大平均不一致（距離分布）

異なる分布に従う2つのデータセット（ソースデータとターゲットデータ）があります。ソースデータとターゲットデータ間の周辺分布を計算するために、MMD（これはノンパラメトリック距離分布です）を使用しています。ソースデータ、X ターゲットデータ、Xt 適応マトリックスA *予測データ、Zs = A '* XsおよびZt = A' Xt * MMD =>距離（P（Xs）、P（Xt））= | mean（A'Xs）-mean（A ' Xt）| つまり、元の空間のソースデータとターゲットデータ間の分布の距離は、埋め込み空間の投影されたソースデータとターゲットデータの平均間の距離に相当します。 MMDのコンセプトについて質問があります。 MMD式で、なぜ潜在空間での距離を計算すると、元の空間での分布の距離を測定できるのでしょうか。ありがとう

13 machine-learning distributions distance feature-construction domain-adaptation

3

ニューラルネットワーク（たとえば、畳み込みニューラルネットワーク）は負の重みを持つことができますか？

すべてのアクティベーションレイヤーにReLUを使用する場合、深い畳み込みニューラルネットワークに（十分なエポックの後で）負の重みを付けることは可能ですか？

13 machine-learning neural-networks deep-learning conv-neural-network

1

一般的に、推論を行うことは予測を行うことよりも困難ですか？

私の質問は次の事実から来ています。私は機械学習に関する投稿、ブログ、講義、および本を読んでいます。私の印象は、機械学習の実践者は統計学者/計量経済学が気にする多くのことに無関心であるように思われるということです。特に、機械学習の実践者は、推論よりも予測精度を重視しています。そのような例の1つは、CourseraでAndrew Ngの機械学習を受けていたときに発生しました。彼は単純な線形モデルについて説明するとき、推定量のBLUEプロパティ、または不均一性がどのように信頼区間を「無効化」するかについては何も言及しませんでした。代わりに、彼は勾配降下法の実装と相互検証/ ROC曲線の概念に焦点を当てています。これらのトピックは私の計量経済学/統計学のクラスでは取り上げられていません。もう1つの例は、カグルコンペティションに参加したときです。他の人のコードや考えを読んでいました。参加者の大部分は、すべてをSVM /ランダムフォレスト/ XGBoostに投入します。さらに別の例は、段階的なモデル選択です。この手法は、少なくともオンラインとKaggleで広く使用されています。統計学習の紹介など、多くの古典的な機械学習の教科書でも取り上げています。ただし、この答え（かなり説得力のある）によると、ステップワイズモデルの選択は、特に「真のモデルを発見する」ことになると、多くの問題に直面します。可能性は2つしかないようです。機械学習の実践者が段階的に問題を認識していないか、問題を認識していても気にしていません。だからここに私の質問があります：（一般的に）機械学習の実践者は予測に焦点を当てているため、統計学者/経済学者が気にする多くのことを気にしないのは本当ですか？それが本当なら、その背後にある理由は何ですか？推論はある意味で難しいからでしょうか。機械学習（または予測）に関するオンラインの資料はたくさんあります。しかし、推論を行うことに関心がある場合、オンラインで参考にできるリソースにはどのようなものがありますか？更新：「推論」という言葉は、多くのことを意味する可能性があることに気づきました。「推論」とは、次のような質問を指します。 XXXYYYYYYXXXX1,X2,⋯,XnX1,X2,⋯,XnX_1,X_2,\cdots,X_n 「すべてのモデルが間違っている」ので、私たちのモデルは真のモデルとどれほど「間違っている」のでしょうか。サンプルの情報が与えられた場合、母集団について何が言えるか、そしてどれほど自信があると言えるか？私の統計の知識は非常に限られているため、これらの質問が統計の領域に当てはまるかどうかさえわかりません。しかし、それらは機械学習の実践者が気にしないように思えるタイプの質問です。おそらく統計学者はどちらも気にしないのですか？知りません。

13 machine-learning self-study inference

2

ノイズの多いラベルによる分類？

分類のためにニューラルネットワークをトレーニングしようとしていますが、持っているラベルはかなりうるさいです（ラベルの約30％が間違っています）。クロスエントロピー損失は確かに機能しますが、この場合により効果的な代替策はあるのでしょうか。またはクロスエントロピー損失が最適ですか？よくわかりませんが、クロスエントロピー損失をいくらか「クリッピング」して、1つのデータポイントの損失が上限を超えないようにすることを考えています。ありがとう！更新 Lucasの回答によれば、予測出力とソフトマックス関数zの入力の導関数は次のとおりです。だから私は本質的にそれは平滑化項を追加していると思います3yyyzzzを導関数に。Piが=0.3/N+0.7YIL=-ΣTIログ（PI）∂Lを37N37N\frac{3}{7N} pi=0.3/N+0.7yipi=0.3/N+0.7yip_i=0.3/N+0.7y_i l=−∑tilog(pi)l=−∑tilog⁡(pi)l=-\sum t_i\log(p_i) ∂L∂l∂yi=−ti∂log(pi)∂pi∂pi∂yi=−0.7tipi=−ti37N+yi∂l∂yi=−ti∂log⁡(pi)∂pi∂pi∂yi=−0.7tipi=−ti37N+yi\frac{\partial l}{\partial y_i}=-t_i\frac{\partial\log(p_i)}{\partial p_i}\frac{\partial p_i}{\partial y_i}=-0.7\frac{t_i}{p_i}=-\frac{t_i}{\frac{3}{7N}+y_i} ：オリジナルクロスエントロピー損失の誘導体 ∂L∂l∂zi=0.7∑jtjpj∂yj∂zi=yi∑jtjyj37N+yj−tiyi37N+yi∂l∂zi=0.7∑jtjpj∂yj∂zi=yi∑jtjyj37N+yj−tiyi37N+yi\frac{\partial l}{\partial z_i}=0.7\sum_j\frac{t_j}{p_j}\frac{\partial y_j}{\partial z_i}=y_i\sum_jt_j\frac{y_j}{\frac{3}{7N}+y_j}-t_i\frac{y_i}{\frac{3}{7N}+y_i} ∂L∂l∂yi=−tiyi∂l∂yi=−tiyi\frac{\partial l}{\partial y_i}=-\frac{t_i}{y_i} 私が間違っている場合は私に知らせてください。ありがとう！∂l∂zi=yi−ti∂l∂zi=yi−ti\frac{\partial l}{\partial z_i}=y_i-t_i 更新ルーカスの回答と同じ式を適用するが、解釈が異なるGoogleの論文を偶然読んだ。セクション7では、ラベル平滑化によるモデルの正則化 ∂l/∂zk∂l/∂zk∂l/∂z_k しかし、予測に平滑化項を追加する代わりに、それをグラウンドトゥルースに追加しました。これは役立つことがわかりました。 ϵϵ\epsilon

13 machine-learning neural-networks loss-functions noise

1

L2正規化の意味と目的を説明する

初めに、私は機械学習に非常に慣れていないので、数学は得意ではありません。私はTF-IDFの機能を理解していますが、この本を読んでいますが、次の点にも注意しています（scikit-learnがどのように機能するかについて説明しています）。両方のクラス[TfidfTransformerおよびTfidfVectorizer]も、tf-idf表現の計算後にL2正規化を適用します。つまり、ユークリッドノルム1を持つように各ドキュメントの表現を再スケーリングします。この方法で再スケーリングは、ドキュメントの長さ（単語数）がベクトル化された表現を変更しないことを意味します。それは主題について言わなければならないすべてです。それが意味していると私が思うのは、私が間違っている場合は、値をスケーリングして、それらがすべて2乗されて合計された場合、値が1になるようにすることです（この定義はhttp://kawahara.caから取得しました）。/ how-to-normalize-vectors-to-unit-norm-in-python /）。したがって、アイデアは、特徴値が互いに比例するようになるということです。しかし、それがモデルにとってどのように役立つかは完全にはわかりません。一部の例で「オンになっている機能」の総数が他の例よりも多いかどうかを分類子全体が知るのに役立ちますか？また、ここに基本的な質問があります：L2正規化はL2正規化と何か関係がありますか？多分それはそれらの両方が二乗と合計の用語を含むということだけですか？あなたが共有できる洞察が何であれ、最も高く評価されます！

13 machine-learning

3

不規則な時間間隔のRNN？

RNNは、シーケンシャルデータの時間依存性のキャプチャに非常に適しています。ただし、シーケンス要素の間隔が等間隔でない場合はどうなりますか？たとえば、LSTMセルへの最初の入力は月曜日に行われ、火曜日から木曜日まではデータがありません。最後に、金曜日、土曜日、日曜日のそれぞれに新しい入力が行われます。1つの可能性は、火曜日から木曜日に供給されるある種のNULLベクトルを持つことですが、NULLエントリがデータを汚染するため、およびリソースの浪費であるため、これはばかげた解決策のようです。何か案は？RNNはそのような場合をどのように処理しますか？RNN以外の方法がある場合は、それらの提案も歓迎します。

13 machine-learning neural-networks lstm rnn unevenly-spaced-time-series

1

複数の時系列データでLSTMモデルをトレーニングする方法は？

複数の時系列データでLSTMモデルをトレーニングする方法は？使用例：過去5年間、毎週20,000人のエージェントの売上があります。各エージェントの今後の週次売上を予測する必要があります。バッチ処理手法に従う必要がありますか？一度に1つのエージェントを取得し、LSTMモデルをトレーニングしてから予測しますか？もっと良い方法は？

13 machine-learning time-series statistical-significance lstm artificial-intelligence

1

ランダムフォレストでは、ツリーレベルではなくノードレベルでフィーチャのランダムサブセットが選択されるのはなぜですか？

私の質問：ランダムフォレストは、ツリーレベルではなく各ツリー内のノードレベルで分割するために、フィーチャのランダムサブセットを考慮するのはなぜですか？背景：これは歴史の質問です。ティン・カム・ホーが公開され、この論文をランダムにそれぞれ成長させるために使用する機能のサブセットを選択することにより、「意思決定の森」を構築する上で木を 2001年に、後に1998数年で、レオ・ブレイマンは彼の独創性に富んランダムフォレストの公表論文特徴サブセットがランダムであるが、各ツリーではなく、各ツリー内の各ノードで選択されます。ブライマンはHoを引用しましたが、ツリーレベルからノードレベルのランダムな特徴選択への移行については特に説明しませんでした。この開発の具体的な動機は何だと思います。ツリーレベルでフィーチャサブセットを選択すると、ツリーの目的の非相関化が依然として達成されるようです。私の理論：これは他の場所で明確に表現されていませんが、ランダムなサブスペース法は、特徴の重要性の推定値を取得するという点では効率が低いようです。変数の重要度の推定値を取得するために、各ツリーについて、特徴が1つずつランダムに並べ替えられ、誤判別の増加またはアウトオブバッグ観測のエラーの増加が記録されます。このランダムな順列から生じる誤分類またはエラーの増加が大きい変数は、最も重要です。ランダム部分空間法を使用する場合、ツリーごとに、特徴のうちだけを考慮します。すべての予測子を一度でも考慮するには、いくつかの木が必要になる場合があります。我々は異なるサブセット考える一方、の特徴各ノードで、私たちは私たちにフィーチャー重要性のより堅牢な見積もりを与え、少数の木の後に、各機能に多くの時間を考慮します。mmmppppppm私m私m_ippp これまで見てきたこと：これまでのところ、私はブライマンの論文とホーの論文を読み、決定的な答えを見つけることなく方法の比較のために広範なオンライン検索を行いました。同様の質問が以前に聞かれたことに注意してください。この質問は、考えられる解決策に向けた私の推測/作業を含めることで、さらに先へと進みます。答え、関連する引用、または2つのアプローチを比較するシミュレーション研究に興味があります。予定されていない場合は、2つの方法を比較して独自のシミュレーションを実行する予定です。

12 machine-learning feature-selection random-forest importance history

タグ付けされた質問 「machine-learning」

タグ付けされた質問「machine-learning」