統計とビッグデータ machine-learning

1

現在、私は頭をt-SNEに巻き付けようとしています。数学にます。残念ながら、まだ十分に答えられない質問が1つあります。t-SNEグラフの軸の実際の意味は何ですか？このトピックに関するプレゼンテーションを行うか、出版物に含める場合：軸に適切なラベルを付けるにはどうすればよいですか？ PS：私はこの Redditの質問を読みましたが、そこに与えられた答え（「解釈と領域の知識に依存する」など）は、本当にこれを理解するのに役立ちません。

12 machine-learning dimensionality-reduction tsne

1

バッチ正規化による逆伝播の行列形式

バッチの正規化は、ディープニューラルネットのパフォーマンスが大幅に向上したとされています。インターネット上の多くの資料は、アクティベーションごとにそれを実装する方法を示しています。私はすでに行列代数を使用してバックプロップを実装しましたが、高レベル言語で作業していることを考えてRcpp（そして、最終的にはGPUの高密度行列乗算に依存しています）、すべてをリッピングして- forループに頼るとおそらくコードが遅くなります実質的に、大きな痛みに加えて。バッチ正規化関数である b(xp)=γ(xp−μxp)σ−1xp+βb(xp)=γ(xp−μxp)σxp−1+β b(x_p) = \gamma \left(x_p - \mu_{x_p}\right) \sigma^{-1}_{x_p} + \beta xpxpx_pは、アクティブ化される前のppp番目のノードです。 γγ\gammaとββ\betaはスカラーパラメーターです μxpμxp\mu_{x_p}とσxpσxp\sigma_{x_p}平均値とのSDいるxpxpx_p。（分散の平方根とファッジファクターが通常使用されることに注意してください-コンパクト化のために非ゼロ要素を仮定しましょう）行列形式では、層全体のバッチの正規化は次のようになり b(X)=(γ⊗1p)⊙(X−μX)⊙σ−1X+(β⊗1p)b(X)=(γ⊗1p)⊙(X−μX)⊙σX−1+(β⊗1p) b(\mathbf{X}) = \left(\gamma\otimes\mathbf{1}_p\right)\odot \left(\mathbf{X} - \mu_{\mathbf{X}}\right) \odot\sigma^{-1}_{\mathbf{X}} + \left(\beta\otimes\mathbf{1}_p\right) ここで XX\mathbf{X}はN×pN×pN\times p 1N1N\mathbf{1}_Nは1の列ベクトルです γγ\gammaとββ\betaは、レイヤーごとの正規化パラメーターの行pppベクトルです。 μXμX\mu_{\mathbf{X}}及びσXσX\sigma_{\mathbf{X}}でありN×pN×pN \times p各列は行列、NNN -ベクトル列方向手段と標準偏差の ⊗⊗\otimesはクロネッカー積であり、⊙⊙\odotは要素単位（アダマール）積です。無バッチの正規化及び連続結果に非常に単純な1層ニューラルネットであり y=a(XΓ1)Γ2+ϵy=a(XΓ1)Γ2+ϵ y = a\left(\mathbf{X\Gamma}_1\right)\Gamma_2 + \epsilon どこ Γ1Γ1\Gamma_1あるp1×p2p1×p2p_1 \times p_2 Γ2Γ2\Gamma_2ありp2×1p2×1p_2 \times …

12 machine-learning neural-networks deep-learning backpropagation batch-normalization

5

大規模なデータセットに対して勾配降下が非効率なのはなぜですか？

データセットに100万の例、つまりおり、勾配降下を使用してこれらのデータセットでロジスティック回帰または線形回帰を実行するとします。x1,…,x106x1,…,x106x_1, \ldots, x_{10^6} 非効率にする勾配降下法とは何ですか？時間での勾配降下ステップは次の式で与えられることを思い出してください。ttt wt+1=wt+ηt∇f(x)wt+1=wt+ηt∇f(x)w_{t+1} = w_{t} + \eta_t \nabla f(x) ここで、fffは損失関数です。上記の手順でアルゴリズムが非効率になる原因となる異常は見当たりません。の計算ですか？この操作は事前に計算できませんでした。つまり、各すでに計算されていて、各データポイントで単純に評価できませんでした∂ F∇f(x)∇f(x)\nabla f(x) XI？∂f∂x∂f∂x\frac{\partial f}{\partial x}xi?xi?x_i?

12 machine-learning gradient-descent large-data

5

線形回帰は時代遅れですか？[閉まっている]

閉じた。この質問は意見に基づいています。現在、回答を受け付けていません。この質問を改善したいですか？この投稿を編集して事実と引用で答えられるように質問を更新してください。閉じた2年前。現在、線形回帰のクラスにいますが、私が学んでいることは、現代の統計や機械学習のどちらにももはや関係がないという感覚を揺るがすことはできません。最近、非常に多くの興味深いデータセットが線形回帰の非現実的な仮定の多くに違反しているのに、単純または多重線形回帰の推論に多くの時間を費やしているのはなぜですか？代わりに、サポートベクターマシンまたはガウス過程を使用した回帰のような、より柔軟で最新のツールの推論を教えてみませんか？スペースで超平面を見つけるよりも複雑ですが、これは現代の問題に取り組むためのより良い背景を学生に与えませんか？

12 regression machine-learning linear teaching

3

PCA最適化は凸型ですか？

主成分分析（PCA）の目的関数は、セクション2.12を参照してください（L2ノルムに再構成誤差を最小化され、ここで。別のビューが投影上の分散を最大化しようとしている我々はまた、ここでは優れた記事があります。PCAの目的関数とは何ですか？）。私の質問は、PCA最適化は凸ですか？（ここでいくつかの議論を見つけましたが、CVで誰かがここで素晴らしい証拠を提供できることを願っています）。

12 machine-learning pca optimization convex

2

Kaggleコンペティションは偶然に勝っただけですか？

Kaggleコンペティションでは、実施済みのテストセットに基づいて最終ランキングを決定します。保留テストセットはサンプルです。モデル化されている母集団を代表していない場合があります。各提出は仮説のようなものであるため、競争に勝ったアルゴリズムは、偶然にも、他のアルゴリズムよりもテストセットによく一致する可能性があります。つまり、別のテストセットが選択され、競争が繰り返された場合、ランキングは同じままになりますか？スポンサー企業にとって、これは実際には重要ではありません（おそらく、上位20件のサブミッションがベースラインを改善するでしょう）。皮肉なことに、彼らはより悪い最初のランクのモデルを使用することになりますは他のトップ5よりもなります。しかし、競争の参加者にとって、Kaggleは最終的にはチャンスのゲームだと思われます。正しいソリューションにつまずくために運は必要ありません。テストセットに一致するものにつまずく必要があります。統計的に区別できない上位チームがすべて勝つように競争を変更することは可能ですか？または、このグループで、最もpar約的または計算的に安価なモデルが勝つことができましたか？

12 machine-learning probability hypothesis-testing sample kaggle

3

機能の数を減らすことができるのに、なぜPCAを使用して学習アルゴリズムを高速化するのですか？

機械学習コースで、PCA（主成分分析）の一般的な使用法の1つが他の機械学習アルゴリズムの高速化であることを学びました。たとえば、ロジスティック回帰モデルをトレーニングしているとします。1からnまでのiのトレーニングセットがあり、ベクトルxの次元が非常に大きい場合（次元としましょう）、 PCAを使用して、より小さな次元（たとえばk次元）の特徴ベクトルzを取得できます。次に、iの1からnまでのトレーニングセットでロジスティック回帰モデルをトレーニングできます。特徴ベクトルの次元が少ないため、このモデルのトレーニングは高速になります。（(x(i),y(i))(x(i),y(i))(x^{(i)},y^{(i)})(z(i),y(i))(z(i),y(i))(z^{(i)},y^{(i)}) ただし、ランダムにk個のフィーチャを選択し、残りを削除するだけでは、フィーチャベクトルの次元をk次元に減らすことができない理由はわかりません。 zベクトルは、特徴ベクトルの線形結合です。zベクトルはk次元の表面に限定されているため、k個の消去された特徴値を残りのk個の特徴値の線形関数として記述できます。したがって、すべてのzはk個の特徴の線形結合によって形成できます。そのため、フィーチャが削除されたトレーニングセットでトレーニングされたモデルは、PCAによって次元が削減されたトレーニングセットでトレーニングされたモデルと同じパワーを持つべきではありませんか？モデルの種類と、ある種の線形結合に依存しているかどうかだけに依存していますか？

12 machine-learning pca

2

規則性と正則化とは何ですか？

機械学習を勉強するにつれて、これらの言葉をどんどん聞いています。実際、方程式の規則性に取り組んでフィールズメダルを獲得した人もいます。だから、これは統計物理学/数学から機械学習に至る用語です。当然、私が尋ねた多くの人々は、それを直感的に説明できませんでした。ドロップアウトなどのメソッドが正則化に役立つことを知っています（=>彼らはオーバーフィットを減らすと言いますが、実際にはそれがわかりません：それがオーバーフィットを減らすだけなら、なぜそれをアンチオーバーフィットメソッドと呼ばないのですか？もっと私が思うので、この質問）。あなたが説明できるなら、私は本当に感謝しています（私は素朴なMLコミュニティもそうでしょう！）規則性をどのように定義しますか？規則性とは何ですか？正規化は、規則性を保証する方法ですか？すなわち、規則性をキャプチャしますか？ドロップアウトなどのメソッドの組み立て、正規化メソッドがすべて正規化を行っていると主張するのはなぜですか？なぜ機械学習でこれら（規則性/正規化）が出てくるのですか？ご協力ありがとうございます。

12 machine-learning self-study terminology regularization definition

1

SVMモデルからの学習曲線がバイアスまたは分散の影響を受けるかどうかを知る方法は？

この学習曲線を作成しましたが、SVMモデルにバイアスや分散があるかどうかを知りたいですか？このグラフからどのように結論付けることができますか？

12 machine-learning svm bias train

4

グラディエントディセントをオプティマイザーとして使用して、学習率を（体系的に）調整する方法は？

ML / DLフィールドの部外者。Tensorflowに基づくUdacity Deep Learningコースを開始しました。課題3の問題4を行います。次の設定で学習率を調整しようとしています：バッチサイズ128 ステップ数：2エポックを満たすのに十分隠しレイヤーのサイズ：1024、305、75 重みの初期化：標準で切り捨てられた通常。sqrt（2 / n）の偏差。nは前のレイヤーのサイズドロップアウト維持確率：0.75 正則化：適用されません学習率アルゴリズム：指数関数的減衰学習率パラメーターをいじくりまわした。ほとんどの場合、効果がないようです。ここにコード ; 結果： Accuracy learning_rate decay_steps decay_rate staircase 93.7 .1 3000 .96 True 94.0 .3 3000 .86 False 94.0 .3 3000 .96 False 94.0 .3 3000 .96 True 94.0 .5 3000 .96 True 学習率を体系的に調整するにはどうすればよいですか？学習率はステップ数とどのように関係していますか？

12 python machine-learning tensorflow deep-learning

2

ロジスティック回帰はいつ適していますか？

現在、分類方法を教えています。具体的には、サポートベクターマシン、ニューラルネットワーク、ロジスティック回帰の3つの方法を検討しています。私が理解しようとしているのは、ロジスティック回帰が他の2つよりも優れたパフォーマンスを発揮する理由です。ロジスティック回帰の私の理解から、アイデアはデータ全体にロジスティック関数を適合させることです。したがって、データがバイナリの場合、ラベル0のすべてのデータは値0（またはそれに近い）にマッピングされ、値1のすべてのデータは値1（またはそれに近い）にマッピングされる必要があります。ロジスティック関数は連続的で滑らかなので、この回帰を実行するには、すべてのデータが曲線に適合する必要があります。決定境界付近のデータポイントに適用される重要性はこれ以上なく、すべてのデータポイントが異なる量で損失に寄与します。ただし、サポートベクターマシンとニューラルネットワークでは、決定境界付近のデータポイントのみが重要です。データポイントが決定境界の同じ側にある限り、同じ損失をもたらします。したがって、決定の周りの難しいデータだけに焦点を合わせるのではなく、多くの重要でない（分類しやすい）データに曲線を当てはめようとすると「リソースを浪費する」ため、ロジスティック回帰はサポートベクターマシンまたはニューラルネットワークよりも優れています。境界？

12 regression machine-learning logistic classification regression-strategies

2

機械学習の問題を回帰フレームワークに変換する

私は説明変数のパネルがあるとため、、、ならびにバイナリ結果従属変数のベクトルを。したがって、は最終時間でのみ観測され、それ以前の時間では観測されません。完全に一般的なケースは、各ユニットに対して各時刻にに対して複数のを持たせることですが、簡潔にするためにケース注目しましょう。私は= 1 。。XitXitX_{it}i=1...Ni=1...Ni = 1 ... Nt=1...Tt=1...Tt = 1 ... TYiTYiTY_{iT}YYYTTTXijtXijtX_{ijt}j=1...Kj=1...Kj=1...KiiitttK=1K=1K=1 このような「アンバランス」ペアと時間相関の説明変数の適用例は、（毎日の株価、四半期ごとの配当）、（毎日の天気予報、毎年のハリケーン）または（各移動後のチェスポジションフィーチャ、勝ち/負け結果）です。ゲームの終わり）。(X,Y)(X,Y)(X, Y) 私は、回帰係数（おそらく非直線的）に興味があります行うための予測のトレーニングデータに、初期の観測与えられたことを知って、Xを私トンのためのT < T、それが最終的な結果につながるのY I Tβtβt\beta_tYitYitY_{it}XitXitX_{it}t<Tt<Tt < TYiTYiTY_{iT} Y^it=f(∑tk=1Xikβk),t=1...TY^it=f(∑k=1tXikβk),t=1...T\hat{Y}_{it} = f(\sum_{k=1}^{t} X_{ik} \beta_k), \quad t = 1 ... T 計量経済学のバックグラウンドから来て、そのようなデータに適用される回帰モデリングはあまり見ていません。OTOH、私はそのようなデータに次の機械学習技術が適用されているのを見てきました。データセット全体で教師付き学習を行う、例えば最小化 ∑i,t12(Yit−f(Xitβt))2∑i,t12(Yit−f(Xitβt))2\sum_{i,t}\frac{1}{2}(Y_{it} - f(X_{it} \beta_t))^2 観測されたYを過去のすべての時点に外挿/代入するだけでYYY Yit≡YiT,t=1...T−1Yit≡YiT,t=1...T−1Y_{it} \equiv Y_{iT}, \quad t = 1... T-1 これは、異なる時点間の一時的な相関関係を考慮しないため、「間違っている」と感じます。やって強化学習パラメータの学習で、このような一時的な差としてのおよび割引パラメータλを、再帰的解決のためにβ トンから始まる逆伝搬を通じてT = …

12 regression machine-learning reinforcement-learning

5

自動機械学習は夢ですか？

機械学習を発見すると、次のようなさまざまな興味深い手法が見つかります。以下のような技術を用いて自動的に調整アルゴリズムgrid search、同じ「タイプ」の異なるアルゴリズムの組み合わせにより、より正確な結果を取得します。つまりboosting、異なるアルゴリズムの組み合わせにより、より正確な結果を取得します（ただし、同じタイプのアルゴリズムではありません）。つまりstacking、おそらくもっと多くのことを発見する必要があります... 私の質問は次のとおりです。すべてのそれらの部分があります。しかし、それらをまとめて、すべての手法の中で最善のものを使用して、入力としてクリーンなデータを取得し、良好な結果を出力するアルゴリズムを作成することは可能ですか？（もちろん、プロのデータサイエンティストほど効率的ではありませんが、私よりも優れています！）はいの場合、サンプルコードを持っていますか、それを実行できるフレームワークを知っていますか？編集：いくつかの答えの後、いくつかの絞り込みを行う必要があるようです。例を見てみましょう。カテゴリデータを含む1つの列があり、それyを呼び出して、Xダミーまたは実際の数値データ（高さ、温度）のいずれかである数値データから予測したいとします。クリーニングは以前に行われたものと想定しています。そのようなデータを取得して予測を出力できる既存のアルゴリズムはありますか？（複数のアルゴリズムのテスト、チューニング、ブースティングなど）はいの場合、計算は効率的ですか（通常のアルゴリズムと比較した場合、計算は妥当な時間内に行われますか）、コードの例はありますか？

12 machine-learning algorithms boosting stacking automatic-algorithms

3

イベント間の相関を見つけるためにどのアルゴリズムを使用できますか？

私は機械学習が初めてなので、いくつかの文献を見つけようとしていますが、Googleに何を求めるべきかさえわかりません。私のデータは次の形式です。 User A performs Action P User B performs Action Q User C performs Action R ... User C performs Action X User A performs Action Y User B performs Action Z ... 各アクションに特定の特性（日付、時刻、クライアントなど）がある場合。約300人のユーザーがおり、約20,000のアクションがあります。質問：ユーザーアクション間に因果関係/相関関係があるかどうかを確認したいと思います。たとえば、「ユーザーEがアクションTを実行するたびに、2日後にユーザーGがアクションVを実行します」。しかし、その間に、他の多くのユーザーが他の多くのアクションを実行している可能性があり、相関関係が見つからない可能性があります。一部のユーザーは相関しているが、他のユーザーは完全に独立している可能性もあります。これは、機械学習で見つけられるものですか？私に役立つ特定のアルゴリズムまたはアルゴリズムのセットはありますか？アソシエーション分析とAprioriアルゴリズムについて読んでいましたが、既知の十分に区切られたデータセットを入力として必要とするように思えるので、これで必要なものが得られるとは思いません。行動。何を見るべきかについてのどんな提案でも大歓迎です！

12 machine-learning cross-correlation

4

ニューラルネットワークのバイアスユニットの正則化用語はありません

ディープラーニングに関するこのチュートリアルによると、重みの減衰（正規化）は通常、バイアス用語に適用されません。なぜですか？その背後にある意義（直感）とは何ですか？

12 machine-learning neural-networks bias regularization

タグ付けされた質問 「machine-learning」

タグ付けされた質問「machine-learning」