統計とビッグデータ terminology

4

私はこの論文を読んでいます。彼らがCD-DNN-HMM（隠れマルコフモデルを使用したコンテキスト依存のディープニューラルネットワーク）を使用するskypeトランスレータです。私はプロジェクトのアイデアと彼らが設計したアーキテクチャを理解することができますが、セノンは何なのかわかりません。定義を探していましたが、何も見つかりませんでした —電話認識に深い信念ネットワークを使用する際の最近の進歩を活用する、大語彙音声認識（LVSR）の新しいコンテキスト依存（CD）モデルを提案します。出力としてセノン（結ばれたトライフォン状態）上の分布を生成するようにDNNをトレーニングする事前トレーニング済みのディープニューラルネットワークの隠れマルコフモデル（DNN-HMM）ハイブリッドアーキテクチャについて説明しますこれについて説明をいただければ幸いです。編集：この定義はこのホワイトペーパーで見つかりました。マルコフ状態でサブフォネティックイベントをモデル化し、音声の隠れマルコフモデルの状態を基本的なサブフォネティック単位であるsenoneとして扱うことを提案します。単語モデルは状態依存のセノンの連結であり、セノンは異なる単語モデル間で共有できます。最初の論文のアーキテクチャの隠しマルコフモデル部分で使用されていると思います。それらはHMMの状態ですか？DNNの出力？

9 neural-networks deep-learning terminology natural-language hidden-markov-model

1

一定の平均値を持つ時系列の名前は何ですか？

の平均が存在し、すべての時間について一定であるランダムプロセスを考えます。つまり、すべての時間および時間シフト（または「遅れ」）。高いモーメントや分布関数にはこれ以上の条件を課しません。そのようなプロセスをどのように説明できますか？「弱い定常」（つまり、2次の定常性）よりも弱い意味でのみ定常です。E（X T）T E（X T）= E（X T + τ）T τ{ Xt}{Xt}\{X_t\}E（ Xt）E(Xt)\mathbb{E}(X_t)tttE（ Xt）= E（Xt + τ）E(Xt)=E(Xt+τ)\mathbb{E}(X_t)=\mathbb{E}(X_{t+\tau})tttττ\tau 他の形式の定常性には多くの名前があります。たとえば、弱い場合に「広義の定常」または「共分散定常」を追加することもできます。したがって、いくつかの可能な用語が当てはまると思いますが、考えられるすべての用語には欠点があります。一次固定、または注文一方に固定は、「二次固定」と「順に静止に類似している」は、しばしばより高いモーメントのために使用される製剤。しかし、平均値が一定のプロセス（ここでは例）で使用される「1次定常」を見てきたが、信号処理で異なる意味で一般的に使用され、検索エンジンのヒットの大部分を提供するフィールド。私がチェックしたすべての信号処理の本は、一次分布関数が時間に対して不変である場合、つまり、すべての時間、と値シフトしますF X （T ）（X ）= F X （T + τ ）（X ）T τ X F X （T 1）、X （T 2）（X 1、X 2）= F X （T 1 + τ ）、X （t 2 + τ ）（xんnnFバツ（t …

9 time-series terminology stationarity stochastic-processes

1

「ゴールドスタンダード」と「グラウンドトゥルース」の違いは何ですか？

「ゴールドスタンダード」と「グラウンドトゥルース」の違いは何ですか？ 2つのWiki記事（つまり、ゴールドスタンダードとグラウンドトゥルース）は、モデルの精度/精度の点で両方の概念を相互に関連付けています。それは一つの可能性です。しかし、これらの概念は、ラベル付きデータセットについて話すときに交換可能に使用されることもわかりました。実際のラベル（グラウンドトゥルースまたはゴールドスタンダードとも呼ばれます）を取得できない場合もあります。（ソースpdf）

9 classification terminology

4

平均二乗誤差または平均二乗誤差

非英語のネイティブスピーカーとして、私はどの思っていた広場や乗、私が使うべき表現。たとえば、平均二乗誤差または平均二乗誤差。インターネットによると、どちらの形式も区別なく使用されているようです。1つの式は他の式よりも正方形ですか？

9 terminology mse

3

複数の予測子を持つ時系列回帰の用語は何ですか？

それを説明するために一般的に使用されている単語がわからない場合、何かについての情報をWebで検索するのはかなり困難です。この場合、別の予測子を時系列に含めると、それが何と呼ばれるのかと思います。例として、AR（3）を使用して変数をモデル化するとします。XXX Xt=φ1Xt−1+φ2Xt−2+φ3Xt−3+εtXt=φ1Xt−1+φ2Xt−2+φ3Xt−3+εt X_t = \varphi_1 X_{t-1} + \varphi_2 X_{t-2} + \varphi_3 X_{t-3} + \varepsilon_t モデルに別の変数の影響（たとえば、を含めたいので、モデルを次のように記述します。YYY Xt=φ1Xt−1+φ2Xt−2+φ3Xt−3+β1Yt−1+β2Yt−2+β3Yt−3+εtXt=φ1Xt−1+φ2Xt−2+φ3Xt−3+β1Yt−1+β2Yt−2+β3Yt−3+εt X_t = \varphi_1 X_{t-1} + \varphi_2 X_{t-2} + \varphi_3 X_{t-3} + \beta_1 Y_{t-1} + \beta_2 Y_{t-2} + \beta_3 Y_{t-3} + \varepsilon_t 前者のモデルと後者のモデルを区別する用語は何ですか？

9 time-series terminology

1

ニューラルネットワークのコンテキストで「高密度」および「スパース」という用語は何を意味しますか？

ニューラルネットワーク（NN）のコンテキストで、「密」および「疎」という用語は何を意味しますかそれらの違いは何ですか？なぜそう呼ばれるのですか？

9 neural-networks terminology definition

3

相互検証フォールドとは何ですか、またはこのフレーズは意味がありませんか？

k分割交差検証の概念は理解していますが、「フォールド」の意味がわかりません。ウィキペディアのリンク先ページからの引用：次に、交差検証プロセスがk回繰り返されます（フォールド）。これは非常にあいまいなようです。「折り畳み」はプロセスの各繰り返しを指しますか？それとも、ペアのトレーニングとテストのデータセットを参照するのは名詞ですか？

9 cross-validation terminology

2

この「現象」とは何ですか？

以下は、いくつかのデータのヒストグラムです。ビンは整数で、他のパラメーターは関係ありません。ご覧のように、奇数と偶数の2つの別々の重複する正規分布があるようです。偶数になる確率は1/3、奇数の場合は2/3です。正直に言うと、これの実際の統計的有意性がわからないので、詳細を知ることさえ調べようとしていますが、何も見つけることができません。画像検索を逆にしても、マルチモーダル分布などに関する情報しか得られず、マルチモーダル分布が実際にこの方法で実際にオーバーラップする時期について何も見つからないこれに名前はありますか？興味のある人のためのデータは、MATLABスクリプトを使用した1,000,000のランダム化されたgoofspielゲーム（N = 13）からのものです。 N = 1000000; random = zeros(1,N); for i = 1 : N pc = randperm(13); p1 = randperm(13); p2 = randperm(13); random(i) = sum(pc.*sign(p1-p2)); end histogram(random,'BinMethod','integer') より一般的な（人工的なものですが）例は次のようになります a = [1:50 50:-1:1]; b = normpdf(linspace(-2,2),0,0.5).*50; c = a; rng('default') %For reproducibility d = …

8 distributions normal-distribution pdf terminology histogram

2

「フリンジリア」とは何ですか？

最近、ジャーナルの投稿からレビュアーコメントを受け取りました。外れ値とフリンジリアをどのように処理したかを報告します。「フリンジリア」という言葉を聞いたことがなく、グーグルで検索すると、いくつかの記事がありましたが、簡潔な定義はありませんでした。したがって、「フリンジリア」とは何かを明確にし、同じ質問をする自分と将来の人々の両方に定義を提供できるような質問をするのは良いことだと思いました。

8 terminology outliers

1

PDFの分布のファミリーは

与えられた（比例定数まで）PDFで分布の家族を考えてみそれはどのように呼ばれますか？名前がない場合、どのように呼びますか？P （X ）〜1（1 + α X2）1 / α。p(x)∼1(1+αx2)1/α.p(x)\sim \frac{1}{(1+\alpha x^2)^{1/\alpha}}. それは家族に非常に似ています -distributionsとPDF比例する P （X ）〜1tttP （X ）〜1（1 + 1νバツ2）（ν+ 1 ）/ 2。p(x)∼1(1+1νx2)(ν+1)/2.p(x)\sim \frac{1}{(1+\frac{1}{\nu} x^2)^{(\nu+1)/2}}. とき、我々が持っているトン -distributionと1 DF、別名コーシー分布を。ときα → 0またはν → ∞、我々はガウス分布を得ます。α = ν= 1α=ν=1\alpha=\nu=1tttα → 0α→0\alpha\to 0ν→ ∞ν→∞\nu\to\infty この分布のファミリは、Yang et al。、Heavy-Tailed Symmetric Stochastic Neighbor Embedding、NIPS 2009に記載されていますが、それらを参照するために名前を使用していません。

8 distributions terminology t-distribution tsne cauchy

2

「再編成トリック」の名前（データセットをランダムに並べ替えて、推定器のバイアスを推定します）

複雑なモデリング手法が偏っているかどうかを調べるための次の方法の参照または名前を知っていますか？TTT 元のデータセットにを適用します。そのパフォーマンスを測定します（例：回帰設定のR-2乗）。TTT 応答変数をランダムに並べ替えて、新しいデータセットを取得します。を適用し、そのパフォーマンスを測定します。[観測が依存している場合、このステップはより複雑になります。]P 'TTTP』P′P' が実質的にゼロのパフォーマンスと異なる場合、がバイアスされていると結論付けます。 TP』P′P'TTT リソースが許す場合、ステップ2を繰り返すことができます。これにより、パフォーマンス測定の順列ヌル分布が発生します。しかし、私のアプリケーションでは、リソースの問題のためにこれを行うことはできません。この「再編成」のトリックは、誰かが（一部の設定で）リーブワンアウト相互検証のバイアスを調査するために使用したことを暗に覚えています。しかし、彼が私のプロセスの中で一度だけプロセス全体を繰り返すことができたのかどうかはわかりません。単純な後方選択の「力」を示すRの例： # Generate random data set. Only random performance is expected. n <- 100 p <- 30 set.seed(7567) y <- rnorm(n) X <- rnorm(n*p) dim(X) <- c(n, p) data <- data.frame(y, X) # Modelling technique: backward selection with OLS T <- function(data) …

8 terminology bias validation permutation-test

1

このエラー指標に受け入れられる名前はありますか？

モデルの再構成エラーを定量化するために使用されるエラーメトリックに遭遇しました：、YiはあるI番目のデータ点、mはiはモデルの推定値であるI番目のデータ点、及び ˉ yはすべてのデータポイントの平均です。分子はモデルの総二乗誤差であり、分母はデータの平均からの二乗偏差です。ε = ∑私（y私− m私）2Σ私（y私− y¯）2ε=∑i(yi−mi)2∑i(yi−y¯)2 \varepsilon = \frac{\sum_i{\left(y_i-m_i\right)^2}}{\sum_i{\left(y_i-\bar{y}\right)^2}} y私yiy_i私iiメートル私mim_i私iiy¯y¯\bar{y} このメトリックには標準的な名前がありますか？そうでない場合、それを何と呼びますか？

8 terminology error model-evaluation

1

平均のパーセンテージとしてのサンプルの標準偏差の用語はありますか？

私は、規模が非常に異なる2つのサンプル（保育園、小学校、中学校のタイプの生徒の能力）の変動性を比較しようとしています。私のアプローチは、各サンプルの標準偏差を計算し、それを割り算することですサンプル平均。このメトリックが使用されるのを見たことがないので、受け入れられる名前はあるのでしょうか。または、私がそれを見たことがない理由を説明する使用するより良いメトリックがありますか？

8 standard-deviation terminology

1

分布の歪度とは何ですか？

分布の歪度とは何ですか？特定の指標が対称性について、そして場合によっては非対称性についても決定力がないように見える理由を尋ねます。

8 interpretation terminology skewness definition

2

漸近的エラーとは何ですか？

Ng、AY、およびJordan、MI（2001）。識別的分類と生成的分類の比較：ロジスティック回帰と単純ベイズの比較。神経情報処理システムの進歩、 14、841-8ページ、MIT Press。上記の論文では、著者は「漸近的エラー」に言及しました。誰かがこれについて少し説明できますか？たとえば、論文の要約には次のものが含まれます。弁別学習は漸近誤差が低く、生成分類器はその漸近誤差にはるかに速く近づく場合もあります。「漸近的エラー」の正確な定義は何ですか？

8 machine-learning terminology

タグ付けされた質問 「terminology」

タグ付けされた質問「terminology」