統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

3
PCAはブール(バイナリ)データ型で機能しますか?
高次システムの次元数を減らし、できれば2次元または1次元のフィールドで共分散の大部分をキャプチャしたいと思います。これは主成分分析で行えることを理解しており、多くのシナリオでPCAを使用しています。ただし、ブールデータ型で使用したことがないため、このセットを使用してPCAを実行するのが意味があるかどうか疑問に思っていました。たとえば、定性的または記述的なメトリックを持っているふりをし、そのディメンションに対してそのメトリックが有効な場合は「1」を割​​り当て、そうでない場合は「0」を割り当てます(バイナリデータ)。たとえば、白雪姫の七人の小人を比較しようとしているふりをします。我々は持っています: Doc、Dopey、Bashful、Grumpy、Sneezy、Sleepy、Happy、そしてあなたはそれらを品質に基づいて整理したいのです。 ⎛⎝⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜D o cD O P E YB a s h fU LG r u m p ySN 、E 、E 、ZySL E E p yHa p p yL a c t o S E I N T O L E R A n t1011011A HO N O R R …

2
ImageNet:トップ1およびトップ5エラー率とは何ですか?
ImageNet分類論文では、トップ1とトップ5のエラー率は、いくつかのソリューションの成功を測定するための重要な単位ですが、それらのエラー率はどのくらいですか? 深い畳み込みニューラルネットワークとImageNet分類 Krizhevskyらによる。1つのCNN(7ページ)に基づくすべてのソリューションには、上位5つのエラー率がありませんが、5および7 CNNのソリューションにはあります(また、7 CNNのエラー率は5 CNNよりも優れています)。 これは、トップ1のエラー率が1つのCNNの最高のシングルエラー率であることを意味しますか? トップ5のエラー率は、単に5つのCNNの累積エラー率ですか?

2
MEANがARIMAを上回ることは珍しいですか?
最近、さまざまな予測方法(MEAN、RWF、ETS、ARIMA、MLP)を適用しましたが、MEANが驚くほどうまくいったことがわかりました。(MEAN:将来の予測はすべて、観測値の算術平均に等しいと予測されます。)MEANは、使用した3つのシリーズでARIMAよりも優れていました。 私が知りたいのは、これが異常かどうかです。これは、私が使用している時系列が奇妙だということですか?または、これは何か間違ったことを設定したことを示していますか?

3
ディープラーニングでハイパーパラメーターを選択するためのガイドライン
スタックオートエンコーダーやディープブレイドネットワークなど、ディープアーキテクチャーのハイパーパラメーターを選択する方法に関するガイドラインを提供するのに役立つ論文を探しています。ハイパーパラメーターはたくさんあり、それらの選択方法については非常に混乱しています。また、トレーニングには多くの時間がかかるため、相互検証の使用は選択肢ではありません!


1
手動で計算された
これはかなり具体的なR質問であることはわかっていますが、説明する割合の分散について考えているかもしれません。について間違っている。ここに行きます。R2R2R^2 私は使用しようとしています RパッケージますrandomForest。トレーニングデータとテストデータがあります。ランダムフォレストモデルを当てはめると、このrandomForest関数を使用して、テストする新しいテストデータを入力できます。次に、この新しいデータで説明された分散の割合を示します。これを見ると、1つの数字が得られます。 predict()関数を使用して、トレーニングデータからのモデルフィットに基づいてテストデータの結果値を予測し、これらの値とテストデータの実際の結果値の異なる数値が得られます。これらの値は一致しません。 R問題を示すためのコードを次に示します。 # use the built in iris data data(iris) #load the randomForest library library(randomForest) # split the data into training and testing sets index <- 1:nrow(iris) trainindex <- sample(index, trunc(length(index)/2)) trainset <- iris[trainindex, ] testset <- iris[-trainindex, ] # fit a model to the training set …

3
オンライン学習とオフライン学習?
オフライン学習とオンライン学習の違いは何ですか?データセット全体の学習(オフライン)と段階的な学習(一度に1つのインスタンス)だけの問題ですか?両方で使用されるアルゴリズムの例は何ですか?

3
文書全体に単語の埋め込みを適用して、特徴ベクトルを取得します
ワード埋め込みを使用して、教師あり学習での使用に適した特徴ベクトルにドキュメントをマッピングするにはどうすればよいですか? ワード埋め込みは各ワードをマップベクターにここで、一部ではない余りに多数(例えば、500)です。人気のある単語の埋め込みには、word2vecとGloveが含まれます。V ∈ Rの Dの DwwwV ∈Rdv∈Rdv \in \mathbb{R}^dddd 教師あり学習を適用してドキュメントを分類したい。現在、bag-of-words表現を使用して各ドキュメントを特徴ベクトルにマッピングし、市販の分類器を適用しています。単語の埋め込みに含まれるセマンティック知識を活用するために、単語の特徴ベクトルを既存の事前学習済みの単語の埋め込みに基づくものに置き換えたいと思います。それを行う標準的な方法はありますか? いくつかの可能性を想像できますが、最も意味のあるものがあるかどうかはわかりません。私が検討した候補アプローチ: ドキュメント内の各単語のベクトルを計算し、それらすべてを平均化することができました。ただし、これは多くの情報を失う可能性があるようです。たとえば、word-of-words表現では、分類タスクに非常に関連性のある単語がいくつかあり、ほとんどの単語が無関係である場合、分類子はそれを簡単に学習できます。文書内のすべての単語のベクトルを平均すると、分類子にはチャンスがありません。 すべての単語のベクトルを連結しても機能しません。これは、固定サイズの特徴ベクトルにならないためです。また、単語の特定の配置に過度に敏感になるため、悪い考えのように思えます。 単語の埋め込みを使用して、すべての単語の語彙をクラスタの固定セット、たとえば1000個のクラスタにクラスタ化できます。この場合、ベクトルのコサイン類似度を単語の類似度の尺度として使用します。次に、バッグオブワードの代わりに、バッグオブクラスターを使用することができます。分類器に提供する特徴ベクトルは、1000 番目のベクトルにすることができ、番目のコンポーネントはドキュメント内の単語の数をカウントしますクラスター一部です。私私私i私私i 単語与えられると、これらの単語の埋め込みにより、上位20個の最も類似した単語とそれらの類似度スコアセットを計算できます。これを使用して、単語のような特徴ベクトルを適応させることができました。私は単語を見たとき、単語に対応する要素インクリメントに加えて、により、Iはまた、単語に対応する要素増分ができによって、単語に対応する要素増分により、というように。w 1、… 、w 20 s 1、… 、s 20 w w 1 w 1 s 1 w 2 s 2wwww1、… 、w20w1、…、w20w_1,\dots,w_{20}s1、… 、s20s1、…、s20s_1,\dots,s_{20}wwwwww111w1w1w_1s1s1s_1w2w2w_2s2s2s_2 文書の分類に適した特定のアプローチはありますか? パラグラフ2vecまたはdoc2vecを探していません。それらは大規模なデータコーパスのトレーニングを必要とし、私は大規模なデータコーパスを持っていません。代わりに、既存の単語埋め込みを使用したいと思います。

2
A / Bテスト:z検定対t検定対カイ二乗対フィッシャーの正確な検定
私は、単純なA / Bテストを扱うときに特定のテストアプローチを選択することで、推論を理解しようとしています(つまり、バイナリレスポン(変換済みまたは未変換)の2つのバリエーション/グループ。例として、以下のデータを使用します) Version Visits Conversions A 2069 188 B 1826 220 トップの答えはここには素晴らしいであり、z、tとカイ二乗検定のための基礎となる仮定のいくつかについて話しています。しかし、私が混乱しているのは、さまざまなオンラインリソースがさまざまなアプローチを引用することであり、基本的なA / Bテストの仮定はほぼ同じであると思うでしょうか? たとえば、この記事ではz-scoreを使用します。 この記事では、次の式を使用します(zscoreの計算と異なるかどうかはわかりません)。 このペーパーは、t test(p 152)を参照しています。 それでは、これらのさまざまなアプローチを支持して、どのような議論ができるのでしょうか?なぜ好みがありますか? もう1つの候補を投入するには、上記の表を2x2分割表として書き直します。フィッシャーの正確確率検定(p5)を使用できます Non converters Converters Row Total Version A 1881 188 2069 Versions B 1606 220 1826 Column Total 3487 408 3895 しかし、このスレッドフィッシャーの正確なテストによると、より小さいサンプルサイズでのみ使用する必要があります(カットオフは何ですか?) そして、tとzのテスト、fテスト(およびロジスティック回帰がありますが、今のところは省略します)があります...私はさまざまなテストアプローチにdrれているように感じていますこの単純なA / Bテストケースのさまざまなメソッドに対して、ある種の引数を作成します。 サンプルデータを使用して、次のp値を取得しています https://vwo.com/ab-split-test-significance-calculator/は0.001のp値(zスコア)を提供します http://www.evanmiller.org/ab-testing/chi-squared.html(カイ二乗検定を使用)は、0.00259のp値を与えます そして、R …

4
コンピュータビジョンと畳み込みニューラルネットワークにおける翻訳不変性とは何ですか?
コンピュータビジョンの背景はありませんが、画像処理や畳み込みニューラルネットワークに関連する記事や論文を読んでいるとき、私は絶えず用語translation invariance、またはに直面していtranslation invariantます。 または、畳み込み演算が提供する多くのことを読みますtranslation invariance?!! これは何を意味するのでしょうか? どんな形の画像を変更しても、画像の実際の概念は変わらないという意味で、私自身は常に自分自身に翻訳しました。 たとえば、レッツ・セイのツリーの画像を回転させると、その写真に対して何をしても、それは再びツリーになります。 そして、私自身は、画像に起こりうるすべての操作を考えて、ある方法で変換(トリミング、サイズ変更、グレースケール、色付けなど)をこのようにすることを考えています。これが本当かどうか分からないので、誰かがこれを説明できればありがたいです。

3
「エポック」、「バッチ」、および「ミニバッチ」の違いは何ですか?
私の知る限り、確率的勾配降下法を学習アルゴリズムとして採用する場合、誰かが完全なデータセットに「エポック」を使用し、単一の更新ステップで使用されるデータに「バッチ」を使用し、別の人はそれぞれ「バッチ」と「ミニバッチ」を使用し、その他は「エポック」と「ミニバッチ」を使用します。これは議論中に多くの混乱をもたらします。 では、正しいことわざとは何ですか?または、それらはすべて受け入れられる方言です?

1
Biplotとの関係におけるPCAおよびコレスポンデンス分析
Biplotは、主成分分析(および関連する手法)の結果を表示するためによく使用されます。コンポーネントの負荷とコンポーネントのスコアを同時に表示するデュアルまたはオーバーレイ散布図です。本日、@ amoebaから、バイプロット座標がどのように生成/スケーリングされるかを尋ねる質問に対する私のコメントから離れた答えを彼が与えたと通知されました。そして彼の答えは、いくつかの方法をある程度詳細に検討しています。@amoebaは、私の経験をbiplotと共有するかどうかを尋ねました。 私の経験(理論と実験の両方)は、非常に控えめですが、それほど頻繁に認識されない2つのことを強調しています。(2)PCA、コレスポンデンス分析(およびその他の既知の手法)は、実際にはバイプロットの特定のケースです。または、少なくとも、彼らは双子の双子です。バイプロットを実行できる場合は、他の2つを実行できます。 あなたへの私の質問は次のとおりです:彼ら(PCA、CA、Biplot)はあなたのためにどのように接続されていますか?あなたの考えを共有してください。私はそれについて自分のアカウントを投稿しています。さらに回答を追加し、重要な発言をお願いします。

3
単純な線形回帰における回帰係数の分散を導き出す
単純な線形回帰では、。ここで、です。推定量を導き出しました: ここでおよびはおよびサンプル平均です。y=β0+β1x+uy=β0+β1x+uy = \beta_0 + \beta_1 x + uu∼iidN(0,σ2)u∼iidN(0,σ2)u \sim iid\;\mathcal N(0,\sigma^2)β1^=∑i(xi−x¯)(yi−y¯)∑i(xi−x¯)2 ,β1^=∑i(xi−x¯)(yi−y¯)∑i(xi−x¯)2 , \hat{\beta_1} = \frac{\sum_i (x_i - \bar{x})(y_i - \bar{y})}{\sum_i (x_i - \bar{x})^2}\ , x¯x¯\bar{x}y¯y¯\bar{y}xxxyyy ここで、\ hat \ beta_1の分散を見つけたいと思いますβ^1β^1\hat\beta_1。次のようなものを導き出しました: Var(β1^)=σ2(1−1n)∑i(xi−x¯)2 .Var(β1^)=σ2(1−1n)∑i(xi−x¯)2 . \text{Var}(\hat{\beta_1}) = \frac{\sigma^2(1 - \frac{1}{n})}{\sum_i (x_i - \bar{x})^2}\ . 派生は次のとおりです。 Var(β1^)=Var(∑i(xi−x¯)(yi−y¯)∑i(xi−x¯)2)=1(∑i(xi−x¯)2)2Var(∑i(xi−x¯)(β0+β1xi+ui−1n∑j(β0+β1xj+uj)))=1(∑i(xi−x¯)2)2Var(β1∑i(xi−x¯)2+∑i(xi−x¯)(ui−∑jujn))=1(∑i(xi−x¯)2)2Var(∑i(xi−x¯)(ui−∑jujn))=1(∑i(xi−x¯)2)2×E⎡⎣⎢⎢⎢⎢⎢⎢⎛⎝⎜⎜⎜⎜⎜∑i(xi−x¯)(ui−∑jujn)−E[∑i(xi−x¯)(ui−∑jujn)]=0⎞⎠⎟⎟⎟⎟⎟2⎤⎦⎥⎥⎥⎥⎥⎥=1(∑i(xi−x¯)2)2E⎡⎣(∑i(xi−x¯)(ui−∑jujn))2⎤⎦=1(∑i(xi−x¯)2)2E[∑i(xi−x¯)2(ui−∑jujn)2] , since ui 's are …

2
二項回帰のRの出力の解釈
私は二項データテストでこれについては非常に新しいですが、1つを行う必要があり、結果をどのように解釈するかがわかりません。応答変数であるy変数は二項であり、説明因子は連続的です。これは、結果を要約するときに得たものです: glm(formula = leaves.presence ~ Area, family = binomial, data = n) Deviance Residuals: Min 1Q Median 3Q Max -1.213 -1.044 -1.023 1.312 1.344 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.3877697 0.0282178 -13.742 < 2e-16 *** leaves.presence 0.0008166 0.0002472 3.303 0.000956 *** --- Signif. codes: 0 ‘***’ 0.001 …


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.