統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

6
確率分布が均一なときにエントロピーが最大化されるのはなぜですか?
エントロピーはプロセス/変数のランダム性の尺度であり、次のように定義できることを知っています。ランダム変数X∈X∈X \in set AAA :- H(X)=∑xi∈A−p(xi)log(p(xi))H(X)=∑xi∈A−p(xi)log⁡(p(xi))H(X)= \sum_{x_i \in A} -p(x_i) \log (p(x_i)) . In the book on Entropy and Information Theory by MacKay, he provides this statement in Ch2 Entropy is maximized if p is uniform. Intuitively, I am able to understand it, like if all datapoints in set AAA …

4
生データではなくサンプル統計を入力して、Rで2サンプルのt検定を実行する方法は?
以下の統計があるとしましょう gender mean sd n f 1.666667 0.5773503 3 m 4.500000 0.5773503 4 実際のデータではなく、このような統計を使用して、2サンプルのt検定(ある変数の男性と女性の平均に有意差があるかどうかを確認する)を実行するにはどうすればよいですか? インターネット上でこれを行う方法を見つけることができませんでした。ほとんどのチュートリアルとマニュアルは、実際のデータセットのみを使用したテストを扱っています。
32 r  t-test 


1
回帰用のCNNアーキテクチャ?
入力が画像で、ラベルが80から350の間の連続値である回帰問題に取り組んでいます。画像は、反応が起こった後のいくつかの化学物質のものです。判明する色は、残りの別の化学物質の濃度を示し、それがモデルが出力するものです-その化学物質の濃度。画像は回転、反転、ミラー化できますが、期待される出力は同じままです。この種の分析は実際のラボで行われます(このモデルをトレーニングするのと同じように、非常に特殊な機械が色分析を使用して化学物質の濃度を出力します)。 これまでのところ、おおよそVGG(conv-conv-conv-poolブロックの複数のシーケンス)に基づいたモデルで実験したことがあります。より最近のアーキテクチャ(Inception、ResNetなど)を試す前に、画像を使用した回帰でより一般的に使用される他のアーキテクチャがあるかどうかを調査したいと思いました。 データセットは次のようになります。 データセットには約5,000の250x250のサンプルが含まれていますが、64x64にサイズ変更したため、トレーニングが簡単になりました。有望なアーキテクチャを見つけたら、より大きな解像度の画像で実験します。 これまでのところ、私の最良のモデルでは、トレーニングセットと検証セットの両方で約0.3の平均二乗誤差があり、これは私のユースケースでは受け入れられません。 これまでの私の最高のモデルは次のようになります。 // pseudo code x = conv2d(x, filters=32, kernel=[3,3])->batch_norm()->relu() x = conv2d(x, filters=32, kernel=[3,3])->batch_norm()->relu() x = conv2d(x, filters=32, kernel=[3,3])->batch_norm()->relu() x = maxpool(x, size=[2,2], stride=[2,2]) x = conv2d(x, filters=64, kernel=[3,3])->batch_norm()->relu() x = conv2d(x, filters=64, kernel=[3,3])->batch_norm()->relu() x = conv2d(x, filters=64, kernel=[3,3])->batch_norm()->relu() x = maxpool(x, size=[2,2], stride=[2,2]) x …

5
LSTMユニットとセルの理解
私はしばらくの間LSTMを研究してきました。私はすべてがどのように機能するかを高いレベルで理解しています。ただし、Tensorflowを使用して実装する場合、BasicLSTMCellには多数のユニット(つまりnum_units)パラメーターが必要であることに気付きました。 LSTMのこの非常に徹底的な説明から、単一のLSTMユニットが次のいずれかであることがわかりました。 これは実際にはGRUユニットです。 のパラメーターnum_unitsは、BasicLSTMCellレイヤー内で相互に接続するこれらの数を参照していると想定しています。 それは疑問を残します-この文脈での「セル」とは何ですか?「セル」は、通常のフィードフォワードニューラルネットワークのレイヤーと同等ですか?


1
結合信頼区間を計算するためのガウス相関不等式の結果
Quanta Magazineのこの非常に興味深い記事によると、「長い間求められていた証拠、発見され、ほとんど失われた」、- 多変量ガウス分布を持つベクトルが与えられたことが証明されました。そして間隔所与I 1、... 、Iはn個の対応する構成要素の手段を中心Xを、次いで、x=(x1,…,xn)x=(x1,…,xn)\mathbf{x}=(x_1,\dots,x_n)I1,…,InI1,…,InI_1,\dots,I_n xx\mathbf{x} p(x1∈I1,…,xn∈In)≥∏i=1np(xi∈Ii)p(x1∈I1,…,xn∈In)≥∏i=1np(xi∈Ii)p(x_1\in I_1, \dots, x_n\in I_n)\geq \prod_{i=1}^n p(x_i\in I_i) (ガウス相関不等式またはGCI。より一般的な定式化については、https: //arxiv.org/pdf/1512.08776.pdfを参照してください)。 これは本当に素晴らしく簡単に思えますが、記事は、それが共同信頼区間に結果をもたらすと述べています。しかし、それに関しては私にはまったく役に立たないようです。我々はパラメータ推定されていると仮定 、我々は推定した^ θ 1、... 、^ θ n個ある(多分漸近的に)共同ノーマル(例えば、MLE推定)。次に、各パラメーターの95%信頼区間を計算すると、GCIはハイパーキューブI 1 × … I nが(θ1,…,θnθ1,…,θn\theta_1,\dots,\theta_nθ1^,…,θn^θ1^,…,θn^\hat{\theta_1},\dots,\hat{\theta_n}I1×…InI1×…InI_1\times\dots I_n ...これは、適度な nでもかなり低いカバレッジです。(0.95)n(0.95)n(0.95)^n nnn したがって、共信頼領域を見つける賢い方法ではないようです。多変量ガウス、つまり超楕円体の通常の信頼領域は、共分散行列が既知で、よりシャープであるかどうかを見つけるのは難しくありません。共分散行列が不明な場合に信頼領域を見つけることが役立つかもしれませんか?GCIと共同信頼領域の計算との関連性の例を教えてください。

2
データを視覚化した後に統計テストを実行する-データの??
例としてこの質問を提案します。 ボストンの住宅価格データセットなどのデータセットがあり、そこに連続変数とカテゴリ変数があるとします。ここには、1〜10の「品質」変数と販売価格があります。品質のカットオフを(任意に)作成することで、データを「低」、「中」、「高」の品質の家に分けることができます。次に、これらのグループを使用して、販売価格のヒストグラムを相互にプロットできます。そのようです: ここで、「低」は、および「高」である> 7「品質」スコアに。これで、3つのグループのそれぞれの販売価格の分布ができました。中品質の住宅と高品質の住宅では、場所の中心に違いがあることは明らかです。さて、これをすべて終えた後、「うーん、場所の中心に違いがあるようです!どうして平均値でt検定をしないのですか?」と思います。次に、平均に差がないという帰無仮説を正しく拒否するように見えるp値を取得します。≤ 3≤3\leq 3> 7>7>7 さて、データをプロットするまで、この仮説をテストすることを何も考えていないとします。 このデータはdrですか? 「もし、私は以前に家に住んでいた人間だから、高品質の家はもっと費用がかかるに違いない。データをプロットするつもりだ。ああ、違う!時間だ!」 t検定に!」 当然、この仮説を最初からテストするためにデータセットが収集された場合、データのredではありません。しかし、しばしば私たちに与えられたデータセットで作業しなければならず、「パターンを探す」ように言われます。このあいまいなタスクを念頭に置いて、データのdrを回避する方法を教えてください。データをテストするためのホールドアウトセットを作成しますか?視覚化は、データによって提案された仮説をテストする機会のスヌーピングとして「カウント」されますか?

2
ロジスティック回帰:Scikit Learn vs Statsmodels
これら2つのライブラリのロジスティック回帰からの出力が異なる結果を与える理由を理解しようとしています。 私は、UCLAのidreのからのデータセットを使用していますチュートリアル予測、admitに基づいてgre、gpaとrank。rankはカテゴリ変数として扱われるため、最初にrank_1ドロップされてダミー変数に変換されます。インターセプト列も追加されます。 df = pd.read_csv("https://stats.idre.ucla.edu/stat/data/binary.csv") y, X = dmatrices('admit ~ gre + gpa + C(rank)', df, return_type = 'dataframe') X.head() > Intercept C(rank)[T.2] C(rank)[T.3] C(rank)[T.4] gre gpa 0 1 0 1 0 380 3.61 1 1 0 1 0 660 3.67 2 1 0 0 0 800 4.00 3 1 …

4
試験の結果は二項式ですか?
ここに私が与えられた簡単な統計の質問があります。私はそれを理解しているのか本当にわかりません。 X =試験の獲得ポイントの数(複数選択と正解は1ポイント)。X二項分布はありますか? 教授の答えは次のとおりです。 はい、正解か不正解しかありません。 私の答え: いいえ、各質問には異なる「成功確率」があります。私が理解したように、二項分布は単なる一連のベルヌーイ実験であり、それぞれが特定の成功確率pを持つ単純な結果(成功または失敗)を持ちます(そしてすべてがpに関して「同一」です)。たとえば、(公正な)コインを100回フリッピングすると、これは100ベルヌーイ実験であり、すべてp = 0.5になります。しかし、ここでの質問にはさまざまな種類がありますか?

3
文字列(単語)の長いリストを類似グループにクラスタリングする
私には次の問題があります:非常に長い単語のリスト、おそらく名前、姓などがあります。この単語リストをクラスタ化する必要があります。同じクラスター。たとえば、「algorithm」と「alogrithm」は同じクラスターに表示される可能性が高いはずです。 パターン認識の文献で、k-meansクラスタリング、EMクラスタリングなどの古典的な教師なしクラスタリング手法をよく知っています。ここでの問題は、これらのメソッドがベクトル空間にあるポイントで機能することです。私はここで手に弦の言葉を持っています。私のこれまでの調査努力によれば、数値ベクトル空間で文字列を表現し、文字列クラスタの「平均」を計算する方法の問題は十分に答えられていないようです。この問題を攻撃するための単純なアプローチは、k-Meansクラスタリングとレーベンシュタイン距離を組み合わせることですが、「ストリングの「手段」をどのように表現するのか?」という疑問は残ります。TF-IDFウェイトと呼ばれるウェイトがありますが、それは単一の単語のクラスタリングではなく、「テキストドキュメント」クラスタリングの領域にほとんど関連しているようです。 http://pike.psu.edu/cleandb06/papers/CameraReady_120.pdf この分野での検索はまだ続いていますが、ここからもアイデアを得たいと思いました。この場合、何をお勧めしますか?この種の問題の方法を知っている人はいますか?

6
節約は本当にゴールドスタンダードである必要がありますか?
ちょっとした考え: 控えめなモデルは常にモデル選択のデフォルトの対象でしたが、このアプローチはどの程度古くなっていますか?私たちのpar約傾向が、アバチとスライドのルール(または、もっと真剣に、非近代的なコンピューター)の時代の遺物であることに興味があります。今日の計算能力により、予測能力がさらに向上し、ますます複雑化するモデルを構築できます。この計算能力の上限の増加の結果として、私たちは本当に単純さに引き寄せられる必要があるのでしょうか? 確かに、より単純なモデルは理解と解釈が容易ですが、変数の数が増え、予測機能に重点が置かれるようになりつつあるデータセットが増え続ける時代には、これはもはや達成できず、必要もありません。 考え?

3
TensorflowでPCAを超えるオートエンコーダーを構築する
ニューラルネットワークでデータの次元数を削減するヒントンとサラクーディノフ、サイエンス 2006は、ディープオートエンコーダーの使用による非線形PCAを提案しました。Tensorflowを使用してPCAオートエンコーダーを何度も構築およびトレーニングしようとしましたが、線形PCAよりも良い結果を得ることができませんでした。 オートエンコーダを効率的にトレーニングするにはどうすればよいですか? (@amoebaによる後の編集:この質問の元のバージョンには、正しく動作しなかったPython Tensorflowコードが含まれていました。編集履歴で見つけることができます。)

5
信頼区間は精度について何と言っていますか(もしあれば)?
Morey et al(2015)は、信頼区間は誤解を招くものであり、それらの理解に関連する複数のバイアスがあると主張しています。とりわけ、彼らは精度の誤precisionを次のように説明しています: 精度の誤り 信頼区間の幅は、パラメーターに関する知識の精度を示します。狭い信頼区間は正確な知識を示し、広い信頼誤差は不正確な知識を示します。 推定の精度と信頼区間のサイズの間に必要な関係はありません。これを確認する1つの方法は、2人の研究者(上級研究者と博士課程の学生)がデータを分析していることを想像することです505050実験から 50人の参加者のです。博士課程の学生の利益のための演習として、上級研究者は参加者をランダムに 2セットに分割し、252525それぞれがデータセットの半分を個別に分析できるようにすることを決定します。後続の会議で、2人は互いに平均のスチューデントのttt信頼区間を共有します。博士課程の学生の95%95%95\% CIは52±252±252 \pm 2であり、上級研究員の 95 % CIは95%95%95\%CIはです。53±453±453 \pm 4 上級研究員は、結果がほぼ一貫しており、それぞれの2つのポイント推定値の均等に重み付けされた平均値真の平均値の全体的な推定値として使用できることに注目しています。52.552.552.5 しかし、博士課程の学生は、2つの平均を均等に重み付けすべきではないと主張します。彼女は、CIの幅が半分であると指摘し、推定がより正確であるため、より重く重み付けする必要があると主張します。彼女のアドバイザーは、2つの平均の不均等な重み付けからの推定値は、完全なデータセットの分析からの推定値とは異なるため、でなければならないため、これは正しいとは言えないと指摘します。博士課程の学生の間違いは、CIがデータ後の精度を直接示すと仮定していることです。52.552.552.5 上記の例は誤解を招くようです。サンプルをランダムに半分に2つのサンプルに分割すると、サンプル平均と標準誤差の両方が近くなると予想されます。このような場合、加重平均の使用(たとえば、逆誤差による加重)と単純な算術平均の使用に違いはありません。ただし、推定値が異なり、サンプルの1つのエラーが著しく大きい場合、そのようなサンプルの「問題」を示唆している可能性があります。 明らかに、上記の例では、サンプルサイズが同じであるため、平均をとることでデータを「結合」することは、サンプル全体を平均することと同じです。問題は、サンプル全体が最初に部分に分割され、最終的な推定のために再び結合されるという不明確なロジックに従っているということです。 この例を言い換えると、まったく逆の結論に導くことができます。 研究者と学生は、データセットを2つに分割し、個別に分析することにしました。その後、彼らは彼らの推定値を比較し、サンプルは彼らが計算したものが非常に異なっていることを意味し、さらに学生の推定値の標準誤差ははるかに大きかったようでした。学生はこれが彼の推定の精度の問題を示唆することを恐れていましたが、研究者は信頼区間と精度の間に関連性がないことを暗示したので、両方の推定は等しく信頼でき、ランダムに選択されたそれらのいずれかを公開できます、最終的な見積もりとして。 より正式に述べると、スチューデントのような「標準」信頼区間はエラーに基づいていますttt x¯±c×SE(x)x¯±c×SE(x) \bar x \pm c \times \mathrm{SE}(x) どこ、いくつかの定数です。そのような場合、それらは精度に直接関係していますよね。ccc だから私の質問は次のとおり です。信頼区間は精度について何と言っていますか? Morey、R.、Hoekstra、R.、Rouder、J.、Lee、M.、&Wagenmakers、E.-J. (2015)。信頼区間に信頼を置くという誤り。Psychonomic Bulletin&Review、1–21。https://learnbayes.org/papers/confidenceIntervalsFallacy/

4
データのウィンザライズとトリミングの相対的なメリットは何ですか?
データのウィンソライズとは、データセットの極値を各端から特定のパーセンタイル値に置き換えることを意味し、トリミングまたは切り捨てにはこれらの極値の削除が含まれます。 平均または標準偏差などの統計を計算する際に、外れ値の影響を軽減するための実行可能なオプションとして、両方の方法について説明していますが、一方を選択する理由はわかりません。 WinsorizingまたはTrimmingを使用することに相対的な利点または欠点はありますか?1つの方法が望ましい特定の状況はありますか?実際にはもっと頻繁に使用されていますか、それとも基本的に交換可能ですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.