タグ付けされた質問 「communication」

統計データ、分析、または概念の伝達または説明に関連する

11
ブートストラップが機能する理由を素人に説明する
最近、ブートストラップを使用して、プロジェクトの信頼区間を推定しました。統計についてあまり知らない人が最近、ブートストラップが機能する理由、つまり、同じサンプルを何度もリサンプリングすると良い結果が得られる理由を説明するように頼まれました。使い方を理解するのに多くの時間を費やしましたが、ブートストラップが機能する理由を本当に理解していないことに気付きました。 具体的には、サンプルからリサンプリングしている場合、サンプルだけでなく母集団について何かを学んでいるというのはどうですか?そこには、直観に反する飛躍があるようです。 ここで、この質問に対するいくつかの答えを見つけました。特にこれ。私は統計の「消費者」であり、統計学者ではありません。私は統計よりも統計についてあまり知らない人々と仕事をしています。だから、誰かが、最小限の定理などへの言及で、ブートストラップの背後にある基本的な理由を説明できますか?つまり、隣人に説明しなければならないとしたら、何と言いますか?

15
最も紛らわしい統計用語
統計学者は、他の人が使用する方法とは少し異なる方法で多くの単語を使用します。私たちが何をしているかを教えたり説明したりすると、これは多くの問題を引き起こします。リストを開始します(そして、コメントごとに定義を追加します)。 パワーとは、誤った帰無仮説を正しく拒否する能力です。通常、これは「何かが起こっている」と正しく言うことを意味します。 バイアス-統計は、それに関連する母集団パラメーターと体系的に異なる場合、バイアスがかけられます。 有意性-結果は、以下の状況で数パーセント(多くの場合5%)で統計的に有意です:サンプルが由来する母集団の真の効果が0の場合、少なくともサンプルから得られたものと同じくらい極端な統計が発生します時間の5%。 相互作用-従属変数と1つの独立変数との関係が他の独立変数の異なるレベルで異なる場合、2つの独立変数が相互作用します しかし、他にも多くの人がいる必要があります!

3
glmnetを使用して投げ縄の結果を表示する方法
30個の独立変数のセットから連続従属変数の予測子を見つけたいです。R のglmnetパッケージに実装されているLasso回帰を使用しています。ダミーコードを次に示します。 # generate a dummy dataset with 30 predictors (10 useful & 20 useless) y=rnorm(100) x1=matrix(rnorm(100*20),100,20) x2=matrix(y+rnorm(100*10),100,10) x=cbind(x1,x2) # use crossvalidation to find the best lambda library(glmnet) cv <- cv.glmnet(x,y,alpha=1,nfolds=10) l <- cv$lambda.min alpha=1 # fit the model fits <- glmnet( x, y, family="gaussian", alpha=alpha, nlambda=100) res <- predict(fits, ...

11
統計や機械学習に関する人気の高い科学の本はありますか?
本物の科学だけでなく、現在の理論の背後にある歴史と理由を扱った非常に優れた人気の科学書がたくさんありますが、読むことは非常に楽しいままです。たとえば、ジェームズ・グレイクによる「カオス」(カオス、フラクタル、非線形性)、スティーブン・ホーキングによる「時間の短い歴史」(物理学、宇宙の起源、時間、ブラックホール)、リチャード・ドーキンスによる「利己的な遺伝子」 (進化と自然選択)。これらの本の中には、議論を提示するもの(Dawkins)と提示しないもの(Gleick)があります。しかし、それらはすべて、綿密な科学教育を受けていない私たちにとって、そうでなければ難しい概念を理解しやすくするのに役立ちます。 主に統計や機械学習に焦点を当てた本はありますか? 各本がカバーする内容の要約を含めてください。

10
難しい統計概念について、あなたのお気に入りの素人の説明は何ですか?
複雑な問題の簡単な説明を聞くのは本当に楽しいです。難しい統計概念を説明するお気に入りのアナロジーや逸話は何ですか? 私のお気に入りは、酔っぱらいと彼女の犬を使用した共和分についてのマレーの説明です。マレーは、2つのランダムプロセス(さまよえる酔っ払いと彼女の犬、オリバー)がどのように単位根を持つことができるかを説明します。 酔っぱらいはバーから出発し、ランダムウォーク形式であてもなくさまよう。しかし、彼女は定期的に「オリバー、どこにいるの?」と口調を変え、オリバーは彼の目的のない樹皮へのさまようことを中断します。彼は彼女を聞いた。彼女は彼の声を聞きます。彼は、「ああ、私は彼女をあまりにも遠くに行かせることはできません。彼女は私を締め出すでしょう。「ああ、私は彼にあまりにも遠くまで行かせることはできない。彼は夜中に彼のbarえ声で私を起こすだろう」と彼女は考えます。それぞれが、相手がどれだけ離れているかを評価し、そのギャップを部分的に閉じるように動きます。

2
人工の地球温暖化の証拠は「ゴールドスタンダード」に当たります:彼らはどうやってこれをしましたか?
25.02.2019からのロイターの記事にあるこのメッセージは、現在すべてのニュースに掲載されています。 人工の地球温暖化の証拠は「ゴールドスタンダード」に当たります [科学者]は、人間の活動が地球の表面の熱を高めているという自信が「5シグマ」レベルに達したと言いました。温暖化なし。 これは、この記事「気候変動科学における3つの重要なイベントの記念日を祝う」を参照していると思います。これには、下図に示すプロットが含まれています無料の画像はこちらにあります)。同じ研究グループの別の記事は、より独創的な情報源と思われますが、ここにあります(ただし、ではなく1%の有意性を使用しています)。5つのσ5σ5\sigma このプロットは、リモートセンシングシステム、衛星応用研究センター、アラバマ大学ハンツビルの3つの異なる研究グループの測定値を示しています。 プロットは、トレンドの長さの関数として、信号対ノイズ比の3つの上昇曲線を表示します。 だから、何とか科学者は地球温暖化の人為的な信号を測定している(または気候変動を?)でレベル、明らかにいくつかある証拠の科学的な標準。5つのσ5σ5\sigma 私にとって、このようなグラフは抽象度が高く、多くの疑問を提起します、そして一般的に「どうやってこれをしたのですか?」という疑問について疑問に思います。。この実験を単純な単語に(しかし、それほど抽象的ではない)説明し、レベルの意味をどのように説明しますか?††^{\dagger} 5σ5つのσ5σ5\sigma 私は気候について議論したくないので、ここでこの質問をします。代わりに、統計コンテンツに関する回答、特にを使用/主張しているこのようなステートメントの意味を明確にするために答えを求めています。5つのσ5σ5 \sigma ††^\dagger帰無仮説とは何ですか?人為的な信号を得るために、彼らはどのように実験を設定しましたか?信号のエフェクトサイズは?それは単なる小さな信号であり、ノイズが減少しているため、または信号が増加しているため、今これを測定するだけです 5シグマのしきい値(独立、ランダム効果など)の交差を決定する統計モデルを作成するために、どのような仮定が行われますか?異なる研究グループの3つの曲線が異なるのはなぜですか、異なるノイズがあるのか​​、異なる信号があるのですか?後者の場合、確率と外部妥当性の解釈に関してそれはどういう意味ですか?

1
美しく書かれた論文
デイビッド・サルズバーグの本「お茶を味わう女性」から: 読者はそれを信じないかもしれませんが、文学スタイルは数学的研究において重要な役割を果たします。一部の数学ライターは、理解しやすい記事を作成できないようです。他の人は、ピカユンで一般的なアイデアが失われるほど詳細に満ちた記号表記の多くの行を生成することからひどい喜びを得るようです。 しかし、一部の著者は、その説明が明らかであると思われるほどの力とシンプルさで複雑なアイデアを表示する能力を持っています。学んだことを検討して初めて、読者は結果の大きな力に気付きます。そのような著者はジャージー・ネイマンでした。彼の論文を読むことは喜びです。アイデアは自然に進化し、表記法は一見単純です。結論は非常に自然であるため、誰もこれらの結果をずっと前に作成していない理由を理解するのが難しいと思われます。 統計や機械学習に関するこのようなよく書かれた論文の他の具体例は何ですか? アイデアは、「これがあなたが書くべき方法」論文のリストを持つことです。 提供してください: 以下のような完全な書誌引用: カールE.ラスムッセン、「無限ガウス混合モデル」、ニューラル情報処理システム12、Vol。12(2000) リンクの場合、可能であれば公開されているリポジトリにリンクしてください(例:http : //arxiv.org/)。 論文が何であるか、なぜそれが一流のよく書かれた論文の例であるかについての短い、非公式の、包括的なレビュー。

2
多重線形回帰モデルを記述または視覚化する方法
いくつかの入力パラメーター、たとえば3を使用して、多重線形回帰モデルをデータに適合させようとしています。 F(x )F(x )= A x1+ B x2+ Cバツ3+ dまたは= (A B C )T(x1 バツ2 バツ3)+ d(私)(ii)(私)F(バツ)=Aバツ1+Bバツ2+Cバツ3+dまたは(ii)F(バツ)=(A B C)T(バツ1 バツ2 バツ3)+d\begin{align} F(x) &= Ax_1 + Bx_2 + Cx_3 + d \tag{i} \\ &\text{or} \\ F(x) &= (A\ B\ C)^T (x_1\ x_2\ x_3) + d \tag{ii} \end{align} このモデルを説明して視覚化するにはどうすればよいですか?次のオプションが考えられます。 このモデルの精度を示すために、標準偏差と(係数、定数)で説明されているように回帰方程式に言及し、次に残差プロットに言及します。 (i )(私)(i) ...

4
3つのグループ間で多くの割合の違いを最もよく視覚化する方法は?
3つの異なるニュース出版物がさまざまなトピックをカバーする方法を視覚的に比較しようとしています(LDAトピックモデルによって決定されます)。これを行うための2つの関連する方法がありますが、これはあまり直感的ではないという同僚から多くのフィードバックを受け取っています。誰かがこれを視覚化するためのより良いアイデアを持っていることを願っています。 最初のグラフでは、各出版物の各トピックの割合を次のように示しています。 これは、私が話したほとんどすべての人にとって非常に簡単で直感的です。ただし、出版物の違いを確認することは困難です。どの新聞がどのトピックをさらに取り上げていますか? これを実現するために、トピックの割合が最も高い出版物と2番目に高い出版物との違いをグラフ化し、最高の出版物で色付けしました。このような: たとえば、サッカーの巨大なバーは、実際にはアルアフラムイングリッシュとデイリーニュースエジプト(サッカーの報道では2位)の間の距離であり、アルアハラムが1位であるため、赤色になっています。同様に、エジプト独立の割合が最も高く、バーサイズがエジプト独立とデイリーニュースエジプト(再び#2)の間の距離であるため、試行は緑色です。 2つのパラグラフのすべてが、グラフが自給自足テストに失敗したというかなり確実な兆候であることを説明しなければならないという事実。見ているだけでは、実際に何が起こっているのかを知るのは困難です。 各トピックの主要な出版物を視覚的に強調する方法に関する一般的な提案はありますか? 編集:データを再生するにはここでのdputRからの出力だけでなく、CSVファイル。 編集2:これは予備のドットプロットバージョンです。ドットの直径はコーパス内のトピックの割合に比例します(これは、トピックが最初にソートされた方法です)。まだ少し調整する必要がありますが、以前よりもずっと直感的に感じられます。みんな、ありがとう!

3
ロジスティック回帰とパーセプトロンの違い
私が理解しているように、ロジスティックシグモイド活性化関数を備えたパーセプトロン/単層人工ニューラルネットワークは、ロジスティック回帰と同じモデルです。両方のモデルは次の方程式で与えられます: F(x )= 11 − e- βバツF(バツ)=11−e−βバツF(x) = \frac{1}{1-e^{-\beta X}} パーセプトロン学習アルゴリズムはオンラインでエラー駆動型ですが、ロジスティック回帰のパラメーターは、勾配降下や制限メモリBFGSなどのさまざまなバッチアルゴリズム、または確率勾配降下などのオンラインアルゴリズムを使用して学習できます。ロジスティック回帰とシグモイドパーセプトロンの間に他の違いはありますか?確率的勾配降下法で訓練されたロジスティック回帰の結果は、パーセプトロンに類似すると予想されるべきですか?

3
統計的背景のない人々に一般化線形モデルをどのように説明しますか?
私は、統計的背景のない聴衆に統計的手法を説明するのにいつも苦労しています。そのような聴衆にGLMが何であるかを説明したい場合(統計的な専門用語を捨てずに)、最良または最も効果的な方法は何でしょうか? 私は通常、3つの部分でGLMを説明します-(1)応答変数であるランダム成分、(2)線形予測子である系統的成分、および(3)接続の「鍵」であるリンク関数(1)および(2)。次に、線形回帰またはロジスティック回帰の例を示し、応答変数に基づいてリンク関数がどのように選択されるかを説明します。したがって、2つのコンポーネントを接続するキーとして機能します。

5
データ視覚化技術の認知処理/解釈
誰もが異なる視覚化技術の有効性(理解可能性)を調査する研究を知っていますか? たとえば、ある形式の視覚化を他の形式よりも早く理解するのはどれくらいですか?視覚化との対話性は、人々がデータを思い出すのに役立ちますか?それらの線に沿ったもの。視覚化の例としては、散布図、グラフ、タイムライン、マップ、インタラクティブインターフェイス(平行座標など)などがあります。 私は特に一般人の研究に興味があります。

3
不確実性を伝えるのに最適な方法は?
統計計算の結果をメディアや一般に伝える上での大きな問題は、不確実性をどのように伝えるかです。確かに、ほとんどのマスメディアは、比較的少数の場合を除いて、数字には常にある程度の不確実性がありますが、ハードで速い数字を好むようです。 それでは、統計学者(または統計作業を説明する科学者)として、不確実性をタクトに保ち、聴衆にとって意味のあるものにしながら、結果を最もよく伝えるにはどうすればよいでしょうか? これは実際には統計問題ではなく、統計に関する心理学的問題ではないが、ほとんどの統計学者や科学者が懸念していることは確かだ。良い答えは、統計の教科書よりも心理学の研究に言及するかもしれないと想像しています... 編集:ユーザー568458の提案によると、ここでケーススタディが役に立つかもしれません。可能であれば、他の分野に一般的な回答を保管してください。 私が興味を持っている特定のケースは、良い例として役立ちます。マスメディアを介した気候学の政治家や一般市民へのコミュニケーションです。言い換えれば、科学者として、彼らが正確に国民にその情報を伝えるにはほとんど困難を有するようにジャーナリストに情報を伝えるためにあなたの仕事である- 、真実であること、必ずしも必要ではないが、全体の真実、その通常、一口に収まりません。 いくつかの特に一般的な例は、世紀の残りの期間の温暖化の程度の推定値の不確実性の通信、または特定の極端な気象イベントの可能性の増加です。 」と入力します。

3
報告する有効桁数
かなり標準的な状況(大学の1年生のクラスなど)で、平均または信頼区間について報告する有効桁数を決定するより科学的な方法はありますか? 私が見てきた、テーブルに置くために有効数字の数を、我々は有効桁使用していないのはなぜおよびカイ二乗適合に有効数字の数を、これらの問題に自分の指を入れていないように見えます。 私のクラスでは、結果に非常に広い標準誤差がある場合に15桁の有効数字を報告するのはインクの無駄であることを生徒に説明しようとしています。。これは、E29を参照するASTM- レポートテスト結果でと間にあるべきであると言っているところとあまり違いはありません。0.25σ0.25σ0.25\sigma0.05σ0.05σ0.05\sigma0.5σ0.5σ0.5\sigma 編集: x以下のような一連の数値がある場合、平均と標準偏差を出力するために何桁使用する必要がありますか? set.seed(123) x <- rnorm(30) # default mean=0, sd=1 # R defaults to 7 digits of precision options(digits=7) mean(x) # -0.04710376 - not far off theoretical 0 sd(x) # 0.9810307 - not far from theoretical 1 sd(x)/sqrt(length(x)) # standard error of mean 0.1791109 質問:これに平均と標準偏差の精度(倍精度数のベクトルがある場合)を詳しく説明し、平均と標準偏差を有効桁数の有効桁数に出力する単純なR教育関数を記述します。ベクトルに反映されxます。


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.