表に入れるべき重要な数字の数は?


13

公開する重要な数字の数について十分に確立されたルールはありますか?

特定の例/質問を次に示します。

  • 有効数字の数を変動係数に関連付ける方法はありますか?たとえば、推定値が12.3でCVが50%の場合、「。3」で表される情報がゼロに近づくことを意味しますか?

  • 信頼区間に桁違いの範囲がある場合、同じ数の有効数字があるはずです、例えば:

    12.3(1.2、123.4)vs 12(1.2、120)

  • 誤差推定値の有効数字の数は、平均の有効数字の数と同じかそれより少ないべきですか?


可能な場合は、テーブルを使用しないでください:)グラフィックは、IMOであり、ほとんどの場合、テーブルよりも読みやすくなっています(多くの数字がない場合は明らかな例外です)。ジャーナルとそのレビュアーは、残念ながら常に同意するわけではありません
JMS

3
@JMS良い点ですが、テーブルは、統計単位の詳細な特性(臨床診断などの因子関心によって相互分類)、さまざまなタイプの変数(連続、名義、序数)、およびその他の結果の要約に役立ちます図に収まらない統計モデリング自体(混同行列、回帰係数など)から(または、正規グラフをドットチャートとして表示するためのゲルマンのアプローチを考えると常にそうではありません)。両方が必要です。問題は、テーブルIMOの代わりにいつFigureが本当に必要になるかです。
-chl

@chiフェア。私はほとんど常に言った:)。大きなn-wayテーブルのようなものをグラフィカルに(完全に)再現することは不可能です。それは私が言うフォーラムに依存します。テーブルは完全であるという利点がありますが、読者は実際に余分な情報をすべて吸収しますか?グラフに収まらないほど多くのパラメーターがある場合、テーブルは多くの場合少なくとも読みにくいと主張します。しかし、再現性以外の何ものでもなければ、完全な結果にアクセスできるはずです(オンライン、付録など)。その場合、データとコードも欲しいです!さまようOT、ごめんなさい。
JMS

また、回帰係数と混同(相関、共分散、...)マトリックスは、通常、前者のグラフィック表示、ドットプロット、または後者のヒートマップまたはグラフにより適していると思います。
JMSの

@JMSあなたの主張に同意しますが、この場合は数字の制限があり、他のいくつかの場合は数字の料金があります。また、この場合、読者が表を見渡して提示された数字に注目すれば、難解な数字のポイントを理解しようとして時間を無駄にすることはありません。しかし、私は完全に再現性をサポートしており、私がそれに取り組んでいる間、私は(もしそれに近づいたなら)添付されたコードにテーブルの視覚化を追加することができました。
デビッドルバウアー

回答:


19

私は普遍的なルールがあるとは思わないので、私はそれを補うつもりはありません。これらの考えとその背後にある理由を共有できます。

  • 要約にデータ自体(最大、最小、順序統計など)が反映されている場合、最初にデータを記録するために使用したのと同じ数の有効数字を使用します。これにより、データの精度に関するドキュメント全体で一貫した表現が提供されます。

  • サマリーの精度がデータより高い場合、その余分な精度を反映する方法で値を書き込みます。たとえば、値の平均には、個々の値の精度の倍があります。おおよそ、場合は1つの余分な有効数字、は2 桁などです。 (これは明らかに対数10のスケールで丸めています。)nn3n3030<n300

    - この点に関して、CVは有用な情報を提供しないことに注意してください。

    -かなりの精度で推定値を取得できます。他の何かと一致するように丸める必要はありません。たとえば、1,000,000整数の平均は10.977であり、標準誤差は0.00301です。平均を小数点以下3桁(および4〜5桁の数字)に書き込むという私の決定は、SEの大きさの順序に基づいていました。これは、最後の桁が部分的に信頼できることを示します。SEを3つのsig fig(小数点以下5桁)に書き込むという決定は、よりarbitrary意的です。2つのsig figが機能します。おそらくそうではないでしょう。4つのsigイチジクも機能し、平均で4-5のシグイチジクと一致します。4を超えるsigイチジクは過剰になります。(データの4番目の瞬間に関してSE自体の標準誤差を推定し、それを使用して適切な丸めの量を決定できますが、私たちのほとんどはそのような問題に直面しません...)

  • 実質的な丸めを行っているときに、読者に信号を送ります。 レポートで統計的検定自体について議論している場合は特に注意してください。理由は、人々があなたの仕事を使って自分の計算をチェックするかもしれないからです。わずかな違いでさえエラーを明らかにすることがあります。123を120に丸め、他の誰かが作業をチェックして123を取得し、自分の1人が誤っていると疑うので、問題を引き起こしたくありません。

  • 一貫してください。ある時点で値を123としてリストし、後で120として参照すると、読者を失う可能性があります。

  • ばかげてはいけません。(たとえば、データに2つのsigイチジクしか含まれていない場合に15のシグニチグに統計結果を与えるレポートに出くわすと、私は自動的に無能だと疑います。)


2
それは本当にたくさんの良いアドバイスだからです。同様に、調査(または投票)から収集されたデータを、サンプルサイズを考慮せずに小数の多い%として要約することは本当に意味がないことを学生に示したい(標準誤差に影響する)。
-chl

0

12(1.2、123.4)をお勧めします。ほとんど意味がないので.3を省略しますが、多くの人が(1.2、120)を見ると、120の最後の「0」が重要であると見なします。


CIに表示することに同意する場合、関心のある統計の小数を省略することを提案するのはなぜですか(つまり、12の意味がない場合、なぜ123.4に意味があるのですか)。
chl

@chl:あまり意味がありませんが、省略すると誤解を招く可能性があります。私が123.4に入れると、あなたのような人は余分な数字を見て、それらを無視するだけで、害はありません。120を入れると、多くの読者はこれが3桁の精度であると思うでしょう-悪い。
AVB

123の代わりに123.4を推奨する理由がまだ明確ではありません(例では.3を省略しますが、.4は省略しません)?
David LeBauer
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.