報告する有効桁数


12

かなり標準的な状況(大学の1年生のクラスなど)で、平均または信頼区間について報告する有効桁数を決定するより科学的な方法はありますか?

私が見てきた、テーブルに置くために有効数字の数を我々は有効桁使用していないのはなぜおよびカイ二乗適合に有効数字の数を、これらの問題に自分の指を入れていないように見えます。

私のクラスでは、結果に非常に広い標準誤差がある場合に15桁の有効数字を報告するのはインクの無駄であることを生徒に説明しようとしています。。これは、E29を参照するASTM- レポートテスト結果でと間にあるべきであると言っているところとあまり違いはありません。0.25σ0.05σ0.5σ

編集:

x以下のような一連の数値がある場合、平均と標準偏差を出力するために何桁使用する必要がありますか?

set.seed(123)
x <- rnorm(30) # default mean=0, sd=1
# R defaults to 7 digits of precision options(digits=7)
mean(x) # -0.04710376 - not far off theoretical 0
sd(x) # 0.9810307 - not far from theoretical 1
sd(x)/sqrt(length(x)) # standard error of mean 0.1791109

質問:これに平均と標準偏差の精度(倍精度数のベクトルがある場合)を詳しく説明し、平均と標準偏差を有効桁数の有効桁数に出力する単純なR教育関数を記述します。ベクトルに反映されxます。


「表に入れる重要な数字の数」がなぜあなたの質問に完全に対応していないのか理解できません。
whuber

その質問@whuberに対するあなたの答えが好きですが、もう少し詳しく教えてください。
Sean、

1
しかし、何についての詳細ですか?いずれにしても、あなたの質問は本当にその質問の正確な複製であるように聞こえます。あなたが望むのは、その回答の改善を見ることです 私は正しいですか?ところで、あなたが教育的ガイダンスを探しているなら、地理座標の報告に関して私がgis.stackexchange.com/questions/8650に投稿した1つの(特別な)例を示したいと思います。ほとんどの読者が簡単かつ直感的に把握できるサイズのオブジェクトを持つ数字。同様のアプローチが他のアプリケーションでもうまく機能する可能性があります。
whuber

1
@whuberはい、あなたは正しいです、そして私はその例が好きです。精度が標準偏差とどのように関連しているかについて、もっと詳しく調べたいと思います。たとえば、Rでは、x <-rnorm(30); mean(x); sd(x)#ここでは明らかにsdは約1ですが、Rではデフォルトで平均が7桁の精度で出力されます。sd(x)/ 30は約0.18です。ありがとう
ショーン

R印刷がグローバル値によって制御される(同様に、ほぼすべてのソフトウェア)(参照options(digits=...)しない精度の考慮によって、)。
whuber

回答:


9

測定の不確実性ガイド(GUM)は、不確実性を2桁以下で報告し、結果を不確実性と一致させるために必要な有効桁数で報告することを推奨しています。以下のセクション7.2.2を参照

http://www.bipm.org/utils/common/documents/jcgm/JCGM_100_2008_E.pdf

次のコードは、Rにこの推奨事項を実装するための私の試みでした。Noは、たとえ重要であっても、Rが末尾のゼロを出力に保持しようとすると非協調的である可能性があるということです。

gumr <- function(x.n,x.u) {
  z2 <- trunc(log10(x.u))+1
  z1 <- round(x.u/(10^z2),2)
  y1 <- round(x.n*10^(-z2),2)
  list(value=y1*10^z2,uncert=z1*10^z2)
}

x.val <- 8165.666
x.unc <- 338.9741
gumr(x.val,x.unc)

完全を> gumr(x.val,x.unc) $value [1] 8170 $uncert [1] 340
期す

@rhombidodecahedronには、不確実性に重要な数字が1つしかありませんか?82±3(×10²)
jfs

@jfs推奨では、不確実性の中で2つの重要な数値を使用するように言われていますか?
菱形十二面体

答え@rhombidodecahedron言う「せいぜい2」 GUMにおける基準は私のため不明ではありません。arxiv.org/pdf/1301.1034.pdfの表3は、7未満の測定について報告するために有効数字1桁を示唆しています。
JFS

コード例は、推奨されるGUMルールに従っていません。場合val = 8165.666unc = 338.9741、測定は次のように報告しなければならないval = 8.17(34)*10^3(ないval = 8170unc = 340与えられたとして)、不確実性の2桁のみが重要であることを明らかにします。
divenex

6

信頼区間と統計値の両方を表示する場合、必要な数の有効数字を与えても問題はありません。その場合、有効数字の数が多くても、信頼区間が与える正確な精度を意味するわけではありません。指示おそらく実際の精度(信頼区間が良いだろう)。その場合、それは本質的にテーブルをきちんと、簡潔で読みやすくすることの問題なので、本質的にすべての状況に適した単純なルールがありそうにありません。

再現性は科学的研究において重要であるため、理想的には、結果が任意の数の固有値の数値に(実際に重要であるかどうかにかかわらず)再現できるはずです。少数の有意な数値に丸めると、結果の丸めによってエラーがマスクされる可能性があるため、調査の複製の信頼性が低下する可能性があります。

極端に丸めないもう1つの理由は、他の人が実際にそれを繰り返さずにあなたの研究を拡張することが不可能になる可能性があることです。たとえば、ベンチマークデータセットのさまざまなアルゴリズムのランキングに依存する、フリードマン検定を使用したさまざまな機械学習アルゴリズムを比較する論文を公開するかもしれません。各データセットの個々の分類子の統計が、それらの標準誤差に応じて多数の有意な数値に与えられる場合、これは間違いなく、ランキングに多くの明らかな関係を作成します。これは、(i)論文の読者/レビュー担当者が、論文で与えられた結果からフリードマンテストを再現できず、(ii)他の誰かがベンチマークデータセットでアルゴリズムを評価して、フリードマンを使用できないことを意味します。私の研究の結果のコンテキストにそれを置くためのテスト。


4

確かに、客観的または主観的に行われる決定は、測定対象、および測定機器の精度に強く依存します。後者は観察された変動のほんの一部であり、既存の証拠を識別または見つけるのが必ずしも容易ではありません。したがって、私は、客観的で普遍的に適用できる決定はないと強く信じています。あなたは自分の脳を使い、それぞれの状況で最良の判断を下す必要があります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.