タグ付けされた質問 「excel」

Microsoft Excelは、市販のスプレッドシートプログラムです。このタグは、(a)Excelが質問の重要な部分または予想される回答として含まれているトピックに関する質問に使用します。(b)は、Excelの使い方だけではありません。

3
データを再構築/再構築する最良の方法は何ですか?
私は研究室(ボランティア)の研究助手です。私と小さなグループは、大規模な研究から引き出された一連のデータのデータ分析を担当しています。残念なことに、データはある種のオンラインアプリで収集されており、最も使いやすい形式でデータを出力するようにプログラムされていませんでした。 以下の図は、基本的な問題を示しています。これは「リシェイプ」または「リストラクチャリング」と呼ばれると言われました。 質問:1万件以上のエントリがある大規模なデータセットを使用して、写真1から写真2に移動するための最良のプロセスは何ですか?
12 r  excel  data-cleaning 

1
数式を下にドラッグしたときにExcelが範囲を変更しないようにする方法 [閉まっている]
閉まっている。この質問はトピックから外れています。現在、回答を受け付けていません。 この質問を改善してみませんか? 質問を更新することがありますので、話題のクロス検証済みのため。 7年前休業。 私はExcelスプレッドシートのデータの列のセットを正規化しようとしています。 列の最高値が= 1、最低値が= 0になるように値を取得する必要があるため、次の式を考え出しました。 =(A1-MIN(A1:A30))/(MAX(A1:A30)-MIN(A1:A30)) これは正常に機能しているようですが、数式をドラッグしてその下のセルにデータを入力すると、A1増加するだけでなく増加A1:A30します。 必要な数だけを更新しながら範囲をロックする方法はありますか? MaxとMinを別のセルに配置して参照しようとしましたが、MaxとMinが含まれているセルの下のセルを参照しているだけなので、そこに何もないため、ゼロエラーで除算されます。
11 excel 

2
100%のヒット率確率と0%の誤警報確率を持つd素数
古いアイテムと新しいアイテムの検出を含むメモリタスクのdプライムを計算したいと思います。私が抱えている問題は、一部の被験者のヒット率が1であるか、誤警報率が0であるということです。これにより、確率がそれぞれ100%と0%になります。 dプライムの式はですd' = z(H) - z(F)。ここでz(H)、z(F)はヒット率のz変換と誤警報です。 z変換を計算するには、Excel関数NORMSINV(つまり、z(H)=NORMSINV(hit rate))を使用します。ただし、ヒット率または誤警報率がそれぞれ1または0の場合、関数はエラーを返します。これは、私が理解しているように、z変換がROC曲線の下の領域を示しているため、数学的に100%または0%の確率が許容されていないためです。この場合、天井性能の被験者のd 'の計算方法がわかりません。 1つのウェブサイトでは、1と0のレートを1-1 /(2N)と1 / 2Nに置き換えることを提案しています。Nはヒットと誤警報の最大数です。別のWebサイトでは、「HもFも0でも1でもない(そうであれば、少し上または下に調整する)」とあります。これは恣意的です。誰かがこれについて意見を持っているか、適切なリソースを私に指摘したいですか?

1
Anova()とdrop1()がGLMMに異なる回答を提供したのはなぜですか?
次の形式のGLMMがあります。 lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 私が使用している場合drop1(model, test="Chi")、私は私が使用している場合とは異なる結果を得るAnova(model, type="III")車のパッケージからかsummary(model)。後者の2つは同じ答えを与えます。 大量の偽造データを使用して、これらの2つの方法は通常違いがないことがわかりました。それらは、平衡線形モデル、不平衡線形モデル(異なるグループでnが等しくない場合)、および平衡一般化線形モデルに対して同じ答えを示しますが、平衡一般化線形混合モデルに対しては同じ答えを与えません。したがって、ランダムな要素が含まれている場合にのみ、この不一致が現れます。 これらの2つの方法の間に違いがあるのはなぜですか? GLMMを使用する場合は必要がありますAnova()かdrop1()使用できますか? これらの2つの違いは、少なくとも私のデータでは、かなりわずかです。どちらを使用するかは問題ですか?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

6
Excelの四分位数
基本的な統計で通常使用される四分位数の定義に興味があります。私はStat 101タイプの本を持っていますが、それは直感的な定義を与えるだけです。「データの約4分の1が第1四分位以下になる...」ただし、データセットのQ1、Q2、Q3を計算する例を示します 5, 7, 9, 10, 11, 13, 14, 15, 16, 17, 18, 18, 20, 21, 37 15個のデータがあるため、Q2の中央値として15を選択します。次に、残りのデータを5から14、16から37の2つの半分に分割します。これらにはそれぞれ7つのデータが含まれ、それぞれのセットの中央値10と18をそれぞれQ1とQ3として見つけます。これは私が自分で計算する方法です。 私はウィキペディアの記事を見ました、そしてそれは2つの方法を与えます。上記に同意し、両方のセットに中央値15を含めることもできます(ただし、偶数のデータポイントの場合、中央の2つの数値の平均である場合は中央値を含めません)。これはすべて私にとって理にかなっています。 しかし、その後、Excelをチェックして、Excelでどのように計算されるかを確認しました。Excel 2010を使用しています。これには3つの異なる機能があります。Quartileは2007年と以前のバージョンで利用可能でした。彼らはあなたに2010年にこれを使うのをやめて欲しいようですが、それはまだ利用可能です。Quartile.Incは新しいものですが、私の知る限り、Quartileと完全に一致します。また、Quartile.Excもあります。最後の2つはどちらも2010年の新機能だと思います。今回は、整数1、2、3、...、10を使用してみました。Excelの中央値は5.5、Q1は3、Q3は8になると思います。中央値は中央の2つの数値の平均であるため、Wikipediaの両方の方法でこれらの答えが得られるためです。Excelは与える quartile number, Quartile.Inc, Quartile.Exc 1, 3.25, 2.75 2, 5.5, 5.5 3, 7.75, 8.25 これらのどちらも、私が以前に話したことに同意しません。 Excelのヘルプファイルの説明は次のとおりです。 Quartile.Inc-0..1からのパーセンタイル値に基づいて、データセットの四分位数を返します。 Quartile.Exc-0から1までのパーセンタイル値に基づいて、データセットの四分位数を返します。 Excelが使用しているこの定義を理解するのに役立つ人はいますか?
10 excel  quantiles 

2
トレンドラインの数式を使用して、Excelで特定のXの値を取得する
チャートからトレンドラインの数式をExcelの任意のX値に適用する簡単な方法はありますか? たとえば、特定のX = $ 2,006.00のY値を取得したいとします。私はすでに式を取り、それを次のように再入力しました: =-0.000000000008*X^3 - 0.00000001*X^2 + 0.0003*X - 0.0029 データを追加することにより、トレンドラインを継続的に調整しており、毎回数式を再入力したくありません。
10 regression  excel 

1
R線形回帰のカテゴリ変数「非表示」の値
これは私が何度か遭遇した例にすぎないため、サンプルデータはありません。Rで線形回帰モデルを実行する: a.lm = lm(Y ~ x1 + x2) x1は連続変数です。x2カテゴリ型で、「低」、「中」、「高」の3つの値があります。ただし、Rによって与えられる出力は次のようになります。 summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 私は、Rがそのような要因(要因x2であること)に何らかのダミーコーディングを導入していることを理解しています。私はただ疑問に思っていx2ます。「高」の値をどのように解釈しますか?たとえば、ここで示した例の「High」x2は応答変数にどのような影響を与えますか? これの例を他の場所(例:ここ)で見ましたが、理解できる説明は見つかりませんでした。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

1
Excel vs Rでカイ二乗を計算する奇妙な方法
計算していると主張しているExcelシートを見ていますが、この方法を認識していないため、何か不足しているのではないかと思っていました。χ2χ2\chi^2 これが分析しているデータです: +------------------+----------+----------+ | Total Population | Observed | Expected | +------------------+----------+----------+ | 2000 | 42 | 32.5 | | 2000 | 42 | 32.5 | | 2000 | 25 | 32.5 | | 2000 | 21 | 32.5 | +------------------+----------+----------+ そして、これはカイ二乗を計算するために各グループに対して行う合計です: P = (sum of all observed)/(sum of total …
9 r  chi-squared  excel 

3
分布を見つけて正規分布に変換する
1時間にイベントが発生する頻度(「1時間あたりの数」、nph)とイベントが持続する時間(「1秒あたりの秒数」、dph)を説明するデータがあります。 これは元のデータです: nph <- c(2.50000000003638, 3.78947368414551, 1.51456310682008, 5.84686774940732, 4.58823529414907, 5.59999999993481, 5.06666666666667, 11.6470588233699, 1.99999999998209, NA, 4.46153846149851, 18, 1.05882352939726, 9.21739130425452, 27.8399999994814, 15.3750000002237, NA, 6.00000000004109, 9.71428571436649, 12.4848484848485, 16.5034965037115, 20.6666666666667, 3.49999999997453, 4.65882352938624, 4.74999999996544, 3.99999999994522, 2.8, 14.2285714286188, 11.0000000000915, NA, 2.66666666666667, 3.76470588230138, 4.70588235287673, 13.2727272728677, 2.0000000000137, 18.4444444444444, 17.5555555555556, 14.2222222222222, 2.00000000001663, 4, 8.46153846146269, 19.2000000001788, 13.9024390245481, 13, 3.00000000004366, NA, …
8 normal-distribution  data-transformation  logistic  generalized-linear-model  ridge-regression  t-test  wilcoxon-signed-rank  paired-data  naive-bayes  distributions  logistic  goodness-of-fit  time-series  eviews  ecm  panel-data  reliability  psychometrics  validity  cronbachs-alpha  self-study  random-variable  expected-value  median  regression  self-study  multiple-regression  linear-model  forecasting  prediction-interval  normal-distribution  excel  bayesian  multivariate-analysis  modeling  predictive-models  canonical-correlation  rbm  time-series  machine-learning  neural-networks  fishers-exact  factorisation-theorem  svm  prediction  linear  reinforcement-learning  cdf  probability-inequalities  ecdf  time-series  kalman-filter  state-space-models  dynamic-regression  index-decomposition  sampling  stratification  cluster-sample  survey-sampling  distributions  maximum-likelihood  gamma-distribution 

2
膨大なデータセットが与えられた場合、なぜ統計モデルは過剰適合しますか?
現在のプロジェクトでは、特定のグループの行動を予測するモデルを構築する必要があるかもしれません。トレーニングデータセットには6つの変数のみが含まれます(idは識別目的のみです)。 id, age, income, gender, job category, monthly spend その中で monthly spend応答変数です。ただし、トレーニングデータセットには約300万行が含まれid, age, income, gender, job category、予測されるデータセット(応答変数は含まれるが、含まれない)には100万行が含まれます。私の質問は、統計モデルにあまりにも多くの行(この場合は300万行)を投げた場合に潜在的な問題はありますか?計算コストが懸念事項の1つであることを理解していますが、他に懸念事項はありますか?データセットのサイズの問題を完全に説明している本/紙はありますか?
8 modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 

3
SPSSを使用した2x3混合設計ANOVAの事後テスト?
実験中に3回評価された10人の参加者の2つのグループがあります。グループ間および3つの評価全体の違いをテストするために、group(コントロール、実験)、time(最初、2、3)、およびを使用して2x3混合設計ANOVAを実行しましたgroup x time。両方timeとgroup有意な相互作用があったほか、重大な結果group x time。 グループメンバーシップに関しても、3回の評価の違いをさらにチェックする方法をよく知りません。実際、最初は、ANOVAのオプションで、ボンフェローニの補正を使用してすべての主要な効果を比較することだけを指定しました。しかし、この方法で、グループを区別せずに、サンプル全体の時間の違いをこのように比較したことに気付きましたね。 したがって、可能な解決策を見つけるためにインターネットでたくさん検索しましたが、結果はほとんどありませんでした。私と同じようなケースは2つしか見つかりませんでしたが、解決策は逆です! 記事では、混合設計の後、著者らは被験者ごとに1つずつ、2回の反復測定ANOVAを事後的に実行しました。このようにして、2つのグループは修正なしで個別に分析されます。 インターネットのガイドでは、混合ANOVAの実行中に、SPSS構文のCOMPARE(time) ADJ(BONFERRONI)直後にを手動で追加すると述べています/EMMEANS=TABLES(newgroup*time)。このように、3つの時間はグループごとに個別に比較されます。ボンフェローニ補正を使用すると、私は正しいのでしょうか。 どう思いますか?どちらが正しい方法でしょうか?
8 anova  mixed-model  spss  post-hoc  bonferroni  time-series  unevenly-spaced-time-series  classification  normal-distribution  discriminant-analysis  probability  normal-distribution  estimation  sampling  classification  svm  terminology  pivot-table  random-generation  self-study  estimation  sampling  estimation  categorical-data  maximum-likelihood  excel  least-squares  instrumental-variables  2sls  total-least-squares  correlation  self-study  variance  unbiased-estimator  bayesian  mixed-model  ancova  statistical-significance  references  p-value  fishers-exact  probability  monte-carlo  particle-filter  logistic  predictive-models  modeling  interaction  survey  hypothesis-testing  multiple-regression  regression  variance  data-transformation  residuals  minitab  r  time-series  forecasting  arima  garch  correlation  estimation  least-squares  bias  pca  predictive-models  genetics  sem  partial-least-squares  nonparametric  ordinal-data  wilcoxon-mann-whitney  bonferroni  wilcoxon-signed-rank  traminer  regression  econometrics  standard-error  robust  misspecification  r  probability  logistic  generalized-linear-model  r-squared  effect-size  gee  ordered-logit  bayesian  classification  svm  kernel-trick  nonlinear  bayesian  pca  dimensionality-reduction  eigenvalues  probability  distributions  mathematical-statistics  estimation  nonparametric  kernel-smoothing  expected-value  filter  mse  time-series  correlation  data-visualization  clustering  estimation  predictive-models  recommender-system  sparse  hypothesis-testing  data-transformation  parametric  probability  summations  correlation  pearson-r  spearman-rho  bayesian  replicability  dimensionality-reduction  discriminant-analysis  outliers  weka 

4
複数の点が与えられた線の勾配[閉じた]
閉まっている。この質問はトピックから外れています。現在、回答を受け付けていません。 この質問を改善してみませんか? 質問を更新することがありますので、話題のクロス検証済みのため。 4年前休業。 開始(y)値のデータがあり、日数で測定された(x)時間の経過に応じて順次増加/減少します。データの線形回帰を作成するためのこのリンクを見つけました http://www.easycalculation.com/statistics/regression.php 勾配計算をExcelで自動化したい。誰かがそれを行う方法についてのアイデアを持っていますか?ページの下部に数式が表示されます N∑ XY− ∑ X∑ YN∑ X2− (∑ X)2NΣバツY−ΣバツΣYNΣバツ2−(Σバツ)2\frac{N\sum XY- \sum X\sum Y}{N\sum X^2-(\sum X)^2} しかし、それをExcelの数式に変換する方法がわかりません。問題は主にとです。その他は、および関数で簡単です。私のx座標とy座標は、is とisのような行にあります。∑ XYΣバツY\sum XY∑ X2Σバツ2\sum X^2countsumpowC1x1D1x2
8 r  regression  excel 

2
分散のMicrosoft Excel数式
Microsoft Excelヘルプによると: VARは次の式を使用します。 ここで、xはサンプル平均AVERAGE(数値1、数値2、…)で、nはサンプルサイズです。 分母はn-1ではなくnにすべきではないでしょうか。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.