統計インタビューの質問


65

私は、最も基本的なものからより高度なものまで、いくつかの統計(および確率)インタビューの質問を探しています。回答は必要ありません(ただし、このサイトの特定の質問へのリンクは問題ありません)。



誰かがインタビューしたとき、彼らは自分自身を与えられたところの例を与えることができればそれは...非常に興味深いものになるだろう
はKjetil BはHalvorsenの

回答:


40

仕事が何であるかはわかりませんが、「初心者にxを説明する」はおそらく良いと思います。

a)彼らはおそらく仕事でこれを行う必要があるため

b)理解の良いテストだと思う。


8
(+1):何かを理解したと思った回数を数えることはできませんが、簡単な言葉で他の人に説明することに失敗しました。例:p値;)
steffen

6
「6歳の子供に説明できないなら、おそらく自分で理解できないでしょう」-アルバート・アインシュタイン。たぶんそれほど極端ではないかもしれませんが、あなたはポイントを得る... :)
JMは統計学者ではありません

1
「初心者に」の部分の有無にかかわらず、「p値の説明」が好きです。
みすぼらしいシェフ

これが、交差検証が素晴らしい理由です。多くの「素人」の質問と回答。
ニールマクギガン

面接しているかどうかにかかわらず、本当に良いアドバイスです!
JMS

21

私が働いている標準Qは、次のようなものです。

使用したと主張する統計パッケージ(できれば使用するパッケージ)からの多重ロジスティック回帰の出力を見てください。XXXは主な関心の独立変数です。主題についての知識はあるが正式な統計トレーニングは受けていない同僚の結果をどのように解釈しますか?(必要に応じて、ポイント推定値、CI、p値の個別の解釈を求めます)。


15
より学術的な文脈では、次のように尋ねることもできます。「この論文であなたが(共)執筆したこのモデルの出力を見てください。意味を教えてください。」その場合、なじみのない言い訳はないが、驚くほど一般的であるため、圧倒的な答えは致命的です。
共役前

4
@conjugateprior真実ではありません。存在しない共著者が少なくとも1人いる限り、それは存在しない共著者の領域でした。この手法の主な用途は、会議のプレゼンテーションです。
マークL.ストーン

18

また、インタビューが関心のある構成要素を測定するのに最適な媒体であるかどうかを検討することもできます。確率または統計の事前知識を測定したい場合は、筆記試験にもっと頼る方が良いかもしれません。より多くの質問ができるため、測定の信頼性が向上します。管理とスコアリングの両方でより標準化されています。そして、機器が開発されると、おそらく管理に使用するリソースが少なくなります。

その後、言語や対人スキルなどの要因を調べる、より焦点を絞ったツールとしてインタビューを使用できます。


1
これは良い点です。過去に候補者と一緒に働いたことがなければ、特定の候補者がうまくいくかどうかを見分けるのは非常に難しいことを過去に発見しました。
みすぼらしいシェフ

15

私が尋ねられた2つの質問:

1)重回帰を当てはめて、別の部門の労働者が関心を持っている特定の変数の効果を調べます。変数は重要ではないが、同僚は、効果があることがわかっているため不可能だと言います。あなたは何を言いますか?

2)1000個の変数と100個の観測値があります。特定の応答の重要な変数を見つけたいと思います。あなたならどうしますか?


回答も投稿できますか?1)私は、いくつかの従属変数が問題の原因であると推測しています。2)については、おそらくχ²(カイ2乗)統計検定に行きます
リシドゥア

2
1)回帰モデルはサンプルからのものであり、このサンプルにはランダムな変動があるため、モデルは推定値にすぎず、タイプ1またはタイプ2のエラーが発生する可能性があります。予測子の間には、強い共線性が存在する可能性もあります。2)では、大きなP対小さなNの問題です。この状況に対処するには、寸法やなげなわを減らすなど、多くの手法があります。
グレン14年

2)変数の単変量フィットを行うと、変数セットを減らすために最も重要なものを特定
アダム

11

これがビッグデータセットです。外れ値に対処するための計画は何ですか?欠損値はどうですか?変換はどうですか?

彼らは実世界のデータを扱うことができますか?


親愛なる匿名ユーザー、コメントにはeditを使用しないでください(Neilはあなたのためではありません)。

10

このサイトの多くの質問/回答は、良い質問のアイデアを提供します。良いと思うリンクをいくつかリストに載せます。私が答えた投稿は、必ずしも最高だからではなく、それらの投稿をよく知っているからです。各リンクに短いコメントを付けるので、リンクをたどるかどうかを判断できます。

SVDの背後にある直感とは何ですか? 「SVDがどのように機能するかをクライアントに説明できますか?」

素人用語での最尤推定(MLE) 「技術でない言語で最尤推定の考え方を説明できますか?」

タレブとブラックスワン 「教えてください、ブラックスワンとは何ですか、なぜそれが関連するのですか?いつ関連するのですか?」

統計的推論はサンプルでは、人口が「ある」とき 「試料が全人口のときに統計的推論について何を言うことができますか?」

フィット感の良さと、どのモデル線形回帰やポアソンを選択するには 「私たちは応答がカウント変数である回帰問題を持っている。あなたは、この文脈では、通常の最小二乗またはポアソン回帰(または多分いくつかの他)を選びますか?あなたの選択を説明、これらのモデルの主な違いは何ですか?」

有限分散と無限分散の違いは何ですか? 「できるだけ単純な言語で、ランダム変数が無限の期待値または無限の分散を持つことの意味を説明できますか?この区別の実際的な重要性は何ですか?例。」

段階的回帰の最新の簡単に使用できる代替手段は何ですか? 「予測変数が多数ある場合、複雑な回帰モデルをどのように構築しますか?考えられるさまざまな戦略を説明し、それぞれの問題について説明します」

ロジスティック回帰で完全な分離に対処する方法は? 「ロジスティック回帰における分離の問題、その原因、症状は何ですか?それが本当に問題である場合、それを解決するために何ができますか?」

相関行列が正の半正である必要があるのはなぜですか?また、正の半正であるかどうかはどういう意味ですか? そして、
非正定共分散行列は私のデータについて何を教えてくれますか? 「共分散行列が正(半)定でなければならない理由と、それが何を意味するかを説明してください。その事実はどのように使用できますか?」

中央値の多次元バージョン 「中央値を多変量データに一般化する方法を提案できますか?」

カテゴリー変数使用したロジット回帰の相互作用項の解釈と相互作用の効果を特定するベストプラクティスは何ですか?2つの負の主効果でありながら正の相互作用効果? そして、 の相互作用ではなく、モデル内の主効果を含めるどのように相互作用効果が有意でないときの主な効果を解釈するには? 「回帰モデルでの相互作用の意味を説明します。具体的には、相互作用が重要であるのに主効果が重要でない場合はどういう意味ですか。通常の線形回帰とロジスティック回帰の相互作用の解釈に違いはありますか?」

データに平方根変換を使用する理由は何ですか? そして 適切なデータ変換が 「いつ、どのように、なぜあなたが回帰で(またはANOVA)モデルを応答変数を変換しますか?どんな選択肢がありますか?

非正規分散DVのANOVA結果を信頼できますか? 「非正規残差があるANOVAをどのように扱いますか?

重要な多くのものがワンショットのものであるときに統計が役立つのはなぜですか?

ベルヌーイ確率変数の合計を効率的にモデル化するにはどうすればよいですか?

一般化推定方程式と混合効果モデルのどちらを使用するか?

ロジスティック回帰設定で損失の二乗を使用すると、ここで何が起こっていますか?「ロジスティック回帰に最尤法を使用するのはなぜですか?なぜ最小二乗ではないのですか?」


9

統計についてほとんど知識がない社会科学の新入生のクラスに中心極限定理の関連性をどのように説明するかを一度尋ねられました。


4
中央極限定理の妥当性は、実際には何もないのに、すべてが正常であると人々に思わせることです。したがって、多くの誤った結論につながります。
マークL.ストーン



6

私はよく「予測とは何かをどのように定義/説明しますか?」と尋ねます。

このタイプの非常に一般的な質問への回答は、人々が予測の特定のケースに関連しているかどうかを確認するのに役立ちます。正しい答えはありませんが、インタビュー中に総合的に答えることは必ずしも簡単ではありません:)


5

観測データのコンテキストの場合:

この実質的な問題に適用されるこの回帰モデルを検討してください。その中で何が原因で解釈できるのでしょうか?[さらなる調査]あなたの意見を変えるには何を学ぶ必要がありますか?


4

バンガロールのサンダルウッドの木の数をどのように数えますか?


1
それは一種のフェルミの質問ですか?
ティースハイデック

2
良い質問。私はクラスでこのバージョンを使用しました(公園の木)。彼らはサンプリングのアイデアを得ますが、運用上の定義の必要性を見逃しがちです。いつそれをツリーと呼ぶようになりますか?
zbicyclist

4

見出しの原因対相関の下で:

予測モデルの機能として顧客/ユーザーエンゲージメントを使用することは一般的です。たとえば、このボタンをクリックする人は、そうしない人よりも購読する可能性が高くなります。月曜日に買い物をする人は、火曜日に買い物をする人よりも再び買い物をする可能性が高くなります。

これを極端に考えると、「購入」をクリックするユーザーは、「購入」をクリックしないユーザーよりも製品を購入する可能性が高くなります。

しかし、明らかに、一部のユーザーが購読している人とそうでないユーザーを説明するのに、それはあまり役に立ちません。

購読の理由と購読との相関が高いが、タスクを達成するために必要な理由を説明する顧客機能を使用して、どのようにバランスを取りますか?


3

これがTinkerToyセットです。ユークリッド距離が3次元でどのように機能するかを示してください。次に、重回帰の仕組みを示します。

物理世界で統計がどのように機能するかを説明できますか?


1
観測値を使用した重回帰では、次元のTinkerToyを設定する必要はありませんか?NNN
ワンストップ

1
100個の観測値を持つ2つの変数を散布プロットする場合、必要なのは2次元のみで、100ではありません:)など
ニールマク

3

カスタマーサービスセンターを運営しています。1か月あたり100万件の電話を受けています。それをどうやって1万個に減らすのでしょうか?


5
電話の99%を削除します!
shabbychef

5
電話代の支払いを停止します。
グレン

3
通話料金がかかります。(米国では900の数字...)
gWaldo

7
この質問は約80〜20のルールです。ビジネスでは一般的な経験則です。たとえば、「売上の80%がクライアントの20%から来ている」など。マイクロソフトは、最も多く報告されたバグの上位20%を修正することで、エラーとクラッシュの80%が解消されると指摘しました。したがって、これらの20%の問題に対処するためのFAQを設定することを意味します
リシドゥア

3

私たちが尋ねる質問の多くは、すでに説明したものと似ています。しかし、私がまだ読んでいないものが使われています:サイコロの転がりやその他の確率問題をシミュレートしたり、一連の素数を計算したり(例えばすべて1,000,000未満の素数)-あなたはあなたが望むどんな言語でもこれを行うことができますが、ほとんどの人はRを選択し、一部の人はPythonを選択します(私は信じています)が、Stata、SAS、SPSSを選択できると思います、Matlabなど。おそらく、選択したプログラミング言語の知識の深さを調べるために質問されるでしょう。たとえば、Rのforループの代わりにapplyを使用する理由。

また、何かを調査するための実験または他の研究を設計するように求められる場合があります-通常は実用的なものです-これは、私たちが行う作業に関連する場合がありますが、多くの場合はそうではありません。(あなたは私たちが行う仕事の知識を持っているはずではありませんが、あなたが知っている特定の分野の知識を与えられたとしても、あなたが聞いたことのない問題の要旨を把握し、知的に推測することができるはずですそれは間違っていました-それは大丈夫です、あなたはドメインの知識を持つことを期待されていません)パワーなどを考慮するように求められる場合があります。


2

量的変数の分散分析を行っているときに、変数の頻度が非常に高い(> 5)ことがあることがわかった場合は、フィッシャーの正確検定を使用して変数の独立性を見つけます。


これはおそらく、クリスの答えに含まれています。
JMは

4
これに対する正しい答えは、固定の限界が意味をなすかどうかについて論争があることを知って、主題に関して十分な情報に基づいた意見を持つことを含みますか?
ベンボルカー

1

昨年のヤンキースのゲームへの平均支払人員は55,000人でした。NYCの多くの人々に、昨シーズンヤンキースの試合に行ったかどうかをランダムに尋ね、行った場合は、支払われた出席を記録します。あなたが尋ねた人がゲームに行った人が参加したゲームの平均有給出席は何ですか?

私の答えのヒントを提供します(ヒントは提供されませんでした):長さバイアスサンプリング。その上でホームランを決めましたが、試合に勝つには十分ではありませんでした。注:サンプリングがどのように行われたかに関する多くの警告に言及し、インタビュアーはそれらすべてを無視するように言った。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.