私は、最も基本的なものからより高度なものまで、いくつかの統計(および確率)インタビューの質問を探しています。回答は必要ありません(ただし、このサイトの特定の質問へのリンクは問題ありません)。
私は、最も基本的なものからより高度なものまで、いくつかの統計(および確率)インタビューの質問を探しています。回答は必要ありません(ただし、このサイトの特定の質問へのリンクは問題ありません)。
回答:
仕事が何であるかはわかりませんが、「初心者にxを説明する」はおそらく良いと思います。
a)彼らはおそらく仕事でこれを行う必要があるため
b)理解の良いテストだと思う。
私が働いている標準Qは、次のようなものです。
使用したと主張する統計パッケージ(できれば使用するパッケージ)からの多重ロジスティック回帰の出力を見てください。XXXは主な関心の独立変数です。主題についての知識はあるが正式な統計トレーニングは受けていない同僚の結果をどのように解釈しますか?(必要に応じて、ポイント推定値、CI、p値の個別の解釈を求めます)。
また、インタビューが関心のある構成要素を測定するのに最適な媒体であるかどうかを検討することもできます。確率または統計の事前知識を測定したい場合は、筆記試験にもっと頼る方が良いかもしれません。より多くの質問ができるため、測定の信頼性が向上します。管理とスコアリングの両方でより標準化されています。そして、機器が開発されると、おそらく管理に使用するリソースが少なくなります。
その後、言語や対人スキルなどの要因を調べる、より焦点を絞ったツールとしてインタビューを使用できます。
私が尋ねられた2つの質問:
1)重回帰を当てはめて、別の部門の労働者が関心を持っている特定の変数の効果を調べます。変数は重要ではないが、同僚は、効果があることがわかっているため不可能だと言います。あなたは何を言いますか?
2)1000個の変数と100個の観測値があります。特定の応答の重要な変数を見つけたいと思います。あなたならどうしますか?
このサイトの多くの質問/回答は、良い質問のアイデアを提供します。良いと思うリンクをいくつかリストに載せます。私が答えた投稿は、必ずしも最高だからではなく、それらの投稿をよく知っているからです。各リンクに短いコメントを付けるので、リンクをたどるかどうかを判断できます。
SVDの背後にある直感とは何ですか? 「SVDがどのように機能するかをクライアントに説明できますか?」
素人用語での最尤推定(MLE) 「技術的でない言語で最尤推定の考え方を説明できますか?」
タレブとブラックスワン 「教えてください、ブラックスワンとは何ですか、なぜそれが関連するのですか?いつ関連するのですか?」
統計的推論はサンプルでは、人口が「ある」とき 「試料が全人口のときに統計的推論について何を言うことができますか?」
フィット感の良さと、どのモデル線形回帰やポアソンを選択するには 「私たちは応答がカウント変数である回帰問題を持っている。あなたは、この文脈では、通常の最小二乗またはポアソン回帰(または多分いくつかの他)を選びますか?あなたの選択を説明、これらのモデルの主な違いは何ですか?」
有限分散と無限分散の違いは何ですか? 「できるだけ単純な言語で、ランダム変数が無限の期待値または無限の分散を持つことの意味を説明できますか?この区別の実際的な重要性は何ですか?例。」
段階的回帰の最新の簡単に使用できる代替手段は何ですか? 「予測変数が多数ある場合、複雑な回帰モデルをどのように構築しますか?考えられるさまざまな戦略を説明し、それぞれの問題について説明します」
ロジスティック回帰で完全な分離に対処する方法は? 「ロジスティック回帰における分離の問題、その原因、症状は何ですか?それが本当に問題である場合、それを解決するために何ができますか?」
相関行列が正の半正である必要があるのはなぜですか?また、正の半正であるかどうかはどういう意味ですか? そして、
非正定共分散行列は私のデータについて何を教えてくれますか? 「共分散行列が正(半)定でなければならない理由と、それが何を意味するかを説明してください。その事実はどのように使用できますか?」
中央値の多次元バージョン 「中央値を多変量データに一般化する方法を提案できますか?」
カテゴリー変数 を 使用したロジット回帰の相互作用項の解釈と相互作用の効果を特定するベストプラクティスは何ですか? と 2つの負の主効果でありながら正の相互作用効果? そして、 の相互作用ではなく、モデル内の主効果を含める と どのように相互作用効果が有意でないときの主な効果を解釈するには? 「回帰モデルでの相互作用の意味を説明します。具体的には、相互作用が重要であるのに主効果が重要でない場合はどういう意味ですか。通常の線形回帰とロジスティック回帰の相互作用の解釈に違いはありますか?」
データに平方根変換を使用する理由は何ですか? そして 適切なデータ変換が 「いつ、どのように、なぜあなたが回帰で(またはANOVA)モデルを応答変数を変換しますか?どんな選択肢がありますか?
非正規分散DVのANOVA結果を信頼できますか? 「非正規残差があるANOVAをどのように扱いますか?
重要な多くのものがワンショットのものであるときに統計が役立つのはなぜですか?
ベルヌーイ確率変数の合計を効率的にモデル化するにはどうすればよいですか?
ロジスティック回帰設定で損失の二乗を使用すると、ここで何が起こっていますか?「ロジスティック回帰に最尤法を使用するのはなぜですか?なぜ最小二乗ではないのですか?」
バンガロールのサンダルウッドの木の数をどのように数えますか?
見出しの原因対相関の下で:
予測モデルの機能として顧客/ユーザーエンゲージメントを使用することは一般的です。たとえば、このボタンをクリックする人は、そうしない人よりも購読する可能性が高くなります。月曜日に買い物をする人は、火曜日に買い物をする人よりも再び買い物をする可能性が高くなります。
これを極端に考えると、「購入」をクリックするユーザーは、「購入」をクリックしないユーザーよりも製品を購入する可能性が高くなります。
しかし、明らかに、一部のユーザーが購読している人とそうでないユーザーを説明するのに、それはあまり役に立ちません。
購読の理由と購読との相関が高いが、タスクを達成するために必要な理由を説明する顧客機能を使用して、どのようにバランスを取りますか?
カスタマーサービスセンターを運営しています。1か月あたり100万件の電話を受けています。それをどうやって1万個に減らすのでしょうか?
私たちが尋ねる質問の多くは、すでに説明したものと似ています。しかし、私がまだ読んでいないものが使われています:サイコロの転がりやその他の確率問題をシミュレートしたり、一連の素数を計算したり(例えばすべて1,000,000未満の素数)-あなたはあなたが望むどんな言語でもこれを行うことができますが、ほとんどの人はRを選択し、一部の人はPythonを選択します(私は信じています)が、Stata、SAS、SPSSを選択できると思います、Matlabなど。おそらく、選択したプログラミング言語の知識の深さを調べるために質問されるでしょう。たとえば、Rのforループの代わりにapplyを使用する理由。
また、何かを調査するための実験または他の研究を設計するように求められる場合があります-通常は実用的なものです-これは、私たちが行う作業に関連する場合がありますが、多くの場合はそうではありません。(あなたは私たちが行う仕事の知識を持っているはずではありませんが、あなたが知っている特定の分野の知識を与えられたとしても、あなたが聞いたことのない問題の要旨を把握し、知的に推測することができるはずですそれは間違っていました-それは大丈夫です、あなたはドメインの知識を持つことを期待されていません)パワーなどを考慮するように求められる場合があります。
昨年のヤンキースのゲームへの平均支払人員は55,000人でした。NYCの多くの人々に、昨シーズンヤンキースの試合に行ったかどうかをランダムに尋ね、行った場合は、支払われた出席を記録します。あなたが尋ねた人がゲームに行った人が参加したゲームの平均有給出席は何ですか?
私の答えのヒントを提供します(ヒントは提供されませんでした):長さバイアスサンプリング。その上でホームランを決めましたが、試合に勝つには十分ではありませんでした。注:サンプリングがどのように行われたかに関する多くの警告に言及し、インタビュアーはそれらすべてを無視するように言った。