統計アルゴリズム開発者候補者にとって、面接に適した質問は何ですか?


15

統計/機械学習/データマイニングのコンテキストにおけるアルゴリズム開発者/研究者の立場について、人々にインタビューしています。

具体的には、基礎となる理論に対する候補者の親しみやすさ、理解、流動性、たとえば期待値と分散の基本的な性質、一般的な分布などを判断するための質問を探しています。

私の現在のゴーへの質問は:「未知数がある。我々は推定したいと思い、この目的を達成するために、我々は推定持っY 1Y 2... Y nは与えられた、、すべての公平かつ独立しており、それぞれに既知の分散、それぞれ異なる。最適な推定量を見つけます。XY1,Y2,,YnXσi2Y=f(Y1,,Yn

真面目な候補者なら誰でも簡単に処理できると期待しています(計算に時間をかけます)が、関連する分野からの候補者が、ほんの少しでも進歩しなかったのではないかと驚いています。したがって、私はそれを良い、差別的な問題だと考えています。この質問の唯一の問題は、それが1つしかないことです。

これには他にどのような質問を使用できますか?または、そのような質問のコレクションはどこで見つけることができますか?


7
多くの機械学習者(良い人を含む)にとって、その疑問は彼らの快適な領域から抜け出す方法です。これは明らかな統計学者の質問です。
マーククレセン

4
この質問は合法的に境界線のオン/オフトピックです。ただし、多くのビュー、複数の賛成票、複数の賛成票による回答、さらにはCWがあります。IMO、開いたままにすることができます。
GUNG -復活モニカ

2
よくある質問はわかりにくい方法で表現される場合があります。たとえば、大文字でを使用すると、はランダムに見えます。しかし、最小分散について言及しているので、を非ランダムにしたいように思われます(その場合、推定量の分散が書かれた依存性を持たないのはなぜですか?)XXXバツ
バットマン

4
注意点として、Googleは社内のHRプロセスについて大規模な調査を行い、インタビュアーのスコアはその後の仕事のパフォーマンスとはまったく相関しないことを発見しました!! ここでの文学に対する私の印象は、(1)パズル型の質問は絶対に最悪であり、インタビュアーを賢く感じさせる(つまり0の予測力)ためだけに役立ち、(2)経験ベースの質問には予測価値があるかもしれないということです。過去のパフォーマンスは将来のパフォーマンスを予測し、過去のパフォーマンスが何であったかを確認するために質問に焦点を合わせたい場合がありますが、インタビューはインタビュアーが考えるよりもはるかに有益ではありません。
マシューガン

3
重みの和を統一することにより、不偏性が保証されます。ただし、ソリューションを推定量の線形結合に制限しても、ほとんどの場合、同じデータに基づいた複数の推定量が高度に相関することになります。(それらが真に独立している場合、それらはデータのばらばらの独立したサブセットに適用されます。)しかし、推定量の線形結合が最適であることはまったく明らかではありません。
whuber

回答:


12

統計開発者に何をしてほしいですか?

米軍は、「あなたが訓練されたように戦うので、あなたは戦うでしょう」と言います。一日中やりたいことをテストしてください。本当に、彼らは会社に「価値を創造する」か「お金を稼ぐ」ことを望みます。

ボス101

「お金を見せて」と考えてください。

  • お金は従業員と呼ばれる木で育ちます。あなたは「ダイム」(彼らの賃金)を入れ、彼らはあなたに「クォーター」(彼らの価値)を支払います。
  • あなたが彼らの仕事を彼らが会社のためにお金を稼ぐ方法に関連付けることができないならば、あなたも彼らも彼らの仕事を正しく行っていない。

注:シンボリック操作の質問が「お金」にきれいに接続しない場合、間違った質問をしている可能性があります。

従業員になるには、すべての従業員がしなければならないことが3つあります。

  • 実際に仕事をすることができる
  • チームとうまく働く
  • 実際に仕事をする意欲/意欲がある

これらをしっかりと手に入れないと、他に何の役に立つこともありません。

それらを優れたソフトウェアや十分に訓練されたティーンエイジャーに置き換えることができれば、最終的にそれをしなければならず、費用がかかります。

データ101

彼らができること:

  • ソフトウェアの内部フレーバー(ネットワーク、OS、オフィス、プレゼンテーション、分析)を使用する
  • いくつかの業界標準のソフトウェア(Excel、R、JMP、MatLab、 pick_three)を使用します
  • データ自体を取得します。基本的なタスクの基本的なデータセットを知っている必要があります。リポジトリを知っている必要があります。彼らは、どの有名なデータがどのタスクに使用されているかを知る必要があります。フィッシャーアイリス。ピアソンクラブ。...おそらくここに行くべき20の要素があります。UCI、NIST、NOAA。
  • データを処理するルールを知っている必要があります。バイナリデータ(T / F)は、カテゴリ(A、B、C、D)または連続とは非常に異なる情報内容を持ちます。データタイプごとにデータを適切に処理することが重要です。
  • いくつかの基本的な統計タスクには以下が含まれます:これら2つは同じまたは異なる(クラスター/分類)、これにどのように関連するか
    (線形モデル、glm、動径基底、
    差分方程式を含む回帰/フィッティング)、それが「x 「(仮説検定)、どのように多くのサンプルI(受容サンプリング)必要がありますか、私はほとんど入手できますどのように
    いくつかの/の安い/効率的な実験からのデータ(統計的設計
    実験) - 免責事項を、私はエンジニア統計学者じゃない あなたがそれらを頼むかもしれません「異なる基本的なタスクとは何か、そして統計学者がそれらを効率的かつ正しく実行できることをどのようにテストするのか」という質問。
  • データ自体にアクセス/使用します。これはフォーマットとツールについてです。
    彼らは、csv、xlsx(excel)、SQL、および
    画像から読み取ることができるはずです。(HDF5、Rdata)カスタム形式がある場合は、
    それを読み取り、ツールをすばやく
    効率的に操作できる必要があります。彼らはフォーマットの強さ/弱さを知っている必要があります。CSVは簡単に使用でき、永遠に存在し、高速なプロトタイプですが、肥大化しており、効率が悪く、実行に時間がかかります。
  • ベストプラクティスを使用して、罪を犯さないでデータを適切に処理します。データを捨てないでください。二項データを連続線で近似しない​​でください。物理学を無視しないでください。
  • 再現性と再現性のある結果を考え出します。一部
    の人々はなく、私に「嘘、いまいましい嘘、そして統計がある」と言う
    会社。同じ良い入力は同じ良い出力を与えます。出力は数字ではなく、常に
    技術的なアクションを通知してビジネス結果をもたらすビジネス上の決定です。さまざまなテストでダイヤルを5.5または6.5に設定できますが、機能は常に1.33を超えています。
  • 意思決定
    者、および/または手先開発者、および/または自分自身が1年で
    理解できるレベルで、言語で発見を提示します。美しいことは、おばあちゃんがそれを理解できるように説明できることです。これ(リンク)は私の答えですが、私はそれが好きです。

分析ジンジャー:

不可能な質問は素晴らしいと思います。彼らには理由がありません。ゲートから何かが不可能かどうかを知ることができるのは良いことです。理由を知り、何らかの方法で関与するか、別の質問をすることができるようにする方が良いでしょう。

その他の履歴書に関する質問。(リンク)redditで。(リンク)その他(リンク

ところで:これはいい質問でした。時間が経つにつれてこの回答を更新する必要があるかもしれません。


3
これは、私が尋ねた質問とは異なる質問に対する、良い答えのようです。優秀な従業員を選ぶ方法は尋ねませんでした(おそらく必要であれば、workplace.seでそのようなことを尋ねるでしょう)、特定の資格のテストについて尋ねました。
メニローゼンフェルド

そのときだけ統計に書き留めます。
EngrStudent-モニカの復元16年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.