データサイエンス

データサイエンスの専門家、機械学習の専門家、およびこの分野に関する知識が豊富な方へ


3
あいまいな名前とニックネームの一致
次の構造のデータセットがあります。 full_name,nickname,match Christian Douglas,Chris,1, Jhon Stevens,Charlie,0, David Jr Simpson,Junior,1 Anastasia Williams,Stacie,1 Lara Williams,Ana,0 John Williams,Willy,1 ここで、各予測子行は、フルネーム、ニックネーム、およびターゲット変数のペアの一致です。これは、ニックネームがその名前の人物に対応する場合は1、それ以外の場合は0です。ご覧のとおり、フルネームからニックネームを取得する方法は、特定のパターンに従っていません。 フルネーム、ニックネームのペアを指定して、一致の確率を予測するMLアルゴリズムをトレーニングします。 私のベースラインは、一致するキャラクターの数とそのような機能を確認しようとしています。ただし、ディープラーニングを使用したNLPアプローチについて考えています。私の質問は、この問題に固有のニューラルネットワークアーキテクチャがあるかどうかです。

4
常に利用できるとは限らない機能をどのように処理しますか?
機能ベクトルに、常に利用できるとは限らない機能があります(一部のサンプルでは)使用しても意味がありません。この特徴ベクトルをsklearn MLPClassifierに与えます。機能がその決定に使用する意味があるときにニューラルネットワークはそれ自体で学習しますか、または機能ベクトルにフラグを追加する必要がありますか?たとえば、意味がある場合は「1」、意味がない場合は「0」 。

2
適切なMLアプローチの選択についてコンセンサスはありますか?
私は現在データサイエンスを勉強しており、目まぐるしく変化するさまざまな基本的な回帰/分類手法(線形、ロジスティック、ツリー、スプライン、ANN、SVM、MARSなど...)とさまざまな方法を教えられています追加のツール(ブートストラップ、ブースティング、バギング、アンサンブル、リッジ/ラッソ、CVなど)。技術にはコンテキストが与えられる場合があります(例:小さい/大きいデータセットに適している、少数/多数の予測子に適しているなど)が、ほとんどの場合、回帰または分類の問題にはオプションの目まいがする配列が存在するから選択します。 今すぐデータサイエンスの仕事を始めて、モデリングの問題が発生した場合、基本的な構成で知っているすべての手法を試して、交差検証を使用して評価し、最良のものを選択することほどよいことはないと思います。しかし、これにはそれ以上のものがあるに違いありません。 私は、経験豊富なデータサイエンティストがテクニックのカタログをよく知っていて、精神的なフローチャートに従って、すべてのテクニックを無意識に試すのではなく、どのテクニックを試すかを決定すると思います。私はこのフローチャートがa)関数の関数であると想像します。b)変数タイプ。c)考えられる関係(線形/非線形)に関するドメイン知識。d)データセットのサイズ。e)計算時間などに関する制約。 手法を選択するために、従うべき従来のフローチャートに同意したものはありますか?それとも、「多くのことを試して、クロスバリデーションなど、目的のメジャーで最も効果的なものを確認する」ということになるのでしょうか。

3
機械学習モデルにおける用語「分散」の意味は何ですか?
高バイアスと高分散という用語と、モデルへの影響についてよく知っています。 基本的に、モデルが複雑すぎて感度が高すぎて外れ値である場合、モデルの分散は大きくなります。 しかし、最近、インタビューの1つで機械学習モデルの用語「分散」の意味を尋ねられました。 MLモデルでVarianceが正確に何を意味するのか、そしてそれがモデルにどのように導入されるのか知りたいのですが?誰かが例を挙げてこれを説明できたら本当にありがたいです。

1
アーサーサミュエルの機械学習の定義の出典
アーサーサミュエルが1959年に機械学習は「明示的にプログラムしなくてもコンピューターが学習できるようにする研究分野」であると書いた、または言ったことに多くの人が同意しているようです。 例えば、引用に含まれるこのページ、1ということとにアンドリュー・ウのMLのコース。いくつかの記事にもこの引用が含まれており、参照は常に次の記事であり、実際には引用は含まれていません。 アラバマ州サミュエル(1959)。チェッカーのゲームを使用した機械学習のいくつかの研究。IBM Journal of Research and Development、3(3)、210-229。 信頼できる情報源はありますか?それとも、実際には引用ではなく、サミュエルの記事の解釈なのでしょうか?

2
可変長の特徴ベクトルを扱う
サイズが異なる可能性がある特徴ベクトルをどのように処理しますか? オブジェクトごとに、4つの特徴を計算するとします。特定の回帰問題を解決するために、これらのオブジェクトを1つ、2つ、またはそれ以上(10以下)持つ場合があります。したがって、特徴ベクトルの長さは4 * Nです。これは通常どのように対処されますか? オブジェクトは、オブザーバーに関する物理的なオブジェクト(他の人など)を表します。タイムスライスの場合、オブジェクトは横方向、縦方向に配置でき、ある程度の速度と方向を持ちます(4つの機能)。解決しようとすること:人が最も快適に感じる場所。オブジェクトが1つしかない場合もありますが、2つ以上ある場合もあります。 免責事項:私はMLアプローチについての知識が限られています。私は何年も前に大学で授業をしていて、Andrew NgのMLコースを復習としてオンラインで受講しましたが、それ以外の点ではスピードが出ませんでした。見てみるところに感謝します。

2
一般化された利点の見積もりはどのように機能しますか?
私はしばらくの間、GAEを私のA2C実装に追加しようとしていますが、それがどのように機能するかを完全に理解しているようには思えません。 私の理解では、ロールアウトの値に基づいて利点を「平均化」(または一般化)することで、利点推定関数の分散を減らします。 私は自分で数学を試してみましたが、結局のところ、展開全体で1つの利点しかありませんでしたか?通常、ロールアウトのタイムステップごとに1つの利点があります。 誰でもGAEの直感について説明できますか?

1
時系列データを分類する最良の方法は何ですか?LSTMまたは別の方法を使用する必要がありますか?
生の加速度計データx、y、zを対応するラベルに分類しようとしています。 最良の結果を得るための最良のアーキテクチャは何ですか? または、入力ノードと出力ノードを備えたケラ上に構築されたLSTMアーキテクチャについて何か提案はありますか?

2
大きな変動を示す検証。原因は何でしょうか?
3クラスの画像分類問題のためにCNNをトレーニングしています。トレーニングの損失はスムーズに減少しました。これは予想される動作です。しかし、私の検証損失は多くの変動を示しています。 これは私が心配する必要があることですか、それともパフォーマンス測定(精度)で最高のスコアを得るモデルを選択するだけですか? 追加情報: PyTorchのImageNetデータで事前トレーニングされたResnet-18の最後のレイヤーを微調整しています。データが非常に不均衡であるため、トレーニングフェーズに加重損失関数を使用していることに注意する必要があります。ただし、損失をプロットするために、検証とトレーニング損失を比較できるように、重み付けされていない損失を使用します。私は、重み付けされていない損失を使用します。トレーニングデータセットと検証データセットの分布が多少異なるというわけではありません(ただし、どちらも非常に不均衡です)。

3
テンソルフローのインジケーター列とカテゴリアイデンティティ列の違い
Tensorflowを学習していて、Tensorflowで使用されているさまざまな機能列に出くわしました。これらのタイプのうち、2つはcategorical_identity_columnおよびindicator_columnです。どちらも同じ方法で定義されています。私が理解している限り、どちらもカテゴリー列をワンホットエンコード列に変換します。 だから私の質問は、2つの違いは何ですか?どちらを使用するか、もう一方をいつ使用するか?

2
これはQ学習アルゴリズムですか、それともブルートフォースですか?
私は、tictactoeをプレイする方法を学ぶアルゴリズムで遊んでいます。基本的な擬似コードは次のとおりです。 repeat many thousand times { repeat until game is over { if(board layout is unknown or exploring) { move randomly } else { move in location which historically gives highest reward } } for each step in the game { determine board layout for current step if(board layout is …

1
ディスクからバッチでデータをトレーニングする方法は?
画像分類のための畳み込みニューラルネットワークに取り組んでいます。トレーニングデータセットが大きすぎて自分のコンピューターのメモリ(4GB)にロードできないため、クラスのバランスをとるためにいくつかの拡張を試す必要もあります。 使用していkerasます。私は多くの例を調べましたが、私の問題の解決策は見つかりませんでした。model.fit「バッチ処理」を行う関数またはジェネレーターを渡すことで、呼び出しのパラメーターを置き換えることを考えています。この関数は、ディスクからインポートして拡張を適用するように設計します。 それを実装する方法がわかりません。助言がありますか?

2
CNN-重み共有を伴う逆伝播はどのように正確に機能しますか?
画像分類のために畳み込みニューラルネットワーク(CNN)を検討してください。ローカルフィーチャを検出するために、同じ畳み込み層内のユニット間で重み共有が使用されます。このようなネットワークでは、カーネルの重みは逆伝播アルゴリズムによって更新されます。 レイヤーカーネルの重みの更新は次のようになります。hjhjh_jlll hlj=hlj−η⋅δRδhlj=hlj−η⋅δRδxLj⋅δxLjδxL−1j⋅...⋅δxljδhljhjl=hjl−η⋅δRδhjl=hjl−η⋅δRδxjL⋅δxjLδxjL−1⋅...⋅δxjlδhjlh_j^l = h_j^l - \eta \cdot \frac{\delta R}{\delta h_j^l} = h_j^l - \eta \cdot \frac{\delta R}{\delta x_j^{L}} \cdot \frac{\delta x_j^{L}}{\delta x_j^{L - 1}} \cdot ... \cdot \frac{\delta x_j^{l}}{\delta h_j^l} カーネルの重みをどのように更新しても、同じ(=共有)にすることができますか? 私は2つの考えられる説明があります: 同じ値に初期化された同じレイヤーの重みは、(入力に関係なく)同じままです。これは、式がこれらの重みからすべてで同じであることをます。はjごとに異なるため、これは意味がありません。または、ここで何か不足していますか?δRδhljδRδhjl\frac{\delta R}{\delta h_j^l}hl1h1lh_1^lhlJhJlh_J^lxljxjlx_j^l トリックがあります。たとえば、バックプロパゲーションの更新後、共有の重みは平均に設定されます。 編集 私が混乱したのは、重みが共有されている場合、そのパラメーターが損失関数に数回現れることを考慮していなかったことでした。微分するとき、いくつかの項(対応する入力を考慮する)は「存続」します。したがって、更新は同じになります。hljhjlh_j^lhljhjlh_j^l

2
XGBoost機能の重要性-ゲインとカバーは高いが周波数は低い
私はこの質問を読みました:XGBoostの重要性の出力をどのように解釈しますか?機能の重要性の3つの異なるタイプについて:頻度(Python XGBoostでは「ウェイト」と呼ばれます)、ゲイン、カバー。 私の場合、周波数メトリックに基づいて非常に重要度が低い機能であるジェンダーがありますが、ゲインとカバーメトリックの両方に基づいて、最も重要な機能です。 私が予測していることでは、性別が重要であることを知っています。性別とターゲットのみをプロットすると、明確な相関関係があります。それが最も重要な機能であることには驚かない。なぜそれが周波数メトリックに基づいて重要な機能と見なされないのか知りたいだけです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.