統計とビッグデータ machine-learning

5

SVMまたはニューラルネットワークを使用しているときにカテゴリ変数を数値変数に再コーディングする方法

SVMまたはニューラルネットワークを使用するには、カテゴリ変数を数値変数に変換（エンコード）する必要があります。この場合の通常の方法は、0-1番目のバイナリ値を使用し、k番目のカテゴリ値を（0,0、.. 。、1,0、... 0）（1はk番目の位置にあります）。これを行う他の方法はありますか？特に、0-1表現がニューラルネットワークに多数の追加の次元（入力単位）を導入するようなカテゴリ値（eg10000など）が多数ある場合、これはまったく望ましくない、または予期されないようです？私は一般的な戦略について尋ねています。

19 machine-learning neural-networks categorical-data svm categorical-encoding

2

ブラックボックスとしてのニューラルネットワークの意味？

私はよく、人々がニューラルネットワークを、それが何をするのか、または何を意味するのか理解していないブラックボックスのようなものとして話しているのを聞きます。私は実際、それが何を意味するのか理解できません！バックプロパゲーションがどのように機能するかを理解している場合、それはどのようにブラックボックスですか？それらは、どのように重みが計算されたのか、何を理解していないのか？

19 machine-learning neural-networks

2

機能エンジニアリングのチュートリアル

すべての人に知られているように、機能工学は機械学習にとって非常に重要ですが、この分野に関連する資料はほとんど見つかりませんでした。Kaggleのいくつかのコンテストに参加しましたが、場合によっては、優れた機能が優れた分類器よりも重要であると考えています。誰かが機能エンジニアリングに関するチュートリアルを知っていますか、それともこの純粋な経験ですか？

19 machine-learning references feature-construction

2

時間を通じてロジスティック回帰の分類確率を更新する

学期の終わりに生徒が成功する確率を予測する予測モデルを構築しています。生徒が成功するか失敗するかについて、特に興味があります。成功とは、通常、コースを修了し、可能な合計ポイントのうち70％以上を獲得することと定義されます。モデルを展開するとき、成功確率の推定値は、より多くの情報が利用可能になったときに更新する必要があります-生徒が課題を提出したり、課題を採点したときなど、何かが発生した直後が理想的です。この更新はベイジアンのように聞こえますが、教育統計のトレーニングを考えると、それは私の快適ゾーンの少し外側です。私はこれまで、週ベースのスナップショットを含む履歴データセットでロジスティック回帰（実際にはなげなわ）を使用してきました。各学生には観測値があるため、このデータセットには相関する観測値があります。1人の生徒の観察結果は相関しています。特定の学生の毎週の観測内の相関関係を具体的にモデリングしているわけではありません。標準エラーは小さすぎるので、推論の設定でそれだけを考慮する必要があると思います。私は、これについてはわかりませんが、相関する観測から生じる唯一の問題は、データの1つのサブセットでクラスター化された観測を維持するために相互検証するときに注意する必要があることです。モデルがすでに見た人物についての予測に基づいて、人工的に低いサンプル外エラー率。Te r m L e n gt h / 7TermLength/7TermLength/7 Rのglmnetパッケージを使用して、ロジスティックモデルで投げ縄を行い、成功/失敗の確率を生成し、特定のコースの予測変数を自動的に選択しています。私は、他のすべての予測変数と相互作用する要素として週変数を使用しています。これは一般的に、個々の週ベースのモデルを推定することとは異なるとは思わないが、異なる週のさまざまなリスク調整係数によって調整される期間全体に適用される一般的なモデルがあるかもしれないというアイデアを提供します。私の主な質問はこれです：データセットを毎週（または他の間隔ベースの）スナップショットに分割するだけでなく、他のすべての機能と相互作用する期間因子変数を導入するのではなく、分類確率を経時的に更新するより良い方法がありますか？累積機能（累積ポイント、クラスでの累積日数など）を使用していますか？私の2番目の質問は次のとおりです。私は、相関の観測と予測モデリングについてはこちらを重要な何かが足りないのですか？私の3番目の質問は次のとおりです。どのように私は毎週のスナップショットをやっている与えられた、リアルタイムの更新にこれを一般化することができますか？現在の毎週の間隔で変数をプラグインすることを計画していますが、これは私にとって厄介なようです。参考までに、私は応用教育統計の訓練を受けていますが、昔から数学統計の背景を持っています。理にかなっている場合は、より洗練された何かを行うことができますが、比較的アクセスしやすい用語で説明する必要があります。

19 time-series machine-learning logistic

3

分類のための半教師あり学習、能動学習、および深層学習

すべてのリソースが更新された最終編集：プロジェクトでは、機械学習アルゴリズムを分類に適用しています。課題：非常に限られたラベル付きデータと、より多くのラベルなしデータ。目標：半教師付き分類を適用する何らかの方法で半教師付きのラベル付けプロセスを適用します（アクティブラーニングとして知られています） EM、Transductive SVM、S3VM（Semi Supervised SVM）の適用、またはLDAの使用など、研究論文から多くの情報を見つけました。このトピックに関する本はほとんどありません。質問：実装と実際のソースはどこにありますか？最終更新（mpiktas、bayer、およびDikran Marsupialが提供するヘルプに基づく）半教師付き学習： TSVM：SVMligthおよびSVMlinで。 PythonのEM Naive Bayes LinePipeプロジェクトのEM 能動的学習： Dualist：テキスト分類に関するソースコードを使用した能動学習の実装このWebページは、アクティブラーニングの素晴らしい概要を提供しています。実験的なデザインワークショップ：ここ。深層学習：ここで紹介ビデオ。一般サイト。スタンフォード教師なし機能学習および深層学習チュートリアル。

19 machine-learning classification software svm text-mining

1

マルチクラスブースト分類器のキャリブレーション

Alexandru Niculescu-MizilとRich Caruanaの論文「ブースティングからキャリブレーションされた確率を取得する」とこのスレッドでの議論を読みました。ただし、ロジスティックまたはPlattのスケーリングを理解して実装して、マルチクラスブースティング分類器の出力を調整するのにまだ問題があります（意思決定の切り株による穏やかなブースト）。私は一般化線形モデルにある程度精通しており、バイナリケースでロジスティックおよびプラットのキャリブレーションメソッドがどのように機能するかを理解していると思いますが、論文で説明されているメソッドをマルチクラスケースに拡張する方法がわかりません。私が使用している分類子は次を出力します： =得票数クラスのための分類器のキャストその jのサンプルのための私分類されていますfijfijf_{ij}jjjiii =推定クラスyiyiy_i この時点で、次の質問があります。 Q1：確率を推定するために多項ロジットを使用する必要がありますか？または、ロジスティック回帰を使用してこれを実行できますか（1対すべての方法など）。 Q2：マルチクラスの場合、中間ターゲット変数をどのように定義する必要がありますか（Plattのスケーリングなど）。 Q3：これは多くの質問があるかもしれないことを理解していますが、この問題の擬似コードをスケッチしてくれる人はいますか？（より実用的なレベルでは、Matlabのソリューションに興味があります）。

19 machine-learning boosting

3

k-meansクラスターパーティションの最も重要な特徴の推定

データセットのどの特徴/変数がk-meansクラスターソリューション内で最も重要/支配的であるかを判断する方法はありますか？

19 machine-learning clustering k-means importance

2

バックプロパゲーションアルゴリズム

多層パーセプトロン（MLP）で使用される逆伝播アルゴリズムについて少し混乱しました。エラーはコスト関数によって調整されます。バックプロパゲーションでは、隠れ層の重みを調整しようとしています。私が理解できる出力エラー、つまりe = d - y[添え字なし]。質問は次のとおりです。隠れ層のエラーはどのようにして得られますか？どのように計算しますか？バックプロパゲートする場合、重みを更新するために、適応フィルターのコスト関数として使用する必要がありますか、または（C / C ++で）プログラミングの意味でポインターを使用する必要がありますか？

19 machine-learning neural-networks backpropagation

3

ニューラルネットワークは関数または確率密度関数を学習しますか？

統計的推論とニューラルネットワークは初めてなので、質問は少し奇妙に聞こえるかもしれません。ニューラルネットワークを使用した分類問題で、入力xの空間を出力yの空間にマッピングする関数を学習したいと言います。f∗f∗f^*xxxyyy f∗(x;θ)=yf∗(x;θ)=yf^*(x; \theta) = y 非線形関数をモデル化するために、または確率密度関数をモデル化するために、パラメーター（θθ\theta）をフィッティングしますか？私は質問をより良い方法で書く方法を本当に知りません。私は両方のことを数回読みました（確率密度関数、またはそのような関数）ので、私の混乱。

19 machine-learning neural-networks

4

なぜ疑似ラベル付けを使用すると、結果に大きな影響があるのですか？

私は半教師あり学習方法を調査しており、「疑似ラベル付け」の概念に出くわしました。私が理解しているように、疑似ラベル付けでは、ラベル付けされたデータのセットとラベル付けされていないデータのセットがあります。最初に、ラベル付きデータのみでモデルをトレーニングします。次に、その初期データを使用して、ラベルなしデータを分類（仮ラベルを添付）します。次に、ラベル付きデータとラベルなしデータの両方をモデルのトレーニングにフィードバックし、既知のラベルと予測されたラベルの両方に（再）適合させます。（このプロセスを繰り返し、更新されたモデルでラベルを付け直します。）主張されている利点は、ラベルなしデータの構造に関する情報を使用してモデルを改善できることです。次の図のバリエーションがよく示され、プロセスが（ラベルなし）データの場所に基づいてより複雑な決定境界を作成できることを「示しています」。 Techerin CC BY-SA 3.0によるWikimedia Commonsからの画像しかし、私はその単純な説明を完全には購入していません。単純に、元のラベル付きのみのトレーニング結果が決定境界の上限である場合、疑似ラベルはその決定境界に基づいて割り当てられます。つまり、上の曲線の左手は白の疑似ラベルが付けられ、下の曲線の右手は黒の疑似ラベルが付けられます。新しい疑似ラベルは単に現在の決定境界を強化するだけなので、再トレーニング後は曲線の決定境界が得られません。別の言い方をすれば、現在のラベル付きのみの決定境界は、ラベルなしデータに対して完全な予測精度を持ちます（それを作成するために使用していたため）。疑似ラベル付きデータを追加するだけで、その決定境界の位置を変更する原因となる原動力（勾配）はありません。図で具体化された説明が不足していると私は思うのですか？それとも私が見逃しているものはありますか？ない場合は、何である擬似ラベルの利点は、擬似ラベルの上に完璧な精度を持って事前に再訓練決定境界与えられ、？

19 machine-learning semi-supervised

3

統計的に有意になるようにデータをシミュレートする方法は？

私は10年生で、機械学習サイエンスフェアプロジェクトのデータをシミュレートしたいと考えています。最終モデルは患者データで使用され、特定の時間帯と、これが単一患者のデータ内の服薬遵守に与える影響との相関関係を予測します。順守値はバイナリになります（0は薬を服用しなかったことを意味し、1は服用したことを意味します）。私は、週の時間の関係から学習できる機械学習モデルを作成し、週を21の時間帯に分けています。1時間ごとに3つ（1は月曜日の朝、2は月曜日の午後、等。）。1,000人の患者に相当するデータをシミュレートしたいと考えています。各患者には30週間分のデータがあります。週の時間とアドヒアランスに関連する特定のトレンドを挿入したいと思います。例えば、あるデータセットでは、週の時間帯7は順守と統計的に有意な関係があると言えます。関係が統計的に有意であるかどうかを判断するには、1つのタイムスロットを他のタイムスロットと比較する2サンプルt検定を実行し、有意値が0.05未満であることを確認する必要があります。ただし、自分のデータをシミュレートして挿入した傾向が重要かどうかを確認するのではなく、逆方向に作業して、特定のタイムスロットに重要な傾向を順守して割り当てることができるプログラムを使用すると、戻りますその中に私が求めたトレンドを含むバイナリデータ、およびノイズを含むが統計的に有意なトレンドを生成しない他のタイムスロットのバイナリデータ。このようなことを達成するのに役立つプログラムはありますか？それとも、Pythonモジュールですか？どんな助けでも（私のプロジェクトに関する一般的なコメントでさえ）非常に感謝されます！

18 machine-learning statistical-significance t-test python simulation

7

機械学習のバイアスデータ

私は、既にデータ選択によって（かなり）偏っているデータを使用した機械学習プロジェクトに取り組んでいます。ハードコーディングされたルールのセットがあると仮定しましょう。使用できるすべてのデータがこれらのルールによって既にフィルター処理されたデータである場合、それを置き換える機械学習モデルをどのように構築しますか？物事を明確にするために、最良の例は信用リスク評価でしょう。タスクは、支払いに失敗する可能性のあるすべてのクライアントをフィルタリングすることです。今、あなたが持っている唯一の（ラベル付けされた）データは、ルールのセットによって受け入れられたクライアントからのものです。受け入れた後にのみ、誰かが支払うかどうか（明らかに）を見るからです。ルールのセットがどれだけ優れているか、そしてそれらがどれだけ有料から非有料の分布に影響するかはわかりません。また、一連のルールにより、拒否されたクライアントからのラベルのないデータがあります。したがって、それらのクライアントが受け入れられた場合、それらのクライアントで何が起こるかはわかりません。たとえば、ルールの1つは次のようになります。「クライアントの年齢が18歳未満の場合、受け入れない」分類子には、これらのルールによってフィルタリングされたクライアントを処理する方法を学習する方法がありません。ここで分類器はどのようにパターンを学習することになっていますか？この問題を無視すると、これまでに遭遇したことのないデータにモデルがさらされることになります。基本的に、ここでxが[a、b]の外側にあるときのf（x）の値を推定したいと思います。

18 machine-learning classification data-mining bias extrapolation

3

ニューラルネットワークの象徴的な（おもちゃ）モデル

私の大学院の物理学教授は、ノーブル賞受賞者のファインマンと同様、ハーモニックオシレーター、振り子、こま、トップボックス、ブラックボックスなどの物理学の基本的な概念と方法を説明するために、常にトイモデルと呼ばれるものを提示しました。ニューラルネットワークのアプリケーションの基礎となる基本的な概念と方法を説明するために、どのおもちゃモデルが使用されていますか？（参考にしてください。）玩具モデルとは、基本的な方法を提示できる非常に制約のある問題に適用される、特にシンプルで最小サイズのネットワークを意味します。手で基本的な数学をチェックしたり、シンボリック数学アプリで支援したりします。

18 machine-learning neural-networks deep-learning

4

Q-Learningがテスト中にepsilon-greedyを使用するのはなぜですか？

Deep MindのAtariビデオゲームのDeep Q-Learningに関する論文（こちら）では、トレーニング中の探索にイプシロングリディ法を使用しています。これは、トレーニングでアクションが選択されると、最高のq値を持つアクションとして選択されるか、ランダムアクションとして選択されることを意味します。これら2つの選択はランダムで、イプシロンの値に基づき、イプシロンはトレーニング中にアニールされ、最初は多くのランダムなアクションが実行されます（探索）が、トレーニングが進むにつれて、最大q値を持つアクションが多く実行されます（搾取）。次に、テスト中に、彼らはこのイプシロン貪欲法も使用しますが、イプシロンは非常に低い値であるため、探査よりも搾取に強いバイアスがあり、ランダムアクションよりも最も高いq値を持つアクションを選択します。ただし、ランダムアクションが選択されることもあります（時間の5％）。私の質問は次のとおりです。トレーニングが既に行われているのに、なぜこの時点で調査が必要なのですかシステムが最適なポリシーを学習した場合、最高のq値を持つアクションとして常にアクションを選択できないのはなぜですか？トレーニングでのみ調査を行い、最適なポリシーを学習したら、エージェントは最適なアクションを繰り返し選択できますか？ありがとう！

18 machine-learning reinforcement-learning q-learning deep-rl

1

一般的なオーバーサンプリング、および特にSMOTEアルゴリズムに関する意見[非公開]

閉じた。この質問は意見に基づいています。現在、回答を受け付けていません。この質問を改善したいですか？この投稿を編集して事実と引用で答えられるように質問を更新してください。閉まっている 2年前にました。一般的な分類、特にSMOTEアルゴリズムのオーバーサンプリングについてのあなたの意見は何ですか？クラスデータの不均衡と不均衡なエラーコストを調整するために、単にコスト/ペナルティを適用しないのはなぜですか？私の目的では、将来の一連の実験ユニットに対する予測の精度が究極の尺度です。参考のために、SMOTEの論文： http

18 machine-learning classification oversampling

タグ付けされた質問 「machine-learning」

タグ付けされた質問「machine-learning」