データサイエンス

データサイエンスの専門家、機械学習の専門家、およびこの分野に関する知識が豊富な方へ

5
「分類」と「表示」に違いはありますか?
最近まで「ラベリング」と「分類」は同義語だと思っていました。しかし、コンピュータービジョンの用語について別の質問を始めたとき、それについて考えました。「ラベル付け」と「分類」の間に違いはありますか? 「クラス」はあなたが検出したい概念であり、「ラベル」はあなたがデータに割り当てるものだと思いました。したがって、「クラス」はデータにつながる概念であり、「ラベル」は名前だけです。したがって、「ラベル付け」は「分類」と同じになります。どちらも、データにつながる基になるクラスに関するステートメントを作成したいからです。 記事 Google Scholarで簡単に検索すると、一部の記事でタイトルに両方の用語が使用されていることがわかりました。 Markus Eich、Malgorzata Dabrowska、Frank Kirchner:「セマンティックラベリング:空間特徴記述子に基づく3Dエンティティの分類」 Chunlin Li、Dmitry B. Goldgof、およびLawrence 0. Hall:「人間の脳のMR画像の知識ベースの分類と組織のラベル付け」 レイブランチャード:「非同性愛の性別違和の分類とラベル付け」-別の研究分野ですが、おそらく2つの単語の違いは同じですか? したがって、「ラベル付け」と「分類」には違いがあると思います。違いはなんですか? Google N-Gram 分類ははるかに境界の用語のようです。


5
格付けシステムによる反対投票者の影響の軽減
ユーザーが1つ星から5つ星のシステムで評価するサイトを持っています。アイテムがチャートの一番上に達すると、それがどこにあるかを取得するために4〜5つ星の過半数を得たとしても、一部のユーザーは1つ星の評価を開始する傾向があります。それは蔓延しているわけではありません、私は新しい投票の10-20%が1です。明らかに彼らは評価システムを操作しようとしているので、私はそれを防ぎたいのです。 私が現在行っている方法は、正当な投票だと私が考えるものの「妥当なウィンドウ」を持つことです。 投票数が10未満のアイテムの場合。私は現在何もせず、評価なので平均値をとります。 アイテムの投票数が10を超えたら、平均値のウィンドウに結び付けます。このウィンドウは次のように定義されています Window = 4.5 - Log(TotalVotes, 10); したがって、妥当な投票範囲は (Mean - Window) thru (Mean + Window) 妥当な投票範囲が見つかると、「レーティング」はすべての妥当な投票(妥当な範囲に該当するもの)の平均にすぎません。 これは、100票で4.2の真の平均値を持つアイテムがのウィンドウを持つことを意味します4.5-Log(100,10) = 2.5。したがって、そのアイテムが1つ星の票を獲得した場合、評価では無視されます。ただし、1つ星は基になる平均に影響します。 これは一般的にはうまくMean - Windowいきましたが、問題は、アイテムが1.0の瀬戸際にあり、1つ星の投票ごとに1.0を下回るとすぐに評価に含まれ、前後の差でさえも大幅に低下することです。 1つ星の評価がもう1つあります。 私はこれらの1つ星の評価をフィルターで除外するためのより良いシステム/方法を必要としていますが、それだけでなく、誰かが友達にアイテムを10票と5つ星すべてに賛成させ、その真の評価がもっと高い状況に対処する必要があります3つ星。 ユーザー主導の評価システムを処理し、外れ値投票を正規化する方法の推奨事項を探します。

2
トレーニングデータとテストデータの分布の違い
機械学習の基本的な前提は、トレーニングデータとテストデータが同じ母集団から抽出され、したがって同じ分布に従うことです。しかし、実際には、これはほとんどありません。共変量シフトはこの問題に対処します。誰かがこれに関する以下の疑問をクリアできますか? 2つの分布が統計的に異なるかどうかをどのように確認しますか?カーネル密度推定(KDE)を使用して、確率分布を推定して違いを伝えることはできますか?特定のカテゴリの画像が100枚あるとします。テスト画像の数は50で、トレーニング画像の数を5から50に5のステップで変更しています。KDEで推定した後、5つのトレーニング画像と50のテスト画像を使用すると、確率分布が異なると言えますか?


3
テキストフラグメントのパラメーターを使用したテンプレートの識別
パラメータを含むことができる固定構造のテキストフラグメントを含むデータセットがあります。次に例を示します。 Temperature today is 20 centigrades Temperature today is 28 centigrades または Her eyes are blue and hair black. Her eyes are green and hair brown. 最初の例は、1つの数値パラメーターを持つテンプレートを示しています。2つ目は、2つの因子パラメーターを持つテンプレートです。 テンプレートの数とパラメータの数は不明です。 問題は、テンプレートを識別し、各テキストフラグメントを対応するテンプレートに割り当てることです。 明白な最初のアイデアは、クラスタリングを使用することです。距離測定は、一致しない単語の数として定義されます。つまり、例1のレコードの距離は1で、例2の距離は2です。例1と2のレコード間の距離は7です。この方法は適切に機能し、クラスターの数がわかっている場合はそうではありません。役に立たない。 距離行列をスキャンして、距離1(または2、3、...)に多くの近傍を持つレコードを検索するプログラムによるアプローチを想像できますが、監視されていない機械学習アルゴリズムを適用して問題を解決できるかどうか知りたいです。Rが推奨されますが、必須ではありません。

2
理論上の限界-回帰誤差
ベイズエラー率は、いくつかのデータが与えられた場合に、分類問題の最低のエラー率を決定する理論上の限界です。回帰アルゴリズムの場合に同等の概念が存在するかどうか疑問に思っていました。私の目的は、回帰アルゴリズムのエラーがその理論上の限界からどれだけ離れているかを判断することです。これは、私が可能な最良のソリューションからどれだけ離れているかを評価する方法です。特定のデータセットの最小の回帰誤差の範囲を取得する方法はありますか?

4
低確率分類のためのAdaBoostのトレーニングとテスト
不正/不正ではないと分類したいデータセットがあり、弱者がたくさんいます。私の懸念は、詐欺よりも詐欺の方がはるかに多いことです。そのため、私の弱い学習者は平均よりも優れたパフォーマンスを発揮しますが、完全なセットでは50%を超える精度を実行するものはありません。 私の質問は、詐欺の半分で詐欺ではないテストおよびトレーニングセットをセットアップする必要があるのか​​、それとも代表的なサンプルを使用するだけなのかです。

1
からのデータの投影
いくつかのポイント、つまりに埋め込まれた次元の単位球があり、それらをに投影したい、つまり2次元単位球(埋め込まれている)を使用して、隣接する点が近くにあるという制約で視覚化します。私はしばらくt-sneで遊んでいますが、もちろん、ポイントはありません。投影を正規化しましたが、たとえば、あるデータセットの分散が他のデータセットと比較してで非常に小さい場合、でも同じであると期待していますSんSnS^nんnnRn + 1Rn+1\mathbb{R}^{n+1}S2S2S^2R3R3\mathbb{R}^3S2S2S^2SnSnS^nS2S2S^2予測; これは、t-sneを正規化する場合には当てはまりません。何か案は?私は前の声明を成立させるものを本当に望んでいます。

3
PCAをターゲットに適用するとなぜ適合不足になるのですか?
目標: 機械学習とニューラルネットワークの実験は初めてです。一連の5つの画像を入力として受け取り、次の画像を予測するネットワークを構築したいと考えています。私のデータセットは、実験のために完全に人工的なものです。例として、入力と予想される出力の例をいくつか示します。 データポイントとターゲットのイメージは同じソースからのものです。データポイントのターゲットイメージは他のデータポイントに表示され、その逆も同様です。 私がやった事: 今のところ、1つの非表示層を持つパーセプトロンを構築し、出力層が予測のピクセルを提供します。2つの層は密度が高く、シグモイドニューロンで構成されています。平均二乗誤差を目的として使用しました。画像はかなりシンプルで、それほど変化しないので、これはうまく機能します。200〜300の例と50の非表示の単位があるため、テストデータで適切なエラー値(0.06)と適切な予測が得られます。ネットワークは勾配降下法で学習されます(学習率のスケーリングを使用)。ここに私が得る学習曲線の種類とエポックの数によるエラーの進展があります: 私がやろうとしていること: これで十分ですが、データセットの次元を減らして、より大きな画像やより多くの例にスケーリングできるようにしたいと思います。PCAを適用しました。ただし、次の2つの理由により、データポイントのリストではなく画像のリストに適用しました。 全体としてのデータセットでは、共分散行列は24000x24000になり、ラップトップのメモリに収まりません。 同じ画像でできているので、画像上で行うことで、ターゲットを圧縮することもできます。 画像はすべて類似しているように見えるので、1e-6の差異のみを失いながら、なんとかサイズを4800(40x40x3)から36に減らしました。 機能しないもの: 削減されたデータセットとその削減されたターゲットをネットワークに供給すると、勾配降下法は非常に速く収束して高いエラー(約50!)になります。上記と同等のプロットを見ることができます: 学習曲線が高い値から始まり、その後下がって戻るとは思いもしませんでした...そして、勾配降下がそれほど速く停止する通常の原因は何ですか?パラメータの初期化にリンクできますか(私はlasagneライブラリのデフォルトであるGlorotUniformを使用しています)。 次に、削減されたデータをフィードしても、元の(非圧縮)ターゲットをフィードすると、最初のパフォーマンスに戻ることに気付きました。したがって、ターゲットイメージにPCAを適用することは良い考えではなかったようです。何故ですか?結局、入力とターゲットを同じ行列で乗算しただけなので、トレーニング入力とターゲットは、ニューラルネットワークが理解できるようにリンクされています。何が欠けていますか? シグモイドニューロンの総数が同じになるように4800ユニットの追加のレイヤーを導入しても、同じ結果が得られます。要約すると、私は試しました: 24000ピクセル=> 50シグモイド=> 4800シグモイド(= 4800ピクセル) 180 "ピクセル" => 50シグモイド=> 36シグモイド(= 36 "ピクセル") 180 "ピクセル" => 50シグモイド=> 4800シグモイド(= 4800ピクセル) 180 "ピクセル" => 50シグモイド=> 4800シグモイド=> 36シグモイド(= 36 "ピクセル") 180 "ピクセル" => 50シグモイド=> 4800シグモイド=> 36線形(= 36 "ピクセル") (1)および(3)正常に動作します。(2)、(4)、(5)ではなく、その理由がわかりません。特に、(3)は機能するので、(5)は(3)と同じパラメータと最後の線形層の固有ベクトルを見つけることができるはずです。ニューラルネットワークではそれは不可能ですか?


1
SparkとRのロジスティック回帰が同じデータに対して異なるモデルを返すのはなぜですか?
R(glm)とSpark(LogisticRegressionWithLBFGS)のロジスティック回帰モデルを390 obsのデータセットで比較しました。14変数の。 結果は切片と重みで完全に異なります。これを説明するには? 以下はSpark(LogisticRegressionWithLBFGS)の結果です。 model.intercept : 1.119830027739959 model.weights : GEST 0.30798496002530473 DILATE 0.28121771009716895 EFFACE 0.01780105068588628 CONSIS -0.22782058111362183 CONTR -0.8094592237248102 MEMBRAN-1.788173534959893 AGE -0.05285751197750732 STRAT -1.6650305527536942 GRAVID 0.38324952943210994 PARIT -0.9463956993328745 DIAB 0.18151162744507293 TRANSF -0.7413500749909346 GEMEL 1.5953124037323745 Rの結果は次のとおりです。 Estimate Std. Error z value Pr(>|z|) (Intercept) 3.0682091 3.3944407 0.904 0.366052 GEST 0.0086545 0.1494487 0.058 …

1
階層的分類法からの複数のクラスに基づく類似性測定?
複数のクラスがあり、各クラスが階層の一部であるオブジェクトに、類似性の測定を推奨する人はいますか? たとえば、クラスが次のようになっているとします。 1 Produce 1.1 Eggs 1.1.1 Duck eggs 1.1.2 Chicken eggs 1.2 Milk 1.2.1 Cow milk 1.2.2 Goat milk 2 Baked goods 2.1 Cakes 2.1.1 Cheesecake 2.1.2 Chocolate オブジェクトには、上記のアイテムのタグを任意のレベルで付けることができます。例: Omelette: eggs, milk (1.1, 1.2) Duck egg omelette: duck eggs, milk (1.1.1, 1.2) Goat milk chocolate cheesecake: goat milk, cheesecake, …

1
時系列での予測不能性または不確実性の発見
時系列の予測不能性を追跡する統計を見つけることに興味があります。簡単にするために、時系列の各値が1または0であると想定します。たとえば、次の2つの時系列は完全に予測可能ですTS1:1 1 1 1 1 1 1 1 TS2:0 1 0 1 0 1 0 1 0 1 0 1 ただし、次の時系列はそれほど予測可能ではありません。TS3:1 1 0 1 0 0 1 0 0 0 0 0 1 1 0 1 1 1 時系列を指定すると、0から1までの数値を返し、0が系列が完全に予測可能であることを示し、1が系列が完全に予測不可能であることを示す統計を探しています。 コルモゴロフ複雑度やシャノンエントロピーなど、いくつかのエントロピー測定値を見ましたが、どちらも私の要件に適合していないようです。コルモゴロフの複雑度では、統計値は時系列の長さに応じて変化します(「1 0 1 0 1」と「1 0 1 0」の場合は複雑度が異なるため、異なる2つの時系列の予測可能性を比較することはできません。観測数)。シャノンエントロピーでは、観測の順序は問題にならなかったようです。 私の要件に適した統計とはどのようなものですか?

1
SQL Server Analysis ServicesとRの違いは何ですか?
これは、意見が多すぎて幅広い質問かもしれませんが、SQL Server Analysis Serviceデータマイニングプロジェクトを使用したさまざまなアルゴリズムの実行とRの使用についての情報を探すのは本当に難しいと感じています。 SSASについては誰も使用していないようなので、SSASについては何も考えていません。:) データベースガイ 始める前に、はっきりさせておきます。私はデータベース担当者であり、データサイエンティストではありません。私は主にRを使用するデータサイエンティストである人々と協力しています。私は、これらの人たちがデータを分析および処理できる大きなデータセットを作成するのを支援します。 ここでの私の目的は、SQL Serverに付属しているツールを活用することです。R、SAS、SSPSなどの他のメソッドやツールと比較して、だれもそれがどのように機能するかについての手がかりがないためです。キャンプ。 SSAS OLAPキューブの作成以外にSQL Server Analysis Services(SSAS)を実際に使用したことはありません。SSASを知っている人は、キューブでデータマイニングタスクを実行したり、SQL Serverのデータで直接実行したりすることもできます。 SSASデータマイニングには、さまざまなアルゴリズムタイプが用意されています。 分類アルゴリズムは、データセット内の他の属性に基づいて、1つ以上の離散変数を予測します。 回帰アルゴリズムは、データセット内の他の属性に基づいて、利益や損失などの1つ以上の連続変数を予測します。 セグメンテーションアルゴリズムは、類似したプロパティを持つアイテムのグループまたはクラスターにデータを分割します。 アソシエーションアルゴリズムは、データセット内の異なる属性間の相関関係を見つけます。この種のアルゴリズムの最も一般的なアプリケーションは、マーケットバスケット分析で使用できる相関ルールの作成です。 シーケンス分析アルゴリズムは、Webパスフローなど、データ内の頻繁なシーケンスまたはエピソードを要約します。 離散列の予測 これらのさまざまなアルゴリズムオプションを使用して、データから一般的な予測を始めることができます。たとえば、入力列Ageに対して、予測可能な列Bike Buyersに基づいて自転車を購入する人を簡単に見つけるなどです。ヒストグラムは、人の年齢がその人が自転車を購入するかどうかを区別するのに役立つことを示しています。 連続列の予測 Microsoftディシジョンツリーアルゴリズムが連続した予測可能な列に基づいてツリーを構築すると、各ノードには回帰式が含まれます。分割は、回帰式の非線形点で発生します。たとえば、次の図について考えます。 比較 その一部については、データに対してさまざまなアルゴリズムを実行でき、SSASでデータに対して実行するさまざまな機能を利用できるように思えます。また、Visual Studioで独自のアルゴリズムを開発し、SSASに展開できるようです(間違いではない場合)。 では、Rの言語とツールに関して、ここで何が欠けているのでしょうか。SSASなどよりも複雑なアルゴリズムを展開および編集する柔軟性が高いだけですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.