ランダムフォレストの近接性とはどういう意味ですか?


11

ランダムフォレストの近接という用語に出くわしました。しかし、私はそれがランダムな森で何をしているのか理解できませんでした。分類の目的でどのように役立ちますか?

回答:


11

「近接性」という用語は、ケースのペア間の「近さ」または「近さ」を意味します。

近接度は、ケース/観測値/サンプルポイントの各ペアに対して計算されます。2つのケースが1つのツリーを介して同じターミナルノードを占める場合、それらの近接性は1つ増加します。すべてのツリーの実行の最後に、近接度はツリーの数で割ることによって正規化されます。近接性は、欠落しているデータの置き換え、異常値の特定、およびデータの低次元ビューの作成に使用されます。

近接

近接は元々NxN行列を形成していました。ツリーが成長したら、トレーニングとOobの両方のすべてのデータをツリーの下に配置します。ケースkとnが同じ端末ノードにある場合は、それらの近接度を1つ増やします。最後に、木の数で割って近接度を正規化します。

ユーザーは、大きなデータセットでは、NxN行列を高速メモリに適合させることができないことに注意しました。変更により、必要なメモリサイズはNxTに減少しました。Tはフォレスト内のツリーの数です。計算集約的なスケーリングと反復欠損値置換を高速化するために、ユーザーには、各ケースに対してnrnnの最大近接度のみを保持するオプションが与えられます。

テストセットが存在する場合、テストセットの各ケースとトレーニングセットの各ケースの近接度も計算できます。追加のコンピューティングの量は中程度です。

引用:https : //www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm


「nrnn」は何の略ですか?私はRFのAdele Cutlerの(または、おそらくここで何を書いているのかわからないため、Breimanの)ページを読んでいましたが、それらがnrnnを定義する場所を見つけることができません。(それは非常によく、私は不慣れなことが起こるいると線形代数用語かもしれません。
タナーStrunk

nrnn =近接度を計算する最近傍の数。出典:math.usu.edu/adele/RandomForests/ENAR.pdf 161ページ
クランバード

0

Elements of Statistical Learningの作成者は、「データに関係なく、ランダムフォレストの近接プロットは非常によく似ているため、その有用性に疑問を投げかけていることに注意してください。分類性能が優れていると述べた。」(p 595)

ただし、これらの著者は、ランダムフォレストが欠落データを処理する方法についてはあまり触れていないと思います(本の前半でツリーを使用した欠落データについて言及しています)。おそらく著者はRFのこの側面をそれほど強調しなかっただけかもしれません。これは、本が膨大であり、多くの機械学習トピック/技術に関する多くの情報を持っていることを考えると理にかなっています。ただし、プロットがRFとデータセットに同様の形状を与えることは、RFについて一般的に否定的なことを意味するとは思いません。たとえば、線形回帰は基本的に常に同じように見えますが、直線に近い点と線形回帰の観点からは外れ値のように見える点を知ることは価値があります。だから...近接プロットの有用性についての彼らのコメントは私には意味がありません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.