部分最小二乗法の「部分的」とは何ですか?


16

部分最小二乗回帰(PLSR)または部分最小二乗構造方程式モデリング(PLS-SEM)では、「部分」という用語は何を指しますか?


4
Wold Jr.は、「部分最小二乗」という名前は誤解を招くものであり、「潜在空間への投影」と呼ばれるべきであると考えていることに注意してください。
モモ

@Momo:はい、それについて読みました。ただし、PLSがある程度誤解を招く場合でも、「潜在空間への投影」はさらに明確ではなく、書面での用語の使用における利便性の欠如は言うまでもありません。
アレクサンドルブレフ

回答:


17

主に歴史的な観点に基づいてこの質問に答えたいと思います。これは非常に興味深いです。部分最小二乗(PLS)アプローチを考案したハーマンウォルドは、用語PLS(または用語partialに言及する)をすぐに使用し始めていません。中に初期期間(1966-1969)、彼は、このアプローチと呼ばNILES -用語と彼の最初の論文のタイトルの略語を、このトピックに非線形推定反復最小二乗法により 1966年に出版され、。

私たちが見ることができるように、後に部分的に呼び出される手順は、と呼ばれている反復推定重みと潜在変数(のLV)の手順の反復性に焦点を当て、。「最小二乗」という用語は、通常の最小二乗(OLS)回帰を使用して、モデルの他の未知のパラメーターを推定することに由来します(Wold、1980)。「部分的」という用語は、「モデルのパラメーターをサブセットに分割して、部分的に推定できるようにする」という考え方を実装したNILESプロシージャに根ざしているようです(Sanchez、2013、p。216;重点鉱山) 。

PLSという用語の最初の使用法は、非線形反復部分最小二乗(NIPALS)推定手順であり、PLSの次の期間であるNIPALSモデリング期間を示しています。1970年代と1980年代はソフトモデリングの期間となり、カールジョレスコグのSEMへのLISRELアプローチの影響を受けて、ウォルドはNIPALSアプローチをソフトモデリングに変換します。 )。PLSの歴史の次の期間である1990年代は、サンチェス(2013)が「ギャップ」期間と呼んでいますが、その使用の減少が主な特徴です。幸いなことに、2000年代から(統合期間)、PLSは、特に社会科学において、SEM分析への非常に一般的なアプローチとしての復帰を享受しました。

更新(アメーバのコメントに応えて):

  • おそらく、私が引用したフレーズでは、サンチェスの言葉遣いは理想的ではありません。「部分的に推定」は、変数の潜在 ブロックに適用されると思います。Wold(1980)は、この概念を詳細に説明しています。
  • NIPALSはもともとPCA用に開発されたものだというのは正しいことです。混乱は、線形PLSアプローチと非線形PLSアプローチの両方が存在するという事実に起因しています。Rosipal(2011)は違いを非常によく説明していると思います(少なくとも、これは私がこれまで見てきた中で最も良い説明です)。

更新2(さらなる説明):

アメーバの回答で表明された懸念に応えて、いくつかのことを明確にしたいと思います。NIPALSとPLSで「部分的」という言葉の使用を区別する必要があるように思えます。これにより、1)NIPALSの「部分的」の意味と2)PLSの「部分的」の意味(Phil2014による元の質問)に関する2つの別個の質問が作成されます。前者についてはわかりませんが、後者についてはさらに明確にすることができます。

Wold、Sjöströmand Eriksson(2001)によると、

PLSの「部分的」は、これが偏回帰であることを示しています。

言い換えると、「部分的」は、PLSのNIPALSアルゴリズムによるデータ分解がすべてのコンポーネントを含まない可能性があるという事実に由来するため、「部分的」です。「部分的な」データでアルゴリズムを使用できる場合、NIPALS全般に同じ​​理由が当てはまると思います。それはNIPALSの「P」を説明するでしょう。

NIPALS定義で単語「非線形」を使用しての面では(と混同しないでください非線形PLS PLSアプローチの非線形の変形を表している、!)、私はそれがいいと思いません、アルゴリズム自体が、これらに非線形モデル、とすることができます線形回帰ベースのNIPALSを使用して分析。

更新3(ハーマンウォルドの説明):

Herman Woldの1969年の論文はNIPALSに関する最初の論文のようですが、このトピックに関する最初の論文の1つを見つけることができました。これはWold(1974)による論文で、PLSの「父」はNIPALSの定義(p。71)で「部分的」という言葉を使用することの論理的根拠を示しています。

3.1.4。NIPALS推定:反復OLS。モデルの1つ以上の変数が潜在的である場合、予測関係には未知のパラメーターだけでなく未知の変数も含まれ、その結果、推定問題は非線形になります。3.1(iii)に示すように、NIPALSは、ステップs = 1、2、...などの反復手順によってこの問題を解決します。各ステップsには、モデルの各予測子関係に1つずつ、有限数のOLS回帰が含まれます。そのような回帰はそれぞれ、未知のパラメーターと潜在変数のサブセットのプロキシ推定値を提供し(したがって、部分最小二乗という名前)、これらのプロキシ推定値は、新しいプロキシ推定値を計算する手順の次のステップで使用されます。

参照資料

Rosipal、R.(2011)。非線形部分最小二乗:概要。Lodhi H.およびYamanishi Y.(Eds。)、ケモインフォマティクスおよび高度な機械学習の展望:複雑な計算方法と共同技術、pp。169-189。ACCM、IGI Global。http://aiolos.um.savba.sk/~roman/Papers/npls_book11.pdfから取得

サンチェスG.(2013)。カリフォルニア州バークレーのPLSパスモデリング:Trowchez Editions。http://gastonsanchez.com/PLS_Path_Modeling_with_R.pdfから取得

ウォルド、H(1974)。潜在変数を伴う因果フロー:NIPALSモデリングに照らした方法の別れ。欧州経済レビュー、 5、67-86。北ホランド出版。

ウォルド、H。(1980)。理論的知識が乏しい場合のモデル構築と評価:部分最小二乗の理論と応用。J. Kmenta and JB Ramsey(編)、計量経済モデルの評価、 pp。47-74。ニューヨーク:アカデミックプレス。http://www.nber.org/chapters/c11693から取得

ウォルド、S。、シェーストレム、M。、およびエリクソン、L。(2001)。PLS回帰:ケモメトリックスの基本ツール。ケモメトリックスおよびインテリジェントラボシステム、58、109-130。doi:10.1016 / S0169-7439(01)00155-1 http://www.libpls.net/publication/PLS_basic_2001.pdfから取得


@amoeba:このペーパーでは、最近議論した他のアプローチと比較して、より技術的な方法でPLSを説明していると思います。ただし、上記の説明はPLS回帰に焦点を合わせているのに対し、PLSには複数のクラスのシステム分析が含まれていることに注意してください(次のプレゼンテーションのスライド10を参照)。スライド25-29のテクニカルノートも参考になります。プレゼンテーション:plsmodeling.com/pls/pls-introduction
アレクサンドルブレフ

@ Aleksandr Blekh:これらは非常に素晴らしい参考文献です。
アルフ

うわー、人々はPLSの歴史の期間に名前を付けます!印象的。
アメーバは、モニカを復活させる

真剣に、私はサンチェスの本を調べましたが、NIPALSが「モデルのパラメーターをサブセットに分割して、部分的に推定できるようにする」という考え方とはまだ関係ありません。NIPALSは元々、主成分を計算する方法として提案されましたよね?とても簡単です。ここでは、パラメーターの「サブセット」への「分割」は見られないため、ここでSanchezが何について話しているのかわかりません。ところで、NIPALSの「非線形」も理解できません。確かにPCAは線形手法です!
アメーバは、Reinstate Monica

@amoeba:コメントに対する私の更新をご覧ください。それが役に立てば幸い。
アレクサンドルブレフ

7

XY

ただし、歴史的に、@ Aleksandrがうまく説明しているように(+1)、PLSはNIPALSアルゴリズムを使用して実装したWoldによって導入されました。NIPALSは「非線形反復部分最小二乗法」の略であるため、明らかにPLSのPはNIPALSから取得したものです。

さらに、NIPALS(他の場所で読んだことを覚えているように)は最初はPLS用に開発されていませんでした。PCAで導入されました。現在、NIPALS for PCAは非常に単純なアルゴリズムです。ここで紹介できます。ましょう行の観察とデータ行列を中心とします。目標は、最初の主軸(共分散行列の固有ベクトル)と最初の主成分(の投影データを)。ランダムに初期化してから、収束するまで次の手順を繰り返します。v p v pXvpvp

  1. v=Xp(pp)1
  2. セット。1v1
  3. p=Xv(vv)1

それでおしまい!本当の疑問は、Woldがこのアルゴリズムを「部分的」と呼んだ理由です。答えは(@Aleksandrが3回目の更新を行った後でようやくわかったように)、Woldはとを2つの[セット]パラメーターとして見なし、一緒にデータ行列モデル化したということです。アルゴリズムは、これらのパラメーターを順次更新します(ステップ#1および#3)。つまり、一度にパラメーターの一部のみを更新します。したがって、「部分的」です。p XvpX

(なぜ彼はそれを「非線形」と呼んだのか私はまだ理解していません。)

これが「部分的」である場合、すべての期待値最大化アルゴリズムも「部分的」であるため、この用語は非常に誤解を招く可能性があります(実際、NIPALSはEMの原始形式と見なすことができます、Roweis 1998を参照)。PLSは、機械学習コンテストで最も誤解を招く用語の良い候補だと思います。悲しいかな、Wold Jr.の努力にもかかわらず、変更される可能性はほとんどありません(上記の@Momoのコメントを参照)。


私の答えのUPDATE 2に興味を持っていただければ、さらに明確になります。
アレクサンドルブレフ

この議論を続けてくれてありがとう(誤解を防ぐために、私はあなたを批判するつもりはなかったと言ってください!)。次に、Update2に進みます。PLSとNIPALSで「部分」の意味を区別する必要があると思うのはなぜですか?これは奇妙に聞こえます。PLSはNIPALSの研究から生まれました。これは、その名前が単に「niPaLS」の短縮形であることを示唆しています。これは、ウォルドらによって確認されたようです。あなたが見つけた2001年の論文:「これにはNIPALSと呼ばれるこれらのモデルのパラメータを推定するためのシンプルだが効率的な方法が含まれていた
アメーバは、モニカを復活させる

1
素敵な発見!しかし、1974年は「NIPALSに関する最も早い論文」だとは思いません。タイトルにNIPALSを含む1969年の論文があります(以前のコメントを参照)。それにもかかわらず、この引用は実際に質問にいくらかの光を投げかけます。PCAのNIPALSの例を議論する場合、Woldはとをを記述する2つのパラメーターとして取り、「部分的」という用語は個別に更新されます。つまり、パラメータの一部のみが一度に更新されます。読み方も?p XvpX
アメーバは、モニカーを復活させる

1
すごい!質問はようやく満足に答えられたと思います。そして、私はついにあなたの答えを支持しました、+ 1 :-)この新しい理解を組み込むために私の答えを編集しました。あなたの答えについて:Update 1およびUpdate 2で「部分的」という言葉を説明したとき、本当に同意したのと同じことを意味しましたか?あなたの答えは、現在、いくつかの異なる解釈が含まれているように私にはそれが見えます...
アメーバは回復モニカ言う

1
知りません!おそらく正しいでしょう。NIPALSを使用して分析できる「非線形モデル」とその方法について詳しく説明してください。一方、それはおそらく完全に異なるトピックです。ポイントは、Woldが独自にPCAを計算しないようにNIPALSを開発したが、いくつかの特定のアプリケーションを念頭に置いて、非線形問題を処理し、何らかの方法で線形化し、PCAに還元する必要があったということだと思いますか?最近、人々はNIPALSを主要な特異ベクトルを計算するための簡単なアルゴリズムとして提示していますが、1969年のWoldはこの見解にまったく同意しないでしょう。
アメーバは、モニカを復活させる
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.