部分最小二乗回帰(PLSR)または部分最小二乗構造方程式モデリング(PLS-SEM)では、「部分」という用語は何を指しますか?
部分最小二乗回帰(PLSR)または部分最小二乗構造方程式モデリング(PLS-SEM)では、「部分」という用語は何を指しますか?
回答:
主に歴史的な観点に基づいてこの質問に答えたいと思います。これは非常に興味深いです。部分最小二乗(PLS)アプローチを考案したハーマンウォルドは、用語PLS(または用語partialに言及する)をすぐに使用し始めていません。中に初期期間(1966-1969)、彼は、このアプローチと呼ばNILES -用語と彼の最初の論文のタイトルの略語を、このトピックに非線形推定反復最小二乗法により 1966年に出版され、。
私たちが見ることができるように、後に部分的に呼び出される手順は、と呼ばれている反復推定重みと潜在変数(のLV)の手順の反復性に焦点を当て、。「最小二乗」という用語は、通常の最小二乗(OLS)回帰を使用して、モデルの他の未知のパラメーターを推定することに由来します(Wold、1980)。「部分的」という用語は、「モデルのパラメーターをサブセットに分割して、部分的に推定できるようにする」という考え方を実装したNILESプロシージャに根ざしているようです(Sanchez、2013、p。216;重点鉱山) 。
PLSという用語の最初の使用法は、非線形反復部分最小二乗(NIPALS)推定手順であり、PLSの次の期間であるNIPALSモデリング期間を示しています。1970年代と1980年代はソフトモデリングの期間となり、カールジョレスコグのSEMへのLISRELアプローチの影響を受けて、ウォルドはNIPALSアプローチをソフトモデリングに変換します。 )。PLSの歴史の次の期間である1990年代は、サンチェス(2013)が「ギャップ」期間と呼んでいますが、その使用の減少が主な特徴です。幸いなことに、2000年代から(統合期間)、PLSは、特に社会科学において、SEM分析への非常に一般的なアプローチとしての復帰を享受しました。
更新(アメーバのコメントに応えて):
更新2(さらなる説明):
アメーバの回答で表明された懸念に応えて、いくつかのことを明確にしたいと思います。NIPALSとPLSで「部分的」という言葉の使用を区別する必要があるように思えます。これにより、1)NIPALSの「部分的」の意味と2)PLSの「部分的」の意味(Phil2014による元の質問)に関する2つの別個の質問が作成されます。前者についてはわかりませんが、後者についてはさらに明確にすることができます。
Wold、Sjöströmand Eriksson(2001)によると、
PLSの「部分的」は、これが偏回帰であることを示しています。
言い換えると、「部分的」は、PLSのNIPALSアルゴリズムによるデータ分解がすべてのコンポーネントを含まない可能性があるという事実に由来するため、「部分的」です。「部分的な」データでアルゴリズムを使用できる場合、NIPALS全般に同じ理由が当てはまると思います。それはNIPALSの「P」を説明するでしょう。
NIPALS定義で単語「非線形」を使用しての面では(と混同しないでください非線形PLS PLSアプローチの非線形の変形を表している、!)、私はそれがいいと思いませんし、アルゴリズム自体が、これらに非線形モデル、とすることができます線形回帰ベースのNIPALSを使用して分析。
更新3(ハーマンウォルドの説明):
Herman Woldの1969年の論文はNIPALSに関する最初の論文のようですが、このトピックに関する最初の論文の1つを見つけることができました。これはWold(1974)による論文で、PLSの「父」はNIPALSの定義(p。71)で「部分的」という言葉を使用することの論理的根拠を示しています。
3.1.4。NIPALS推定:反復OLS。モデルの1つ以上の変数が潜在的である場合、予測関係には未知のパラメーターだけでなく未知の変数も含まれ、その結果、推定問題は非線形になります。3.1(iii)に示すように、NIPALSは、ステップs = 1、2、...などの反復手順によってこの問題を解決します。各ステップsには、モデルの各予測子関係に1つずつ、有限数のOLS回帰が含まれます。そのような回帰はそれぞれ、未知のパラメーターと潜在変数のサブセットのプロキシ推定値を提供し(したがって、部分最小二乗という名前)、これらのプロキシ推定値は、新しいプロキシ推定値を計算する手順の次のステップで使用されます。
参照資料
Rosipal、R.(2011)。非線形部分最小二乗:概要。Lodhi H.およびYamanishi Y.(Eds。)、ケモインフォマティクスおよび高度な機械学習の展望:複雑な計算方法と共同技術、pp。169-189。ACCM、IGI Global。http://aiolos.um.savba.sk/~roman/Papers/npls_book11.pdfから取得
サンチェスG.(2013)。カリフォルニア州バークレーのPLSパスモデリング:Trowchez Editions。http://gastonsanchez.com/PLS_Path_Modeling_with_R.pdfから取得
ウォルド、H(1974)。潜在変数を伴う因果フロー:NIPALSモデリングに照らした方法の別れ。欧州経済レビュー、 5、67-86。北ホランド出版。
ウォルド、H。(1980)。理論的知識が乏しい場合のモデル構築と評価:部分最小二乗の理論と応用。J. Kmenta and JB Ramsey(編)、計量経済モデルの評価、 pp。47-74。ニューヨーク:アカデミックプレス。http://www.nber.org/chapters/c11693から取得
ウォルド、S。、シェーストレム、M。、およびエリクソン、L。(2001)。PLS回帰:ケモメトリックスの基本ツール。ケモメトリックスおよびインテリジェントラボシステム、58、109-130。doi:10.1016 / S0169-7439(01)00155-1 http://www.libpls.net/publication/PLS_basic_2001.pdfから取得
ただし、歴史的に、@ Aleksandrがうまく説明しているように(+1)、PLSはNIPALSアルゴリズムを使用して実装したWoldによって導入されました。NIPALSは「非線形反復部分最小二乗法」の略であるため、明らかにPLSのPはNIPALSから取得したものです。
さらに、NIPALS(他の場所で読んだことを覚えているように)は最初はPLS用に開発されていませんでした。PCAで導入されました。現在、NIPALS for PCAは非常に単純なアルゴリズムです。ここで紹介できます。ましょう行の観察とデータ行列を中心とします。目標は、最初の主軸(共分散行列の固有ベクトル)と最初の主成分(の投影データを)。ランダムに初期化してから、収束するまで次の手順を繰り返します。v p v p
それでおしまい!本当の疑問は、Woldがこのアルゴリズムを「部分的」と呼んだ理由です。答えは(@Aleksandrが3回目の更新を行った後でようやくわかったように)、Woldはとを2つの[セット]パラメーターとして見なし、一緒にデータ行列モデル化したということです。アルゴリズムは、これらのパラメーターを順次更新します(ステップ#1および#3)。つまり、一度にパラメーターの一部のみを更新します。したがって、「部分的」です。p X
(なぜ彼はそれを「非線形」と呼んだのか私はまだ理解していません。)
これが「部分的」である場合、すべての期待値最大化アルゴリズムも「部分的」であるため、この用語は非常に誤解を招く可能性があります(実際、NIPALSはEMの原始形式と見なすことができます、Roweis 1998を参照)。PLSは、機械学習コンテストで最も誤解を招く用語の良い候補だと思います。悲しいかな、Wold Jr.の努力にもかかわらず、変更される可能性はほとんどありません(上記の@Momoのコメントを参照)。