多変量線形回帰
多変量のメソッドの紹介
大規模な高次元データセットは、現代のコンピューターを使った計測や電子データ ストレージにおいて一般的です。高次元データは、統計量の可視化、解析、モデリングに対して多くの課題を提起します。
もちろん、データの可視化は 3 次元を超えることはできません。そのため、パターン認識、データ前処理、モデル選択などは、数値的な方法に依存するところが大きくなります。
高次元データ解析における本質的な問題は、いわゆる"次元の呪い"です。高次元空間での観測は、低次元空間での観測よりも必然的に希薄であり、説明的ではありません。高次元では、データがサンプリングの分布の端に分布します。これは、高次元空間の領域では、体積の大部分が表面近くに含まれるためです (d 次元の球面は、d が無限大に近づくにつれて、球の総体積に対し、体積が 1 に近づきます)。高次元においては、分布の内部では、一般的なデータ点はあまり頻繁にサンプリングされません。
データセット(測定された特徴量)の次元の多くは,モデルの作成に役立ちません。特徴量は無関係か無駄になる可能性があります。回帰と分類のアルゴリズムは、生データを処理するために大量のストレージと計算時間を必要とする可能性があります。アルゴリズムが成功しても、結果のモデルに理解を超える数の項が含まれる可能性があります。
このような問題があるため、多変量統計の手法はある種の"次元削減"から開始するのが普通です。これにより、データは削減された次元空間の点で近似されます。次元削減は、この章で示される方法の目標です。次元削減を行うと、結果モデルがしばしば簡単になり、測定変数がより少なくなります。そこで、測定が高価で可視化が重要な場合は、有効な処理となります。
多変量線形回帰モデル
多変量線形回帰モデルは、d 次元の連続応答ベクトルを、予測子項と多変量正規分布を含む誤差項のベクトルの線形結合として表します。 が観測値 i の応答ベクトルを表すとします (i = 1,...,n)。ほとんどの一般的なケースでは、d 行 K 列の計画行列 と K 行 1 列の係数ベクトル が与えられると、多変量線形回帰は次のようになります。
ここで、誤差項の d 次元ベクトルは多変量正規分布に従います。
このモデルでは、観測値間での独立性を仮定しています。つまり、n 個スタックした d 次元応答ベクトルの誤差分散共分散行列は次のようになります。
スタックした d 次元応答である nd 行 1 列のベクトルを 、スタックした計画行列である nd 行 K 列の行列を で表した場合、応答ベクトルの分布は次のようになります。
多変量回帰の問題の解決
Statistics and Machine Learning Toolbox™ で次の形式の多変量線形回帰モデルの当てはめを行うには、mvregress
を使用します。
この関数は、最小二乗または最尤推定法を使用して、対角 (不均一分散) または非構造化 (不均一分散および相関) の誤差分散共分散行列 が含まれている多変量回帰モデルによる近似を行います。
多変量回帰の多くのバリエーションは、次のようなmvregress
でサポートされる形式と最初は異なる可能性があります。
多変量一般線形モデル
多変量分散分析 (MANOVA)
縦方向解析
パネル データ解析
見かけ上無関係な回帰 (SUR)
ベクトル自己回帰 (AR) モデル
多くの場合、これらの問題をmvregress
で使用される形式に当てはめることができます (ただし、mvregress
はパラメーター表現された誤差分散共分散行列をサポートしません)。1 因子 MANOVA の特殊なケースでは、manova1
を使用することもできます。Econometrics Toolbox™ には、VAR 推定の関数があります。
メモ
多変量線形回帰モデルが多重線形回帰モデルと異なる点は、多重線形回帰では、"一変量"の連続応答を、独立して同一に分散された誤差項に外因的な項を追加した線形結合としてモデル化することです。多重線形回帰モデルを近似するには、fitlm
を使用します。
参考
manova1
|mvregress
|mvregresslike
|fitlm