ケイエルブイは、ハイパースペクトルカメラ・光学部品・光源など世界中の光学機器を取り扱う専門商社です。

03-3258-1238

お問い合わせ
KLV大学 分光コース

スペクトル解析で使用される多変量解析の種類

ハイパースペクトルカメラで撮影したスペクトル画像データや分光器で常時測定しているスペクトルデータは、複数の波長毎の輝度値を持った非常に情報量の大きいデータです。
スペクトル解析では、物質の同定や濃度の推定をするために、この膨大な情報量を持つスペクトルデータを解析しますが、複雑な情報の解析は容易ではありません。

複数の変数を統計的に扱うことができる多変量解析は、複雑なデータから必要なデータを抽出することを得意とします。
そのため、スペクトルの解析と非常に相性がよく、スペクトルデータに多変量解析を行うことで、物質の同定、物質の濃度の推定を高い精度で実現する事が可能となります。

スペクトルデータの多変量解析

本記事では、スペクトルデータの多変量解析の基本的な原理や手法を紹介します。

スペクトル解析の複雑さと多変量解析の必要性

本記事で取り扱う”スペクトルデータ”は、特定の物質が放出または吸収する光の波長分布のデータです。
物質の組成・構造・結合によって、吸収される光の波長が異なるため、スペクトル解析は測定したスペクトルデータの吸収波長から、物質の化学的な組成や構造を特定する作業になります。

ただし、わかっている物質の吸収波長から、簡単に物質が特定できるかというと、そう簡単ではありません。
まずは、スペクトルデータの解析が複雑になる理由を3つご紹介します。

(1)スペクトルデータは、データ量が膨大

スペクトルの画像データは、各画素毎に数百の波長の輝度値の情報を含む3次元のデータです。

例えば、2000x2000の画素で、200波長の1枚のスペクトルデータの場合には、1枚の画像で8億ポイントの輝度値を持っています。
このようなスペクトルデータは非常に豊富な情報を含みますが、膨大な情報の中から如何に解析に必要なデータのみを取り出すかが重要であり難しいポイントです。

スペクトル解析における多変量解析の必要性1

(2)複数の物質の情報が重なっている

通常は、画像に多数の物質が混在するため、得られるスペクトルは複数の物質による吸収が重なりあった複雑な波形になります。
例えば、プラスティックのスペクトルを解析する際に、透明なプラスティックのバックグラウンドの吸収スペクトルの影響や、プラスティックが水分を含んでいる水分の吸収スペクトルの影響を受けます。
検査対象のスペクトルを正しく解析するには、スペクトルの情報を分離する必要がありますが、特に類似した吸収波長を持つ物質が複数含まれている場合には、吸収が重なり合い分離が難しくなります。

スペクトル解析における多変量解析の必要性3

(3)測定に含まれるノイズ、干渉による誤差の影響

スペクトルの測定が必ずしも理想的な状況下で行われるとは限りません。測定したデータには、様々な周波数成分のノイズ、信号同士の干渉が含まれています。

ノイズ、干渉による誤差の大きさは、測定機器や測定方法に依存するため、用途に適したスペクトル測定手法を選択することはもちろん、信号の大きさや必要なSN比に合わせた性能の分光器、光源、アクセサリを使用する必要があります。
誤差が大きいほど、スペクトルデータから必要なデータを正しく取り出すことが難しくなります。

スペクトル解析における多変量解析の必要性2

このように、複数のスペクトルが重なっていたり、誤差が含まれている非常に複雑で大規模なデータから重要な情報を抽出し、分類や成分量の解析などを実行することは簡単ではありません。

そこで活躍するのが、多変量解析です。

例えば、多変量解析の主成分分析(PCA)は、多次元のデータの次元を圧縮することで、重要な情報を抽出し可視化するのに有効な手段です。
また、相関関係に着目した部分的最小二乗回帰(PLS)は、成分量の解析などが可能です。
そして、そのような解析を高精度に行うために、分析の前に”ノイズ除去”、”バックグラウンド補正”、”正規化”なども必要であり、非常に重要な工程です。

ここからは、スペクトル解析で特に活躍している多変量解析である「主成分分析(PCA)」、「部分的最小二乗回帰(PLS)」について概要やメリットについて紹介します。

スペクトル解析で使用される主な多変量解析の種類

多変量解析は、複数の変数の関係性を理解するために使用される統計的な手法です。
膨大な情報を統計的に解析して、データの関係性から分類や濃度の算出を可能とします。

スペクトル解析で使用される代表的な多変量解析手法である「主成分分析(PCA)」、「部分的最小二乗回帰(PLS)」に着目して、それぞれの手法の目的、得意な解析・実例を紹介します。

①多変量解析の基盤的存在:分類には”次元を圧縮”する主成分分析(PCA)

スペクトルのPCA解析

主成分分析(PCA)は、最も一般的な多変量解析手法で、データの中に含まれる必要な情報をできるだけ保持しつつ、次元を圧縮することを目的としています。
例えば、100波長のスペクトルデータは、100次元の情報を持っていることになりますが、この100次元上にデータを視覚的にわかりやすくプロットすることは不可能ですし、それを理解して各スペクトルを分類することは困難です。
そこで、この多次元の情報を新たに作成した2次元上に投影させてプロットするのが、”次元の圧縮”です。
次元を圧縮することにより、一部の情報が欠落することになりますが、データ内の変数の相関を考慮して、新しい次元の変数(主成分)を選択することが重要になります。

[図解]3次元から2次元へ ”次元の圧縮”のイメージ

スペクトル解析では、100次元を超える次元から2次元や3次元への「次元の圧縮」を行いますが、そのイメージを図解するのは難しいため、ここではより単純な「3次元の情報を2次元へ圧縮するイメージ」を紹介します。

PCAによる次元の圧縮

まず、3次元上にプロットされた点を考えます。これらのプロットを3次元空間内で分類するには、3次元空間内に分類の境界を設定する必要がありますが、この境界は複雑なものになります。
そこで、この3次元内に新たな成分を軸とした2次元の平面を用意します。
そして、各プロットをその2次元平面上に落とし込みます。
これにより、3次元の情報が2次元に圧縮されたことになります。

このように、次元を圧縮すると、視覚的にも条件的にも簡単に分類が可能になります。

スペクトル解析では、100次元のデータを同じように2次元にまで圧縮して、2次元上で分類を行います。

ここまでで、多変量解析の主成分分析(PCA)を使用することで、データの特徴をより簡単に視覚化できることがわかったかと思います。

ただし、主成分分析で難しいのは、どのような2次元平面をとるかということです。
例えば、3次元を2次元にする際には、3次元の複数の点が同一の2次元のポイントに落とし込まれるため、情報が削減されます。
どのように情報を失わずに次元を圧縮するのか、詳しくは【スペクトルの多変量解析】主成分分析(PCA)を使った物質の分類編をご確認ください。

主成分分析(PCA)のメリット

スペクトル解析で主成分分析(PCA)を行う主なメリットは、分類モデルの作成が容易になり解釈性が容易になることですが、それだけではなく、ノイズの除去などモデルの性能向上にも寄与します。

[メリット:1] 分類モデルの解釈性の向上(データの可視化)

高次元のデータはグラフなどで確認することはできませんが、データを2次元や3次元に圧縮することで、グラフ上で分類などが視覚的に確認しやすくなります。
これにより、各材料のスペクトル情報がどのように分布しているかの直感的な解釈が可能になります。

[メリット:2] 分類モデルの単純化による、解析時間の短縮

高次元データを扱う際、データの次元が高いままで解析・学習を行うと計算コストが膨大になります。
特に、インライン等でスペクトル解析を使用する場合には、解析に時間をかけることはできません。

PCA解析で次元を圧縮することで、分類モデルの学習、分類モデルを使用した解析に必要となる計算量を削減し、処理時間を短縮することができます。
また、複雑さが改善することで、過学習などのリスクも低減することができます。

[メリット:3] ノイズの低減による安定性の向上

主成分分析(PCA)はデータの分散を最大化する方向に主成分を選択します。これにより、データの主要な要素のみが抽出され、ノイズ成分を低減することができます。
特に、高次元データではノイズが多く含まれることが一般的でですが、PCAを用いることでSN比が改善します。

ノイズの削減により、ノイズを学習してしまうことによる不安定さが削減され、モデルの安定性の向上、スペクトル解析の精度向上が期待できます。

このように、次元数の多いスペクトル解析において主成分分析(PCA)は、さまざまメリットをもたらします。

②多変量解析の本領発揮:定量化には相関を考慮する部分的最小二乗回帰解析(PLS)

スペクトルのPLS解析

部分的最小二乗回帰解析(PLS)は、データの中に含まれる情報から、水分量や材料の割合など、定量値を予測するための手法です。

スペクトル解析のように高次元のデータの部分的最小二乗回帰解析(PLS)をする際には、主成分分析(PCA)と同じように次元の圧縮を行います。
ただし、主成分分析(PCA)が”主成分の分散”を最小にするように次元を圧縮するのに対して、部分的最小二乗回帰解析(PLS)は予測したい値との相関を考慮するために”主成分と目的変数の共分散”を最小にするように次元を圧縮します。

[図解]"相関が強い”のイメージ

部分的最小二乗回帰解析(PLS)は、主成分である説明変数(解析対象に影響を与える変数)と、目的変数(説明変数の影響を受ける解析の対象となる変数)の相関が最も強くなるようにデータを解析します。

ここでは、「相関が強くなるように」という部分のイメージを紹介します。

PLSの相関に関して

説明変数を変化させた際に、目的変数がどう変化するかわからない状態は、「相関が弱い」状態です。
相関が弱い状態では、スペクトルがどうなった時に、定量化したい値(例えば水分量)がどうなっているかを推定できません。

一方、説明変数を変化させた際に、目的変数がどう変化するかが1次元の線で表せる状態は、「相関が強い」状態です。
相関が強いと、スペクトルから、定量化したい値(例えば水分量)がどうなっているかを推定することが可能になります。

部分的最小二乗回帰解析(PLS)は、相関が強くなるように次元の圧縮するため、スペクトルデータから水分量や糖度の定量化を行うことが可能になります。

部分的最小二乗回帰解析(PLS)のメリット

部分的最小二乗回帰解析(PLS)は、相関関係の明確化を行う際に、多重共線性やノイズに対して強いというメリットがあります。

[メリット:1] 相関を明確にできる

部分的最小二乗回帰解析(PLS)は、独立変数と従属変数の関係を明確にすることで、モデルの解釈性を高めます。

これにより、どの変数が結果に影響を与えているかを理解しやすくなります。

[メリット:2] 多重共線性に強く、予測性能が高い。

重回帰解析では、説明変数の要素同士が関係性を持っている場合(高い多重共線性がある場合)に、回帰係数の推定値が不安定になり、モデルの予想精度が下がってしまいます。
部分的最小二乗回帰解析(PLS)は、説明変数の次元を圧縮する際に、関係性の高い要素が1つにまとめることが可能です。

これにより、多重共線性がモデルに与える影響を低く抑えることができます。

[メリット:3] ノイズや過学習に強いく少ないサンプルでも高い精度が確保できる

部分的最小二乗回帰解析(PLS)は、目的変数と強い相関を持つデータを抽出して主要な構造を捉えるため、目的変数に関係のないノイズや外れ値に対して影響を受けにくい手法です。

これにより、比較的少ないサンプルでも信頼性の高いモデルを構築することが可能となります。少ないデータから有益な情報を抽出し、過学習を防ぐことができることは解析において非常に重要な要素です。

スペクトルの多変量解析のまとめ

複数の変数を統計的に扱うことができる多変量解析は、非常に複雑なスペクトルデータの解析と非常に相性のよい解析方法であることを紹介しました。

そして、実際に、スペクトルデータを用いた物質の分類には主成分分析(PCA)、物質の濃度の推定にはなどを行う場面では、部分的最小二乗回帰解析(PLS)が活躍しています。

スペクトルカメラや分光器を使用したスペクトル測定、スペクトル解析を検討に関して、ケイエルブイにお気軽にご相談ください。

お問い合わせ

また、ケイエルブイでは、スペクトル解析について、測定・解析に関する情報を発信中です。


分光コース

ご質問・ご相談お気軽にお問い合せください

お電話でのお問合せ 03-3258-1238 受付時間 平日9:00-18:00(土日祝日除く)
Webでのお問い合わせ