簡介
拉曼光譜學為制藥行業的質量控制、質量保證和生產可追溯性引入了全新有價值的分析能力。這對該行業目前實行的原料鑒定及驗證帶來了巨大的改變,通常在倉庫中就可完成測試,而不需要將樣品送到實驗室。小型化和模塊化的拉曼設備性能有了明顯的提高,在多數情況下,能夠得到與大型臺式儀器和顯微鏡相同品質的數據。
拉曼光譜學是一種快速鑒別未知化合物的技術,并且是被廣泛使用的便攜式技術之一(如精細化學品測試、藥物成分測量或藥物化合物認證)。在許多公開的文獻中討論了拉曼光譜儀的經濟性和其技術性優勢,但是對于使用這項技術的許多用戶(無論是新手還是有經驗的人)來說,會令大家感到困惑的一個領域,就是如何使用不同的統計算法對光譜進行在線分析,及如何將結果呈現給用戶。
在這篇文章中,我們將手持式拉曼光譜儀作為光譜數據決策的工具,來討論其中兩種較常見的數學表示:命中質量系數(HQI)和顯著性水平(p值)。一般來說,HQI是優先被選擇用來對未知材料進行數據庫匹配的方法,而p值則適合用來對已知材料的身份進行驗證。在這里我們將討論對每個工具的具體舉例說明。
數據庫匹配
數據庫匹配是光譜學中用于研究未知物質的一種行之有效的方法,常用于通過傅立葉變換紅外光譜、近紅外光譜或拉曼光譜來識別材料,一般會將未知樣品的測量光譜與已知材料的經過驗證的光譜庫進行互相關聯并比較,然后通過計算 HQI來量化每個潛在匹配的相關程度(相似度)。

HQI代表兩個光譜之間相似度的系數,它等于未知材料光譜和光譜庫點積的平方,除以光譜庫的與自身的點積,再除以未知材料光譜與自身的點積。HOI的值應介于0到1.0之間,數值越大表示未知樣品的光譜與已知參考光譜之間的相似度越高。當以100為比例時,完全匹配的結果將是100,這表明未知樣品和參考光譜之間的相似度為 1。有了這些信息,如下圖1所示,可以通過設置一個合適的HQI下限,由此來自動判定是否為“匹配/不匹配”,根據不同的應用,HQI的范圍通常設置在 80到99 之間,而制藥行業會將匹配HQI的下限設置為 95。值得注意的是,HQI衡量的不是有疑問材料的純度,相反,它衡量的只是光譜庫中參考光譜和未知樣品的光譜之間的相關程度。

圖1.屏幕截圖顯示的是在手持式產品的軟件中使用調查模式(Investigation Mode)測試得到的結果,(左圖)為與鹽酸左氧氟沙星“匹配“的光譜,顯示其 HOl為 99.859 和(右圖)為"不匹配“的光譜。
同樣重要并且需要注意的是,此相關技術并不能對匹配的準確率提供相關信息。另外,HQI對微小的光譜變化不是特別敏感,而且可能會導致被測樣品被誤認為其它相似的材料。因此,數據庫匹配主要是被作為識別未知材料的工具來使用,人們需要將未知材料的光譜與幾個有可能匹配的光譜進行快速比較,如表1所示。不建議用HQI對已知材料的身份進行鑒定;反而建議用p值來針對這種應用。

表 1.各種氨基酸的拉曼光譜之間相互對比的 HQI結果
身份驗證
為了對"已知"材料的身份進行驗證,就有必要使用更先進的統計方法,來確認該材料的準確率會高于某個閾值(通常置信度為 95%)。有多種數學方法可以用來對樣品進行分類,每種方法都有不同程度的準確性和穩健性。在這篇文章中,我們將著重討論由 Svante Wold 在 70~80 年代提出的簇類獨立軟模式法(SIMCA)。這種多元分析方法是一種被廣泛使用的分類工具,它基于的是對每種材料建立主成分分析(PCA)模型,可用來模擬各個分類之間構成的差異。
SIMCA 的基礎是先確定各個分類的相似性,這也使其成為驗證已知混合物的理想方法。有關SIMCA方法的細節在文獻中有了詳盡的描述,可總結為以下幾個步驟:
1.用經過認可的分析法(如色譜法或質譜法)驗證過的1.材料來建立一組樣本集,再用樣本集對所需材料進行測量得到訓練光譜集。
注意:樣本集越大,就越具有代表性,后續得到的方法也就越穩健。在開發方法時,通常至少需要 20個光譜。當遇到原料有可變性時,用戶也可選擇增加額外的光譜,更多的樣品光譜也可提高模型的穩健性。
2.用訓練集建立一個主成分分析(PCA)模型,并根據95%的置信度來確定隸屬范圍。
3.測量一個新樣品的光譜,并將其投射到PCA模型上:看它是否在模型的范圍內。
一旦方法被建立,它的范圍就由模型上的置信度區間來定義,這就為新樣本測量結果提供了多元驗收距離。當新樣本被測量并投射到模型上時,將樣本與模型的距離與可接受的范圍(the Hotelling'sT2)進行比較,并由此來確定樣本屬于該分類的概率。它利用了T2分布和F分布之間的數學關系。因此,有可能計算出F值,這衡量的是在零假設下總體的變異性。然后,可通過F值來計算p值,可確定疑問材料是建立的模型時材料的概率,并定義材料驗收的可接受邊界。
p 值的定義為當假設對總體沒有效果為真時,比你估計結果更過分的觀察結果出現的概率(當對總體的衡量無效時,。因此,考慮假設:"標記為原料A的容器含有原料A",其中零假設(H0)為 H0=原料 A;而備擇假設(H1)是 H1=非原料 A,p值代表的是如果零假設為真時,拒絕Ho的蕞小的顯著性水平。因此,如果p值>0.05(代表95%的置信度),則接受產品,材料A被驗證就是材料A;但如果p值<0.05,則材料A未被驗證,則拒絕產品。
圖3顯示了L-丙氨酸(I)、L-天冬氨酸(I)和 L-半胱氨酸鹽酸鹽(I)三種方法測試的結果,這些方法是在BWTEK手持拉曼系統中建立的。需要指出的是,因為它們的結構有很大的不同,也可以用 HQI值來明確地識別,如前面表 1所示。

圖 2.用于測試的三種氨基酸對應的化學結構
圖 3a 顯示了典型的疊加光譜,可用于為每種材料建立對應方法。圖3b 顯示了所有三種材料的PCA得分圖,說明材料在多元空間中被分離成獨特的簇,可在概覽圖中進行分析。蕞后,圖 3c 顯示了包含每種材料的三個測量值投射到鹽酸半胱氨酸方法 PCA 模型的測試集。所有三種半脫氨酸鹽酸鹽樣品都落在置信區間內,而其他六個測試光譜在 95%的置信度(定義顯著性水平為5%)下明顯在Hotelling’sT2橢圓型的外側。對其他兩種氨基酸使用該方法也得到了相似的結果。


圖 3.L-丙氨酸、L-天冬氨酸和 L-半胱氨酸鹽酸鹽的拉曼光譜(a)所有三個樣品的 PCA 得分圖顯示了獨特的簇(b),PCA得分圖顯示的是基于 SIMCA 識別為 L-半胱氨酸鹽酸鹽的結果(c)
如圖 4 所示,在分析測量光譜時,該結果可用于對判定"匹配"/"不匹配"進行統計確定。在這種情況下,建立方法所使用的顯著性水平作為可接受的閩值同數據庫匹配中的HQI下限一樣起到了相似的作用。為了匯總這些模型的結果并展示其特異性,表2中顯示的是一個近似性矩陣,它表明當測試樣品逐一與三種方法進行比對時,每一種樣品都能和其對應正確的方法匹配。

圖4.阿司匹林識別為"匹配“的截圖,顯示p值=0.161881(左圖)阿司匹林識別為"不匹配“的截圖(右圖),顯示p值=7.59258x10-12

表 2.氨基酸的拉曼光譜經相互比對的p值結果
碳酸鉀和其水合物的鑒別
對于化學性質相似的材料,相關性方法可能無法提供明確的鑒定結果,因為相似的光譜可能會使得到的 HQI值只有輕微的差異。而相關性是由光譜中占主要地位的信號來決定的。事實證明,使用多元模型和p值可接受準則可以得到更加明確和可靠的分析結果。
碳酸鉀 (KCO3)(IV)與碳酸鉀一點五水合物(K2CO3 1.5 H2O)(V)的鑒別就是一個很好的例子(圖5),它們的區別僅僅在于存在 1.5 個水分子。兩者的拉曼光譜非常相似,都是由 1060cm-1處的同相CO3伸縮振動所主宰,如圖6所示。碳酸鉀一點五水合物在 700cm-1附近有多個CO3離面變形導致的多個帶寬,而碳酸鉀中 688cm-1被看作為單峰。是因為HQI基于的是光譜相關性,它對數據的細微變化不敏感,兩種化合物材料的 HQI值都>96,因此利用 HQI進行明確的鑒定是很困難的,如表3所示。

圖 5.碳酸鉀和碳酸鉀一點五水合物的化學結構。

圖 6.碳酸鉀(紅色)和碳酸鉀一點五水合物(藍色)的拉曼光譜。

表3.利用光譜庫匹配測試樣品得到的 HQI值
為了進一步分析這些化合物,我們為每種材料建立對應的方法。對每種材料分別制作4個樣品,對樣品采集20張拉曼光譜,建立方法的人在完成20 次掃描后可根據光譜數據自動生成 PCA 模型,并且模型排序使得90%的光譜差異可以得到解釋。
然后用識別模式對樣品進行測試,該模式自動將新采集的拉曼光譜投射到選定的 PCA模型(方法)上,并根據樣本與方法匹配的概率(基于置信度為 95%)來報告“匹配/不匹配”的結果。當得到一個"不匹配"的結果時,系統會自動進行光譜庫搜索,并顯示可能的匹配結果,HQI結果是通過將樣品與系統光譜庫和方法庫中的材料對比得到的。
在為每種化合物建立方法后,用 BWTEK手持拉曼系統對每種化合物的 5個樣品進行測試。表4中顯示的結果明確顯示,使用 SIMCA方法進行材料分類,拉曼光譜學能夠用于鑒定碳酸鉀及其水合物。

表 4.在鑒定模式下對給定方法進行測試的樣本的P值匯總
結論
目前的拉曼光譜分析儀可使用處理算法來自動進行復雜的分析,使這些工具對普通用戶來說更容易使用。然而,對各種算法的優點和缺點理解得不清楚,也會導致對該技術的誤用。因此,基于測試目的來理解光譜分析的相關性和多元方法都有哪些優點和缺點是非常重要的。HOI允許將光譜與大量的光譜庫進行快速比對,使其成為分析未知材料的理想方法,而p值是驗證和/或鑒定"已知"材料身份的理想方法。多元分析為光譜鑒別的驗證提供了一種行之有效的方法,并在區分具有相似結構的化合物方面有額外的優勢。