摘要:為更加快捷且不破壞樣品地對選后煙葉的化學成分(煙堿、總糖、還原糖、總氮、鉀、氯)值進行檢測,有效地組織打葉復烤均值化加工,應用選后煙葉中煙堿含量變化與其對應的近紅外光譜變化之間存在相關關系,采用漫反射方式獲取校正樣品集近紅外漫反射光譜,選擇微分、平滑、PLS等方法進行數據預處理,把校正樣品集近紅外光譜與其相應的主要化學成分含量或指標值進行關聯,建立校正模型,使用驗證樣品集對校正模型有效性進行驗證。通過對檢測結果進行分析,該建模流程是可行的,為選后煙葉煙堿值的檢測提供了一種更加快捷且無損的方法。
關鍵詞:選后煙葉、煙堿、手持式、近紅外、建模
煙草是我國的重要經濟作物之一,由于受品種、栽培技術、土壤、氣候、收購眼光等因素影響,使同一產地、同一等級的煙葉在不同收購時段內在品質上存在差異。打葉復烤均值化加工就是通過一定形式的參配,使打葉復烤后的煙葉形成一個內在質量穩定、理化指標均勻的成品片煙或配方模塊。在煙草的眾多質量評價指標中煙堿的含量,直接影響煙草制品評吸質量,是配方設計的基礎控制因素。早在2015 年中國煙草總公司就通過文件明確要求要將成品片煙的煙堿變異系數控制到 5%以內。卷煙加工企業調入打葉復烤企業加工的煙葉一般要經過原煙入庫、煙葉分選、配方打葉等流程,而對選后煙葉煙堿含量的情況掌握是均質化加工配方設計的關鍵環節。打葉復烤企業對煙葉中煙堿的檢測一般是使用連續流動分析法,近年來隨著化學計量學與計算機技術的飛速發展,實驗室近紅外檢測煙葉中煙堿的含量得到了廣泛應用。但是不論是連續流動分析法還是實驗室近紅外檢測均需對樣品進行粉碎,且數據獲得存在一定的滯后性。
本文通過對一種手持式近紅外光譜分析儀建模的研究,提供了一種不破壞樣品且更加快捷的煙葉中煙堿的檢測方法,有助于打葉復烤企業靈活快捷地組織均質化加工工作。
1 材料與方法
1.1材料和儀器
1.1.1 材料
云南初烤煙葉(選后煙葉)總計350個作為常規化學指標模型建模樣本,所有樣本產地包括云南昆明、曲靖、文山、麗江、臨滄、玉溪產區,主要等級包括B1F、B2F、B3F、C1F、C2F、C3F、C4F、X2F、X4F
1.1.2儀器
德國Carl Zeiss公司生產的AURA手持式近紅外光譜儀(以下簡稱AURA)(如圖1)。
圖1 AURA手持式近紅外光譜儀
美國ThermoFisher公司生產的 Antaris II 傅里葉變換近紅外光譜儀(以下簡稱Thermo)(如圖2),此儀器已經完成建模,且使用穩定。
圖2 Antaris II 傅里葉變換近紅外光譜儀
2 樣品準備
根據石林復烤廠烤季生產原煙情況,選取不同產地、等級煙葉樣品350個,具體信息如下圖表1:
圖表1 取樣表:
每個樣品取6-8片煙葉,放入自封袋中,后續進行手持式近紅外光譜儀建模掃樣,對樣品進行統一編號。編號由取樣樣品編號、產地、等級組成。如:“ 001#-昆明-C4F”,代表001號樣品,產地為“昆明”,等級為“C4F”。
3 光譜采集
建模光譜掃描采用手持式(AURA)近紅外光譜儀,序列號為131517。手持式近紅外光譜儀有效光斑直徑為18mm,采用與煙葉表面直接接觸的掃描方式。
圖表2 接觸式掃描
如下圖表3所示,將6片煙葉疊放在一起,用手持式近紅外光譜儀(六點掃描)工作流,先掃描3次,分別是葉尖,葉腰,葉基(對應圖表的點1、點2、點3)各掃描一次,得到3條光譜;之后將最下面的三片煙葉抽出放置最上面,再次進行葉尖,葉腰,葉基三次掃描。掃描完畢后,每個煙葉樣本對應6條光譜。保持樣本名稱與取樣的名稱一一對應。6次掃描近紅外的外界環境保持相對穩定。
圖表3常規化學模型檢測點
由于外界環境的變化會引起光譜發生變化,為了消除這些影響,在每個樣品測量之前,儀器將進行背景校正,防止光譜發生偏移,且當外部環境溫度變化超過2℃時,儀器會自動進行背景的校正。
4 模型建立
4.1 光譜預處理
手持式近紅外的采集光譜中除含有待測樣品的原始的化學信息外,還包含其他外在的干擾信息和噪聲,這些信息噪聲將導致測得的化學信息數值與真實值之間存在一定的差異。為了提高信噪比盡可能消除誤差,應該保持實驗的環境因素盡量穩定一致,除了環境因素之外還需要各種數據處理方法來減少甚至去除各種干擾光譜信息的影響因素。為下一步的數據處理奠定基礎。較常用的光譜數據處理方法有均值中心化(mean centering),歸一化處理(normalization),平滑,求導,標準正態變量變換(SNV),多元散射校正(MSC),傅立葉變化和其他一些新的方法,化學指標模型建立的過程中,會用到一階導數的預處理方法。
?? 導數
導數(微分)可以消除樣品光譜的基線漂移、增強譜帶的特征信息并克服譜帶重疊,是最為常用的光譜數據預處理方法。一階導數可以去除同波長無關的基線漂移;二階導數可以去除同波長線性相關的基線漂移。在原煙的數據采集中,導數計算可以減少基線偏移、漂移和背景干擾造成的數據偏差。
4.2異常樣本剔除
異常樣本在近紅外整個模型的構建過程中會對模型存在很大的影響,不僅會會誤導近紅外變量的選擇,而且這些奇異值還會給模型的參數估計帶來偏離,降低模型的精度與穩健性;在實際近紅外構建模型的過程中,有很多情況會引起近紅外樣本的異常,大體上分為近紅外光譜的異常與近紅外化學值的異常;按照引起異常樣本的原因又可具體的分為如下幾種情形:
?①環境引起的異常光譜,比如近紅外儀器背影變化產生的影響或者掃到了非信號物質,檢測條件的變化,如樣本的溫度,濕度;
?②儀器自身的不穩定引起的異常光譜。比如儀器的檢測器兩端做的比較粗糙所儀器的問題;近紅外隨著長時間的使用儀器的老化,以及更換近紅外儀器的零部件帶來的光譜差異;
??? ③被檢測物質自身所引起的異常光譜;這類異常光譜比較特殊,這是近紅外應用模型維護所必須需要考慮到的問題,由于地域以及年度之間的差異導致了未來的光譜與模型里面產生的光譜不一致;
??? ④由于工藝參數的改變儀器的異常光譜,近紅外光譜受外界環境影響比較大,如改變某些工藝參數,導致近紅外儀器檢測條件發生變化,比如真空回潮等參數會改變煙葉物質中所含有的水分;這個時候外界的濕度因素就會發生變化,產生異常光譜;
??? ⑤基礎數據產生的異常樣本,當基礎數據操作失誤,或者樣本混淆的時候,化學值與樣本所對應的近紅外光譜不一致所產生的異常樣本;
手持式近紅外異常光譜的常用剔除方法是半數重采樣法和蒙特卡洛偏最小二乘交叉檢驗法。
?? 半數重采樣法
基于對原始光譜的隨機半數重采樣統計出現奇異長度的樣本。從原始光譜矩陣中隨機選擇部分(一般選擇總樣本數的一半)樣本作為采樣子集,計算每個采樣子集矩陣的均值和方差,再根據均值和方差計算采樣子集中每個樣本的向量長度(向量長度計算公式與數據標準化公式相同)。對光譜數據進行多次隨機采樣,并記錄每次采樣后計算的向量長度。對樣本的向量長度進行排序,距離最大的一定概率(如 5%或 10%)的樣本得分為 1,其余為 0。最后對各樣本的總得分進行統計,得分最高的部分樣本就為奇異樣本。
?? 蒙特卡洛偏最小二乘交叉檢驗
基于蒙特卡羅交叉驗證(MCCV)的一類奇異樣本識別方法。利用 MCCV 隨機劃分校校正集與預測集,如果奇異樣本在校正集中,整個模型的質量將受到影響;相反,如果奇異樣本在預測集中,僅此樣本的預測結果受到影響。盡管這種情況對預測結果都有影響,但效果明顯不同。本文就利用奇異樣本出現在校正集或預測集時模型預測誤差的差異,通過 MCCV 及統計分析來進行奇異樣本的識別。根據預測集中奇異樣本的預測殘差會明顯大于正常樣本的預測殘差也提出了一種基于MCCV的奇異樣本識別方法。基于 MCCV的奇異樣本識別方法充分利用統計學的性質,能夠在一定程度上降低由掩蔽效應帶來的風險,檢出光譜陣和性質陣方向的奇異點,有望在奇異樣本檢測中得到更廣泛的應用。
4.3 波長變量選擇
在校正模型的建立過程中,選取參與校正的樣本和光譜信息變量對建立穩定的模型時十分必要的。光譜信息變量選擇是從原始變量中挑選出一些有代表性的特征變量,代替原始變量進行數據分析和處理。在煙草無損檢測試驗中,近紅外光譜儀每次可獲取大量的光譜數據,應著不同原始光譜數據對待測煙葉樣品的品質信息的貢獻率不能完全相同,有些光譜信息變量反映的信息較為豐富,有些光譜信息變量反映的信息量較少,甚至與待測煙葉樣品品質成分含量無關。如果將近紅外光譜儀所獲取的光譜數據都用于建立模型,則建模計算時間很長,計算量也很大,建立的近紅外光譜預測模型復雜,模型的穩定性差。研究發現,通過特定的光譜信息變量篩選方法對原始光譜信息變量進行優選,其作用是可減少模型的建立時間,簡化建模過程,最重要的是可以剔除無信息變量或非線性變量,最終可以建立跟隨性強、預測能力好的近紅外定量校正模型。
?手持式近紅外常用的波長選擇方法是CARS(競爭性自適應加權取樣法),具體的計算過程如下:
競爭性自適應權重取樣(competitive adaptive reweighted sampling, CARS)競爭性自適應加權取樣(CARS)是一種基于回歸系數進行波長點選擇的方法。該方法模仿達爾文進化論中的“適者生存”原則,將每個波長看作一個個體,對波長實施逐步淘汰。利用回歸系數絕對值的大小作為衡量波長重要性的指標,同時,引入了指數衰減函數來控制波長的保留率。每次通過自適應重加權采樣技術篩選出 PLS 模型中回歸系數絕對值大的波長點,去掉權重小的波長點,利用交差驗證選出模型交叉驗證均方根誤差(root mean square error of crossvalidation, RMSECV)值最低的子集,可有效選擇與目標值相關的最優波長組合。CARS-Monte-Carlo-sampling算法采用蒙特卡羅采樣法采樣N次,每次從樣品集中隨機抽取 80%的樣品作為校正集,利用抽取的光譜矩陣,和濃度矩陣,分別建立PLS模型,采用指數衰減函數EDF強行去除回歸系數值相對較小的波長點,第i次采樣時,波長點的保留率r=e-bt,第一采樣時,所有的m個變量都被用于建模,故第N次采樣時僅兩個波長被使用,通過N 次采樣時篩選出 PLS 模型中回歸系數絕對值大的波長點,用每次產生的新變量子集建立PLS回歸模型,計算每個模型的交互驗證均方差 RMSECV,選擇 RMSECV 值最小的變量子集,即為最優變量子集。
?4.4 建模方法
定量分析是對被研究對象所含成分的數量關系或所具備性質件的數量關系進行量化的分析過程。采用無損檢測技術獲取煙葉的化學成分信息時,通常只能獲取與待測樣品化學成分相關的間接信息(如光譜信息),如果要進一步了解待測樣品的品質信息(如煙堿、總糖、總氮等),則需要將無損檢測方法所獲取的待測樣品信號特征與常規方法(如流動分析法或者其他化學方法)獲取的信息建立相應的定量校正分析模型。
偏最小二乘(partial least squares, PLS)也是一種基于因子分析的多變量校正方法,在主成分回歸中,只對光譜矩陣X進行分解,消去了自變量光譜陣X中的噪聲信息,而因變量濃度陣Y也會含有不相關信息,因此因變量濃度陣Y也應同樣處理。與PCR不同的是,在PLS中,自變量光譜陣X和因變量濃度陣Y的分解應該同時進行,應該是將光譜陣X信息引入到濃度陣Y的分解過程中,在每計算光譜陣一個新的主成分之前,交換光譜陣X與濃度陣Y的得分,從而使自變量主成分直接與被分析組分含量關聯。20世紀80年代開始PLS就應用于化學分析研究,現在化學計量學中多變量校正方法中最受推崇的之一就是PLS,廣泛應用在化學分析測量和相關的研究中。
4.5 模型評價
通常校正集和驗證集中都會有相關系數(R)、校正集中有校正標準偏差(SEC/RMSEC)、驗證集中有預測標準偏差(SEP/RMSEP)等。
(1)? 相關系數
兩個定量校正結果相關程度的一個統計量是用決定系數來描述的,它主要是用來判斷定量校正模型與待測組分的線性關系的好壞
(2)? 校正標準偏差和預測標準偏差
建立近紅外光譜定量校正模型時,通常是要將樣品分為校正集和預測集兩個部分,校正集樣本是用來建立定量校正模型,預測集是用來對模型進行驗證的,通過比較真實值與預測值的差異,來判斷模型預測能力的好壞。SEC和SEP是計算模型得出的真實值與其預測值之間的誤差平方和的均方根值。
在校正模型中,采用留一交互驗證法來建立定量校正模型。留一交互(叉)驗證法就是:每次從煙葉校正樣本集中取出一個煙葉樣本,然后用余下的煙葉樣本來建立校正模型,用建好的校正模型來預測之前取出的這個煙葉樣本,直到煙葉校正樣本集中每個煙葉樣本都被取出過一次。
對同一批次樣本,SEC和SEP值越小說明模型的精度越高,兩者值越接近說明模型穩定性越好。
4.6?? 手持式模型分析
(1) 光譜預處理
通過對建模光譜的分析,由于手持式近紅外采取了直接緊貼煙葉表面的掃描方式,且外部環節保持相對穩定,采集的光譜復雜程度并不高,只需要利用一介導數的預處理方法來提高模型的精度即可;
?圖表4 原始光譜??????圖表5 光譜一階導數
(2) 異常樣本剔除
采用蒙特卡洛交叉驗證剔除化學值異常的樣本,對下圖比較分散的樣本進行剔除,由于是縱坐標比較分散的樣本點。
圖表6 煙堿異常統計??? ? 圖表7 氯異常統計?
圖表8 總糖異常統計??? ? ?圖表9 還原糖異常統計
圖表10總氮異常統計? ??????圖表11 鉀異常統計?
(3)波長變量選擇
建模發現采用競爭性自適應權重取樣 (CARS)方法選擇的波長建立的模型效果最佳,成分數選擇13
(4)模型建立
采用偏最小二乘法建立的回歸模型效果最佳,下圖分別是6個指標的PLS模型預測值與真實值對比圖和真實值絕對誤差圖。從圖中可以看出,所有模型都集中的回歸直線附近,誤差也近似正態分布,說明建立的模型效果較好。
圖表12 煙堿模型
圖表13 總糖模型
圖表14 還原糖模型
圖表15 總氮模型
圖表16 鉀模型
圖表17 氯模型
?(5)模型評價
圖表18 模型評價結果
5?模型外部驗證
煙堿指標
圖表19 煙堿外部驗證結果
圖表20 煙堿外部驗證比對圖
總糖指標
圖表21 總糖外部驗證結果
圖表22 總糖外部驗證比對圖
還原糖指標
圖表23 還原糖外部驗證結果
圖表24 還原糖外部驗證比對圖
總氮指標
圖表25 總氮外部驗證結果
圖表26 總氮外部驗證比對圖
鉀指標
圖表27 鉀外部驗證結果
圖表28 鉀外部驗證比對圖
氯指標
圖表29 氯外部驗證結果
圖表30 氯外部驗證比對圖
驗證結論
圖表31 50個驗證樣本驗證結果
對上述表格數據進行分析,手持式近紅外對原煙相關化學指標的檢測結果基本都達到了實際使用的精度需求。模型內部建模樣本化學值梯度基本能夠覆蓋常規檢測樣本的化學值范圍,模型對不同等級產地或者時間梯度的原煙具有有穩定的預測能力,且對絕大部分樣本的預測誤差落在一定的范圍內,整體誤差呈正態分布;
建模樣本分析
此次模型中包含350個建模樣本,主要包括云南昆明、曲靖、文山、麗江、臨滄、玉溪主要產區,建模樣本基本覆蓋了云南煙葉復烤有限責任公司石林復烤廠烤季原煙的所有產區。其中,上部煙樣本數量為79,中部煙數量為184,下部煙數量為87,建模樣本在部位分布上基本滿足模型建立的需求,模型對不同產地不同等級的原煙都具有較好的預測能力。
圖表32 產地分布圖
對建模樣本基礎數據分析,煙堿、總糖、還原糖、總氮等指標的建模集化學值分布基本都呈正態分布,能夠滿足模型建立的要求。
圖表33建模集煙堿分布圖 ????????圖表34 建模集總糖分布圖
圖表35 建模集還原糖分布圖 ????圖表36 建模集總氮分布圖?
6?結論
綜上所述,基于350個樣品所建立的6種常規化學成分的預測模型,其相關系數及偏差均符合項目要求。其中,煙堿預測模型的決定系數高達0.96,平均絕對偏差值為0.22。建立的預測模型可應用于煙葉卸車、入庫、挑選等不同環節的原煙化學信息檢測,其檢測數據可為原料煙葉的化學成分波動、質量分析等提供可靠的數據,進行一次調控,為均質化配方打葉提供數據支撐。
致謝:本研究得到了云南銘帆科技有限公司的技術支持,特此表示感謝。
參考文獻
[1]樂俊明,陳鷹,丁映,等.近紅外光譜分析法測定煙草化學成分[J].貴州農業科學,2005, 33(3):62-63.
YUE Jun-ming, CHEN Ying, DING Ying,et al. Determination of Tobacco Chemical Components by Near Infrared Spectrum Method[J]. Guizhou Agricultural Sciences , 2005, 33(3):62-63.
[2]邱軍,張懷寶,宋巖,王允白,許武,付中會,李乃會,等. 近紅外光譜分析技術在煙草行業的應用[J].中國煙草科學,2008,29(1):55-59.
QIU Jun,ZHANG Huaibao1,SONG Yan,WANG Yunbai,XU Wu,FU Zhonghui,LI Naihui,et al. Application of Near Infrared Spectroscopic Analytical Techniques in Tobacco
Industry[J].China Tobacco Science,2008,29(1):55-59.
[3]張辭海,胡蕓,劉娜,彭黔榮,邵學廣,等. 烤煙煙堿近紅外定量模型的適用性[J].煙草科技,2019,52(1):53-58.
ZHANG Cihai1,HU Yun1,LIU Na1,PENG Qianrong,SHAO Xueguang,et al. Adaptability of near-infrared spectroscopy based quantitative model for nicotine determination in flue-cured tobacco[J].Tobacco Science & Technology,2019,52(1):53-58.
[4]孫陽,劉翠玲,孫曉榮,聞世震,等. 基于便攜式近紅外光譜儀的櫻桃番茄糖分快速分析模型研究[J]. 食品與發酵工業,2021.
SUN Yang,LIU Cuiling,SUN Xiaorong,WEN Shizhen,et al. Rapid analysis model of sugar content in cherry tomatoes based on portable near infrared spectrometer[J]. Food and Fermentation Industries,2021.
[5]王東丹,李天飛,吳玉萍,張承聰,葉蘭欽,陳潤瓊,楊金輝,等. 近紅外光譜分析技術在煙草化學分析上的應用研究[J].云南大學學報(自然科學版),2001,23(2):135—137.
WANG Dongdan,LI Tianfei,WU Yuping,ZHANG Chengcong,YE Lanqin,CHEN Runqiong,YANG Jinhui,et al. Applied Study of Near-infrared Spectroscopy Analytical Technique
on Chemical Analysis of Tobacco[J] Journal of Yunnan University,2001,23(2):135—137.
[6]閔順耕,李寧,張明祥,等.近紅外光譜分析中異常值的判別與定量模型優化[J].光譜學與光譜分析,2004,24(10):1205—1209.
MIN Shungeng,LI Ning,ZHANG Mingxiang,et al. Outlier Diagnosis and Calibration Model Optimization for Near InfraredSpectroscopy Analysis,2004,24(10):1205—1209.
[7]江蘇,馬翔,陳永福,繆明明,李天飛,王亞明,等. 近紅外光譜分析技術及其在煙草行業中的應用[J]. Chinese Journal of Spectroscopy Laboratory,2006,23(3):633—637.
JIANG Su,MA Xiang,CHEN G YongFu,MIAO MingMing,LI TianFei,WANG YaMing[J]. Near Infrared Spectroscopic Technology and Its Applications in Tobacco Industry,2006,23(3):633—637.
篤行致遠 2024中國煙草行業發展觀察