摘要:可食用植物油的識(shí)別與區(qū)分是食品安全監(jiān)測(cè)領(lǐng)域中的值得關(guān)注的工作內(nèi)容之一。文章借助衰減全反射傅里葉變換紅外光譜分析,獲取 8 種植物油樣本的數(shù)據(jù),而后采用標(biāo)準(zhǔn)正態(tài)變換和一階導(dǎo)數(shù)處理來消除背景干擾,使得重疊峰發(fā)生分離;其次構(gòu)建競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)算法模型對(duì)各樣本光譜數(shù)據(jù)進(jìn)行特征提取,共提取 105 個(gè)特征波長(zhǎng)點(diǎn);然后構(gòu)建長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)對(duì)提取特征波長(zhǎng)前后的可食用植物油種類進(jìn)行預(yù)測(cè)識(shí)別與比較,結(jié)果表明,長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)對(duì)提取特征波長(zhǎng)前后樣本預(yù)測(cè)識(shí)別準(zhǔn)確率分別維持在 30%~40%和 80%~90%的區(qū)間范圍內(nèi),模型運(yùn)行時(shí)間分別為 111 min 25 sec 和 1 min 45 sec,這表明在光譜化學(xué)模式識(shí)別中特征波長(zhǎng)的提取是十分有必要的;最后搭建由 Levenberg-Marquardt 算法改進(jìn)的 BP 神經(jīng)網(wǎng)絡(luò)進(jìn)一步提高植物油分類識(shí)別的準(zhǔn)確率,總體準(zhǔn)確率達(dá)到 100%。實(shí)驗(yàn)結(jié)果較為理想,可為植物油的無損快速檢驗(yàn)提供一定的參考與借鑒。
關(guān)鍵詞:紅外光譜;可食用植物油;特征提取;機(jī)器學(xué)習(xí)
接昭瑋; 劉卓; 王繼芬; 古錕山; 王之宇 中國油脂 2022-01-18
1 引 言
隨著科技的進(jìn)步,食品制造業(yè)迅猛發(fā)展,在給人們帶來便捷的同時(shí),某些不法分子為牟取暴利,生產(chǎn)出來的產(chǎn)品不符合食品安全要求,導(dǎo)致食品安全風(fēng)險(xiǎn)隱患日益凸顯[1]。可食用植物油是我們?nèi)粘I钪斜夭豢缮俚呐腼冇闷罚彩侨梭w必需營(yíng)養(yǎng)物質(zhì)的主要來源之一[2]。近年來,不少不法分子為謀取暴利對(duì)可食用植物油的原料和制作工藝“投機(jī)取巧”,將非食用油冒充大豆油等可食用油對(duì)外銷售,造成了社會(huì)重大食品安全隱患。因此,對(duì)案發(fā)現(xiàn)場(chǎng)提取的可食用植物油樣本開展無損檢測(cè)工作是食品安全中的一個(gè)重要環(huán)節(jié)。
分子光譜分析技術(shù)是自 20 世紀(jì) 90 年代以來發(fā)展最快的分析技術(shù),以其高效快速、制樣簡(jiǎn)單以及無污染等獨(dú)特的分析優(yōu)點(diǎn)被廣泛應(yīng)用于食品、油脂等的品質(zhì)分析檢測(cè)[3-4]。當(dāng)前,可食用植物油的儀器檢測(cè)方法主要有氣相色譜-離子遷移譜、紫外光譜技術(shù)和 X 射線檢測(cè)技術(shù)等,雖然這些方法檢測(cè)性好,儀器測(cè)量精密度高,但存在儀器造價(jià)昂貴、處理步驟多、耗費(fèi)時(shí)間長(zhǎng)、檢測(cè)效率低等缺陷,且試劑消耗大、易污染環(huán)境,不適合于樣品快速檢測(cè)[5]。紅外光譜與其它光譜法相比,以其特征性好和適用樣品范圍廣等特點(diǎn)適合對(duì)有機(jī)物的定性分析,在法庭科學(xué)領(lǐng)域,紅外光譜被廣泛用于微量物證的鑒別。王延等人[6]利用紅外光譜對(duì)交通事故案件中受污染的纖維、油漆等物證進(jìn)行同一認(rèn)定,為交通事故案件提供證據(jù)支持和參考;陳云[7]等人研究發(fā)現(xiàn)紅外光譜技術(shù)可廣泛應(yīng)用于對(duì)作案工具上殘留的涂料附著物、碎尸包裹物上粘附的涂料等微量物證進(jìn)行同一認(rèn)定,從而為偵查工作提供方向。
深度學(xué)習(xí)是機(jī)器在已知經(jīng)驗(yàn)基礎(chǔ)上建立一個(gè)自動(dòng)學(xué)習(xí)機(jī),學(xué)習(xí)機(jī)能夠在這些經(jīng)驗(yàn)中獲得新的知識(shí),以解決新的問題。當(dāng)前,深度學(xué)習(xí)在環(huán)境化學(xué)[8-9]、材料分析[10-11]、法庭科學(xué)[12-13]等領(lǐng)域均有應(yīng)用。而將深度學(xué)習(xí)用于開展對(duì)光譜信息數(shù)據(jù)的挖掘,實(shí)現(xiàn)對(duì)樣本檢驗(yàn)結(jié)果的信息化和可視化是當(dāng)下分析測(cè)試研究領(lǐng)域的熱點(diǎn)之一。
鑒于此,本文提出將紅外光譜結(jié)合機(jī)器學(xué)習(xí)對(duì)油進(jìn)行分類識(shí)別處理。本文采用衰減全反射傅里葉變換紅外光譜分析技術(shù),獲取 8 種常見的可食用植物油光譜數(shù)據(jù),構(gòu)建競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)算法提取各樣本的光譜數(shù)據(jù)特征,同時(shí)構(gòu)建長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)、Levenberg-Marquardt 算法改進(jìn)的誤差逆?zhèn)鞑ニ惴ㄓ?xùn)練的多層前饋網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)開展對(duì)不同植物油的快速無損分類識(shí)別工作。這為公安機(jī)關(guān)在搜集涉及可食用植物油的有毒有害食品案件和生產(chǎn)、銷售偽劣產(chǎn)品案件方面提供偵查方向和完整的證據(jù)鏈。
2 實(shí) 驗(yàn) 2.1 樣品與設(shè)備
結(jié)合實(shí)際案件,從市場(chǎng)上共收集 8 種共計(jì) 160 個(gè)常見的可食用植物油樣本,可食用植物油樣本統(tǒng)計(jì)表見表 1。
實(shí)驗(yàn)采用 Nicolet is10 型傅里葉變換紅外光譜儀(美國 Thermo Fisher Scientific 公司),設(shè)備及參數(shù)的基本信息見表 2。
2.2 光譜數(shù)據(jù)預(yù)處理
8 種可食用植物油的原始光譜如圖 1 所示。為確保實(shí)驗(yàn)數(shù)據(jù)分析的準(zhǔn)確性,排除儀器放置環(huán)境以及機(jī)器本身產(chǎn)生的噪聲干擾,故需要對(duì)所測(cè)得的光譜數(shù)據(jù)進(jìn)行平滑降噪處理;為消除固體顆粒大小、表面散射以及光程變化對(duì)漫反射光譜影響,故需要對(duì)測(cè)得的光譜進(jìn)行標(biāo)準(zhǔn)正態(tài)變換(SNV, Standard normal variate)處理;為有效消除基線和其他背景干擾,使得重疊峰發(fā)生分離,從而提高檢測(cè)的分辨率和靈敏度,故需要對(duì)在 SNV 變換后的光譜進(jìn)行一階導(dǎo)處理。
將分別經(jīng)過平滑、SNV、SNV+DT 預(yù)處理后得到的光譜圖與原始光譜圖進(jìn)行對(duì)比,可食用植物油預(yù)處理光譜圖如圖 2 所示。對(duì)光譜進(jìn)行預(yù)處理的目的在于去除噪聲的同時(shí)能夠盡可能地多保留原光譜的真實(shí)信息,在對(duì)原有光譜進(jìn)行平滑、標(biāo)準(zhǔn)正態(tài)變換和一階導(dǎo)處理后,消除了由于固體顆粒大小、表面散射以及光程變化對(duì)漫反射光譜的影響,不僅增強(qiáng)了光譜的吸收特性,還減少了曲線的離散性,能夠有效提高譜圖的分辨率和靈敏度。
3 結(jié)果與討論 3.1 各樣本光譜數(shù)據(jù)特征提取 3.1.1 CARS 算法
競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)算法(CARS, competitive adaptive reweighted sampling)是基于自適應(yīng)重加權(quán)采樣(ARS, adaptive reweighted sampling)技術(shù),從而選擇出 PLS 模型中回歸系數(shù)絕對(duì)值大的波長(zhǎng)點(diǎn),利用交互驗(yàn)證選出均方標(biāo)準(zhǔn)誤差(RMSECV)值最低的子集,去掉權(quán)重小的波長(zhǎng)點(diǎn),最終有效尋出最優(yōu)變量組合[14]。最初經(jīng)過 OMNIC 軟件導(dǎo)出的樣本光譜數(shù)據(jù)共計(jì) 556160 個(gè),如果直接對(duì)原有數(shù)據(jù)集進(jìn)行光譜分析,從機(jī)器運(yùn)行時(shí)間的角度來說是一件十分耗時(shí)的事情,在分類效果和準(zhǔn)確率方面,由于龐大的數(shù)據(jù)集使機(jī)器難以找到顯示解,從而導(dǎo)致分類準(zhǔn)確率低下。而 CARS 算法可以有效解決這一難題,通過尋找數(shù)據(jù)集中回歸系數(shù)絕對(duì)值最大的波長(zhǎng)點(diǎn),選出 RMSECV 值最低的子集,最終有效尋出特征光譜點(diǎn)組合。CARS 算法被廣泛應(yīng)用于食品安全領(lǐng)域光譜特征波長(zhǎng)的選取,吳建飛[15]在對(duì)冬小麥葉片含水量進(jìn)行快速無損檢測(cè)研究時(shí)發(fā)現(xiàn),基于 CARS 算法篩選的波段組合壓縮率達(dá) 98%以上,所建模型中最高預(yù)測(cè)決定系數(shù)為 0.8441;王海龍[16]等人在檢測(cè)番茄葉片灰霉病的方面,發(fā)現(xiàn)基于 CARS 算法建立的 SVM 模型對(duì)于識(shí)別真菌損害的番茄葉片的準(zhǔn)確率高達(dá) 100%。以上結(jié)果說明了 CARS 算法對(duì)于食品安全領(lǐng)域檢測(cè)的實(shí)用性和有效性。
3.1.2 特征波長(zhǎng)提取結(jié)果
本文利用 CARS 算法,采用十折交叉驗(yàn)證,將采樣的總次數(shù)設(shè)置為 50 次。特征波長(zhǎng)優(yōu)選過程,可食用植物油光譜變量篩選圖如圖 3 所示,由圖 3(a)可知,特征波長(zhǎng)采樣的數(shù)量隨著采樣數(shù)量次數(shù)的增加而減少;圖 3(b)表示十折交互驗(yàn)證均方標(biāo)準(zhǔn)差(RMSECV)值的變化趨勢(shì),圖 3(c)表示每個(gè)變量回歸系數(shù)的路徑變化[17]。將光譜數(shù)據(jù)連續(xù)運(yùn)行 23 次,取 23 次結(jié)果中頻率最多的波長(zhǎng)作為真實(shí)特征波長(zhǎng)。
提取出八種植物油的特征波長(zhǎng),光譜特征提取結(jié)果如圖 4 所示。
通過 CARS 模型的建立與提取,所得到的可食用植物油特征波長(zhǎng)共計(jì) 105 個(gè),特征波長(zhǎng)匯。
3.2 關(guān)于特征提取的必要性研究
長(zhǎng)短記憶神經(jīng)網(wǎng)絡(luò)(LSTM, Long short-term memory)是在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN , Rerrent Neural Network)基礎(chǔ)上研發(fā)的一種改進(jìn)式循環(huán)神經(jīng)網(wǎng)絡(luò),LSTM 神經(jīng)網(wǎng)絡(luò)不僅可以有效處理序列數(shù)據(jù),而且還可以選擇性的存儲(chǔ)信息,從而彌補(bǔ)了傳統(tǒng) RNN 神經(jīng)網(wǎng)絡(luò)在解決長(zhǎng)時(shí)依賴問題中的局限性。當(dāng)預(yù)測(cè)點(diǎn)與依賴的相關(guān)信息距離比較遠(yuǎn)的時(shí)候,LSTM 神經(jīng)網(wǎng)絡(luò)可以有效學(xué)習(xí)到所對(duì)應(yīng)的相關(guān)信息。LSTM 神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)圖如圖 5 所示。
LSTM 神經(jīng)網(wǎng)絡(luò)的核心在于圖 5 中間的矩形方框,稱之為記憶塊(memory block),方框內(nèi)上方的水平線,被稱為單元狀態(tài)(cell state),它就像一個(gè)傳送帶,可以控制信息傳遞給下一時(shí)刻。LSTM 里常用的激活函數(shù)有兩個(gè),一個(gè)是 tanh,一個(gè)是 sigmoid,兩個(gè)函數(shù)來決定經(jīng)過記憶塊的信息內(nèi)容,從而達(dá)到篩選有效信息的目的。
通過矩陣實(shí)驗(yàn)室(MATLAB)搭建 LSTM 神經(jīng)網(wǎng)絡(luò),將 8 種可食用植物油的光譜數(shù)據(jù)導(dǎo)入模型中,LSTM 神經(jīng)網(wǎng)絡(luò)對(duì)于未提取特征波長(zhǎng)的 8 種可食用植物油分類識(shí)別結(jié)果圖如圖 6 所示, LSTM 神經(jīng)網(wǎng)絡(luò)對(duì)于提取特征波長(zhǎng)的 8 種可食用植物油分類識(shí)別結(jié)果圖如圖 7 所示。
由圖 6 可知,在未提取特征波長(zhǎng)前 LSTM 模型對(duì)于實(shí)驗(yàn)中可食用植物油的分類識(shí)別準(zhǔn)確率維持在 30%~40%的區(qū)間內(nèi),模型運(yùn)算時(shí)間長(zhǎng)達(dá) 111 min 25 sec。結(jié)合圖 7,發(fā)現(xiàn)提取特征波長(zhǎng)后 LSTM 模型對(duì)于各樣本的分類識(shí)別準(zhǔn)確率提升至 80%~90%的區(qū)間內(nèi),模型運(yùn)算時(shí)間僅為 1 min 45 sec。這表明,通過特征提取算法可以有效提高模型的分類識(shí)別準(zhǔn)確率以及縮短模型的運(yùn)行時(shí)間,降低模型的計(jì)算復(fù)雜度。郭城[18]曾借助無信息變量消除法(UVE, uniformative variable elimination)、遺傳算法(GA, genetic algorithm)對(duì)蜂王漿水溶性蛋白質(zhì)和總糖含量進(jìn)行特征波長(zhǎng)提取,結(jié)果發(fā)現(xiàn) RMSEP 值都在 1 以上,導(dǎo)致模型過擬合,預(yù)測(cè)相關(guān)性變差。與 CARS 算法進(jìn)行樣本特征波長(zhǎng)提取相比,最終所得模型預(yù)測(cè)的準(zhǔn)確性更高,穩(wěn)健性更好。
分析認(rèn)為,LSTM 在序列建模問題上有一定優(yōu)勢(shì),具有長(zhǎng)時(shí)記憶功能,實(shí)現(xiàn)起來簡(jiǎn)單。同時(shí)也解決了長(zhǎng)序列訓(xùn)練過程中存在的梯度消失和梯度爆炸的問題。但是,它在對(duì)樣本種類預(yù)測(cè)識(shí)別中穩(wěn)定性不夠強(qiáng),這可能會(huì)對(duì)模型的準(zhǔn)確率造成負(fù)面影響。鄭毅[19]等人曾借助膠囊式 LSTM網(wǎng)絡(luò)對(duì)人體姿態(tài)檢測(cè)開展了模式識(shí)別工作,結(jié)果發(fā)現(xiàn)機(jī)器的最高識(shí)別正確率達(dá)到 95.42%,但是也發(fā)現(xiàn) LSTM 神經(jīng)網(wǎng)絡(luò)存在一步依賴性和時(shí)序依賴性等不足。因此,本文探討構(gòu)建一種改進(jìn)式神經(jīng)網(wǎng)絡(luò)用以提升模型識(shí)別的準(zhǔn)確率與穩(wěn)定性。
3.3 基于 Levenberg-Marquardt 算法改進(jìn)的 BP 神經(jīng)網(wǎng)絡(luò)模型
Levenberg-Marquardt 算法(簡(jiǎn)稱 LM 算法)是最優(yōu)化算法中的一種,是以最廣泛的非線性最小二乘算法為基礎(chǔ),利用梯度求最大(小)值的方法。利用 LM 算法改進(jìn) BP 神經(jīng)網(wǎng)絡(luò),可有效克服傳統(tǒng) BP 神經(jīng)網(wǎng)絡(luò)中的缺陷,從而提高機(jī)器學(xué)習(xí)分類識(shí)別的準(zhǔn)確率。模型建立共分為 7 步:
(1)設(shè)置訓(xùn)練誤差允許值
論文指導(dǎo) >
SCI期刊推薦 >
論文常見問題 >
SCI常見問題 >