背景
塑料根據(jù)其可降解性分為可降解塑料和不可降解塑料。不可降解塑料制品由于價(jià)格低廉,在日常生活中被廣泛使用。然而,大多數(shù)不可降解的塑料制品不能及時(shí)有效地處理。造成環(huán)境嚴(yán)重污染,造成生態(tài)破壞、作物減產(chǎn)、食品安全問(wèn)題。目前,可降解塑料的推廣應(yīng)用才剛剛起步,許多不合格的塑料制品混入市場(chǎng)。這給市場(chǎng)監(jiān)管帶來(lái)了很大的困難,因此迅速識(shí)別不可降解和可降解塑料勢(shì)在必行。
高光譜成像技術(shù)因其無(wú)損、無(wú)污染、低耗、高效等優(yōu)點(diǎn),在質(zhì)量控制、定量分析、定性鑒定等方面得到了廣泛應(yīng)用。普通塑料聚合物具有不同的光譜特征,因此利用可見(jiàn)近紅外波段對(duì)塑料聚合物進(jìn)行識(shí)別是可行的。塑料光譜信息采集技術(shù)的進(jìn)步也推動(dòng)了光譜數(shù)據(jù)挖掘方法的創(chuàng)新。常用主成分分析、小波變換提取敏感特征,再用偏最小二乘判別分析、支持向量機(jī)、隨機(jī)森林等方法進(jìn)行分類。然而,傳統(tǒng)的機(jī)器學(xué)習(xí)方法通常需要人工進(jìn)行特征提取和分類器設(shè)計(jì),難以靈活地處理分類任務(wù)。
與傳統(tǒng)機(jī)器學(xué)習(xí)相比,深度學(xué)習(xí)具有端到端特征,避免了復(fù)雜的特征工程。代表性的模型是卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural networks, CNN)和殘差網(wǎng)絡(luò)(Residual networks, ResNet)。利用ResNet中提出的殘差連接直接連接不同的網(wǎng)絡(luò)層,在保證良好網(wǎng)絡(luò)性能的同時(shí)可以加深網(wǎng)絡(luò)。然而,當(dāng)CNN或ResNet的深度和寬度固定時(shí),由于卷積核不容易根據(jù)實(shí)際數(shù)據(jù)的特點(diǎn)進(jìn)行有效調(diào)整,其表示能力將受到限制。動(dòng)態(tài)卷積是在靜態(tài)卷積的基礎(chǔ)上改進(jìn)的非線性運(yùn)算。它可以解決深度學(xué)習(xí)模型適應(yīng)性差的問(wèn)題,更有效地提取數(shù)據(jù)特征。同時(shí),動(dòng)態(tài)卷積計(jì)算是高效的,因?yàn)椴⑿芯矸e核通過(guò)聚合共享輸出通道,這不會(huì)增加網(wǎng)絡(luò)的深度和寬度。在網(wǎng)絡(luò)中引入動(dòng)態(tài)卷積可以在特征識(shí)別過(guò)程中自適應(yīng)捕獲特征。
為此,我們提出了一種塑料高光譜數(shù)據(jù)挖掘方法,主要貢獻(xiàn)如下:
(1)設(shè)計(jì)了白色可降解和不可降解塑料的識(shí)別策略。
(2)提出了一種基于動(dòng)態(tài)殘差網(wǎng)絡(luò)(Dy-ResNet)的高光譜數(shù)據(jù)挖掘模型。在模型優(yōu)化過(guò)程中引入殘差模塊,避免梯度消失;引入動(dòng)態(tài)卷積層,提高模型的自適應(yīng)性和表示能力。
(3)Dy-ResNet有效區(qū)分了白色可降解塑料和不可降解塑料。為食品領(lǐng)域中可降解和不可降解塑料的識(shí)別提供思路。
試驗(yàn)設(shè)計(jì)
東北電力大學(xué)門(mén)洪教授團(tuán)隊(duì)利用GaiaSorter高光譜成像系統(tǒng)(江蘇雙利合譜公司)獲取了17類可降解塑料和不可降解塑料共計(jì)1020個(gè)樣本的高光譜影像(圖1)。其波長(zhǎng)范圍為380 ~ 1038 nm,波段數(shù)為520。在每個(gè)樣本的高光譜圖像的中心區(qū)域選擇一個(gè)像素大小為60 × 60的采樣區(qū)域作為感興趣區(qū)域,獲取其平均光譜,并對(duì)其進(jìn)行SG濾波和SNV預(yù)處理。
CNN主要由卷積層、池化層和全連接層組成,其中全連接層的核心操作是卷積和池化。卷積提取了多波段高光譜特征,同時(shí)充分保持了特征之間的位置關(guān)系。池化可以減小特征圖的大小,可以保留最關(guān)鍵的信息,有效防止網(wǎng)絡(luò)過(guò)擬合。同時(shí),通過(guò)池化可以減少網(wǎng)絡(luò)中的節(jié)點(diǎn)數(shù)量,有效提高了網(wǎng)絡(luò)的計(jì)算效率。ResNet由兩個(gè)卷積層組成,卷積核大小為3 × 3,填充和步長(zhǎng)為1(圖2)。將原始特征與挖掘特征相結(jié)合,可以有效避免塑料高光譜圖像深度特征提取中的特征退化問(wèn)題。
本文將靜態(tài)卷積層替換為動(dòng)態(tài)卷積層,在不增加網(wǎng)絡(luò)深度和寬度的前提下提高了計(jì)算效率。根據(jù)卷積核的自適應(yīng)性,動(dòng)態(tài)卷積層具有魯棒的表示能力。動(dòng)態(tài)卷積層結(jié)構(gòu)如圖3所示。首先,對(duì)全局位置信息進(jìn)行平均池化壓縮;然后,將壓縮后的信息通過(guò)全連接層映射到激活層,其中ReLU為激活函數(shù)。激活信息通過(guò)全連接層映射到softmax層。最后,softmax層輸出K個(gè)權(quán)值用于核聚合。K表示參與核聚合的卷積核的個(gè)數(shù),K的增加會(huì)導(dǎo)致模型的復(fù)雜度增加。在大多數(shù)情況下,softmax層的輸出值相對(duì)稀疏,因此只有一小部分卷積核可以跨層優(yōu)化,導(dǎo)致神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過(guò)程中收斂緩慢。因此,減少softmax層中的注意力是必要的,這樣可以使訓(xùn)練更有效。計(jì)算公式如1所示,當(dāng)T = 1時(shí),公式為原始softmax層。利用Dy-kernel自適應(yīng)提取高光譜數(shù)據(jù)的特征,然后依次通過(guò)BN和ReLU得到最終輸出。
| (1) |
本文提出了自適應(yīng)提取塑料高光譜數(shù)據(jù)特征的Dy-ResNet方法,該方法主要由包含動(dòng)態(tài)卷積層的殘差塊組成。圖4顯示了Dy-ResNet的結(jié)構(gòu),包括一個(gè)卷積層、一個(gè)BN層、四個(gè)動(dòng)態(tài)卷積殘差塊(DR-block)、兩個(gè)池化層、一個(gè)flatten層和一個(gè)全連接層。
圖1 高光譜塑料檢測(cè)系統(tǒng)
圖2 殘差塊結(jié)構(gòu)
圖3 動(dòng)態(tài)卷積層結(jié)構(gòu)
圖4 Dy-ResNet的結(jié)構(gòu)
結(jié)論
在動(dòng)態(tài)卷積層中,參數(shù)K和T顯著影響穩(wěn)定性和精度。如果K過(guò)大,雖然模型具有更強(qiáng)的表達(dá)能力,但優(yōu)化所有卷積核和注意力更加困難,網(wǎng)絡(luò)更容易出現(xiàn)過(guò)擬合。在softmax層中,T控制了注意力權(quán)值的稀疏性,適當(dāng)?shù)?/font>T可以使模型在早期訓(xùn)練中更有效。因此,有必要確定K和T的優(yōu)值。如圖5所示,當(dāng)K較小時(shí),模型的訓(xùn)練時(shí)間和分類穩(wěn)定性都較好。然而,K的數(shù)量限制了動(dòng)態(tài)卷積核的自適應(yīng)能力,降低了模型的分類精度和F1-score。當(dāng)K設(shè)置為4時(shí),既保證了模型的分類性能,又充分考慮了訓(xùn)練時(shí)間。T越大,模型的穩(wěn)定性越高。但是,當(dāng)T過(guò)于大時(shí),模型的分類性能會(huì)下降,因此將T設(shè)為31。
圖5 不同參數(shù)的動(dòng)態(tài)卷積層
可降解和不可降解塑料的分類結(jié)果如表1所示。雖然Dy-ResNet、ResNet、Dy-CNN和CNN模型都取得了很好的分類效果,但提出的Dy-ResNet模型的識(shí)別效果更好。Dy-ResNet模型的識(shí)別準(zhǔn)確率為99.06%,F1-score為98.86%,Kappa為97.73%。此外,對(duì)比CNN和ResNet模型的分類結(jié)果可以看出,殘差連接的引入更有助于挖掘高光譜數(shù)據(jù)的深層特征。Dy-ResNet模型的精度、F1-score和Kappa分別比ResNet模型高1.53%、1.85%和3.71%,表明動(dòng)態(tài)卷積層可以有效提高模型在高光譜數(shù)據(jù)挖掘中的適應(yīng)性和表征能力。
不同模型的混淆矩陣如圖6所示??梢钥闯觯姆N分類模型的分類效果都很好,說(shuō)明該分類模型是有效的。此外,可以看到Resnet、Dy-CNN和CNN模型將一些不可降解塑料預(yù)測(cè)為可降解塑料,這可能是由于訓(xùn)練集中樣本數(shù)量不平衡造成的。然而,Dy-Resnet模型可以避免由于訓(xùn)練集各類別樣本數(shù)量不平衡而導(dǎo)致的錯(cuò)誤預(yù)測(cè)。
表1 四種網(wǎng)絡(luò)模型的2-分類實(shí)驗(yàn)結(jié)果
圖6 四種方法對(duì)可降解塑料和不可降解塑料的分類結(jié)果。Dy-ResNet(a), Dy-CNN(b), ResNet(c), CNN(d)
為了進(jìn)一步驗(yàn)證Dy-ResNet在塑料識(shí)別中的有效性,分別使用Dy-ResNet、ResNet、Dy-CNN和CNN模型對(duì)17種樣品進(jìn)行分類。4個(gè)模型在全連接層的輸出神經(jīng)元數(shù)量從2個(gè)變?yōu)?/font>17個(gè),4個(gè)模型的其他結(jié)構(gòu)和超參數(shù)不變。17種塑料的分類結(jié)果見(jiàn)表2。總體而言,DyResNet的分類性能優(yōu)于其他模型,其準(zhǔn)確率為89.76%,F1-score為89.68%,Kappa為89.13%。與CNN相比,Dy-ResNet中的殘差連接可以有效提取塑料高光譜圖像的深層特征。在5個(gè)獨(dú)立實(shí)驗(yàn)中,Dy-ResNet的模型精度最高,表明其具有好的識(shí)別穩(wěn)定性。殘差連接和動(dòng)態(tài)卷積層的引入可以有效地提高模型的穩(wěn)定性。
測(cè)試集樣本的預(yù)測(cè)標(biāo)簽與實(shí)際標(biāo)簽形成的混淆矩陣如圖7所示??梢钥闯?,這四種模型都能有效識(shí)別標(biāo)記為0、6、7、8、9、11、12、13、14、15的樣本。但值得注意的是,四種模型在識(shí)別標(biāo)簽2和標(biāo)簽10的樣品時(shí)存在一些錯(cuò)誤,主要是將標(biāo)簽2的樣品部分歸類為標(biāo)簽3,將標(biāo)簽10的樣品部分歸類為標(biāo)簽11。這主要是由于,除了碳酸鈣外,標(biāo)簽2和標(biāo)簽3對(duì)應(yīng)的樣品在成分材料上是相同的。除淀粉外,標(biāo)簽10和11對(duì)應(yīng)的樣品在組成材料上是相同的。上述樣品中相似的成分使得所收集的高光譜圖像難以區(qū)分,這就是它們被錯(cuò)誤分類的原因。
表2 四種網(wǎng)絡(luò)模型的17種分類實(shí)驗(yàn)結(jié)果
圖7 四種方法對(duì)17種塑料的分類結(jié)果。Dy-ResNet(a), Dy-CNN(b), ResNet(c), CNN(d)
合理解釋本研究提出的方法在塑料識(shí)別任務(wù)中取得良好的效果十分必要。Grad-CAM可用于可視化基于CNN模型的模型識(shí)別過(guò)程。如圖8(a)所示,在區(qū)分可降解和不可降解塑料時(shí),Dy-ResNet提取的特征光譜波段分布在可見(jiàn)光和近紅外范圍內(nèi)。此外,用于識(shí)別不可降解塑料的關(guān)鍵特征主要分布在580 ~ 860 nm范圍內(nèi),用于識(shí)別可降解塑料的關(guān)鍵特征主要分布在680 ~ 1030 nm范圍內(nèi)。如圖8(b)所示,Dy-ResNet提取的特征光譜波段在區(qū)分17種塑料時(shí)也分布在可見(jiàn)光和近紅外范圍內(nèi)。總體而言,用于識(shí)別塑料種類的特征光譜波段主要集中在560 ~ 860nm范圍內(nèi)。然而,每種塑料的特征光譜波段的分布范圍是不同的。例如,標(biāo)記為15的樣品的特征光譜波段主要集中在可見(jiàn)光范圍,而標(biāo)記為12的樣品的特征光譜波段主要集中在近紅外范圍。因此,選擇380 ~ 1038 nm光譜波段進(jìn)行塑料識(shí)別,有助于充分探索不同塑料在不同光譜波段的特性。
圖8 用于塑料識(shí)別的特征光譜可視化。2分類實(shí)驗(yàn)(a), 17分類實(shí)驗(yàn)(b)
作者信息
門(mén)洪,博士,東北電力大學(xué)自動(dòng)化工程學(xué)院教授,博士生導(dǎo)師。
主要研究方向:智能感知與模式識(shí)別。
參考文獻(xiàn):
Xia, X., Wang, M., Shi, Y., Huang, Z., Liu, J., Men, H., & Fang, H. (2023). Identification of white degradable and non-degradable plastics in food field: A dynamic residual network coupled with hyperspectral technology. Spectrochim Acta A Mol Biomol Spectrosc, 296, 122686.