題目:
基于高光譜成像的陽(yáng)山桃子產(chǎn)地鑒定
應(yīng)用關(guān)鍵詞:
高光譜成像;桃子地理起源;組稀疏表示分類(lèi)器;生理代謝
背景:
陽(yáng)山地區(qū)的桃子是中國(guó)地理標(biāo)志保護(hù)產(chǎn)品,以其質(zhì)地鮮嫩,風(fēng)味誘人,營(yíng)養(yǎng)豐富而聞名,特別是“白鳳”和“湖景”品種。桃子的摻假行為,會(huì)給消費(fèi)者、生產(chǎn)商以及公眾對(duì)于品牌的真實(shí)性失去信心。然而,目前還沒(méi)有有效的方法來(lái)鑒定陽(yáng)山地區(qū)的桃子。
光譜成像、高分辨率質(zhì)譜、核磁共振、近紅外光譜和Raman光譜是識(shí)別茶葉、蜂蜜、水稻、可可豆地理來(lái)源的重要工具。高光譜成像結(jié)合成像和光譜信息檢測(cè)目標(biāo)物外部或內(nèi)部屬性,是一種可靠的地理來(lái)源預(yù)測(cè)方法。將高光譜成像和機(jī)器學(xué)習(xí)相結(jié)合,可以對(duì)化學(xué)成分進(jìn)行分類(lèi)。因此,高光譜成像技術(shù)可用于評(píng)估由特殊生長(zhǎng)條件(如溫度、日照時(shí)間、降雨和土壤質(zhì)量)引起的桃子化學(xué)成分差異。盡管高光譜成像技術(shù)在其他農(nóng)產(chǎn)品地理來(lái)源分類(lèi)方面取得了一定進(jìn)展,但其在桃子上的應(yīng)用仍面臨許多挑戰(zhàn)。
本研究的目的是探討高光譜成像在桃子地理來(lái)源分類(lèi)和生理代謝分析方面的潛力,以確定鑒定陽(yáng)山地區(qū)桃子地理來(lái)源所需的關(guān)鍵因素。本研究測(cè)定了不同產(chǎn)地桃子可溶性糖和有機(jī)酸代謝的差異;利用陽(yáng)山桃高光譜反射率建立地理產(chǎn)地鑒別分類(lèi)模型;對(duì)不同地理來(lái)源桃的不同生理代謝相互轉(zhuǎn)化導(dǎo)致的高光譜反射率差異進(jìn)行了解釋;驗(yàn)證了組稀疏編碼分類(lèi)器對(duì)陽(yáng)山桃產(chǎn)地認(rèn)證的有效性。
試驗(yàn)設(shè)計(jì)
南京農(nóng)業(yè)大學(xué)汪小旵教授團(tuán)隊(duì)利用GaiaSorter可見(jiàn)-近紅外高光譜成像系統(tǒng)(江蘇雙利合譜公司)獲取“白鳳”和“湖景”兩種桃子(產(chǎn)自陽(yáng)山和南京)的高光譜影像。其波長(zhǎng)范圍為380 - 1038 nm,波段數(shù)為520。為了從基礎(chǔ)上了解不同產(chǎn)地同一品種桃的生理變化,采集圖像后對(duì)碳水化合物、有機(jī)酸和礦物質(zhì)含量進(jìn)行了分析。具體流程如圖1所示。
組稀疏表示(Group sparse representation, GSR)已證明具有較為出色的模式識(shí)別能力,研究中使用GSR分類(lèi)器對(duì)桃子的地理來(lái)源進(jìn)行分類(lèi)。將計(jì)算得到的ROI均值光譜作為樣本。對(duì)于GSR分類(lèi)器來(lái)說(shuō),一個(gè)判別性的組結(jié)構(gòu)字典是不可少的,通過(guò)如下步驟構(gòu)建:對(duì)于每個(gè)類(lèi),隨機(jī)選擇一定的樣本進(jìn)行訓(xùn)練,并逐列排列形成子字典。其次,將不同產(chǎn)區(qū)同一品種對(duì)應(yīng)的子詞典級(jí)聯(lián),構(gòu)建具有鑒別性的組結(jié)構(gòu)字典。當(dāng)給定未知來(lái)源的測(cè)試樣本時(shí),我們將其分解為鑒別組結(jié)構(gòu)字典與繼承字典可鑒別性的GSR系數(shù)向量的乘積。系數(shù)由幾個(gè)相鄰的子集組成,每個(gè)子集中的系數(shù)都為零或非零。最后,通過(guò)評(píng)估哪一類(lèi)重構(gòu)誤差最小來(lái)實(shí)現(xiàn)地理來(lái)源認(rèn)證。具體流程圖如圖2所示。
研究中使用GSR的主要原因如下:(1)GSR分類(lèi)器在解決模式識(shí)別問(wèn)題時(shí)優(yōu)于許多優(yōu)秀的分類(lèi)器,而桃子產(chǎn)地的認(rèn)證主要是一個(gè)模式識(shí)別問(wèn)題。(2)組稀疏約束降低了稀疏表示系數(shù)的自由度,提高了稀疏編碼的速度,有利于實(shí)際生產(chǎn)中的實(shí)時(shí)處理。(3)由于字典具有連續(xù)結(jié)構(gòu),因此可以使用較少實(shí)測(cè)樣本來(lái)恢復(fù)GSR向量α,從而推斷較少波段的光譜足以獲得良好的性能。
圖1 地理來(lái)源分類(lèi)分析流程
圖2 基于組稀疏編碼的地理產(chǎn)地認(rèn)證方法
結(jié)論
從表1可以看出,來(lái)自陽(yáng)山區(qū)域的桃總糖含量最高,來(lái)自南京地區(qū)的“白鳳”桃的總糖含量低。不同產(chǎn)區(qū)同一品種桃的果糖、葡萄糖、蔗糖和總糖含量存在差異。同一產(chǎn)地不同品種桃的蔗糖和總糖含量相近。較高的晝夜溫差有利于糖的積累,3 - 6月桃子生長(zhǎng)期間,陽(yáng)山區(qū)的晝夜溫差高于南京。蘋(píng)果酸、莽草酸和奎寧酸的含量在不同產(chǎn)地間存在差異,而檸檬酸的含量在不同產(chǎn)地間無(wú)顯著差異。糖酸比是指水果樣品中總糖與總有機(jī)酸含量的比值,它在很大程度上決定了水果的口感和風(fēng)味,糖酸比高的桃子比糖酸比低的桃子更甜。顯然,陽(yáng)山地區(qū)桃子的糖酸比要高于南京地區(qū)?;ㄇ嗨嘏c果肉顏色有關(guān)。陽(yáng)山地區(qū)桃的花青素含量低于南京樹(shù),這也解釋了為什么“白鳳”的果肉比“湖景”的果肉更白。
通過(guò)對(duì)糖、酸、酚類(lèi)物質(zhì)的分析,發(fā)現(xiàn)不同產(chǎn)地桃子的化學(xué)成分差異很大,因此可用近紅外高光譜技術(shù)捕獲足夠的差異信息來(lái)建立判別模型。
表1 兩種桃子碳水化合物、有機(jī)酸和花青素的比較
圖3四個(gè)類(lèi)別桃子的可見(jiàn)-近紅外平均光譜。在400 - 1000 nm光譜范圍內(nèi)觀察到果實(shí)的普遍反射規(guī)律,450 - 550 nm附近的部分吸收來(lái)源于花青素。在1900 - 2500 nm范圍內(nèi),反射率在0.1以下,說(shuō)明該范圍內(nèi)的圖像信號(hào)噪聲較低,光譜反射信息不準(zhǔn)確。來(lái)自南京和陽(yáng)山的“白鳳”在400 - 600 nm的反射率與來(lái)自南京和陽(yáng)山的“湖景”有顯著差異。這種差異在1000 - 1900 nm范圍剛好相反。一種可能的解釋是400 - 600 nm的波長(zhǎng)是可見(jiàn)光,這主要與桃子色素含量有關(guān),包括葉綠素和花青素。A類(lèi)花青素含量是C類(lèi)花青素含量的4倍,高于B類(lèi)與D類(lèi)花青素含量之比。近紅外光譜往往相對(duì)準(zhǔn)確地對(duì)應(yīng)于化合物變化。在該范圍內(nèi),B類(lèi)的光譜反射率最高,D類(lèi)的光譜反射率低,反射率由強(qiáng)到弱的排列順序與糖酸比相同。可溶性糖含量也顯示了類(lèi)似的結(jié)果。這表明與色素和化學(xué)成分相關(guān)的波長(zhǎng)對(duì)地理來(lái)源識(shí)別的重要性。
圖3 四個(gè)類(lèi)別桃子的平均光譜。(A:“白鳳”來(lái)自陽(yáng)山,B:“湖景”來(lái)自陽(yáng)山,C:“白鳳”來(lái)自南京,D:“湖景”來(lái)自南京)。
使用留一交叉驗(yàn)證計(jì)算六種算法的平均分類(lèi)精度(表2)。在所有分類(lèi)器中,GSR分類(lèi)器在所有情況下的總體分類(lèi)精度最高。在所有波長(zhǎng)范圍內(nèi),“湖景”的分類(lèi)精度都高于“白鳳”。“湖景”在1000 - 1900 nm波段的分類(lèi)精度大多優(yōu)于400 - 1000 nm波段的分類(lèi)精度,這可能是由于1000 - 1900 nm波段的光譜反射信息中含有與可溶性糖含量相關(guān)的判別因素。
圖4(A)可以看出,A類(lèi)的少數(shù)訓(xùn)練樣本具有較大的系數(shù),而C類(lèi)的訓(xùn)練樣本具有很少的非零系數(shù)。從圖4(B)可以看出,A類(lèi)重構(gòu)殘差最?。?/font>1.12),而C類(lèi)重構(gòu)殘差很大(134.98)。根據(jù)GSR分類(lèi)器的決策規(guī)則,判斷測(cè)試樣本為A類(lèi),與地面真實(shí)值一致。
表2 六種分類(lèi)方法的分類(lèi)精度
圖4 A類(lèi)測(cè)試樣本的組稀疏表示分類(lèi)器系數(shù)(A)以及相對(duì)于A類(lèi)和C類(lèi)的重構(gòu)殘差(B)
GSR分類(lèi)器的成功依賴(lài)于每個(gè)類(lèi)有足夠的訓(xùn)練樣本,這些樣本跨越了一個(gè)子空間,使得這個(gè)類(lèi)的任何樣本都位于這個(gè)子空間上。如果假設(shè)不成立,GSR分類(lèi)器很可能會(huì)失敗。因此,有必要評(píng)估訓(xùn)練樣本數(shù)量對(duì)分類(lèi)結(jié)果的影響。如圖5所示,更大的注冊(cè)規(guī)模導(dǎo)致更高的分類(lèi)精度;注冊(cè)規(guī)模大于或等于10足以確保GSR分類(lèi)器達(dá)到95%以上的準(zhǔn)確率。當(dāng)注冊(cè)規(guī)模為5時(shí),分類(lèi)準(zhǔn)確率僅為82%,這意味著假設(shè)不成立。
綜上所述,本研究發(fā)現(xiàn)陽(yáng)山地區(qū)的桃子總糖含量和糖酸比較高,可能與晝夜溫差較大有關(guān)。400 - 1000 nm是判別陽(yáng)山地區(qū)果實(shí)的有效波段,與花青素和其他色素含量有關(guān),而近紅外波段(1000 - 1900 nm)蔗糖和酸類(lèi)是判別不同桃品種的重要波段。本研究將提出的GSR分類(lèi)器與其他五種分類(lèi)器進(jìn)行了比較,結(jié)果表明,GSR分類(lèi)器實(shí)現(xiàn)了99.3%的總體分類(lèi)精度。將高光譜成像技術(shù)與生理代謝分析相結(jié)合,有助于陽(yáng)山地區(qū)桃子的產(chǎn)地鑒定。
圖5 GSR分類(lèi)器的分類(lèi)精度與每個(gè)類(lèi)別樣本數(shù)量之間的關(guān)系
作者信息
汪小旵,博士,南京農(nóng)業(yè)大學(xué)工學(xué)院教授,博士生導(dǎo)師。
主要研究方向:作物信息智能化檢測(cè)、農(nóng)業(yè)裝備智能化控制。
參考文獻(xiàn):
Sun, Y., Li, Y.H., Pan, L.Q., Abbas, A., Jiang, Y.P., & Wang, X.C. (2021). Authentication of the geographic origin of Yangshan region peaches based on hyperspectral imaging. Postharvest Biology and Technology, 171, 111320.
https://doi.org/10.1016/j.postharvbio.2020.111320