使用近紅外高光譜成像儀鑒別枸杞不同產地
發(fā)布時間:2023-05-18
瀏覽次數:424
采用近紅外 (874–1734 nm) 高光譜成像 (NIR-HSI) 技術結合化學計量學方法對來自中國寧夏、內蒙古、新疆和青海的 1200 份枸杞樣品進行了溯源。研究了兩種方法,稱為像素方式和對象方式,以區(qū)分這些中國枸杞的來源。逐像素分類為單個枸杞的每個像素分配一個類別,通過這種方法,直觀地反映了四個產地枸杞的差異。
采用近紅外 (874–1734 nm) 高光譜成像 (NIR-HSI) 技術結合化學計量學方法對來自中國寧夏、內蒙古、新疆和青海的 1200 份枸杞樣品進行了溯源。研究了兩種方法,稱為像素方式和對象方式,以區(qū)分這些中國枸杞的來源。逐像素分類為單個枸杞的每個像素分配一個類別,通過這種方法,直觀地反映了四個產地枸杞的差異。使用平均光譜進行對象分類。提取高光譜圖像中每個樣本所有像素點的平均光譜信息作為樣本的代表性光譜,然后基于這些平均光譜建立了枸杞產地的判別分析模型。具體來說,采集所有樣品的光譜曲線,去除明顯噪聲后,將972~1609 nm的光譜視為枸杞的光譜。然后,對光譜曲線進行移動平均平滑(MA)預處理,建立基于支持向量機(SVM)、徑向基函數神經網絡(NN-RBF)和極限學習機(ELM)的判別分析模型。全波段光譜,分別從主成分分析(PCA)和二階導數光譜的載荷中提取的特征波長。在這些車型中,基于PCA載荷提取特征波長的ELM模型的標定集和預測集的識別準確率均高于90%。該模型既保證了較高的識別率,又簡化了模型,有利于日后的快速在線測試。結果表明,高光譜成像儀可以快速追蹤枸杞的來源。
枸杞為茄科多分枝灌木,果實、皮、葉均可入藥。更重要的是,枸杞灌木在我國內蒙古、陜西、甘肅、寧夏、青海和新疆等地廣泛種植,具有優(yōu)良的水土保持能力。人們普遍認為,生長環(huán)境可能會改變選定植物的化學成分和生物學特性。寧夏枸杞以果實大、外形美觀、有效成分含量高、藥用價值廣泛等特點受到廣大消費者的青睞。然而,隨著近年來市場上不同產地水果的頻繁混雜,寧夏枸杞的品質難以保證。多數研究認為,枸杞的產地來源可通過觀察枸杞的形狀和化學方法檢測內部品質,但這些方法耗時長,對樣品有破壞性,檢測精度低。 因此,建立快速、無損、高精度的枸杞溯源方法迫在眉睫。同時,枸杞育種工作也需要這些分析方法,以獲得營養(yǎng)和保健品質量更高、農場價值更高的改良品種,用于寧夏枸杞的商業(yè)生產。
近年來,光譜和光譜成像技術作為快速、無損的檢測手段被廣泛應用于農產品的產地鑒別和質量分析?;?780-2526 nm 波長范圍內電磁輻射吸收的近紅外反射光譜 (NIRS) 可以在分子水平上提供有關樣品成分和性質的全面結構信息。事實證明,該光譜帶區(qū)域來自 CH、CO、OH 和 NH 伸縮振動的泛音。已經報道了幾項研究使用 NIRS 和化學計量學方法來確定枸杞的來源和質量。(2016) 使用近紅外高光譜成像儀 來評估枸杞多糖 (LBPs) 的含量。(2017) 使用傅里葉變換近紅外 (FT-NIR) 光譜儀測定枸杞的總糖含量。(2016) 使用 NIRS 確定枸杞的地理來源和與來源相關的黃酮類化合物含量。(2017) 使用 NIRS 確定黑枸杞的地理來源和花青素含量。他們都得出結論,NIRS 在確定枸杞原產地和質量方面具有很高的潛力。然而,問題與這些方法有關,即樣品在粉碎成粉末時會損壞,從而難以進行視覺識別。此外,雖然NIRS可以從光譜中獲取樣品的內部質量信息,但NIRS無法提供樣品的外部空間信息。
高光譜成像儀是光譜學與數字成像的結合,同時獲取物體的光譜和空間信息。近紅外高光譜成像(NIR-HSI)是光譜成像的常見形式之一。它可以獲得更廣泛的樣品內部和外部信息,從而導致更全面的分析,有助于區(qū)分枸杞的不同地理來源。通過高光譜成像系統(tǒng),每幅高光譜圖像的一個像素具有覆蓋整個光譜范圍的波長。最后,生成一個由每個波長的一系列圖像組成的高光譜立方體。NIR-HSI 已成功用于鑒別某些農產品的來源和質量。(2011) 使用 NIR-HIS 檢查具有不同地形復雜性的三種谷物(大麥、小麥和高粱)的單個整粒。(2016) 使用 NIR 高光譜成像對三種硬度類別的玉米粒進行分類,采用像素方式和對象方式兩種方法,然而,在他們的研究中,三個類別和每個類別 20-40 個內核不足以建立穩(wěn)健的判別模型并且缺少特征波長以簡化模型。(2013) 利用近紅外高光譜技術測量小麥的出粉率、柔軟度和蔗糖含量,實現了小麥碾磨質量的可靠評價。(2013) 使用推掃式高光譜成像系統(tǒng)分別通過光譜和圖像處理技術區(qū)分麻瘋樹種子的不同地理來源。很少有論文使用 NIR-HSI 對枸杞產地進行定性和定量分析。
在這項研究中,使用 NIR-HSI 技術研究了枸杞的四個地理來源。在獲取枸杞的高光譜數據后,提取了所有樣品的所有光譜信息。首先,采用逐像素法對不同產地的枸杞進行主成分可視化分析。然后,分析枸杞樣品的平均光譜,建立支持向量機(SVM)、徑向基函數神經網絡(NN-RBF)和極限學習機(ELM)模型。此外,還選擇了特征波長以通過主成分分析 (PCA) 和二階導數光譜的載荷快速識別枸杞來源。
樣品準備
為確保地理來源是唯一的實驗變量,枸杞樣品是從稱為枸杞的同一物種中采集的. 在這項研究中,枸杞是從四個主要產區(qū)的當地農民那里購買的,包括中寧縣(105.67°E,37.48°N,中國寧夏中衛(wèi)),烏拉特前旗(108.65°E,40.72°N,巴彥淖爾市) , 中國內蒙古), 精河縣 (82.88°E, 44.60°N, 博爾塔拉蒙古, 中國新疆), 都蘭縣 (98.08°E, 36.30°N, 海西, 中國青海). 枸杞灌木在中國的寧夏、內蒙古、新疆和青海被當地農民廣泛種植。我們可以將這些枸杞作為食物,也可以對其進行研究。因此,這些位置不需要特定權限。此外,我們已確認實地研究不涉及瀕?;蚴鼙Wo物種。單個枸杞被用作樣品。從每個產區(qū)抽取樣品300個,共采集樣品1200個。為采用近似賦值法判定枸杞產地,寧夏為1,內蒙古為2,新疆為3,青海為4。將每個枸杞樣品表面擦拭干凈,樣品在高光譜儀器平臺上彼此分開。采集到的四種不同產地枸杞的 RGB 圖像如下圖所示,外觀無明顯差異。
數據分析
光譜信息中存在大量冗余信息和共線信息,極大地干擾了有效光譜信息的提取。此外,豐富的光譜數據導致模型復雜,計算耗時。本研究利用主成分分析載荷(PCA載荷)和二階導數光譜來選擇特征波長,以減少冗余和共線信息的影響,簡化模型并減輕計算負擔。
主成分分析的載荷反映了主成分與原始波長變量之間的相關程度。主成分分析的載荷越大表明相應波長變量的重要性越大,包含的信息越多。為了通過 PCA 負載選擇特征波長,確定了不同主成分 (PC) 的貢獻率,然后選擇分析的 PC 的累積貢獻率和 PC 的數量。然后,為了確定相應PC的負載,設置閾值并根據波長負載圖選擇峰或谷作為特征波長。
常用的光譜預處理方法之一是導數光譜,它可以有效地突出光譜的特征信息。導數光譜用于通過選擇適當的峰或谷來選擇特征波長。本研究基于二階導數光譜選擇特征波長。由于噪聲對導數光譜的影響很大,在選擇特征波長之前,通過平滑對原始光譜進行平滑處理,以盡量減少原始光譜的噪聲。
本研究首先對來自四個不同產地的枸杞全像素光譜信息進行主成分分析(PCA)可視化分析。然后,基于所有樣本的平均光譜信息建立了支持向量機(SVM)、徑向基函數神經網絡(NN-RBF)和極限學習機(ELM)判別分析模型。
PCA是解決數據多重共線性問題、提取數據特征信息、實現數據壓縮的有效算法。PCA將多個變量通過線性變換變換到一個新的坐標系中,將數據的最大方差投影到第一個坐標(第一主成分,PC1),第二大方差投影到第二個坐標(第二主成分) , PC2) 等, 以獲得與變量個數相同的主成分數。本研究根據累計貢獻率選取前5個主成分,并繪制得分圖。通過結合得分信息和光譜變量的空間信息,可視化了主成分。
SVM是一種基于結構化風險最小化的統(tǒng)計學習方法。SVM通過非線性映射將樣本空間映射到高維或無限維的特征空間。線性劃分或回歸是通過線性超平面在高維特征空間中實現的。該方法可以解決神經網絡中樣本少、非線性、高維等問題,克服局部極小問題。在這項研究中,選擇了不同的懲罰參數(c)和核函數參數(g)以達到最高的識別率。
NN-RBF是一種3層前饋神經網絡,具有訓練速度快、泛化能力強和任意逼近等優(yōu)點。NN-RBF學習的目的是確定隱含層神經元個數、NN-RBF函數的類別、中心和寬度,進而確定隱含層和輸出層之間的權值。本研究通過將 NN-RBF 神經網絡中的擴散率設置為 0.1-1 和 1-100,使模型達到最高的識別率,模型識別率最高時的擴散值為選為最佳參數。
通過設置隱藏層神經元個數,比較不同神經元節(jié)點個數的效果,得到最優(yōu)解。本研究將隱藏層神經元個數從1優(yōu)化到150個,步長為1,最小訓練誤差下的神經元個數即為ELM模型的隱藏層神經元個數。
結果與討論
逐像素分析和分類
為了可視化四個產地枸杞的差異,對四個不同產地枸杞的全像素光譜信息進行主成分分析。本研究剔除背景和無關緊要的像素點,得到枸杞子4個位置20196個像素點的光譜信息,并進行主成分分析。確定前五個PC,并根據每個像素的分數和像素的空間分布繪制PC的分數。不同的顏色代表不同的分數。前五個主成分的累計貢獻率為99.78%,解釋了大部分光譜變量。在 PC1 的得分圖像中,顏色分布的類型對于前兩個位置和下面兩個位置明顯不同。在 PC2 的得分圖像中,頂部位置的顏色比其余位置的顏色更暖,其余位置的顏色更冷。雖然 PC3、PC4 和 PC5 的貢獻率只占總數的很小一部分,但它們包含了更多可以表征不同產地的內部信息。從他們的評分圖中可以看出,不同產地的枸杞內部分布不同。在 PC3 和 PC4 的得分圖像中, 不同產地的枸杞顏色分布從上到下逐漸由冷色調變?yōu)榕{。對于PC5,不同產地的枸杞在評分圖中從上到下的顏色分布由暖色調逐漸變?yōu)槔渖{。由于在 PC3、PC4 和 PC5 的得分圖像中更容易區(qū)分來源,因此得分分布與這三個主要成分的得分一起繪制。主成分分析的分數往往反映了樣本的內在信息。雖然不同產地枸杞的分數分布圖相互重疊, 同源樣本更加集中, 形成不同區(qū)域。因此,雖然可以直觀地反映四種產地枸杞之間的差異,但很難做到準確分類。
前五個主成分的評分圖像。顏色的變化代表了來自四個不同產地的枸杞的內部分布
逐像素 2D PCA 得分散點圖 (a) PC3 和 PC4 以及 (b) PC5 和 PC4。來自同一來源的樣本更加集中,形成了四個不同的區(qū)域
對象分析和分類
不同產地枸杞的光譜特征,在對象方面的方法中,所描繪的對象(在本例中為中國枸杞)被用作數據點而不是單個像素。將每顆枸杞所有像素點的光譜反射率取平均值作為一個樣品的光譜反射率,共得到1200條光譜曲線。去除光譜曲線前端和后端的噪聲,選擇972-1609 nm范圍內經過移動平均平滑(MA)預處理的光譜進行分析。四種不同產地枸杞的平均光譜如圖所示。不同產地的枸杞具有相似的光譜模式,均在大約 995、1200 和 1465 nm 處有吸收峰。995 nm附近的吸收峰歸因于蛋白質或氨基酸中NH鍵的二次振動。1200 nm 附近的吸收峰歸因于淀粉、蛋白質或脂質中 CH 鍵的二次伸縮振動。1465 nm 附近的吸收峰是水吸收的敏感區(qū)域 。如圖所示, 四種不同產地的枸杞在972-1609 nm范圍內的平均光譜顯示出相似的光譜曲線和略有不同的反射率值。該特征可能是由于不同地區(qū)和氣候的內部組件差異引起的。
不同產地枸杞在 972–1609 nm 范圍內的平均反射光譜。去除光譜曲線前端和后端的噪聲,并用移動平均平滑(MA)對光譜進行預處理
對象方面的主成分分析。
將來自四個地理來源的1200個樣本的光譜數據按照算法以2:1的比例分為校準集和預測集,每個地理來源的200個樣本作為校準集來自每個地理來源的剩余 100 個樣本用作預測集。對模型集的光譜數據進行主成分分析,定性分析枸杞產地鑒別。下圖顯示了 PC3 和 PC4 的二維分數散點圖。如下圖所示,來自每個地理來源的樣本根據自己的特征聚類在一起,盡管分數圖中仍然存在一些重疊。需要進一步分析和處理以識別枸杞的不同產地。
來自每個地理來源的樣本根據其自身的特征聚集在一起
結論
利用高光譜成像儀系統(tǒng)結合提取的特征波段和不同的判別分析模型對枸杞的起源進行了追溯。從枸杞的像素光譜出發(fā),結合枸杞的空間分布,繪制了主成分偽彩色圖,直觀展示了四種產地枸杞的差異。從枸杞樣品的角度出發(fā),通過PCA加載和二階導數光譜提取的全光譜和特征波長建立不同的判別分析模型。經過分析比較,基于全光譜的判別模型優(yōu)于基于特征波長的判別模型。在判別分析建模方法中,ELM算法獲得了最好的判別效果?;赑CA加載提取的特征波長的ELM模型不僅具有較高的識別精度,而且簡化了模型,有利于快速在線檢測。在今后的研究中,應盡可能多地研究枸杞的產地,以建立更穩(wěn)健、范圍更廣的枸杞產地鑒定模型,并研究應用HSI技術檢測枸杞品質的可行性。判斷枸杞子是否經過人工熏制。
相關產品
-
高光譜知識:高光譜圖像處理技術
高光譜圖像處理技術是一種集圖像與光譜信息于一體的高分辨率技術,廣泛應用于航天、農業(yè)、食品安全、醫(yī)學診斷及工業(yè)分類質檢等領域,展現出強大的應用潛力和價值。..
-
高光譜成像技術方案怎么選擇?
探索高光譜成像技術,精準檢測水果品質,從源頭把控,讓每一顆果實都展現最佳風味!..
-
基于多種光學技術的食品無損檢測:保障食品安全質量
隨著科技的發(fā)展,如今有了更先進的食品檢測方法,其中基于光學的不同波段檢測方法結合光譜技術大放異彩。這些方法包括可見光、紅外、太赫茲以及 X 射線等波段的檢測,它..
-
高光譜成像技術在紡織品回收分類中的應用
利用高光譜相機對紡織品進行分類以便回收,在眾多節(jié)約和減少浪費的努力中,紡織品仍然是最大的挑戰(zhàn)之一。只有 15% 被回收和再利用,而其余 85% 最終被填埋。紡織..