来源:赛斯拜克 发表时间:2023-10-13 浏览量:554 作者:awei
吉林查干湖是我国重要的湖泊之一,水体叶绿素A含量是评价湖泊水质和生态环境状况的重要指标。传统的叶绿素A含量检测方法通常涉及到水样采集和实验室分析,这种方法虽然准确但耗时且费用较高。因此,利用高光谱相机进行水体叶绿素A含量的无损快速检测,具有重要的研究价值和应用前景。
研究方法:
数据收集:在吉林查干湖不同区域和时间段,使用高光谱相机获取水体的反射光谱数据。同时,通过传统方法采集水样,测定叶绿素A的实际含量。
数据分析:对收集到的光谱数据进行预处理,提取与叶绿素A含量相关的特征波长。这些特征可能包括特定波长处的反射率、吸收峰等。
模型建立:利用化学计量学和机器学习算法,建立吉林查干湖水体叶绿素A含量与光谱特征之间的定量模型。可以采用线性或非线性回归、支持向量机等算法进行建模。通过训练和优化模型,确定模型参数并评估模型的性能。
模型验证:使用独立的验证数据集对建立的模型进行验证。通过比较模型预测值与实测值之间的相关性、均方误差等指标,评估模型的准确性和可靠性。
为了探讨高光谱相机在水体叶绿素A含量的模型研究中的应用,本文以吉林省查干湖水体为例进行了研究。叶绿素A是水体中重要的成分,其浓度与水体中藻类的种类、数量以及水质状况密切相关。通过测定叶绿素A含量可以在一定程度上反映水质状况。然而,叶绿素遥感监测存在着许多困难,比如水体中其他物质的光学影响,以及藻类和其他污染物质的差异等。这导致了在提取光谱特征时无法建立整体分析模型。
1实验材料与方法
1.1研究区概况
查干湖主体处于前郭县境内,小部分水体跨大安市和乾安县.地处嫩江与霍林河交汇的水网地区,属内陆半咸水湖泊,是吉林省最重要的渔业基地,也是松辽平原第一大湖、查干湖地处大陆性季风型半干旱
气候区,年均气温4.5℃,≥14℃的水温日数145d;日照时数2880h,年均辐射量4429 MJ/m²,5月-9月份辐射量为2319MJ/m²;年均降雨量为450.8mm,蒸发量为1063.5mm;春季多大风,其中风速≥17m/s的日数年均29d;冰封期130d左右,结冰期日数150d左右,冰厚0.8-1.1m.该湖正常运行水位130m时,水域面积3.72×10⁴hm²,平均水深2.52m,水体容积5.98×10⁸m³;集水区内均为盐碱化农田和牧场;湖底平坦,粉沙质土壤,周围土壤为白钙碱土;湖泊水质为苏打型盐碱水,多泥沙悬浮,透明度在20~50 cm之间,叶绿素a浓度7月份较高,在40μg/L左右,采样期间其它月份一般在5-30μg/L左右(表1),属富营养型湖泊.查干湖主要补给来源为引松工程,其次还有霍林河、洮儿河、嫩江、天然降水和地下水等为查干湖补给水源[,12]
1.2数据获取方法
为研究查干湖水质,2004年5月到2005年6月,共进行了7次野外采样,对研究区内代表点位分别用GPS进行定位导向,同步测量各点水体透明度和反射光谱,并采集水样,用以实验室分析其他水质参数.7次采样共计95点,随机选取其中50个作为建模数据,其余用以模型验证.叶绿素a浓度的测定在采样后,立即返回实验室过滤,然后用丙酮萃取,蔽光24h后,采用分光光度计法测定.反射光谱测量采用用广东赛斯拜克产品SineSpecSCX系列-成像高光谱相机进行相关研究。可在350-1050nm波长范围内进行连续测量,采样间隔为1.4nm,光谱分辨率3nm,视场角25°,共有512个采样值.
光谱测量时间为北京时10:00~14:00,7次采样当时天气晴朗无风,湖面基本平静.光谱测量在距水面上方1m处进行,光谱仪传感器探头方向基本垂直于水面.在每个点位,进行20次反射光谱测量,最后取其平均值作为该点的光谱反射值,每个样点测定前都进行白板定标.实验室内对每条平均反射光谱利用其在350-1000nm范围内的波段反射率进行归一化处理,选取400-1000nm波谱范围作为研究数据.
1.3建模方法
数据处理与建模方法在水质参数高光谱研究中起关键作用,在本研究中将主要从三个方面来对获取数据加以分析,并在此基础上建立模型.首先,分别对水体高光谱数据、微分光谱数据与同步获取的对应采样点水体叶绿素数据逐波段相关分析,并进行线性回归分析.微分光谱采用以下公式计算:
R(λ;)²=〔R(A+)-R(A;-)〕/(λ;+y-λ;-1)
(1)
其中,λ,A;,λ₂-1为相邻波长,R(λ₁)'为波长λ;的一阶微分反射光谱.然后,采用光谱比值法建立水体叶绿素含量反演模型,评价不同比值法建立模型的精度;在此基础上建立神经网络模型,将与水体叶绿素含量相关密切的波段作为输入变量,反演水体叶绿素含量;最后对比分析不同方法建立的水体叶绿素a含量模型的精度.
2分析与讨论
2.1光谱反射率特征
查干湖水体光谱反射率呈现典型的内陆水体光谱特征(图1).400-500 nm范围内,由于叶绿素a在蓝光波段的吸收峰及黄色物质在该范围的强烈吸收作用,水体的反射率较低[13],但由于悬浮物的影响,叶绿素a在440nm的吸收峰不是很明显;510-620nm范围的反射峰是由于叶绿素、胡萝素弱吸收,细胞和悬浮颗粒的散射作用形成的[3],该反射峰值与色素组成有关,而且水体叶绿素浓度越高,该反射峰值也越高,可以作为叶绿素定量标志[14];630、675nm附近出现反射率低谷,630 nm低谷是由于藻青蛋白吸收引起[3],675mm是叶绿素a的又一吸收峰,因此当藻类密度较高时水体光谱反射率曲线在该处出现谷值1;685-715nm存在一个明显的反射峰,一般认为是叶绿素a的荧光峰3,9,19,且会随着叶绿素a浓度的增加而向长波方向移动[3],该反射峰的出现是含藻类水体最显著的光谱特征,其存在与否通常被认为是判定水体是否含有藻类叶绿素的依据,反射峰的位置和数值是叶绿素a浓度的指示(8).在近红外的短波方向820nm左右存在一个悬浮物反射峰,而进入900 nm左右,水体反射率急剧下降.
2.2光谱反射率、微分光谱与水体叶绿素a含量的相关分析
微分光谱技术通过对反射光谱进行数学运算,可以迅速地确定光谱弯曲点及最大最小反射率的波长位置,微分技术对光谱信噪比非常敏感.研究表明,光谱的低阶微分处理对噪声影响敏感性较低,因而在实际应用中较有效[l⁶|.一般认为,可用一阶微分处理去除部分线性或接近线性的背景、噪声光谱对目标光谱(必须为非线性的)的影响[17].在本研究中,对采集的全部光谱数据按公式(1)进行了微分处理,然后将光谱反射率、微分光谱与水体叶绿素a含量数据进行线性相关分析与逐波段线性回归分析、如图2所示,光谱反射率与叶绿素浓度在400-600nm区间相关系数在0.45-0.5左右;600-730nm区间,相关系数在
0.55左右;730-900nm区间的相关系数在0.70左右.光谱反射率与叶绿素浓度在红光与近红外短波方向密切相关的现象在内陆悬浮物多且富营养化水体中较为常见[1,8],这种现象目前还没有给出其物理原因.从微分光谱与叶绿素浓度的相关系数的变化趋势看,在蓝、绿光波段相关系数较小,在红光、近红外的短波方向相关系数较高,但总体上没有光谱反射率与水体叶绿素含量的相关系数高.
由以上分析表明,各波段光谱反射率、微分光谱与叶绿素a浓度的相关系数、线性回归确定性系数普遍较低.这是由于查干湖多悬浮物,其高反射率掩盖了水体中的叶绿素信息[19],同时本研究共计进行了7次采样,时间跨度较大,因此在采样过程中,外界环境不可避免会对采集的光谱值有一定的影响,水体各种组成成分的变化同样会对光谱反射率产生影响,以上种种影响都会对叶绿素反演起到干扰作用.这与以往针对富营养化水体进行研究的结果相似[1].
2.3波段比值法回归模型的构建
采用反射比可以部分地消除水表面光滑度和微波随时间和空间变化的干扰,并在一定程度上减小其他污染物的影响',5,20,21].在叶绿素遥感中,通常利用叶绿素浓度与光谱响应间的明显特征,采用不同波段比值法扩大叶绿素吸收峰与叶绿素反射峰或荧光峰间的差异,提取叶绿素浓度信息[1,5,22,281.
我们采用叶绿素荧光峰(700nm)和叶绿素反射峰(580nm)两个波段的反射率比值作为白变量,叶绿素浓度作为因变量,随机提取50组数据建立回归方程(图3a):
Y=0.5554e⁴0s(R²=0.6239,N=50,P<0.01)
(1)
以剩余的46组数据对回归模型(1)进行了验证,并对所有样本的预测值与实测值之间的关系进行了线性回归,结果如图(3b),从图3b中可以看出,线性回归的中心线与1:1线之间存在一定的偏离,而且回归的确定性系数R²仅为0.5767,剩余残差RMSE为5.87624(μg/L),表明模型预测结果不是很理想.
Koponcn等人发现!8.21],通过对光谱反射率值进行对数转换,有助于对叶绿素a含量进行定量遥感.
因此对In(Ro/R₃sn)和In(Chl-a)进行了对数处理,然后以随机挑选的50组数据进行回归,得到的回归方程为:
y=1.4821e2501
(2)
式中,y为In(Chl-a);x为In(R/Rw)数值,回归的确定性系数R²为0.7067、以剩余样本对模型进行了验证,并将全部样本的实测值与预测值进行线性回归,其方程为:
y =0.5727x +0.5628
(3)
最终回归的确定性系数R²为0.6733,剩余残差RMSE为4.8144μg/L.通过对比表明对数处理使回归精度有了明显提高,这主要是对数处理能够对偏离正常情况较大的数据起到归一化作用,使数据更加收敛.
2.4叶绿素a含量的神经网络模型
人工神经网络是20世纪80年代中后期世界范围内迅速发展起来的一个前沿领域,因其良好的预测性和实用性被广泛应用于各个领域,尤其在遥感影像自动分类与定量分析方面得到了广泛应用4-261.由于BP神经网络具有并行处理、非线性、容错性、自适应和自学习的特点,在数据拟合与模拟中有着无比的优越性、因此本文尝试采用BP神经网络,把多个波段的反射率作为输入矢量来预测查干湖水体叶绿素a随光谱反射率的变化,改善以往单波段或比值法建立模型参与波段少、反演精度低的缺陷.
本研究采用的BP神经网络模型是由Matlab的Neural Network Toolbox提供,网络共有3层,依次为输入层、隐藏层和输出层.输入层为不同诊断波段的光谱反射率,中间层的神经元个数为2-10之间的可变因子;输出层神经元为1.中间隐藏层的激活函数为tansig,输出层为purelin函数,使得输出结果不局限在0-1之间;训练函数采用的是trainlm,该函数由Levenberg-Marquardt开发,其特点是运算高效,收敛快.在96个水体叶绿素a数据中随机抽取50个作为训练样本的学习目标T,将431 nm、681 nm、705nm、820 nm处的反射率作为输入矢量P(选择这4个波段的反射率主要是综合考虑水体在可见光与红边处的光谱反射特征
差异较大,处于叶绿素吸收或反射峰值区,而以人工神经网络来拟合实测数据需要寻求不同波段的互补优
势),中间隐藏层的神经元可在2-10之间变动,输出层神经元为1,设置网络学习的迭代次数为300.
当神经网络训练完毕后,把剩余样本的光谱数据作为输入矢量P,进行模拟所得预测值与实测值进行
拟合,结果如图4a所示.当隐藏层的节点数为8时,确定性系数R²与剩余残差RMSE分别为0.9515、
1.8425μg/L.可以看出,神经网络的模拟精度远远高于单波段与比值法构建的回归模型.当隐藏层的节点数为2-9时,R²与RSME的变化情况以及二者的对比情况如表2.从表2可以看出随着节点数量的增加,网络的模拟精度在不断增加,但也有个别情况下,节点数增大反而预测精度略有下降.一般而言,当节点数为7-9时,网络的模拟精度已经趋于稳定,节点数的增加对模拟的精度不会有太大的提高,而且节点过多可能出现过度拟合.
由图2b微分光谱与水体叶绿素a的线性回归的趋势可以发现,水体叶绿素a与微分光谱在部分波段关系密切,因此在本研究中将580nm、700nm、800nm、860nm波长处的微分光谱作为输入变量,进行了神经网络模拟,得到的结果如图4b.从图4b的结果可以看出,以微分光谱作为输入变量的神经网络模型同样可以收到良好的反演精度.笔者在本研究过程中,曾尝试用不同波段的反射率以及微分光谱值作为输入变量
进行神经网络模拟,都收到了良好的模拟结果;但是当输入变量与水体叶绿素a浓度相关性较低时,神经网络的模拟精度就会有所下降,因此在神经网络模拟构成中,所选择的波段一定要与模拟目标有一定的相关性.唐军武等211在黄东海水域使用412、443、490、510、555nm等波段也取得了较好的效果.目前,国内外利用神经网络算法反演水质参数多用于遥感影像,由于神经网络强大的模拟能力,一般来说精度都比较高,如Zhangl⁰]等利用神经网络模型在海岸带水体取得了较好的效果.但是,神经网络模型提取叶绿素a的不足之处在于它需要大量的样本(一般在50以上)来训练与测试,因此在以神经网络模型进行水体叶绿素a反演时,一定要在大样本事件的前提下进行,并且网络的训练以及隐藏层节点数都要合理控制,避免过度训练与过度拟合现象的发生.
3结论
本文在分析查干湖水体反射光谱特征的基础上,通过对光谱反射率与叶绿素a浓度之间的关系进行分析研究,结果表明:单波段光谱反射率与叶绿素a浓度的相关系数在蓝、绿光波段为0.5左右,而在红光以及近红外短波方向,相关系数在0.5-0.7之间变化,并且随着波长的递增,相关系数有所增加.光谱反射率比值(R/Rn)与叶绿素a浓度之间密切相关,对二者进行对数处理后,回归的精度有所提高,确定性系
数R²为0.7067,且两者显著性水平P<0.01,模型验证也呈极显著水平P<0.01,可以用来估算叶绿素a浓度.无论是逐波段线性回归,还是比值法建立的模型,其反演精度都不是很高,但是神经元网络模型可以大大提高高光谱定量反演叶绿素a含量的精度,以光谱反射率或微分光谱与叶绿素a相关系数较大的波段作为输入变量,都能够收到良好的反演精度.