基于多因子量化指标的支持向量机径流预测

   2023-11-15 互联网1830
核心提示:中图分类号:P338文献标识码:A文章编号:0559-9350(2010)11-1318-07Prediction of runoff based on the multiple quantity in

 

中图分类号:P338文献标识码:A 文章编号:0559-9350(2010)11-1318-07

Prediction of runoff based on the multiple quantity index of SVM

ZHANG Nan1,XIA Zi-qiang1,JIANG Hong2

Abstract: A runoff prediction model was developed based on the multiple quantity index of SVM(support vector machine)method. According to the eva luation index of reservoir volume and evaporation,different temperature and rainfall parameters can be tested in the model traiNIng processes. The data at Cuntan Gauge Station in the period from 1981 to 2000 in the Upper Yangtze River were used for the model training,and 15 schemes were established. Grid search algorithm was used to find optimal regularization factors and kernel bandwidth,and to forecast the monthly runoff in 2001~2006 . The results indicate that scheme 3,14,12 are in high precisions,and that of scheme 3 is the highest(RMSRE 0.11,R 2 0.89,IA 0.88,inputs of this scheme are predicted eva luation index of average temperature,reservoir volume,average rainfall and evaporation). The comparison of these 15 schemes shows that Qmax 、Qmin 、Tmin 、Tmax will reduce the precision of forecast,the influence of Vkr is larger than Ezf. The eva luation index SVM forecasting model which is based on influence factors of multi-plans,the unification of realiges precision and usability,provides a new forecast method to the lack-data watershed .

Key words:Quantity index;runoff;SVM;Gridsearch;regularization factors;kernel bandwidth

摘要:利用最小二乘支持向量方法,构建了基于多因子量化指标的径流预测模型。对长江上游寸滩水文站1981—2000年逐月蒸发量、水库容积指标量化后,以不同降雨量和气温作为输入量,建立了15种验证方案,通过穷举搜索二维最小化Gridsearch算法优化出惩罚因子和核宽度,并对2001—2006年逐月径流量进行预测。经验证,方案3、14和12精度均令人满意,其中,方案3精度最高(均方根相对误差为0.11,相关系数为0.89,确定性系数为0.88,输入影响因子为平均降雨量、平均气温、水库库容和蒸发量量化指标4项)。通过15种方案的比较发现,Qmax、Qmin、Tmin和Tmax对预测精度有弱化的作用,库容量化指标对预测精度的影响比蒸发量化指标Ezf大。基于多因子量化指标评价体系的支持向量机径流量预测模型体现了不同影响因子对径流量影响的相对程度,实现了精度和实用性的统一,为缺资料地区研究预报提供了新的方法。

关键词:量化指标;径流量;支持向量机;Gridsearch;惩罚因子;核宽度

1研究背景

河川径流预测是水资源研究领域中的难点问题。河川径流是一种复杂的水文现象,其形成和发展过程受到水文、气象、地貌、流域下垫面和人类活动等因素影响,是一个复杂的非线性系统[1]。因此,寻求能表述径流的特性且预测精度高的径流预测模型,具有重要的理论意义和应用价值。目前径流预测的方法很多,如ANN模型[2]、神经网络模型、基于小波分析模型[3]、时间序列模型[4]、多元线形回归模型、支持向量机[5]等线性、非线性方法,其中,支持向量机(SupportVectorMachine,简称SVM)模型是一种新的研究热点,从观测数据出发寻找规律,利用这些规律对未来数据或无法观测数据进行预测,是在有限样本下对统计学习中的VC维(Vapnik-ChervonenkisDimension)理论和结构风险最小原理的实现[6]。

目前,支持向量机在水文中的应用已取得一定的进展,Liong等[8]已将SVM应用于水文预报中,汪丽娜等[8]、廖杰等[5]、周秀平等[9]探讨了支持向量机及其在径流预测中的应用,林剑艺[10]、李庆国[11]等将SVM成功应用于径流预报、回归预测中,并对参数、核函数的选取进行了较为详述的探讨;马细霞[12]、刘翼[13]、李亚娇[14]、李彦彬[15]、于国荣[1]等将小波理论、混沌理论引入到支持向量机,对径流时间序列进行了预处理;Suykens[16]、陶凤玲[17]提出最小二乘支持向量机方法,与支持向量机相比,这种方法采用最小二乘线性系统作为损失函数,求解过程变成了解一组等式方程,求解速度相对加快,并应用到模式识别和非线性函数估计。河川径流是一种复杂的水文现象,其形成、发生、发展受气候、植被、地貌和人类活动的综合影响,上述模型各有特点,立足点均在径流量单一指标上,如何客观、准确地反映众多因素对径流量模拟、预测的制约性和影响程度,对于未来径流量变化的特点有着重要的意义。本文引入影响因子量化指标,构建不同的组合方案,显现出不同影响因子对径流量影响的相对程度,为径流的预测研究提供一种新的观点和途径。

2SVM模型原理

设定训练样本,利用非线性映射φ(·) 将数据映射为高维特征空间,然后在高维空间内进行线性回归,其函数为:

f (x ) = wφ (x ) + b (1)

其中,权向量w?R n,偏置值b?R 。这样构造的函数f (x ) 对于样本集之外的x ,可以精确地估计出相应的y 。

定义以下优化问题:

式中:优化目标函数J 的第1、2项分别控制模型的复杂程度和误差的范围γ为惩罚因子(正规化参数);ek 为不敏感损失函数的松弛因子。

定义Lagrange函数为:

式中,αk 为Lagrange乘子。

根据最优条件:

消去原始变量w 、ek ,采用径向基核函数:

K (xk ,xl ) =exp(-‖xk – xl‖2/2σ2 )   (5)

式中,σ为核宽度,反映了边界封闭包含的半径,得到训练数据集的非线性逼近为:

由以上推导过程可知,采用等式约束可以将求解的优化问题转化成线性方程,大大减少算法的复杂性,另外,采用径向基函数的支持向量仅需确定γ、σ两个参数,对参数γ、σ参数的确定采用基于穷举搜索法的二维最小化Gridsearch程序确定,使得搜索空间维数降低,极大地加快了建模速度。

3 模型的构建

3.1 评价体系的建立

相关研究显示[18-24],1981—2000年间,长江上游流域的年径流量与年降雨量的年际变化有着很好的一致性,波动起伏对应关系良好,相关系数达到0.8,并通过0.001信度的显著性水平,降雨量上升的趋势为3.616mm/10a;气温对径流量的影响随降水的增加而减少,当降水量减少时,气温对径流量的影响更为显著,长江上游流域降水量特别是夏季及汛期降水量减少的情况下,气温升高对径流量减少的影响相对较为明显,平均气温从20世纪80年代14.9℃下降到90年代末的15.2℃;长江上游流域蒸发量也是地表水资源平衡中的主要支出项,蒸发量的增大,将会加大地表水资源的消耗,导致河流径流量的减少,在研究时间段内,长江上游蒸发量呈现出显著的上升趋势,以5.06mm/10a的速率增大,加剧了年径流的减少。气候对寸滩水文站以上流域径流量变化的贡献率达到74.58%。此外,经济和社会的发展,人类活动对径流过程的干扰逐渐增强,水资源消耗、水利工程引起的蒸发、灌溉用水等问题进一步增大,人类活动对径流量变化的贡献率达到24.69%。由此可见降雨量、气温、蒸发量、人类活动和水利工程是长江上游径流量变化的主要影响因子。由于长江上游水电开发,干流、梯级各大支流水库对径流过程的调节作用逐渐增强,库容系数逐年增大[25]。本文以水库库容作为人类活动和水利工程的指标项,蒸发量作为影响因子,气温和降雨量为方案组合项,对原始数据进行预处理。根据水库分类[26]将水库库容按照由小到大量化为5个等级(见表1),蒸发量量化指标的选取如式7,降雨量及气象因素按照月最大、最小和均值进行方案组合。

Eij =ΔEij + (Dij /Dimax)   (7)

式中:ΔEij 为某月平均蒸发量距平的无量纲值; Dij 为学习样本某年、某月大于该月均值的天数; Di max 为学习样本某月大于距平值的天数; ij (i =1,2,3,…,n )为年编号; j 为( j =1,2,3,…,12)月编号。

表1 水库库容量化值(单位:108m3)

3.2 算法步骤

算法的输入变量为长系列资料中逐月蒸发量量化值(Eqw)、各年运行水库量化值(Vkr),各月最大降雨量(Qmax)、最小降雨量(Qmin)和平均降雨量(Qmean),各月气温最大值(Tmax )和最小气温(Tmin)和平均气温(Tmean )。目标量:各月径流量Q 。算法步骤见图1。

图1 算法流程

3.3 分析方法

本文评价性能指标有:均方根相对误差(RMSRE)、相关系数(R2),根据水文情报预报规范(SL250-2000),确定性系数Dy 的值越大,模型的精度越高。各统计量的具体公式如下:

式中: xi 为预测值; yi 为实测值; i 为预测样本序数;范围为1- n ;x()y()分别为预测值序列和实测值序列的均值;n 为预测样本数。

4 实例应用

寸滩水文站位于长江干流和嘉陵江汇合口下游7.5 km的重庆市江北区寸滩镇,集水面积为86.66万km2。控制着金沙江、岷江、沱江、嘉陵江及长江上游干流的来水。该站多年平均年径流量为3 456亿m3,统计资料表明其平均年降雨量为1 078 mm,平均年径流深为420 mm,日平均气温15.05℃,选取寸滩站为研究站,对三峡水库在不同来水情况下调度运行具有重要的意义。

本文采用15种不同影响因素组成方案(见表2),对各月径流量Q 进行模拟预测。

表2 不同方案的组合情况

本文采用寸滩水文站1981—2000年逐月径流量作为目标量,样本点240个。以不同方案逐月降雨量、气温和水库库容量化值作为学习样本进行训练,表3为各方案优化后的惩罚因子和核宽度。

表3 各方案惩罚因子和核宽度

将各方案Gridesearch优化后的核宽度和惩罚因子代入模型进行预测。图2为各方案惩罚因子对预测精度的影响,各方案均采用阈值ε =0.01,2001—2006年作为预测年。

从表3看出,随着输入量的不同,不同方案优化后的惩罚因子、核函数发生不同的变化,由图2、表4各方案惩罚因子的变化和预测值的统计指标可知,预测精度随着惩罚因子的减少而提高,表4中第3、14、12方案的预测精度高于其他方案,说明降雨量、库容对模拟预测的精度具有较强的影响,Qmax、Qmin、Tmin 和Tmax 对预测精度有弱化的作用,从方案2、4、5、1可以看出,气温量化指标Tmean、Tmin 和Tmax 对预测精度的影响较蒸发量化指标Ezf 较大,方案8、11、9的预测精度最低,反映出库容量化指标Vkr 对预测精度影响较大。由以上可知,方案3为最佳方案。

选用3层前馈反向传播人工神经网络模型与本文采用的SVM预测结果进行比较,反向传播学习算法采用的是SCG算法,并通过试验确定最优的隐层数为3。图3为2001—2006年方案3和3层前馈反向传播人工神经网络逐月预测值与实际值对比图,表5为两种方法的误差比较,结果显示本文采用的方法预报精度比反向传播人工神经网络有一定程度的提高。

表4 各方案预测值与实际值的统计指标值

图2 惩罚因子的变

图3 模拟值与实测值对比

表5 寸滩站2001—2006年月径流预测结果比较

5 结论

本文将最小二乘法支持向量机方法用于径流预测中,利用长江上游寸滩站1981—2000 年的降雨量、气温、水库库容和蒸发量化值,发挥支持向量机强大的泛化能力,通过非线性映射建立了基于SVM的径流量预测模型,引入影响因子的量化指标评价体系,构建15种方案,对各方案利用穷举搜索法的二维最小化Gridsearch优化出惩罚因子和核宽度,结果发现,预测精度随着惩罚因子的减小而提高,降雨量、库容对模拟预测的精度具有较强的影响,Qmax、Qmin、Tmin和Tmax对预测精度有弱化的作用,库容量化指标Vkr 对预测精度的影响比蒸发量化指标Ezf 大,方案3精度最高(RMSRE为0.11, R 2为0.89, Dy 为0.88),利用方案3的情景与3层前馈反向传播人工神经网络模型对2001—2006年月径流量分别进行预测,结果显示本文采用的方法预报精度比反向传播人工神经网络有一定程度的提高。长江上游大量修建水库,将会使库容量化指标Vkr 对模拟精度的影响加大。建立了多因子量化指标评价体系的径流预测模型,体现了不同影响因子对径流量影响的相对程度,实现了精度和实用性的统一,为缺资料地区研究预报提供了新的思路,也加强了支持向量在水文专业的应用研究。

参考文献:

[ 1 ]于国荣,夏自强. 混沌时间序列支持向量机模型及其在径流预测中应用[J]. 水科学进展,2008,19(1):117-123 .

[ 2 ]王文圣,丁晶,刘国东. 人工神经网络非线性时序模型在水文预报中的应用[J]. 四川水力发电,2000,19 (增刊):8-10 .

[ 3 ]王文圣,丁晶,李跃清. 水文小波分析[M]. 北京:化学工业出版社,2005 .

[ 4 ]金菊良,丁晶. 水资源系统工程[M]. 成都:四川科学技术出版社,2002 .

[ 5 ]廖杰,王文圣,李跃清,等. 支持向量机及其在径流预测中的应用[J]. 四川大学学报(工程科学版),2006,38(6):25-29 .

[ 6 ] Vladimir N . Vapnik . 统计学习理论的本质[M]. 张学工译. 北京:清华大学出版社,2000 .

[ 7 ] Liong S Y,Sivapragasm C . Flood stage forecasting with SVM[J]. Journal of the American Water Resources Association,2002,38(1):173-186 .

[ 8 ]汪丽娜,李粤安,陈晓宏. 给予支持向量机的降雨-径流预测研究[J]. 水文,2009,29(1):13-17 .

[ 9 ]周秀平,王文圣,黄伟军. 支持向量机回归模型在径流预测中的应用[J]. 水电能源科学,2006,24(4):5-10 .

[ 10]林剑艺,程春田. 支持向量机在中长期径流预报中的应用[J]. 水利学报,2006,37(6):681-686 .

[ 11]李庆国,陈守煜. 基于模糊模式识别的支持向量机的回归预测方法[J]. 水科学进展,2005,16(5):741-746 .

[ 12]马细霞,穆浩泽. 基于小波分析的支持向量机径流预测模型及应用[J]. 灌溉排水学报,2008,27(3):79-80 .

[ 13]刘翼,王本德,袁晶瑄,等. 基于相空间重构的支持向量机方法在径流中长期预报中应用[J]. 大连理工大学学报,2008,48(4):591-592 .

[ 14]李娇,沈冰,李家科,等. 基于支持向量机的径流时间序列预测研究[J]. 西安建筑科技大学学报(自然科学版),2006,38(6):777-778 .

[ 15]李彦彬,黄强,等. 基于混沌支持向量机的河川径流预测研究[J]. 水力发电学报,2008,27(6):42-47 .

[ 16] Suyken J A K,Vandewalle J . Least squares support vector machine classifiers[J]. Neural Processing Letters,1999,9:293-300 .

[ 17]陶凤玲,余生才,等. 基于最小二乘支持向量机的龙羊峡径流预测[J]. 水文,2008,28(4):29-30 .

[ 18]李林,王振宇,等. 长江上游径流量变化及其影响因子关系分析[J]. 自然资源学报,2004,19(6):694-699 .

[ 19]王艳君,姜彤,施雅风. 长江上游流域1961-2000 年气候及径流变化趋势[J]. 冰川冻土,2005,27(5):710-712 .

[ 20]夏军,王缈林. 长江上游流域径流变化与分布式水文模拟[J]. 资源科学,2008,30(7):964-966 .

[ 21]姜彤,苏布达,王艳君,等. 长江流域气温、降水与径流变化趋势[J]. 气候变化研究进展,2005,1(2):66-68 .

[ 22]陈吉琴. 近50a来长江流域气象因素分析及蒸发变化原因初探[D]. 南京:河海大学,2007,5:22-26 .

[ 23]丁斌,顾显跃,缪启龙. 长江流域近50 年来的气温变化特征[J]. 长江流域资源与环境,2006,15(4)533-538 .

[ 24]王艳君,姜彤,许崇育. 长江流域蒸发皿蒸发量及影响因素变化趋势[J]. 自然资源学报,2005,20(6):866-868 .

[ 25]王缈林. 长江上游流域径流变化[J]. 水土保持研究,2007,14(5):116-117 .

[ 26] SL252-2000,水利水电工程等级划分及洪水标准[S]. 

作者简介:张楠(1981-),男,安徽阜阳人,博士生,主要从事水文水资源和生态环境研究。


 
举报收藏 0打赏 0评论 0
 
更多>同类资讯
推荐图文
推荐资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  隐私政策  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  RSS订阅