洞庭湖富营养化支持向量机评价模型研究

   2023-10-05 互联网2080
核心提示:中图法分类号: X824文献标志码: A文章编号: 1001- 4179(2010) 10- 0075- 04湖泊富营养化是对湖泊过量营养盐输入的生物响应, 湖泊

 

中图法分类号: X824 文献标志码: A 文章编号: 1001- 4179(2010) 10- 0075- 04

湖泊富营养化是对湖泊过量营养盐输入的生物响应, 湖泊生物量的增加将导致水体功能受损。近20 多年来, 湖泊水体富营养化发展速度较快, 由于其污染物来源复杂, 危害性大, 处理困难, 已成为水资源和水生态保护中的重大环境问题, 对区域经济发展、饮用水安全和生态环境构成威胁, 严重制约着社会和经济的可持续发展[1-2] 。作为重要的基础研究课题之一, 建立适宜的模型并准确地评价富营养化状况是进行湖泊富营养化控制的依据和前提[3-4]。目前国内外提出了多种湖泊富营养化综合评价方法, 但这些评价模型无一不是直接从评价函数结构和指标权重赋值两方面入手进行研究的[4-6] 。由于评价系统的非线性特征及研究切入点的原因, 大部分模型并没有很好地解决评价因子与水体富营养化等级间复杂的非线性关系, 评价过程中的权重需要人为设计, 限制了评价模型的通用性,也影响了结果的可靠性[7- 9] 。实际上湖泊富营养化状态受到多种因素影响, 是典型的多指标决策问题, 在进行富营养化评价时, 各单项指标的评判结果往往是不相容的和独立的, 直接依据单指标进行评价常常会遗漏一些有价值的信息, 甚至得到错误的结果[10] 。本文从湖泊富营养化评价标准的非线性特性分析入手, 利用支持向量机良好的泛化性能, 对根据富营养化标准采用均匀分布随机函数生成的水质样本集进行高精度逼近, 获得关于富营养化标准的支持向量机回归决策函数, 并以此对洞庭湖水质富营养化程度进行评价。

1 基于支持向量机的湖泊富营养化评价模型

1. 1 支持向量机基本原理

支持向量机(Support Vector Machine, SVM) 最初于20 世纪90 年代由V. VapNIk 提出, 是一种新型的统计学习方法, 借助最优化方法解决机器学习问题的新工具, 其理论基础是统计学习理论[11] 。以统计学习理论作为坚实的理论依据的SVM 算法是基于结构风险最小化原则, 克服了传统方法的过拟合和陷入局部最小的问题, 具有很强的泛化能力, 是数据挖掘中的一项新技术和借助最优化方法解决人工智能中机器学习问题的新工具; 它采用核函数方法, 向高维空间映射时不但不增加计算的复杂性, 反而有效地克服了维数灾难问题。支持向量机包括基本支持向量机和推广支持向量机两大类, 并分为支持向量回归机和支持向量分类机。以最优化理论、核的理论和统计学理论为基础的支持向量机, 通过最优化算法实现其实际应用, 并借助线性问题求解非线性问题, 不仅保证了经验风险最小化, 而且使期望风险也降低到最低程度, 故很适合解决高维、非线性复杂系统的建模与仿真问题。

支持向量机用于模式分类的基本思想是, 通过求解凸二次规划问题, 寻找一个最优超平面, 使它能够尽可能多地将两类数据点正确地分开, 同时使分开的两类数据点距离分类面最远。设线性问题的训练样本集T={( x i, y i ) | i =1, 2,…,l} , 其中x i∈Rn, y i{1, - 1} , 分类超平面为wx + b=0。等比例调节w 和b 将分类超平面方程归一化, 使得所有满足y i =1 的下标i 的样本, 有wxi+ b≥1; 所有满足yi = - 1 的下标i 的样本, 有wx i+ b≤- 1。此时相应的两条极限直线之间的距离为2/‖w‖。所以最大化间隔可转换为如下最优化问题:

其中使约束条件等号成立的输入向量称为支持向量, ζi为松弛变量, C为惩罚参数。

利用Lagrange 优化方法可以将上述最优化问题转换为其对偶问题:

通过求解式(3) 可得决策函数为:

对于非线性问题, 超平面无法将两类分隔开, 因此通过引进核函数技术将低维的输入空间通过非线性变换映射到高维的特征空间, 在特征空间中求解分类问题。Vapnik 将这种非线性映射函数称为核函数, 并且K (x i, x ) = φ(x i)φ (x) ,φ为某个映射。引入核函数后, 以上各式的内积都可以用核函数代替, 此时SVM的决策函数为:

核函数的选择必须满足Mercer条件, 常见的核函数如下。

(1) 多项式核函数为:

K ( x i , x ) = ( 1+ x i x )σ   (7)

式中, σ为参数, 此时的SVM是一个σ阶多项式分类器。

(2) 径向基函数为:

此时的SVM 是一种径向集函数分类器。

(3) Sigmo id 核函数为:

K (x i , x) = tanh[v( x ix ) +σ] (9)

此时的SVM 是一个单隐层感知器神经网络。

图1为支持向量机模型工作的逻辑概念框图。在形式上它类似于一个3 层神经网络, 输入层节点为影响因子输入向量X = ( x 1 , x 2 ,…, x m ) ; 中间层节点为核函数K ( x i , x ) ; 中间层和输出层通过权重向量连接, 权重向量(α1 , α2 , …, αm) 实质上是核函数K ( x i ,x ) 的系数; 输出值为中间结点的线性组合。

图1 支持向量机网络逻辑框图

SVM 是一种有坚实理论基础的新颖小样本学习方法, 它基本上不涉及概率测度及大数定律等, 因此不同于现行的统计方法。从本质上看, 它避开了从归纳至演绎的传统过程, 实现了高效的从训练样本到预报样本的转导推理, 大大简化了通常的分类和回归等问题。建立任何一个数据模型, 人为的干预越小越客观, 与其他方法相比, 建立SVM模型所需要的先验干预较少。但核函数的选定及有关参数的优化等仍是SVM 建模中需要进一步研究和探索的课题[12- 13] 。

1. 2 富营养化SVM 评价模型

1. 2. 1 建模样本系列生成湖泊富营养化评价标准见表1[5- 9] 。

表1 湖泊水体富营养化评价标准

据表1, 用随机方法生成标准水质等级样本系列:

(1) 5 个水质富营养化等级“极贫营养”、“贫营养”、“中营养”、“富营养”和“极富营养”分别对应水质等级目标值1, 2, 3, 4 和5。

(2) 利用均匀随机数在各水质富营养化等级每个水质指标变化区间内随机产生12 个水质指标值。

(3) 在随机生成的60 个样本系列中, 对应每个水质等级任意挑选2 个样本共10 个样本构成检验集, 其余50 个样本作为训练集。训练集用SVM 建模, 检验集用于SVM 检验。

1. 2. 2 富营养化SVM 评价模型的训练

以总磷、耗氧量、透明度、总氮为支持向量机输入,以水质等级值为支持向量机输出, 湖泊富营养化评价问题就转化为由4 个输入和1 个输出的支持向量机函数回归问题。

鉴于核函数选择和模型参数优化仍是当前支持向量机研究中没有很好解决的难题, 本文依据验前经验选择径向基函数( RBF) 作为核函数, 并用加速混沌优化方法对δ、C进行寻优试验, 得到δ= 0. 205, C =100. 750 时, 对湖泊富营养化标准训练集的拟合效果较好[14] 。用回归算法估计w 0 和b 后, 对50 个训练集样本的拟合效果见图2。

图2 富营养化SVM 评价模型训练集拟合效果

1. 2. 3 富营养化SVM 评价模型的检验

为检验支持向量机的推广能力, 以检验集10 个样本对富营养化SVM 进行检验, 检验结果见表2。同时用插值模型和投影寻踪模型对检验集样本进行评价,结果一并列入表2[7- 8] 。

表2 检验集样本富营养化评价

由表2 可知支持向量机评价模型对10个样本的评价的富营养化等级值最大输出误差为0. 185, 其平均预测等级误差为0. 065; 而插值模型的等级最大输出误差为0. 254, 其平均预测等级误差为0. 140; 投影寻踪模型的评价等级最大输出误差为0. 425, 其平均预测等级误差为0. 162, 可见3 个评价模型的评价等级与目标等级值误差均小于0. 5, 评价等级基本吻合,但以支持向量机等级误差更小, 这也证明了支持向量机的良好的推广和泛化能力。因此, 经过训练学习的富营养化SVM 模型完全可以用于洞庭湖水质富营养化评价。

2 洞庭湖富营养化评价及水质时空变异分析

洞庭湖为一典型的过水吞吐型湖泊, 因泥沙淤积和历史上围湖造垸, 现已分隔为东洞庭湖(1478km2) 、南洞庭湖(917km2) 和西洞庭湖(约345km2) 3部分。湖区农业主要以农业耕作及水产品养殖为主;工业已基本形成了资源开发型产业格局。洞庭湖水域具有生活饮用、航用、渔业、工业、农田灌溉、旅游、调节气候等多种功能。作为长江中游重要的“江湖吞吐器”, 洞庭湖除了调、滞洪外, 每年还接纳大量来自沿湖和三口四水上游的工业废水和生活污水, 因此其水质富营养化状况倍受关注。

本次评价选用主要水质代表断面为: 君山(位于东洞庭湖) 、万子湖(位于南洞庭湖) 和目平湖(位于西洞庭湖) 3 个断面。将各断面1999~ 2008 年总磷、耗氧量、透明度、总氮年平均值输入经过训练学习的SVM富营养化评价模型, 可得到各水质代表断面逐年富营养化等级值。评价结果如图3 所示。

图3 洞庭湖主要水质代表断面富营养化SVM评价

由图3 可见洞庭湖水质近10 a来整体处于中、富营养化状态。从区域看, 以西洞庭湖污染较为严重; 东洞庭湖虽然部分时段也会出现严重污染的峰值, 但因其水环境容量最大, 水质仍然较好, 基本处于中营养状态; 南洞庭湖在3 个湖中水质居中。从时程看, 1999、2004 年和2006 年水质较差。其中1999 年因总磷超标导致水质较差; 2004 年因移民建镇带来的生活废水相对集中于水体局部区域, 造成洞庭湖的局部水体污染严重, 但随时间的延长, 水质指标逐渐接近天然水体。2006 年因三口入湖水量仅为182. 6 亿m3 , 较三口多年平均入湖水量859. 9 亿m3 偏少79% , 西洞庭湖区富营养化等级值明显偏高。

3 结语

(1) 支持向量机算法是在统计学习理论的基础上提出的一种先进的算法, 其本身具有在统计样本量较少的情况下获得良好的统计规律和更好的泛化能力的特点, 非常适合综合评价计算。洞庭湖水质富营养化评价实例研究表明, 该方法的综合评价结果正确, 且计算难度不大。因此, 支持向量机算法在水质富营养化综合评价计算中具有很好的发展前景。

(2) 近10 a来洞庭湖主要水质代表断面富营养化综合评价结果表明, 洞庭湖整体处于中、富营养化状态。洞庭湖水质富营养化主要污染指标是总磷、总氮等, 工业废水和生活污水的排放是导致洞庭湖水质向富营养化演化的主要原因。因此加快城镇污水、垃圾和粪便的处理设施建设, 严格控制氮、磷化肥的施用量, 加强工业污染源排放的监管是防止洞庭湖湖水质富营养化加剧的有效措施和当务之急。

参考文献:

[ 1] 马经安, 李红清. 浅谈国内外江河湖库水体富营养化状况[ J] . 长江流域资源与环境, 2002, 11( 6) : 575- 578.

[ 2] CONG Keming, LIU Shuyu, MA Fang. Succession and biodiversity indices in eut rophication process of static landscaping water body in northern China[ J ] . Journal of Harbin Ins ti tu te of Technol ogy, 2008, 15(5) : 711- 717.

[ 3] 邓大鹏, 刘刚, 李学德, 等. 湖泊富营养化综合评价的坡度加权评分法[ J ] . 环境科学学报, 2006, 26(8) : 1386- 1392.

[ 4] 谢平, 李德, 陈广才, 等. 基于贝斯公式的湖泊富营养化随机评价方法及其验证[ J] . 长江流域资源与环境, 2005, 14(2) : 224- 228.

[ 5] 杨晓华, 杨志峰, 郦建强, 等. 水环境综合评价的多目标决策理想区间法[ J ] . 水科学进展, 2004, 15( 2) : 202- 205.

[ 6] 金菊良, 汪明武, 魏一鸣, 等. 水资源系统等级评价的一种非参数方法[ J ] . 水科学进展, 2005, 16( 6) : 804- 809.

[ 7] 金菊良, 魏一鸣, 丁晶, 水质综合评价的投影寻踪模型[ J] . 环境科学学报, 2001, 21( 4) : 431- 434.

[ 8] 金菊良, 丁晶, 魏一鸣, 等. 水质综合评价的插值模型[ J] . 水利学报, 2002, 32( 2) : 91- 94.

[ 9] 张亦飞. 湖泊富营养化综合评价的距离测度模型[ J] . 水利学报,2008, 38( 4) : 472- 475.

[ 10] 李正最. 区域水环境质量模糊灰色评价探讨[ J] . 水资源保护,1998, ( 1) : 6- 8.

[ 11] Vapnik V. The Nature of Statistical Learning Theory[ M] . New York: Spring Verlag, 1995.

[ 12] 苏高利, 邓芳萍. 关于支持向量回归机的模型选择[ J] . 科学通报, 2006, 22( 2) : 154- 158.

[ 13] 黄景涛, 马龙华, 钱积新. 基于统计试验设计方法的支持向量机参数选取[ J] . 电路与系统学报, 2008, 13( 6) : 18- 22.

[ 14] 李昊, 胡云昌, 曹宏铎. 加速混沌优化方法及其应用[ J] . 系统工程学报, 2002, 17( 1) : 41- 44.

作者简介: 李正最, 男, 教授级高级工程师, 博士, 主要从事水文及水资源管理工作。


 
举报收藏 0打赏 0评论 0
 
更多>同类资讯
推荐图文
推荐资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  隐私政策  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  RSS订阅