基于CBR的心电图诊断系统设计

   2023-08-21 互联网2400
核心提示:  摘 要  心电图的自动诊断,具有很高的临床应用价值。本文在比较各种分类算法的基础上,提出了应用CBR模型建立心电图自动诊

  摘 要  心电图的自动诊断,具有很高的临床应用价值。本文在比较各种分类算法的基础上,提出了应用CBR模型建立心电图自动诊断系统的构想,并阐述了CBR模型中心电图实例库设计的若干关键问题。

  1 引 言

  心电图是诊断心血管疾病的重要依据。目前,计算机对心电图的分析诊断已进入了一个较为成熟的阶段[1-5],并在门诊检查、基础护理等领域得到了一定应用。但是,由于心电图数据是一个较为复杂的时间序列,各个波的形态特征与病理有着紧密的联系,从而增加了心电图分析的难度,使计算机心电分析还不能完全达到专家诊断的效果[1]。因此,改进传统的处理方法及探索新的解决方案[2~4],进一步提高诊断的准确性,仍然是当前心电分析领域中迫切需要解决的一个问题。

  心电图是记录心脏组织电压变化的图形。目前国际通用的导联体系为标准的12导联,包括肢体导联(双极肢体导联Ⅰ、Ⅱ、Ⅲ及加压单极肢体导联aVR、aVL、aVF)和胸导联等。不联上的心电图波形有所不同,但基本上都包括了P波、QRS波群、T波和U波。传统的心电图分析方法是通过观察心电图的各个波形,根据经验进行判断,然后得出诊断结果。这一过程,可以归纳为提取心电图的特征并对心电图进行分类的问题。

  分类是一种重要的数据分析技术,它首先分析心电图的各导联数据,提取反映心电图各波形形态的特征属性,组成一个特征向量。然后,建立包含典型心电图特征向量的训练集,并通过在训练集中的数据表现出来的特性,为每一个心电图类找到一种准确的描述或者模型。由于心电图中包含的数据具有相关性,比较复杂。使用一般的分类算法很难达到准确的分类效果。因此,本文在比较各类算法的基础上,提出了一种基于CBR的混合分类算法模型,并阐述了CBR模型中实例库的设计。

  2 基于CBR的心电图诊断模型

  在心电图分类中一个比较明显的特点是待分类样本的数据复杂度高,具有相关性,同时噪声大,有些心电图很难鉴别。所以分类算法的设计必须要充分考虑到这些特点,以达到较好的分类效果。目前常用的分类模型有以下几种。

  2·1 基本Bayes分类

  著名的贝叶斯定理是由18世纪的Thomas Bayes发明的概率统计学原理,近年来,这一理论在商业软件中得到了广泛应用。Bayes分类是一种概率分类法[6],它利用类别的先验概率和心图特征属性分布对于类别的条件概率来计算未知心电图数据属于某一类别的概率。假设心电图的属性分布相互独立,则当P(ci|V)最大时,表示未知样本V=(v1,v2,…,vn)属于类别ci。

  

  2·2 神经网络

  自1982年美国物理学家J.Hoppield教授提出霍普非尔德模型以来,神经网络的研究得到了惊人的发展。神经网络通过从特征值空间到结果空间的非线性映射,能够完成复杂的模式抽取及趋势分析功能。目前应用最广泛的是前向传播式模型,由输入层,隐含层和输出层构成,如图1所示。

  

  在学习训练中,通过调整各节点之间的连接权值Wij以及节点的阈值θi,可建立最终的神经网络诊断模型。但是,神经网络系统是一个黑盒子,不能观察中间的学习过程,对最后的输出结果也较难解释。如何在神经网络训练模型中导出知识规则还有待研究[6]。

  2·3 K近邻分类法

  K近邻法最早是由T.M.Cover和P.E.Hart于1967年提出的,现已成为一种非常有效的非参数分类法,常用于高维向量空间的信息分类。对于一个未知的心电图样本,算法会搜索与待类数据最相似的k个样本,根据这k个样本的类别来判断待分类数据的类别值。相似值的判断可使用欧拉距离,或是余弦相似度等。而最相似的k个样本按其和待分类数据的相似度高低对类别值予以加权平均,从而预测待分类数据的类别值。

  

  

2·4 决策树

  自1984年Breiman等学者提出CART模型,成功地推出了第一个商品软件以来,决策树技术已进入了一个成熟的发展阶段。决策树是一种树结构,其构造分为两个阶段:建树和剪枝。首通过预分类的心电图训练集,对数据进行分割,创建一棵决策树;然后通过测试集对已生成的决策树进行修剪,去掉不可靠的分枝。在这一过程中,分割属性的选择和分割标准的确定直接影响到决策树预测的准确性。一般的方法是,穷尽所有的属性域,对每个属性域分割的好坏做出量化,计算出最好的一个分割。

  存在多种量化标准:信息增益、信息增益比、距离度量、GINI多样性指标、G统计和x2一致性统计[6]等。实际的心电图数据可能不准确,含有噪声,而基本的决策树构造算法没有考虑噪声。因此,本文采用改进的距离度量分割法,它在处理数据噪声方面比信息增益等方法有很大提高。假定:

       (a)对训练集进行分割后,得到的m种诊断类别发生的概率分别为P1,P2,…,Pm;

  (b)分割属性A带有v个不同值,把训练集分成v个子集{S1,S2,…,Sv}。

        则分割前的熵:

  

  采用这种决策树方法建立的心电图模型,从中可以归纳出心电图诊断规则,输出结果容易理解,精度较高。因此本文在构建心电图自动诊断系统模型时,将用到这种决策树技术。

  2·5 基于实例推理

  CBR是一种基于人的认知心理过程的机器自学习和推理方法[7],最初来自于耶鲁大学的Roger Schank等学者的研究工作。将CBR方法应用于心电图的诊断中,具体过程如下:

  1)利用专家的经验和知识,构建心电图实例,并按一定的结构组成实例知识库.

  2)当有新的病例出现时,系统能够模拟专家的大脑回忆以前处理过的相似心电图,即从实例库中检索出相关实例。

  3)利用这个实例获得当前心电图所属的类别。

  4)通过学习这个新实例的经验来修改系统。

  5)当查找不到相匹配或相似的心电图实例时,可以依赖领域知识来确定问题的解,并将该实例添加到心电图实例库中。

  因此,CBR具有自学习能力,每解决一个问题,系统的推理能力就会得到增强。用于诊断心电图的CBR模型如图2所示。

  

  2·6 CBR诊断模型

  通过对各种分类技术的分析和研究,可以看出CBR实际上不能算是一种技术,而只是一种方法,一种能够综合各种技术的方法[8]。它大大地提高了系统的适应性和处理复杂数据结构的能力。为此,本文提出了一种运用CBR方法,实现心电图自动分类的模型。其结构如图3所示。

  

  模型针对心电图数据的特点,充分考虑了各种分类算法的性能和适用性,设计了采用决策树和KNN分类算法诊断心电图,并导出分类规则的结构。决策树和k近邻分类法是互补的技术,决策树处理问题效率高、速度快,并能够充分利用领域知识,弥补了k近邻法知识概括性差,效率低的不足;而k近邻法采用模糊匹配,适应性较强,可以进一步处理决策树无法解决的噪音数据。

  该模型应用于心电图诊断的具体过程是,首先收集心电图的历史数据并结合专家的诊断经验,对心电图样本进行特征提取,存入数据库中,然后利用决策树分类算法,对数据库中的样本记录集,进行预处理并确定索引项,构建心电图实例库。最后对待诊断心电图,利用混合分类算法和数据库技术从实例库中寻找相匹配的实例。若实例库中存在相似的实例,则可直接利用相似实例的解导出诊断结果;否则可以依赖领域知识来确定问题的解,并将该实例添加到心电图实例库中。

  

3 心电图实例库的结构设计

  在上述CBR诊断模型中,系统实现的关键首先在于心电图实例库的设计,即实例的表示、在数据库中的存储结构、实例的检索和维护更新等。实例库的设计将直接影响到心电图分类的质量和系统的具体实现。

  3·1 实例的表示

  存储于数据库中的心电图实例,是以其特征属性字段来表征的。在CBR模型中,心电图实例被描述为{Si=(Vi,ci)}。其中,Vi表示某个心电图问题的特征描述,ci表示相应的诊断结果。由于心电图数据是一个较为复杂的时间序列,且波形形态比较复杂,与病理有着紧密的联系。因此,描述心电图的特征属性非常多。下面仅以“窦性心率失常”的诊断为例,来说明实例在数据库中的存储结构。

  窦性心率失常是指激动仍然起源于窦房结,但其速率及节律有所变异的一类心律失常。有如下几种:

  窦性心动过速 窦房结自律除极的频率增加,超过正常

  窦性心律的上限,即成人超过100次/分。

  窦性心动过缓 窦性心律频率低于60次/分,常伴有窦性心律不齐。

  窦房结暂停 窦房结在一个或多个心动周期中不能产生冲动,以致未能激动心房或整个心脏。

  窦性心律不齐 指窦房结不规则地发出激动所引起的心房及心室的节律改变。

  窦房传导阻滞 窦房结发出的激动,不能通过窦房结与心房肌组织的连接区。

  临床诊断窦性心律失常时,先确定是否为窦性P波(Ⅰ、Ⅱ导联中正向,aVR导联中负向)以及P-R间期是否正常,当这些条件都满足时,会观察窦性心律中是否出现无P波的较长间歇,若长间歇不是基本心律P-P间距的整数倍,则被诊断为窦性停搏;若无长间歇,则再判断P-P间距等,进一步进行诊断。

  

  图4的诊断过程,类似于一棵决策树,可以通过CBR中的决策树算法导出。那么决策树如何在数据库中表示,分类模型又如何通过数据库实现呢?

  1)通过分析窦性心率失常的诊断数据,并根据决策树分类算法,可以确定决策树在数据表中的存储结构为:TreeCatalog(ID,FID,ChildID1,ChildID2,NodeNo,AttIndex,AttIndexV)其中前五个字段记录决策树的拓扑结构,分别为当前节点,父节点,当前分割的左子节点、右子节点、子节点数。后两个字段,则分别表示分割该节点所选用的属性索引字段及其分割属性的值。例如,AttIndex=P-P间距互差;AttIndexV=0.12。同时约定用“-1”作为最上面一层分类的父亲编码。编号为“-1”的分类是一个虚拟的分类,它在数据库中没有记录。

  2)当运用分类模型对新的输入数据V=(v1,v2,…,vn)进行分类时,可以通过SQL语句依次判定它所属的子类,直到找到该记录所在的类。即通过数据库的检索功能来实现从问题空间到解空间的映射。

  3·2 实例的检索

  检索是在心电图实例库中查找类似的心电图实例,常用的方法有最近邻法、归纳索引法和知识导引法,其他测量相似性的算法还有神经网络、模糊逻辑和各种统计算法等[7]。最近邻法资源消耗比较大,在对一个新实例进行分类的时候,需要搜索所有的历史实例来寻找最相似的邻居。而归纳索引法是从历史数据中构建决策树,事先对所有的数据进行了预索引,所以检速度非常快。但是,它在处理数据噪声方面较弱。

  在CBR模型中,采用的是归纳索引法和最近邻法相结合的检索策略。首先采用归纳索引法对历史数据预索引,构建决策树,通过决策树寻找相匹配的实例。然后利用最近邻法对含有噪声的数据以及用归纳法无法正确匹配的数据进行处理,按照与目标实例的相似度划分实例集,寻找最相似的实例。

  当按照上述规则检索到的心电图实例还不能提供所需的解答时,就需要对实例库中的候选心电图实例进行调整,寻找候选实例与当前实例的不同之处,应用规则对候选实例进行重组和修正,使之符合当前问题的需求,并进一步更新实例库。

  4 结束语

  心电图自动诊断系统的设计过程包括分类模型设计和CBR实例库设计两个阶段。通过对各种分类算法的分析比较,本文提出了一种基于CBR的分类诊断模型。CBR具有自学习能力, 它的“检索-修正-测试-保留”机制能够不断完善和扩充实例库,进而提高了心电图自动诊断的能力。而CBR中实例库的设计综合运用了决策树与数据库技术,既提高了实例检索的速度也便于系统今后的实现。

  参考文献

  [1]董明,“心电图自动分析的新趋势[J]”,《国外医学、生物医学工程分册》,1998,(2)·

  [2]田蕴青等,“心电图自动诊断系统的研制[J]”,《中国医学物理学杂志》,2000,(4)·

  [3]杨玉星等,“基于数字信号处理技术的新型心电图自动分析系统[J]”,《航天医学与医学工程》,2002,(3)·

  [4] M.BorahanTümer,et al.ASyntacticMethodology forAutomatic DiagnosisbyAnalysis of ContinuousTime MeasurementsUsingHierarchical Signal Repre-sentations[J].IEEE TRANSACTIONS ON SYSTEMS,MAN,AND CYBER-NETICS-PART B:CYBERNETICS,APRIL 2003,33(2).

  [5] ZhijianHuang,Min Pei,Erik Goodman,YongHuang,and GaopingLi,Genet-ic Algorithm Optimized Feature Transformation-a Comparison with DifferentClassifiers Genetic and Evolutionary Computation Conference[C].July 2003.

  [6] Jiawei Han & Micheline Kamber,Data Mining:Concepts and Techniques[M].Academic Press,2000.

  [7] Watson,I.Applying case-based reasoning:techniques for enterprise systems[M].Morgan Kaufmann Publishers,Inc.,1997.

  [8] Watson,I.CBR is a methodology not a technology[J].Research&Develop-ment in Expert Systems XV.1998,pp.213~223.Springer,London.


 
举报收藏 0打赏 0评论 0
 
更多>同类资讯
推荐图文
推荐资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  隐私政策  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  RSS订阅