代写教育教学论文常见问题 | 代写教育教学论文在线留言欢迎光临教师论文网,权威的论文发表,教育教学论文代写平台,我们将竭诚为您服务!
您的位置: 教师论文网 -> 医学论著论文 -> 文章内容

快速导航

赞助商链接

离群点检测算法在药品不良反应异常信号挖掘中的应用

作者:jiaoshilw.com 更新时间:2017/4/11 12:10:13

【摘 要】将药品分类的前提下,以药品为对象,不良反应为属性,PRR 值为参数,利用局部离群因子检测算法得到药品和其对应的离群因子。利用我国药品不良反应监测数据进行仿真实验,结果表明该离群点检测算法可以较好地用于药品不良反应异常信号的挖掘。

【关键词】药品不良反应;离群点;信号检测

在药品不良反应(adverse drugreaction,ADR) 信号挖掘中,信号被WHO定义为:未知的或是尚未完全证明的药物与不良反应事件可能有因果关系的信息,而药品不良反应指的是合格的药品在正常使用下出现的无关的或者意外的有害反应[1]。目前比较普遍的ADR 信号检测方法有报告比值比法(POR)、比例报告法(PRR)、相对比值比法(RR)、MHRA 法、BCPNN法等[2]。不同的挖掘方法原理不尽相同,比例报告法(PRR) 的原理:PRR= 数据库中目标药物引起目标事件的实际报告比/数据库中目标事件的背景报告比, 当PRR显著大于2 时, 则认为该目标药物- 目标事件为一信号[3]。

在样本空间中,与其他样本点的一般行为或特征不一致的点,我们称为离群点,也称为孤立点。离群点有可能是错误的数据,也可能是非常有价值的信息。在药品不良反应信号检测中,我们往往注重了大量普遍存在的信号,而忽略了异常信号的存在。目前,国内对药品不良反应的相关研究大多是药品不良反应信号检测,缺乏药品不良反应信号中异常信号的挖掘研究。从统计学意义看,这些异常信号即为离群点,具有与众不同的特征,对药品的危害研究有极其重要的参考价值。因此,对药品不良反应信号的进行离群点检测具有很大的研究价值。

离群点的检测方法有基于统计的离群点检测方法、基于深度的离群点检测方法、基于偏移的离群点检测方法、基于聚类的离群点检测算法和基于密度的离群点检测算法等[4]。基于密度的离群点检测算法对密度的计算是通过点的第k领域来计算的,而不是全局计算,这样就不会因为数据密度过于分散或者过于密集而将正常点判定为离群点了, 不会受到数据的波动影响[5]。本文将利用基于密度的离群点检测算法来研究药品不良反应数据中的离群点。

1 数据处理

本次研究的数据来自我国近两年的药品不良反应监测数据,研究对象为药品不良反应信号。为挖掘药品不良反应信号的异常点,在基于PRR 法检测的基础上将数据转换成药品为对象,不良反应为属性,PRR 值为参数的行列组合。表1 为数据示例。

2 离群点检测算法的设计与实现

本次研究采用局部离群因子检测算法(Local Outlier Factor,LOF), 该算法是一种具有代表性的基于密度的离群点检测算法, 主要是通过比较每个点p 与其领域点的密度来判断,如果点p 的密度越低,表明它的离群性越大,就可能被判断为异常点, 反之。至于每个点的密度,是通过点与点之间的距离来计算的,距离越远,密度就越低,离群性就越大,反之。通过引入LOFk(p) 局部离群点因子来表示点p 是否为离群点,即:

其中:在样本空间中,存在对象o,它与对象p 之间的距离基座d(p,o),也是欧几里得距离;对于正整数k,对象p 的第k 距离:k-distance(p)=max|||p-o|||; 与对象p 之间的欧几里得距离小于等于对象的第k 距离的集合称为对象p 的第k 距离领域, 记作:Nk(p); 对象p 与对象o之间的可达距离:reachdist(p,o)=max{kdistance(o),||p-o||};局部可达密度即对象p的k 最近邻点的平均可达密度的倒数记作:

算法的主要流程如图1 所示。

将样本集合和正整数k 带入算法中计算,以结果中的离群点因子lof 为判断离群点的标准,若lof 接近于1,则表示点p 的密度较高,不是离群点;若lof 远大于1,则表示p 的密度较低,认为其是离群点。

算法的实现采用计算机编程的方式,编程语言为Java。将药品名称作为样本点,不良反应名称为样本点的维度,PRR 值为样本变量值,依次计算对象的第k 距离、欧几里得距离、可达距离以及可达密度,得出的结果为每类药品的各个药品名称,以及它们离群因子lof。对于正整数k 是本算法中唯一一个可变参数,需要通过多次回归来达到期望的结果。

3 结果的验证及分析3.1 相关变量的取值

结果的判断很简单,判断离群因子lof即可,如果离群因子lof 远离1,说明这种药品就可能是异常点。而将数据带入程序得出实验结果的可变因素有算法中的正整数k,用以计算第k 距离,所以k 的取值,也决定着实验的结果;例如将抗变态反应这一类药物带入程序中,k 取10 时,实验结果中有茶苯海明和氯苯那敏两种药品的离群因子lof 相对其他药品远远大于1,本文判断它们为离群点;而当k 取5 时,有5 种药品被判定为异常点,而此类药品才14 种药物,所以k 取5 不合理。所以k 的取值需要根据此类药品的数量和被判定为异常点的数量,通过多次回归的方式,来取得最优解,以此达到离群点检测算法的最优解。

3.2 结果的验证

将每个类别的药品及其不良反应信号数据作为样本作为LOF 算法的数据,并对k 值进行多次回归,得到的结果为药品名称以及离群点因子。例如免疫系统类药物带入算法中,当k 取5 时得出的结果如表2 所示。

由表 2 能够看出环孢素的离群因子为20.3817,相对其他几个药品的离群因子而言,其远远高于了1,在此类药品中环孢素可以看作是一个异常点。在已经整理好的免疫系统类药物的交叉表的散点图( 见图2, 方形代表环孢素) 中, 可以看出图中最明显的异常点确实为环孢素。查询国家食品药品监督管理局的信息通报和药品说明书,可以知道环孢素会引起牙龈增生、血尿素氮升高等异常反应, 异于同类药品的不良反应。由此得知,在免疫系统类药物中,环孢素确实是一个异常点。

同理,将其他类药品的数据代入算法中,判断其离群因子,得出每类药品的异常点数,如表3 所示。[本文转自WWW. DYLw.net 第一论文网]

寻找每类药品的异常点,查询相关资料找出其对应的不良反应进行验证,得到药品和其不良反应组合的离群点数据,如表4 所示。

4 总结

本文利用基于密度的离群点检测算法对我国药品不良反应数据的信号进行了离群点检测,并对检测结果进行了验证和分析。研究表明,利用离群点检测算法对药品不良反应信号进行异常点挖掘是可行的。