数据噪声以及去噪

   日期:2020-05-18     浏览:126    评论:0    
核心提示:数据挖掘中的噪声简介实际数据是数据挖掘算法的输入,它受多个组件的影响。其中,噪声的存在是关键因素。噪声是不可避免的问题,它会影响数据挖掘应用程序中经常发生错误的数据收集和数据准备过程。噪声有两个主要来源:隐式错误由测量工具引入;以及批处理或专家在收集数据时(例如在文档数字化过程中)引入的随机错误。在这种情况下建立的分类器的性能(我们通常希望最大化)将在很大程度上取决于训练数据的质量,而且还取决于分类器本身的抗噪声能力。噪声种类1.类别噪音(label噪音)。当示例的标签不正确时,就会发生这种情况。类

数据挖掘中的噪声简介

实际数据是数据挖掘算法的输入,它受多个组件的影响。其中,噪声的存在是关键因素。噪声是不可避免的问题,它会影响数据挖掘应用程序中经常发生错误的数据收集和数据准备过程。噪声有两个主要来源:隐式错误由测量工具引入;以及批处理或专家在收集数据时(例如在文档数字化过程中)引入的随机错误。

在这种情况下建立的分类器的性能(我们通常希望最大化)将在很大程度上取决于训练数据的质量,而且还取决于分类器本身的抗噪声能力。

噪声种类

1.类别噪音(label噪音)。当示例的标签不正确时,就会发生这种情况。类别噪声可归​​因于多种原因,例如在标记过程中的主观性,数据输入错误或用于标记每个示例的信息不足。可以区分两种类型的类别噪声:

矛盾的示例:重复的示例有不同之处类标签。在上面的图中,两个示例(0.25,红色,类别=正)和(0.25,红色,类别=负)是相互矛盾的示例,因为它们具有相同的属性值和不同的类别。

错误分类:被标记为与真实的。在示例上方的图中(0.99,greee,class =否定)是标签错误的示例,因为其类标签错误,并且将是“正”。

2.属性噪声。这是指一个或多个属性的值损坏。属性噪声的示例包括:

属性值错误。在上图中,示例(1.02,绿色,类别=正)具有第一个带有噪点的属性,因为其值错误。

缺少或未知的属性值。在上图中,由于我们不知道第二个属性的值,因此示例(2.05,?,class = negative)具有属性噪波。

属性不完整或“无关”值。在上图中,示例(=,绿色,类别=正)具有属性噪声,因为第一个属性的值不会影响示例的其余值,包括示例的类。

检查噪声数据对分类器学习算法性能的影响对于提高分类器学习算法的可靠性是必要的,并已激发了如何生成噪声并将噪声引入数据的研究。噪声的产生可以通过三个主要特征来表征:

  1. 引入噪音的地方。噪声可能会影响输入属性或输出类别,从而损害学习过程和结果模型。
  2. 噪音分布。产生噪声的方式可以是例如均匀或高斯的。
  3. 生成的噪声值的大小。噪声影响数据集的程度可以相对于每个属性的每个数据值,或者相​​对于每个属性的最小,最大和标准偏差。

在现实世界的数据集中,存在的噪声的初始数量和类型是未知的。因此,无法对基本噪声的类型和水平做出任何假设。因此,这些数据集被认为是无噪声的,因为没有将可识别的噪声引入其中。为了控制每个数据集中的噪声量并检查其如何影响分类器,在文献中以有监督的方式将噪声引入到每个数据集中。在文献中,使用四种不同的噪声方案对考虑的两种类型的噪声,即类别噪声和属性噪声进行了建模。以这种方式,这些类型的噪声的噪声水平x%的存在将使人们能够在以下情况下模拟分类器的行为:

  1. 类噪声通常发生在类的边界上,这些示例可能具有相似的特性-尽管它可以在域的任何其他区域中发生。在文献中,使用统一的类噪声方案(随机破坏示例的类标签)和成对类噪声方案(使用第二多数类标记大多数类的示例)引入类噪声。考虑到这两种方案,分别模拟了影响任何一对类别且仅影响两个多数类别的噪声。

    均匀的类噪声。 x%的示例已损坏。这些示例的类标签被其他类中的另一个随机替换。

    成对类噪声。假设X为多数类,Y为第二多数类,带有标签X的示例有x / 100的概率被错误地标记为Y。

  2. 属性噪声可能来自多种来源,例如传输限制,传感器设备故障,采样不规则和转录错误。错误的属性值可能是完全不可预测的,即随机的,或暗示相对于正确值的较小变化。为了分别模拟每种可能性,我们使用统一属性噪声方案和高斯属性噪声方案。我们根据属性之间相互作用弱的假设引入属性噪声。结果,引入每个属性的噪声与引入其余属性的噪声具有低相关性。

    均匀的属性噪声。数据集中每个属性的x%的值已损坏。为了破坏每个属性Ai,选择数据集中x%的示例,并从属性Ai的域Di中为它们的Ai值分配一个随机值。均匀分布用于数值或名义属性。

    高斯属性噪声。此方案类似于统一属性噪声,但是在这种情况下,Ai值被破坏,在均值= 0和标准偏差=(max-min)/ 5的高斯分布下为它们添加一个随机值,即max和最小属性域的限制。名义属性被视为统一属性噪声的情况。

使用噪音过滤器以减少噪音的影响
鉴于噪声造成的精度损失,以前的工作已经证明了对处理这种噪声的技术的需求(在专业文献中,已提出了几种方法来减轻噪声产生的影响:

编辑最近邻居(ENN) 该算法以FS = TR开始。 然后,如果FS中的每个实例与其k个最近邻居中的大多数不一致,则将其删除。
全kNN(AllKNN) All kNN技术是ENN的扩展。 最初,FS = TR。 然后将NN规则应用k次。 在每次执行中,NN规则都会在1到k之间改变邻居的数量。 如果一个实例被NN规则错误分类,则将其注册为可从FS删除。 然后,所有符合条件的对象将被立即删除。

 
打赏
 本文转载自:网络 
所有权利归属于原作者,如文章来源标示错误或侵犯了您的权利请联系微信13520258486
更多>最近资讯中心
更多>最新资讯中心
0相关评论

推荐图文
推荐资讯中心
点击排行
最新信息
新手指南
采购商服务
供应商服务
交易安全
关注我们
手机网站:
新浪微博:
微信关注:

13520258486

周一至周五 9:00-18:00
(其他时间联系在线客服)

24小时在线客服