机器学习中数据分析

爿臣戈王耑/ 八月 19, 2018/ 机器学习/ 0 comments

数据质量分析

数据质量分析

数据质量分析的主要任务是检测原始数据中是否含有脏数据,脏数据一般是指不符合要求,以及不能直接进行相应的分析的数据。
常见的脏数据主要包括以下几种:

  • 缺失值
  • 异常值
  • 不一致的值
  • 重复数据

缺失值

缺失值产生的原因

  1. 有些信息无法获取,或者获取信息的代价太大
  2. 有些信息是人为操作造成的 ,录入信息时人为造成的没用写入或者系统升级后的新字段。
  3. 属性值不存在。例如小孩的收入,小孩的配偶

缺失值的影响

  1. 数据挖掘建模丢失信息
  2. 数据挖掘建模变现的不确定性更明显,模型中的规律更难把握
  3. 包含空值的数据会使得模型过程陷入混乱,导致不可靠的输出

缺失值的分析

使用简单的数据分析,统计含有缺失值的属性的个数,以及每个属性的未缺失数、缺失值与缺失率

缺失值的处理方式

  1. 删除缺失值
  2. 对可能值进行填补
  3. 不处理

异常值

异常值是指样本中的个别值,其数值明显偏离其余的观测值。异常值也称为离群点,异常值分析也称离群点分析。

异常值检测方式

  1. 简单统计量分析。最常用的统计量最大值、最小值,来判断数据是否在合理范围内。
  2. 3原则。如果数据服从正态分布。在3原则下,异常值被定义为测量值与平均值的偏差超过3倍标准差的值。
  3. 箱线图分析。在此标准型异常值被定义为:小于或者大于
    其中

    • :下四分位点。表示全部的观察值中有四分之一的数据取值比它小
    • :上四分卫点。表示全部的观测值中有四分之一的数据取值比它大
    • :四分位数间距,是上四分位数与下四分位数之差之差,其间包含了全部观察值的一半数据。

异常值处理方式

  • 删除含有异常值的记录
  • 视为缺失值
  • 平均值修正
  • 不处理

一致性分析

数据不一致性是指数据的矛盾性、不形容性。直接对不一致的数据进行挖掘,可能会产生于实际相违背的挖掘结果。

数据特征分析

分布分析

分布分析能揭示数据的分布特征和分布类型。

定量数据的分布分析

对于定量变量(连续型特征)而言,选择“组数”和“组宽”是做频率分布分析时的最主要问题,一般的步骤如下

  1. 求极差。最大值与最小值之差
  2. 决定组距与组数
  3. 决定分点
  4. 列出频率分布表
  5. 绘制频率分布直方图

数据处理时要遵循的原则:

  • 各组之间必须相互排斥
  • 各组必须讲所有的数据包含在内
  • 各组的组宽最好相等

定性数据的分布分析

对于定性变量(离散型特征),经常根据变量的分布类型进行分布,可以采用饼图和条形图来描述定性变量的分布。

对比分析

对比分析时指把两个相互联系的指标进行比较,从数量上展示和说明研究对象规模的的大小,水平高低,速度快慢,以及各种关系是否协调。
主要有两种形式

  • 绝对数比较
  • 相对数比较

统计量分析

用统计指标对定量数据进行统计描述,经常从集中趋势和离中趋势两个方面进行分析
平均水平的指标是对个体集中趋势的度量,经常使用均值中位数。变异程度的指标则是对个体离开平均水平的度量,经常是哟部分标准差(方差)四分位间距

集中缺失度量

  1. 均值
    均值是所有数据的平均。

    如果每个样本有不同的权重时,公式如下

    采用均值有个问题就是均值对极端值很敏感,可以采用中位数和截断均值来代替均值度量数据的集中程度。截断均值是指去除高、低极端值之后的平均值。

  2. 中位数
    中位数是将一组观察值从小到大的顺序排列,位于中间的那个数。
    将某一组数据集按从小到大排序:
    当n为奇数时:
    当n为偶数时:

  3. 众数
    众数是指数据集中出现最频繁的值。众数并不经常用来度量定性变量的中心位置,更适用于定性变量。众数不具有唯一性。众数一般用于离散型变量而非连续型变量。

离中趋势度量

  1. 极差
    极差=最大值-最小值。
  2. 标准差
    标准差度量数据偏离均值的程度
  3. 变异系数
    变异系数度量标准差相对于均值的离中趋势

    变异系数主要用来比较两个或者多个具有不同单位或不同波动幅度的数据集的离中趋势。
  4. 四分位数间距
    四分位数包括上四分位数和下四分位数。将所有的数值由小到大排列并分为四等份,处于第一个分割点位置的数值是下四分位数,处于第二个分割点位置(中间位置)的数值是中位数,处于第三个分割点位置的数值是上四分位数。
    四分位数间距,是上四分位数与下四分位数之差,其间包括了全部观察值的一半。其值越大,说明数据的变异程度越大;反之,说明变异程度越小

周期性分析

周期性分析时探索某个变量是否随时间的变化而呈现出周期变化趋势。时间尺度可以分为年、月、日、季节、周、小时等。

相关性分析

分析连续变量之间线性相关程度的强弱,并用适当的统计指标表示出来的过程称为相关分析。

  1. 绘制散点图、散点矩阵
  2. 计算相关系数

    • Pearson相关系数
      一般用于分析两个连续性变量之间的关系,

      相关系数的取值范围是
      越接近1,则相关性越高;时表示正相关 ; 表示负相关

    • Spearman秩相关系数

    • 判定系数

发表 评论

电子邮件地址不会被公开。 必填项已用*标注

你可以使用 HTML 标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>
*
*