登录注册

one-long

QQ登录

只需一步,快速开始

扫一扫,访问微社区

搜索
查看: 469|回复: 0
打印 上一主题 下一主题

教你从四方面评估数据质量

[复制链接]

1809

主题

1810

帖子

5449

积分

论坛元老

Rank: 8Rank: 8

积分
5449
跳转到指定楼层
楼主
发表于 2016-8-26 13:37:09 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
教你从四方面评估数据质量

      信息来源:网络作者:网络发布时间:2015-08-11浏览:我要评论
      
          
          

                 
  • 推一把网络营销精英培训新一期即将开课,本期新增移动电商、微商、O2O、自媒体、社群等方面的课程,现在报名就送江礼坤老师亲笔签名的最新版《网络营销推广实战宝典》一书。欢迎咨询QQ:800007518!
                 

          
        
               完整性

         

          完整性指的是数据信息是否存在缺失的状况,数据缺失的情况可能是整个数据记录缺失,也可能是数据中某个字段信息的记录缺失。不完整的数据所能借鉴的价值就会大大降低,也是数据质量最为基础的一项评估标准。

         

          数据质量的完整性比较容易去评估,一般我们可以通过数据统计中的记录值和唯一值进行评估。例如,网站日志日访问量就是一个记录值,平时的日访问量在1000左右,突然某一天降到100了,需要检查一下数据是否存在缺失了。再例如,网站统计地域分布情况的每一个地区名就是一个唯一值,我国包括了32个省和直辖市,如果统计得到的唯一值小于32,则可以判断数据有可能存在缺失。

         

          一致性

         

          一致性是指数据是否遵循了统一的规范,数据集合是否保持了统一的格式。

         

          数据质量的一致性主要体现在数据记录的规范和数据是否符合逻辑。规范指的是,一项数据存在它特定的格式,例如手机号码一定是13位的数字,IP地址一定是由4个0到255间的数字加上”.”组成的。逻辑指的是,多项数据间存在着固定的逻辑关系,例如PV一定是大于等于UV的,跳出率一定是在0到1之间的。

         

          一般的数据都有着标准的编码规则,对于数据记录的一致性检验是较为简单的,只要符合标准编码规则即可,例如地区类的标准编码格式为“北京”而不是“北京市”,我们只需将相应的唯一值映射到标准的唯一值上就可以了。

         

          准确性

         

          准确性是指数据记录的信息是否存在异常或错误。和一致性不一样,存在准确性问题的数据不仅仅只是规则上的不一致。最为常见的数据准确性错误就如乱码。其次,异常的大或者小的数据也是不符合条件的数据。

         

          数据质量的准确性可能存在于个别记录,也可能存在于整个数据集,例如数量级记录错误。这类错误则可以使用最大值和最小值的统计量去审核。

         

          一般数据都符合正态分布的规律,如果一些占比少的数据存在问题,则可以通过比较其他数量少的数据比例,来做出判断。

         

          当然如果统计的数据异常并不显著,但依然存在着错误,这类值的检查是最为困难的,需要通过复杂的统计分析对比找到蛛丝马迹,这里可以借助一些数据分析工具,那么具体的数据修正方法就不在这里介绍了。

         

          及时性

         

          及时性是指数据从产生到可以查看的时间间隔,也叫数据的延时时长。及时性对于数据分析本身要求并不高,但如果数据分析周期加上数据建立的时间过长,就可能导致分析得出的结论失去了借鉴意义。

         

          以上所写的四点能够帮助你在进行网站优化的时候更加准确的评估数据的质量。
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友 微信微信
收藏收藏
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则