您现在的位置: 中国IT实验室 >> 数据库技术 >> 数据库技术 >> 文章正文
你做好准备要和数据质量决斗了吗?

ChinaITLab收集整理  2005-8-31  保存本文  推荐给好友  QQ上看本站  收藏本站



  糟糕的数据质量能够摧毁一个企业的商业智能或者数据库工程。Guest的专栏作家Rick Sherman向我们解释了怎样才能避免这些会经常发生又会使我们的努力付之一炬的隐患。
  
  通常有以下两种隐患:一是把数据质量定义过窄,二是认为数据质量只是来源系统(source systems)的责任。
  
  人们通常认为提高数据质量就是简单地意味着去除那些有害的数据--那些缺失的、不准确的或者不正确的数据。当然去除有害数据的确是必不可少的一个方面,但它也绝不是这个问题唯一的方面。良好的数据质量同样也要确保数据是广泛的、一致的、贴切的也是及时的。
  
  请不要责怪来源系统
  
  把数据质量定义地过窄通常会使得人们认为来源处理系统--或者通过数据采入或者通过系统误差--导致了有害数据的产生。虽然他们有可能是一些错误的来源之一,但是产生这个问题的更有可能的罪魁祸首却是来源系统之间的尺度不一致(比如在消费者和产品检验人之间),或者在各个机构之间所采集的数据的标准定义不一致。使尺度一致化--去发展有着一致尺度的顾客或者产品检验员--对于企业获取和分析数据来说是非常重要的。来源系统并不需要为其它数据之间的数据质量负责,但是商业智能项目研究小组(BI project team)则需要对数据质量负责。来源系统需要确保在自已数据库里的数据是准确的。但是商业智能项目研究小组则要负责保证在企业之间的数据贸易有着良好的一致性。
  
  同样地,企业里面的每个机构可能都有充足的商业理由来声称他们需要用和其它机构不同的方法来采集数据。比如说,各个机构在一组贸易中的特殊位置可能就决定了他们看到数据的观点也是不一样的。个体机构并没有责任来制定一个统一的采集数据的标准,但是商业智能项目研究小组有这个责任。许多商业智能项目研究小组老是尝试着声称数据质量问题不是他们的责任。然而,从实践的观点来看,商业智能项目研究小组必须要把这些责任揽入他们的怀中,因为他们的工作就是尽可能地确保数据有着最高的质量。商业智能部门把数据打包以供给商业用户们消费,因此他们有责任来保证数据的高质量。这看起来可能有点不公平,但是他们项目能否成功却全靠它了。
  
  请不要不公正地对待领航者
  
  当工程开始作出初始的得领航式行动或者发布仅与小部分来源系统有关的东西,一些意想不到的事情就会发生了。虽然有许多的充足的理由来进行小范围的领航式试验,但是你所做努力仍然得不到正确的评价,而这些评价对于标准一致化是非常必要的,因为这个时候来源系统的数量正在不断扩大。
  
  有时候,领航者只是针对一个机构,来使用他们自己的标准获取数据。老生常谈,通常这个问题的尖锐之处就是怎样协调不同机构之间获取标准的差异。真正的挑战只有在多个系统以及多个机构之间交易的时候往往才会出现。商业用户们应从大的方面考虑,只有能够在企业之间获取和分析数据,这时候一切才变为可能。
  
  重视数据质量的步骤
  
  为了保证数据的质量,商业智能研究小组从一开始就要重视这个问题。以下是一些你需要考虑的重要步骤:
  
  1. 企业要在广泛的意义上来定义数据质量,建立掌控和度量的标准,同时也要考虑如果数据质量没有达到那些标准的话,我们需要做些什么来补救。
  
  2. 在进行来源系统分析的时候必须努力制定一个广泛使用的数据模型。找出来源系统之间的数据异常。时间(历史数据的定年不是一直都很好的)也是必须的,这样才能商业智能研究小组才能搞清早期的贸易。
  
  3. 把数据质量综合到所有的数据整合和商业智能过程中去,包括从从数据采集到商业用户的信息消费。数据质量问题必须是其中必不可少的一个条件。
  
  企业必须保证自己的数据能够符合非常严格的数据质量水平,特别是和符合最近的规章和要求。只有通过签订一个强有力的数据委托事项,并且通过一些方法来确保它的实施,这样数据透明度的水平才能得到提高。




 相关文章  热门文章
WEB2.0到底是什么东东?三点来理解它!
数据库技巧之Dephi的DLL技巧汇集
学一个比较完美的spacer div技巧
eXtremeDB内存式实时数据库的简介
PB程序之间是怎样传递字符串变量?
为什么Access会报错:显示密码无效?
Power Builder中数据窗口技巧十则
浅议C语言中数组和指针的相互操作
疑难解答之ACCESS的数据极限
PB中可以动态创建浏览器的OLE对象

 文章评论


认证培训
热门专题       more
相关下载
论坛新帖
博 客