什么是数据治理?

发布网友 发布时间:2022-04-23 08:59

我来回答

3个回答

热心网友 时间:2022-05-20 17:08

从技术实施角度看,数据治理包含“理”“采”“存”“管”“用”这五个步骤,即业务和数据资源梳理、数据采集清洗、数据库设计和存储、数据管理、数据使用。

数据资源梳理:数据治理的第一个步骤是从业务的视角厘清组织的数据资源环境和数据资源清单,包含组织机构、业务事项、信息系统,以及以数据库、网页、文件和 API 接口形式存在的数据项资源,本步骤的输出物为分门别类的数据资源清单。

数据采集清洗:通过可视化的 ETL 工具将数据从来源端经过抽取 (extract)、转换 (transform)、加载 (load) 至目的端的过程,目的是将散落和零乱的数据集中存储起来。

基础库主题库建设:一般情况下,可以将数据分为基础数据、业务主题数据和分析数据。基础数据一般指的是核心实体数据,或称主数据,例如智慧城市中的人口、法人、地理信息、信用、电子证照等数据。主题数据一般指的是某个业务主题数据,例如市场监督管理局的食品监管、质量监督检查、企业综合监管等数据。而分析数据指的是基于业务主题数据综合分析而得的分析结果数据,例如市场监督管理局的企业综合评价、产业区域分布、高危企业分布等。那么基础库和主题库的建设就是在对业务理解的基础上,基于易存储、易管理、易使用的原则抽像数据存储结构,说白了,就是基于一定的原则设计数据库表结构,然后再根据数据资源清单设计数据采集清洗流程,将整洁干净的数据存储到数据库或数据仓库中。

元数据管理:元数据管理是对基础库和主题库中的数据项属性的管理,同时,将数据项的业务含义与数据项进行了关联,便于业务人员也能够理解数据库中的数据字段含义,并且,元数据是后面提到的自动化数据共享、数据交换和商业智能(BI)的基础。需要注意的是,元数据管理一般是对基础库和主题库中(即核心数据资产)的数据项属性的管理,而数据资源清单是对各类数据来源的数据项的管理。

血缘追踪:数据被业务场景使用时,发现数据错误,数据治理团队需要快速定位数据来源,修复数据错误。那么数据治理团队需要知道业务团队的数据来自于哪个核心库,核心库的数据又来自于哪个数据源头。我们的实践是在元数据和数据资源清单之间建立关联关系,且业务团队使用的数据项由元数据组合配置而来,这样,就建立了数据使用场景与数据源头之间的血缘关系。 数据资源目录:数据资源目录一般应用于数据共享的场景,例如*部门之间的数据共享,数据资源目录是基于业务场景和行业规范而创建,同时依托于元数据和基础库主题而实现自动化的数据申请和使用。

质量管理:数据价值的成功发掘必须依托于高质量的数据,唯有准确、完整、一致的数据才有使用价值。因此,需要从*度来分析数据的质量,例如:偏移量、非空检查、值域检查、规范性检查、重复性检查、关联关系检查、离群值检查、波动检查等等。需要注意的是,优秀的数据质量模型的设计必须依赖于对业务的深刻理解,在技术上也推荐使用大数据相关技术来保障检测性能和降低对业务系统的性能影响,例如 Hadoop,MapRece,HBase 等。

商业智能(BI):数据治理的目的是使用,对于一个大型的数据仓库来说,数据使用的场景和需求是多变的,那么可以使用 BI 类的产品快速获取需要的数据,并分析形成报表,像派可数据就属于专业的BI厂商。

数据共享交换:数据共享包括组织内部和组织之间的数据共享,共享方式也分为库表、文件和 API 接口三种共享方式,库表共享比较直接粗暴,文件共享方式通过 ETL 工具做一个反向的数据交换也就可以实现。我们比较推荐的是 API 接口共享方式,在这种方式下,能够让中心数据仓库保留数据所有权,把数据使用权通过 API 接口的形式进行了转移。API 接口共享可以使用 API 网关实现,常见的功能是自动化的接口生成、申请审核、限流、限并发、多用户隔离、调用统计、调用审计、黑白名单、调用监控、质量监控等等。

热心网友 时间:2022-05-20 17:09

1. 数据治理的本质
可用性指数据可用、可信且有质量保证,不会因为分析结果的准确性造成偏差,从业者可以放心地根据数据结果做业务决策;完整性分为两个方面,一方面指数据需覆盖各类数据应用的需要,另一方面指不会因为数据治理没有到位而造成数据资产的流失,也即影响数据资产的积累,这也是神策数据在创业伊始便开展私有化部署的原因;安全性指治理和分享过程需安全可控,不侵犯用户隐私,且不会给组织留下安全隐患。

2. 数据治理的重要性
数据治理是所有数据应用的根基,数据治理的好坏直接影响所有数据应用的价值。

无论是基于数据看报表,还是做交互式的*分析,还是做更复杂的个性化推荐,所有的数据应用都需要有一个良好的数据治理结果。神策本身就拥有一款推荐产品——神策智能推荐,通过这款产品的实践,我们发现,它的实施周期相比其它几个产品普遍偏长,这也是因为个性化推荐对于数据的质量和准确性要求相对更高。

简而言之,数据应用做得越深入,所需数据就会更多,对数据质量也会有更高的要求。

数据治理是组织数据资产沉淀的基础,数据治理的好坏直接决定了组织的数据资产能否得到沉淀,能否充分地发挥价

热心网友 时间:2022-05-20 17:09

数据治理从本质上看就是对一个机构(企业或*部门)的数据从收集融合到分析管理和利用进行评估、指导和监督(EDM)的过程, 通过提供不断创新的数据服务, 为企业创造价值。

DGI(Data Governance Institute,数据治理研究所)认为,企业不仅需要管理数据的系统,更需要一个完整的规则系统以及规章流程。数据治理基本上涵盖了企业所有与数据有关的内容,因此在整个企业范围内,包括工作流程、涉及人员和使用的技术等等,都需要经过仔细考量,以保证数据的可用性、一致性、完整性、合规性、和安全性,确保在整个数据生命周期中,都具有较高的数据质量。

总体来说,数据治理的目标就是提高数据质量,将数据价值最大化。具体而言,数据治理的任务包括以下几点:
● 构筑适配灵活、标准化、模块化的多源异构数据资源接入体系;
● 建设规范化、流程化、智能化的数据处理体系;
● 打造数据精细化治理体系、组织的数据资源融合分类体系;
● 构建统一调度、精准服务、安全可用的信息共享服务体系。

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com