第2章 数据架构现状分析
本章目标
通过第1章的学习,我们已经了解了什么是数据架构、企业总体架构规划包含哪些内容、什么是企业战略和业务架构,以及应用架构、数据架构和技术架构的定义是什么。还了解了数据架构规划、应用架构规划和技术架构规划的方法论、企业总体架构和数据架构之间的关系等重要内容。
从本章开始将正式学习数据架构方面的知识。
本章重点介绍对数据架构现状分析的工作方法。现状分析主要发生在项目的初始阶段,主要分析现状数据架构存在哪些问题,如何对现状数据进行分类,结合对战略的理解,明确下一阶段的工作重点。掌握数据架构现状分析的相关案例,如何进行数据分布、流转的现状分析,关于数据治理现状分析的工作方法,数据质量管理的现状分析方法,数据生命周期管理的现状分析方法,数据标准管理的现状分析方法,元数据管理的现状分析方法等内容。它是项目成功的关键环节之一。
学习本章后,读者将掌握:
●对数据架构现状分析的工作方法
●对于现状调研和高层访谈来说,我们可以集中于哪些问题
●对现状的数据分类的原则和方法
●如何对现状数据进行分类
●如何基于数据分类进行现状分析
●如何对现有系统进行梳理
●掌握数据架构现状分析的相关案例
●学习数据处理架构的先进经验
●如何进行数据分布的现状分析
●如何进行数据流转的现状分析
●关于数据治理现状分析的工作方法
●关于数据质量管理的现状分析方法
●关于数据生命周期管理的现状分析方法
●关于数据标准管理的现状分析方法
●关于元数据管理的现状分析方法
2.1 对数据架构现状分析的工作方法
数据架构现状的分析主要通过现状调研、资料的分析、高层领导访谈,了解数据架构的现状。
现状分析,主要以发现问题、分析问题为主,在理解现状的基础上,借鉴行业内先进的经验,从数据分类、数据分布及其存储、数据处理架构和数据管控等几个方面对数据架构现状进行描述,从而发现数据架构存在哪些问题,同时提出改进的方向,如图2-1所示。
图2-1 数据架构现状分析的工作方法
最后把发现的问题和数据架构改进的方向作为未来数据架构规划的依据和重要输入部分,如图2-2所示。
图2-2 未来数据架构规划的依据和重要输入
对于现状调研和高层访谈来说,可以集中于以下几个方面的问题:
1)高层领导认为现有的核心业务系统有哪些?
2)现有系统能否支撑现有及未来业务发展?是否存在需要改进的地方?
3)在产品和服务方面有哪些思路?对IT方面有什么新的期望?
4)未来IT建设应达到什么样的水平?未来几年业务发展的目标是什么?
5)在新产品方面,未来的产品有哪些特点?
6)未来3~5年会拓展哪些数据?
7)在数据治理方面,哪些工作需要提高?是否能够提高数据质量?质量保证手段有哪些?
8)技术发展很快,如大数据处理方式。对于新技术,领导层有什么看法?
9)目前系统和业务发展的优势和劣势是什么?
10)目前IT系统存在哪些问题?对IT架构的期望是什么?目前IT规划的目标有哪些?
11)数据采集、加工、对外服务上有哪些问题?
12)系统运维上存在哪些问题?
对数据架构现状分析的工作方法可以总结如下:
首先,可以先从数据分布、存储和流转等几个方面对系统现状进行描述,其中数据分布的现状分析是对现有系统的梳理,描述数据分类在各个数据库中的分布。
其次,对于数据架构的现状分析,可以参考行业内先进的实践经验,分别从数据的采集、加载、数据加工等几个方面对数据处理架构进行抽象和归纳。分析它存在哪些不足。
最后,从数据治理和管控的角度,对现状数据的数据质量、数据标准、元数据管理、数据的生命周期管理等几个方面存在哪些问题进行分析,发现现状存在哪些问题。
2.2 对现状的数据分类的原则和方法
2.2.1 对数据分类的说明
首先了解一下什么是数据分类。
数据分类是按照选定的属性(或特征)区分分类对象,将具有某种共同属性(或特征)的分类对象集合在一起的过程。
数据分类是在业务层面上将数据按照某种属性进行归类和划分,它是按照业务特征进行分类的,数据分类促进业务沟通,现状的分类有利于分析,规划的数据分类有利于设计。
数据分类最终可以形成数据大类和数据小类,数据大类是从全局角度理解业务,数据小类是从微观角度对同一大类的进一步细分。
数据分类的原则和方法主要包括以下几个部分:
(1)分类应该按照业务特征对数据进行划分。
(2)企业数据执行同一个分类标准。
(3)分类应该满足可维护性和可扩充性。
(4)分类没有二义性。
(5)分类应该满足业务需求对于数据组织的要求。
(6)分类是业务和技术沟通的桥梁。
2.2.2 现状数据的分类
一、数据分类——大类
数据大类是从宏观的角度理解企业全局的业务情况,我们可以在现状分析的基础上,对数据大类进行主题域的划分。主题域是从较高层次上对业务的一种抽象和归纳。在主题域的划分过程中,需要全面考虑业务的扩展性,当确定后,主题域很少发生变更。
通过对系统现状分析,并结合现有的业务,将数据分为几个较大的主题域。我们结合金融行业的业务活动特点,参考最佳行业实践和Teradata金融业逻辑数据模型,可以将数据大类分成8个部分:当事人、产品、渠道、合约、财务、机构、事件、活动。
(1)当事人
银行所服务的任意对象,如个人、客户和员工等。
(2)产品
银行提供给客户的产品和服务信息。
(3)渠道
渠道是客户和银行之间进行交互的方法和手段。通过渠道,客户与银行进行接触,购买相关产品和服务。
(4)合约
银行与客户之间、银行内部员工之间签订的协议信息。例如,银行和个人签订的贷款合同。
(5)财务
主要包括银行的总账科目余额、财务预算等信息。
(6)机构
是指银行内部的机构,如银行所属的分行机构、支行等。
(7)事件
基于合约的协议信息,有主体触发事件类信息,如存取款、收费、投诉等内容。
(8)活动
主要是银行对客户所做的各种宣传和促销活动,目的是将产品推销给客户,加强银行与客户之间的关系。
数据大类之间的关系如图2-3所示:当事人签订合约的信息,同时主动触发事件,事件的发生基于合约的内容,事件信息、机构的信息和合约的信息可以加工成产品等内容。
图2-3 数据大类之间的关系
二、数据分类——小类
数据小类是在同一大类内,按照业务的特性进行进一步的细分。例如,我们按照数据8大类继续细分,举例见表2-1。
表2-1 数据分类
2.3 数据架构现状分析
2.3.1 数据分布现状分析
通过对现有系统的梳理,数据小类在现有数据库的分布状况见表2-2。
表2-2 数据小类
通过表2-2所示的分布可以看出,主要的分类数据有多个副本,数据的冗余度较高。
2.3.2 数据流转现状分析
通过对业务流程现状的分析,在处理流程环节中可能存在以下问题:
1᥊数据处理各环节是否清晰
数据处理环节包括数据采集、产品加工和对外服务。我们需要从以下几个方面分析数据的处理环节。
1)是否在加载和数据迁移过程中进行了产品加工,加工方式是否统一。
2)加工生成的产品是否单一。
3)是否可以快速向用户提供丰富和个性化的产品。
2᥊是否对数据流转进行了统一管理
数据处理的关键在于数据加载、清洗、整合、加工、迁移的各个环节。我们需要分析数据加载、整合和数据迁移的运行方式是否缺少统一的运行监控手段。
我们按照分类对数据流转现状进行描述,如图2-4所示。可以看出,数据出现反复抽取的过程,同一类的数据在多个数据库之间进行流动和复制,导致数据链条过长,严重影响系统执行的效率。
这种现象的原因是缺乏完整、良好的数据架构规划,导致“因事设库”现象的增多,缺乏数据的一致性。主要数据重复分布在不同的数据库中,造成冗余度较高,因为数据反复抽取,严重影响系统的效率。
图2-4 数据流转现状
2.3.3 数据处理架构现状总结
我们参考数据处理架构的先进经验,对现状进行抽象和归纳,如图2-5所示。数据处理架构可以分成数据源层、数据交换层、数据基础层、数据加工层和应用层等几个部分。
(1)数据源层
数据源层是通过各种方式从业务系统中抽取数据。
(2)数据交换层
数据交换层是对数据进行校验,最后再加载到目标库中。
(3)数据基础层
数据基础层是保存校验通过的数据,作为后续加工的唯一可信数据源。
图2-5 数据处理架构先进经验
(4)数据加工层
数据加工层是保存核心业务数据、当前的数据和历史数据,并且进行加工,以供应用层使用。
(5)应用层
主要进行产品加工,包括对基础产品的加工和增值产品的加工。
参考数据处理架构与系统现状的映射关系,从数据采集、数据加载、数据处理、数据加工和数据迁移等几个方面分析数据处理架构可能存在的问题。
一、数据采集现状分析
数据采集现状分析分为数据报送和上传的现状,包括采集的分类、数据的类型、文件的大小、采集的频率和传输的方式等内容。
通过对采集的分类、数据的类型、文件的大小、采集的频率和传输的方式的分析,可以得知,数据处理架构在数据采集和文件传输上有较大的提升空间。例如,增加自动上传、断点续传、传输监控等方式提高数据的采集和传输效率。
表2-3为某银行的数据采集现状分析。
表2-3 某银行的数据采集现状分析
二、数据加载现状分析
对于数据加载的现状分析包括数据校验、数据加载入库等几个部分。
(1)数据校验的现状分析
数据校验包括对文件的格式校验和逻辑校验,一般来说,只有通过格式校验后,才能进入逻辑校验过程。当数据文件通过数据校验后,再直接加载到数据库中,如图2-6所示。
图2-6 数据加载的现状分析
(2)数据加载的现状分析
基于数据加载的现状,可以从灵活性、扩展性和高效性上分析系统可能存在哪些问题。
1)灵活性。分析系统的现状是否可以支持对校验的灵活配置。
2)扩展性。分析系统现状的情况,包括数据的逻辑校验和入库处理方式是什么、是否具有可扩展性、是否是系统性能的瓶颈。
3)高效性。分析数据加载过程是串行处理方式还是并行处理方式、对于数据的校验是批量校验还是一条条校验,以及是否具有高效性。
三、数据处理现状分析
判断系统是否进行了身份信息类的加工和整合。例如,包括对身份信息的识别和归并,对各种规则进行有效匹配,列出疑似名单,然后通过技术手段或者人工确认的方式对身份信息进行确认。如图2-7所示,可以采取这种方式进行客户身份整合,获取唯一客户信息。
图2-7 数据处理现状的分析
同时为了保证客户的完整性、准确性和反映客户当前信息,也可以参考如图2-8所示的这种方式,多个银行的同一客户信息,经过唯一码分配的过程,包括数据标准化、清洗、算法匹配和分配唯一码,再经过数据加工的过程形成唯一真实的客户信息。其中完整性是指包含业务所需的所有客户属性,准确性是指每个属性均反映客户的真实信息。
四、数据加工现状分析
考虑数据加工存在哪些问题:
1)数据加工是否进行了整体的规划和通盘的考虑,如将相同的数据加工抽象成公共数据加工。
2)判断相同的数据是否存在多次抽取的情况,是否存在数据不一致的风险。
图2-8 数据处理参考
五、数据迁移现状分析
考虑现状数据迁移可能存在哪些问题:
1)判断系统是否存在同一数据源反复抽取数据到多个目标库的情况,这种迁移方式会有数据不一致的风险。
2)判断系统是否对数据迁移进行了统一管理和维护,避免不必要的迁移过程。
通过对相关负责人员的访谈,以及对数据分布和流转现状的分析,我们归纳总结了数据架构规划的关键问题,判断数据架构总体架构原则是否缺失。
我们从数据采集、数据加载、数据处理、数据加工和数据迁移等几个方面对数据处理架构现状进行说明,说明现状系统中存在哪些问题和可以改进的地方。
例如,数据处理架构可能存在以下几种问题:
1)判断数据加载高效性、灵活性和可扩展性是否存在问题。
2)是否具有统一的数据加工规划,数据迁移是否有统一的调度。
如果存在上述问题,可以通过增加数据缓冲区,避免多个目标数据从同一数据源重复抽取数据,降低对数据源的影响和数据不一致性的风险。
例如,通过使用数据迁移工具,增强对数据转换和迁移的统一管理,避免重复的工作。当大量的数据从一个库迁移到另一个库,会影响数据的一致性,导致数据冗余度高,影响效率和导致时间窗口过长的问题,特别是如果某个数据没有明显的加工要求和应用要求,从一个库不停地流转到另一个库,会导致迁移的数据量很大,影响性能和数据的不一致性,所以尽量减少数据的全量迁移。
2.4 数据治理现状分析
数据治理现状分析框架,主要用于帮助系统对数据治理现状进行分析,一般包括数据治理机制和数据治理领域两个部分。数据治理领域可以包括数据质量、数据生命周期、数据标准和元数据管理,如图2-9所示。数据治理机制包括政策、组织、流程和技术工具等4个方面。
下面先谈一下数据治理领域:
(1)数据质量
对于数据质量来说,通过使用技术工具解决数据质量问题,通过改善和提高组织的管理水平,执行相关的政策和流程,使得数据质量得到进一步的提高。
图2-9 数据治理领域
(2)数据生命周期
对于数据生命周期来说,可以划分为4个阶段来描述数据的生命周期,包括数据创建、数据使用、数据归档和数据销毁。然后通过使用技术工具解决4个阶段的问题,通过改善和提高组织的管理水平,执行相关的政策,加强对数据生命周期的管理。
(3)数据标准
对于数据标准来说,它通过建立数据规范、政策体系、组织、管控流程和使用相应的技术工具来确保系统内重要核心的数据是一致和准确的。数据标准是企业级的数据定义,企业内所有的系统都应该遵守和执行数据标准。
(4)元数据管理
对于元数据管理来说,它通过建立数据规范、政策体系、组织、管控流程和使用相应的技术工具来满足对元数据的管理。通过元数据管理可以了解数据的变化过程,包括这些变化会给系统带来什么影响。
我们从政策、组织、流程、技术工具4个方面对数据质量、数据生命周期、数据标准和元数据管理进行分析,如图2-10所示。
图2-10 分析的维度
(1)政策
通过制定相应的政策明确相关部门的责任,明确数据治理各个领域的政策和规范,通过政策的制定去规范相关人员的行为。
(2)组织
通过建立明确的组织架构和人员角色,明确数据治理相关责任人,定义不同责任人的职责。
(3)流程
通过制定数据治理各个领域的工作方法和步骤,明确相关人员的分工和协作关系。
(4)技术工具
通过技术工具保证数据质量的管理,支持数据标准和元数据的发布和查询等流程。对数据生命周期进行管理。
2.4.1 数据质量管理现状分析
数据质量管理现状分析包括政策、组织、流程和技术工具现状分析。
(1)数据质量管理政策现状分析
判断是否建立了完整的数据质量管理政策体系。
(2)数据质量管理组织现状分析
判断是否建立了完整的数据质量管理组织,如数据质量管理的组织包括业务部门和客服部门。业务部门的职责是质量验收管理、数据质量量化考评、数据质量现场监测、数据质量量化考评、数据质量反馈管理和日常数据质量管理等内容;客服部门的职责是制定数据质量处理规范和负责客户关于数据质量问题的咨询和服务,并且对问题进行跟踪。
(3)数据质量管理流程现状分析
判断系统是否建立了完整的数据质量管理流程。例如,数据质量事前防范、加工处理质量监控和入库后事后治理。
1)数据质量事前防范。先对数据的接口程序进行测试和验收,例如按照某个测试标准,完成测试报告,对测试结果进行验证,根据验证结果判断验收是否通过。对于未通过验收的数据接口程序,将发现的问题反馈给相关机构或者人员,并指导其解决问题。
当修改完数据接口程序后,需要重新进行验证和测试,当完成测试后,重新申请验收流程。可以通过搭建测试环境,专门用于对数据的测试和验证工作,增强对数据质量的事前防范工作。
2)加工处理质量监控。在数据加工处理过程中,对数据进行预处理校验和入库校验,保证合格的数据能够入库,不合格的数据反馈给相应的机构,然后根据数据质量检查规则,检验入库的数据是否正确。可以通过提高数据自动化的程度,优化数据加载功能,实现自动调度加载;优化原有反馈渠道,提高数据报送自动化程度。尽量减少未知错误的反馈,降低错误数据的更正难度。
3)入库后事后治理。入库后事后治理可以包括两端数据核对,对数据质量进行现场监测,对有异议的数据进行分析,目的是不断提高数据的质量,减少异议情况的发生。我们建议构建数据管理平台完成对系统数据质量的统计分析工作,清楚掌握数据质量状况,从而提高工作效率,更好推进数据质量工作。例如增加以下几个功能:两端数据明细核对功能、定点监测功能、历史处理情况查询功能、数据统计与分析功能、数据提取与反馈功能、数据质量档案管理功能、异常数据核实工作管理功能、数据质量统计报表功能、文档查阅功能、问题在线解答功能。
(4)数据质量管理技术工具现状分析
数据质量管理技术工具不作为本书重点。
综上所述,我们可以参考先进实践经验,判断系统的数据质量管理还存在哪些问题和差距。数据质量的提升和检查过程不是一蹴而就的,而是一个不断提升和改进的过程,同时数据质量管理不仅仅是一个技术问题,它更是一个管理问题,需要技术人员和业务人员互相配合,制定规则和管理流程。
2.4.2 数据生命周期管理
完整的数据生命周期管理涵盖数据从产生到销毁的全过程。
(1)数据生命周期管理政策现状分析
判断该系统是否建立了完整的数据生命周期政策体系,如在数据创建、数据使用过程中是否建立了相应的接口规范。在数据归档和数据销毁过程中是否有相应的数据生命周期管理方法和实施细则等内容。
(2)数据生命周期管理组织现状分析
判断系统是否建立完整的数据生命周期管理流程。例如,分析数据生命周期管理流程在数据创建、数据使用、数据归档和数据销毁过程中,有哪些组织架构和人员进行专项管理。
(3)数据生命周期管理流程现状分析
判断系统是否建立完整的数据生命周期管理流程。例如,分析数据生命周期管理是否具有数据的评估、管理手段设计和落地执行流程。
数据生命周期重点关注的部分主要包括数据创建、数据使用、数据归档、数据销毁。
●数据创建
通过建立数据标准,保证数据的准确性。通过数据质量管理保证数据创建的准确性。
●数据使用
在数据使用过程中,可以利用元数据管理监控数据的使用过程,利用数据标准保证数据的准确性。利用数据质量管理保证数据加工的准确性。
●数据归档
通过数据生命周期评估手段,评估数据什么时候归档。
●数据销毁
通过数据生命周期评估手段,评估数据什么时候销毁。
数据生命周期可以满足审计管理的需求,减少数据的冗余度,提高数据的一致性,同时减少数据的存储,提升系统的性能。
2.4.3 数据标准管理
数据标准管理现状分析主要包括数据标准管理政策现状分析、数据标准管理组织现状分析、数据标准管理流程现状分析、数据标准管理技术工具现状分析。数据标准是企业级的数据定义,企业所有的系统都应遵守和执行数据标准。
(1)数据标准管理政策现状分析
判断该系统是否建立了完整的数据标准政策体系。例如,在数据标准的建设过程中是否建立了相应的管理政策,数据是否得到了统一的定义。
(2)数据标准管理组织现状分析
判断系统是否建立完整的数据标准管理流程。例如,分析数据标准管理流程中有哪些组织架构和人员进行专项管理。
(3)数据标准管理流程现状分析
判断系统是否建立了完整的数据标准管理流程。
(4)数据标准管理技术工具现状分析
数据标准管理技术工具现状分析不是本书重点。
2.4.4 元数据管理
元数据管理现状分析主要包括:元数据管理政策现状分析、元数据管理组织现状分析、元数据管理流程现状分析、元数据管理技术工具现状分析。
(1)元数据管理政策体系现状分析
判断企业是否建立了完整的元数据管理政策。
(2)元数据管理组织现状分析
判断企业是否建立了完整的组织架构。例如,分析元数据管理流程中有哪些组织架构和人员进行专项管理。
(3)元数据管理流程现状分析
判断企业是否建立了完整的元数据管理流程。
(4)元数据管理技术工具现状分析
元数据管理工具现状分析不是本书重点。
元数据是“描述数据的数据”。一般来说,元数据就是用来描述上下文的信息,帮助人们更好地理解和使用数据。
元数据的分类包括:业务元数据、技术元数据和管理元数据。
(1)业务元数据
业务元数据是指从业务角度描述业务领域相关的概念、关系和规则的数据,主要包括业务术语和业务规则等信息。
(2)技术元数据
技术元数据是指描述系统中技术细节相关的概念、关系和规则的数据,主要包括对数据结构、数据处理方面的描述,以及数据仓库、ETL、前端展现等技术细节方面的信息。
(3)管理元数据
管理元数据是指描述管理领域相关的概念、关系和规则的数据,主要包括管理流程、人员组织和角色职责等信息。
2.5 数据架构现状要点分析总结
我们从几个方面分析数据架构是否存在问题:数据架构的合理性、数据模型的合理性、数据的交互和加工环节是否畅通、数据的处理效率、是否满足数据源采集的灵活性、是否具有完善的数据治理框架等。
(1)数据架构的合理性
主要判断数据架构的设计能否适用于系统的使用,可以采集需要的信息,并加工成不同的产品。
(2)数据模型的合理性
判断数据模型是否适应功能的扩展性和对新业务的支持。
(3)数据加工环节是否畅通
判断系统之间的信息能否互相沟通,针对数据加工和处理的要求,能否在最短时间内,把需要的数据汇总和加工。同时需要考虑数据分析的维度和粒度问题。
(4)数据的处理效率
需要考虑数据加载方面,包括数据量的大小和数据的运算能力。还需考虑数据是否可以快速入库。在提高效率和处理模式上,是否使用多个进程并行处理的方式。
(5)是否满足数据源采集的灵活性
判断系统是否可以根据业务的需求采集结构化、半结构化和非结构化的数据。在数据采集的深度上,是否可以扩大采集范围,能够覆盖整个业务,进而满足数据采集的灵活性。
(6)是否具有完善的数据治理框架
对于数据标准的建设,是否形成统一、有效的数据标准,以保证参与信息的稳定性和完整性,是否保证历史数据变更的可追溯性。对于数据质量的检查,要求全面性、及时性和准确性等内容。
小结
●数据架构现状的分析主要通过现状调研、资料的分析、高层领导访谈或者是对业务部门的访谈,了解数据架构的现状。现状分析,主要以发现问题、分析问题为主,在理解现状的基础上,借鉴行业内先进的经验,从4个方面对数据现状进行对比,从而发现数据架构存在哪些问题,同时提出改进的方向。把发现的问题作为未来架构规划的依据。
●数据分类是按照选定的属性(或特征)区分分类对象,将具有某种共同属性(或特征)的分类对象集合在一起的过程。
●数据分类最终可以形成数据大类和数据小类,数据大类是从全局角度理解业务,数据小类是从微观角度对同一大类的进一步细分。
●参考最佳行业实践和Teradata金融业逻辑数据模型,可以将数据大类分成8个部分:当事人、产品、渠道、合约、财务、机构、事件、活动。
●数据处理架构可以分成数据源层、数据交换层、数据基础层、数据加工层和应用层等几个部分。
●数据采集现状分析包括数据报送和上传的现状,包括采集的分类、数据的类型、文件的大小、采集的频率和传输的方式等内容。
●对于数据加载的现状分析,包括数据校验、数据加载入库等几个部分。
●数据治理领域可以包括数据质量、数据生命周期、数据标准和元数据管理。数据治理机制包括政策、组织、流程和技术工具等4个方面。
●数据治理现状分析框架,主要用于帮助系统对数据治理现状进行分析,一般包括数据治理机制和数据治理领域两个部分。
●数据质量管理现状分析包括数据质量管理政策现状分析、数据质量管理组织现状分析、数据质量管理流程现状分析和数据质量管理技术工具现状分析。
●对于数据质量来说,通过使用技术工具解决数据质量问题,通过改善和提高组织的管理水平,执行相关的政策和流程,使得数据质量得到进一步的提高。
●数据生命周期管理现状分析主要包括数据生命周期管理政策现状分析、数据生命周期管理组织现状分析、数据生命周期管理流程现状分析、数据生命周期管理技术工具现状分析。
●对于数据生命周期来说,可以划分为4个阶段来描述数据的生命周期,包括数据创建、数据使用、数据归档和数据销毁。然后通过使用技术工具解决4个阶段的问题,通过改善和提高组织的管理水平,执行相关的政策,加强对数据生命周期的管理。
●数据标准管理现状分析主要包括数据标准管理政策现状分析、数据标准管理组织现状分析、数据标准管理流程现状分析、数据标准管理技术工具现状分析。
●对于数据标准来说,它通过建立数据规范、政策体系、组织、管控流程和使用相应的技术工具来确保系统内重要核心的数据是一致和准确的。数据标准是企业级的数据定义,企业内所有的系统都应该遵守和执行数据标准。
●元数据管理现状分析主要包括元数据管理政策现状分析、元数据管理组织现状分析、元数据管理流程现状分析、元数据管理技术工具现状分析。
●对于元数据管理来说,它通过建立数据规范、政策体系、组织、管控流程和使用相应的技术工具来满足对元数据的管理。通过元数据管理可以了解数据的变化过程,包括这些变化会给系统带来什么影响。
●元数据是“描述数据的数据”。一般来说,元数据就是用来描述上下文的信息,帮助人们更好地理解和使用数据。
●元数据的分类包括业务元数据、技术元数据和管理元数据。
●我们从几个方面分析数据架构是否存在问题:数据架构的合理性、数据模型的合理性、数据的交互和加工环节是否畅通、数据的处理效率、是否满足数据源采集的灵活性、是否具有完善的数据治理框架、是否建立数据标准体系、是否有完整的数据生命周期体系和数据质量管理体系是否完善等。