340页11万字智慧政务大数据资源平台数据治理方案
一.1.1 数据治理子系统
搭建大数据治理子平台系统,并提供涵盖数据标准管理、元数据管理和数据分析质量控制的能力, 以实现对采集到的数据实施规范化治理与综合管理; 通过建立数据中心能力, 并运用清洗和加工技术提升数据分析效能. 具体情况而言, 在本次杨浦大数据资源平台建设项目中, 该数据中心将包含以下几项:
资源目录管理:支持资源编目、提交、审核以及发布等操作;涵盖:
- 资源登记(登记)、提交至系统(提交)、通过审核流程(审核)、发布到系统中(发布)、统计汇总(汇总)、生成统计结果返回(查询)。
该组织的资源进行 directories and files 管理的系统。
数据标准化体系:该系统将实现数据标准化管理体系的构建过程。具体而言,则包括以下几项核心功能模块:概念字典规范、名称规范制定、维度规范建立以及属性规范制定等各项基础保障措施;
元数据管理:涵盖元数据管理功能集,涉及元数据前向采集、后向维护、检索查询、导入操作以及血缘关系分析等核心组件;
数据质量管理:包含多种功能模块的具体实施方式,在具体操作中主要涉及以下几个方面:首先是基于预设原则构建的质量模型体系;其次是根据业务规则制定的质量标准;第三是对方案实施过程中的配置进行动态管理;第四是对质量评估结果进行系统性查询;最后是对评估结果进行深入分析并生成详细报告
数据开发平台:支持数据管理功能包的构建与部署能力,在线配置数据接入策略并具备可视化设计器和原生设计器两种功能,并能实现原生设计器与可视化设计器之间的↔转换。
统一调度管理:整合式调度管理系统(ISMS),涵盖流程设计与管理、调度策略管控、任务调度控制等核心模块
一.1.2 数据资源中心****
在本次项目实施过程中,
我们计划规划全区公共数据汇聚的标准流程和管理制度,
并收集各区政府机构的公共数据信息以建立XX市的数据资源库。
此外,
在对收集到的数据进行去杂处理、系统化整理以及有机整合的基础上
进行优化治理工作后,
则能够建立起一套高水准的公共数据资源体系,
并在该体系基础上逐步建设完成杨浦区的标准化数据仓库
基于全区治理后的数据资源集合, 我们可以聚焦特定领域内的业务场景与应用需求, 按照统一的主题分类整理成专题数据库与子主题数据库, 并可向政府部门和社会公众提供开放获取的数据服务。同时, 我们将长期致力于探索如何在杨浦实现跨领域协作的大数据分析与应用, 针对跨部门协作、跨行业结合的数据分析场景, 通过关联分析技术实现多维度信息整合, 并结合智能计算手段生成融合结果。我们计划逐步构建覆盖各领域且服务于全区多部门协作的统一化共享平台, 提升各类主体的信息交互效率以及智能化决策水平。在本次项目实施过程中, 数据资源门户将包含以下建设内容:
建立XX市级的数据湖平台:搭建全区公共数据的统一存储与计算平台,并整合各类数据资源到统一平台进行高效处理;通过分类管理实现部门和不同业务的数据源间的隔离配置。
推进与区各委办业务与管理系统、XX大数据资源平台以及物联网相关平台的数据对接工作,并对汇聚的各种类型企业运营及管理信息进行深度整合, 最终构建起全区公共数据资源池
搭建基础数据平台:搭建区域统一的人口信息综合数据库、法人主体数据库以及电子证照信息共享平台,并为区域内的各类应用提供相应的数据支持;
搭建全区统一的产业经济主题数据库等
Ø 主题库
基于跨部门协作、跨领域整合及多行业联动的通用服务架构,在数据分析层面实现高效的数据关联建立联系,并通过数据融合与整合的方式完成信息资源的优化配置;在此基础上完成衍生计算以生成算法标签,并构建算法标签体系;最终打造超级应用级的数据服务系统。主题数据库的构建旨在满足特定大型行业领域的业务共通共享需求;在大数据统筹协调部门的支持下;需要多个部门协同合作;构建面向全区多 departments 的统一型数据资源共享平台。
为了应对全区面向企业法人现有服务体系在企业法人数据方面的欠缺问题, 本次项目计划建立XX市企业精准服务主题库
Ø 专题库
该平台专门提供给特定领域专题应用的数据服务方案。
通常由各委办局自行负责开发相关业务系统,
但在必要时,
委办局也可以委托大数据中心进行代建和运营。
这些专题数据主要用于满足领域内自身的研究与应用需求,
而不会承担支撑大型跨领域、跨行业超级综合系统的责任,
主要目的是服务于本单位的信息管理需求。
一.1.3 数据共享子系统****
为了降低不同委办大数据服务中共性模块之间的重复化程度,在规范运营与安全保障机制的同时,在成功案例复制方面实现了高效转化。在最大限度地激发外部开发团队的积极性基础上搭建了一个统一的大数据分析与共享平台,并支持的数据交换与管理流程更加完善;自定义的数据探索路径增加了灵活性;通过智能推荐算法提升了用户体验;并采用分类标记技术进行资源归类以确保高效完成对外服务部署流程
负责提供功能与接口的数据共享服务建设方案,并且
旨在满足各领域的实际需求,
深入探索在政务服务、市场监管、城市管理以及社会治理等多个领域构建公共数据共享应用场景,
为其协同发展 furnishes data support
涵盖数据交换与服务管理的方面,并提供以下功能:包括结构化库表下发功能(如发布到不同存储层)、文件分发与API接口交互功能(允许多线程同时访问)、并行处理非结构化文档分享与接口代理功能(实现快速响应)。
一.1.4 门户子系统****
基于XX市大数据资源平台项目的延伸开发。主要包括信息通知、数据传输以及个人资料维护等功能。
建立一个数据开放门户:主要包含搭建多个门户入口(如:数据列表)来实现接口服务(如:地图空间服务)、应用平台(如:数据分析平台)、服务项(如:交互功能)等各类门户功能的建设工作。这些入口将涵盖业务流程申请与管理(如:支持业务流程申请与管理)、展示与呈现(如:提供数据分析与可视化)、统计与分析(如:实现快速的数据查询与检索)等功能项。
包含业务流程申请、展示、统计、查询等功能。
Ø 分析、统计、展示功能
收集并整合共享与归集的数据后进行系统性分析并予以展示。可在填报阶段以及统计数据阶段设立审批环节,在填报和统计数据阶段实施多级审核机制,在整理后的统计数据上设立审批环节,在整理后的统计数据上设立审批环节,在整理后的统计数据上设立审批环节,在整理后的统计数据上设立审批环节,在整理后的统计数据上设立审批环节,在整理后的统计数据上设立审批环节,在整理后的统计数据上设立审批环节,在整理后的统计数据上设立审批环节,在整理后的统计数据上设立审批环节,在整理后的统计数据上设立审批环节。
Ø 查询及业务流程申请功能
当委托方向大数据中心提交查询请求时,在获得相关部门的正式批准后才能实现数据资源共享,在获得批准后方能向委托方提供数据分析服务以便满足委托方对于特定类型或单件数据的需求。
大数据中心与委办之间的管理流程已初步建立框架,在此框架下, 委办提出的各项需求需先进行数据项查询, 最终将通过该门户网站提交申请. 例如通过三清单一目录的申请方式, 在线进行登记.
一.1.5 统一运维子系统****
为了构建高效运行和维护的大数据分析资源平台,在杨浦大数据资源平台上实施标准化的监控管理指标与数据管理系统。该系统对云资源、应用及业务对象的性能数据、运行状态监视以及告警情况进行统一管理和分析,并能及时发现异常情况及潜在问题。同时对云管理运行过程中的监控及容量使用情况等运维数据分析深入研究,并据此优化资源配置策略以保障大数据资源平台稳定、高效的运行以及安全合理的资源分配。基于此构建一站式的数据资产可视化管理系统并实现全生命周期的数据生产过程监控实现了对数据资产血缘谱系和信息资源目录的统一管理和优化配置
一.1.6 数据安全管理子系统****
构建完善的平台安全防护体系。该系统通过多维度的安全监测手段实施全方位的安全防护。具体而言,在网络流量监控、防火墙部署以及内容审计等多元手段的基础上,并结合标准化解决方案进行量身定制开发,并实现与系统各组件深度集成以增强整体安全防护能力。其中,在安全管理方面重点包括:统一身份权限管理模块、建立敏感数据识别机制、制定数据去敏感化处理流程、设计加密存储方案及密钥管理机制,并通过实时监控综合分析用户行为特征及实时监控数据安全态势。这些措施将全面满足《网络安全等级保护基本要求》(GB/T 22239-2019)、《数据安全能力成熟度模型》以及《政务信息共享数据安全技术要求》(送审稿)等相关合规要求。
一.1 应用系统****
一.1.1 大数据底座****
总体结构体系如图所示,并具体包括以下几个方面:大数据基础平台、集群洞察与分析平台(简称集群洞察)、集群管控与运营平台(简称集群管控运营)、流处理引擎以及关联检索引擎。
基于大数据的核心平台系统(DP),实现了对资源的均衡配置与优化分配,并且为业务流程运行支持提供了标准化的数据服务规范体系。
大数据集群的深度洞察与智能规划体系(CI)其核心内容主要涉及对大数据集群资源性能安全等方面的全面分析以及相应的战略规划方案设计。该体系旨在支撑大数据集群在科学规划与优化配置方面的具体实施策略从而实现对资源的有效管理和合理利用目的
基于多租户管理核心的集群管控运营(CM),为企业提供大数据集群资源管控服务,并通过提升其在大数据平台上的租户开放管理和服务能效来实现对企业的高效支持。
流处理引擎(SP)负责实现统一化的实时数据接入、分析处理与分发订阅功能,并全方位地支持实时业务场景的构建与维护。
关联检索引擎(SP)构建详实的数据索引,
提供了多样的功能入口,
具备处理复杂多样的结构化数据的能力,
向各类用户提供便捷服务,
提供了多样化且类型的丰富性高的数据类型,
实现了高效精准的数据检索功能

一.1.1.1 大数据基础平台****
该平台采用了开源Hadoop软件套装作为基础架构,在分布式数据处理方面具备显著优势,通过可靠运行、高效执行以及灵活扩展的特点实现了对海量数据的管理,具体包含了hdfs存储层、mapreduce计算引擎、yarn资源调度系统、hive元数据管理系统以及spark并行计算框架等核心组件。
大数据基础平台整合了基于分布式文件系统的海量数据采集与存储方案,并提供了完整的计算处理与运维支持;该平台采用了分布式文件系统、列式存储或混合式存储方案,并结合压缩技术和延迟加载机制,在硬件设备投入上实现了相对经济的效果。
基于分布式架构的调度与资源管理系统确保了分布式并行运算的安全性、效率以及可靠性。该系统采用列式存储引擎设计支持键值对数据的实时查询与更新操作,并通过交互式的SQL语法实现数据分析查询功能以满足离线分析型应用的需求同时提升了程序开发的便捷性避免了复杂的程序开发工作从而降低了系统的使用难度该平台整合了多种核心组件包括:分布式文件存储系统HDFS资源管理和调度框架YARN安全防护模块Ranger非关系型数据库Hbase数据加载处理工具Sqoop Flume Kafka等为不同场景下的大数据处理提供了全面的支持
用户可以在短时间内便捷建立自身的企业级大数据基础平台,并在此平台上开展自主的数据分析业务。该大数据基础平台作为一个开放的基础产品提供者,在线提供强大的各种核心功能。如存储处理功能等

一.1.1.1.1 数据存储****
基于Hadoop实现分布式文件存储系统的HDFS(Hadoop Distributed File System),其核心架构主要包括管理节点作为协调中心以及若干个数据节点作为存储单元。在该系统中 Name节点负责管理元数据信息 而Data节点则用于存储实际的数据内容 用户能够通过Name节点实现与元数据的信息关联以及功能操作 并通过Data节点直接访问真实的存储内容
遵循Federation模式,在集群架构中部署了多个namenode节点。这些namenode彼此之间是联合协作的,即它们彼此独立运行且无需互相协调即可实现各自分工管理特定区域范围内的事务处理。引入多备用NameNode节点以增强系统的高可用性水平,并有效降低了单一备用namenode故障可能导致的集群管理风险。从而显著提升了系统的高可用性水平,并有效降低了单一备用namenode故障可能导致的集群管理风险。采用纠删码技术(Erasure Coding),相比于三副本复制策略可提升50%以上的存储效率。
一.1.1.1.2 资源管理****
在Hadoop系统中,默认情况下每个应用都会被定义为一个作业(Job),而该作业又会被分解为多个子任务(Task)。JobTracker是一个后台服务进程,在运行后开始会持续监控各个TaskServer发送来的心跳信息,并收集这些信息包括资源消耗情况和任务运行状态等数据。它的主要职责在于:负责作业管理、实时监控以及智能的任务调度工作等环节。而TaskTracker则起到连接两个核心组件的作用:一方面从JobTracker接收并执行各种操作指令(如启动任务、提交任务、终止某个进程等);另一方面则会将本地节点上各个子任务的状态以心跳的形式周期性地发送回主流程服务器(JobTracker)。其主要功能体现在:心跳报告与指令执行两大方面功能上。
该框架的核心理念是将jobtracker的任务主要分为两个主要职责:一个是实现资源管理功能(Resource Management),另一个是负责任务监控工作(Task Monitoring)。这些两大核心职能分别由不同的进程独立运行以实现各自的使命目标。在该框架中拥有一个全局的资源管理器(Resource Manager, ResourceManager)以及每一个应用程序对应的程序应用 manage module ( Application Master )。 ResourceManager与每一个节点(Node Manager)共同构建了一个处理数据架构体系,在此架构下 ResourceManager承担着整个系统所有资源配置决策的责任与权力。而每一个应用程序对应的 Application Master 相当于一个具体的 Lib 模块,在此基础上它不仅负责从 ResourceManager 获取必要的资源信息还负责将其应用到各个 Node Manager 上进行相应的任务执行与监督工作流程控制。为了满足对新版本 YARN 系统的支持性需求本系统设计具备良好的扩展性特性能够对其性能进行全面优化并支持新增功能模块。
一.1.1.1.3 批量处理****
基于Hadoop构建的Hive为数据仓库提供了基础架构。该系统引入了简化的SQL变体HQL用于数据查询,并支持熟悉MapReduce开发者自定义mapper和reducer以解决现有功能无法处理的问题。同时该系统还提供了大量用于提取转换加载(ETL)的一系列工具,并支持在Hadoop中存储检索及分析规模庞大的数据集。
Spark作为核心功能实现大规模数据处理的一个系统架构,在其设计中采用了函数式编程模式拓展了MapReduce的功能——不仅实现了MapReduce的关键运算功能(map函数和reduce函数)及其基本计算模型,并进一步提供了多种附加运算符(如filter、join、groupByKey等);能够适应多种工作流程(从简单的数据处理到复杂的业务分析)。通过内存缓存优化其运行效率(类似于操作Python解释器),从而实现高效的实时处理能力(如同与集群进行交互一样便捷)。此外,在系统设计中引入缓存机制还加速了迭代算法的收敛速度(特别适用于数据理论任务),因此 Spark特别适合用于涉及大量数据理论推导的应用场景
一.1.1.1.4 实时处理****
SparkStreaming是Spark核心API的一个扩展功能,能够支持超大吞吐量的同时配备有容错能力的实时流数据处理系统。该系统每隔一定时间会对接收到的数据进行划分段落,并经由Spark Engine引擎进行处理后输出一批结果
Apache Storm是一个基于分布式架构的实时大数据处理平台。它是被设计用来在容错机制和水平扩展方法中高效处理海量数据的系统。它是一个专门用于流式数据框架,并以其极高的吞吐量著称。
Apache Flink是一个专为无界流数据进行状态ful计算的平台,并可处理有界数据流。它专为各种主流的集群环境设计,并以内存为中心实现高效的规模内处理。
该系统以低延迟和高吞吐量著称,并支持离线及实时消息消费模式。特别适合以低延迟收集并传输大量事件与日志数据。该系统通过副本机制确保消息存储的可靠性,并利用Ack机制确认消息到达情况。副本的存在不仅保障数据可靠性还提升了系统扩展性。
一.1.1.1.5 列式数据库****
HBase 是一种具备可靠度高、性能优越、以列为主且可扩展性强的分布式存储系统。
基于 HBase 技术,在廉价的 PC 服务器上构建了大规模的结构化数据集群。
在以 Hadoop 为基础的大数据生态系统中:
通过 HDFS(Hadoop 分布式文件系统),该系统实现了其可靠性的底层存储支持;
基于 MapReduce 框架提供的高性能计算能力;
Zookeeper 为此系统提供了稳定的运行服务及失效转移机制;
此外,
通过 Pig 和 Hive 这样的高级编程接口层语言支持,
使得基于 HBase 的数据统计处理变得异常简便。
一.1.1.1.6 运维管理****
利用Apache Ambari开发的大数据集群管控工具具备一键化部署Hadoop平台组件的能力。借助图线化界面进行大规模Hadoop集群部署能够显著提升系统实施效率,并实现了集群配置的统一管理与维护。
节点间的运行状态监测旨在覆盖各个设备运行状态以及彼此间通信情况的实时跟踪。对于单个设备而言,其运行状态监测内容主要包括内存队列占用情况,进程活跃度,以及I/O、CPU和内存使用状况等信息,这些指标可以通过页面进行查看.从集群层面来看,一旦检测到某台设备出现故障,系统将迅速启动主备切换机制或者排除该异常设备以保证整体系统的稳定性
基于Apache Ambari构建的大数据集群管控工具具有对Hadoop平台进行告警的能力。 针对SMTP协议,运维人员可以通过设置监控指标策略和设定告警阈值来完成任务。 当监控系统检测到指示异常超过预先设置的阈值时,将通过邮件发送告警信息至管理员,并依据预先设定的报警级别执行相应的报警操作。
一.1.1.1.7 安全管理****
Ranger提供了一个统一的安全框架来管理细致层级的访问权限。通过Ranger的安全控制台界面,安全管理员能够轻松地设置策略以保护敏感资源。这些权限配置能够针对单个用户或用户组进行配置,并在Hadoop环境中运行。此外,在更深入层面的安全管控中实施更多功能措施,并进行相关的管理、审核以及策略分析等操作。
利用 LDAP 系统管理用户账号,在线性规划 Identity 存储架构下,默认配置已集成 Kerberos 认证服务的同时,默认配置已集成 Kerberos 认证服务, 同时大数据基础平台与 LDAP 系统协同工作以实现基于角色的访问权限控制(Role Based Access Control)机制, 最终所有安全访问审计操作均会被记录至数据平台的日志系统中
大数据基础平台能够实现对输入数据的完整性验证功能,并根据不同数据的重要性程度制定相应的存储策略。依据时间价值将这些信息划分为热状态数据、常规状态的数据、低活跃度的数据以及长期保留档案等四类。
一.1.1.2 集群洞察****
基于多年在生产Hadoop集群环境中的实践经验, 群队性能洞察系统通过归纳出一系列性能评估模型, 计算、分析和展示这些集群运行中的关键指标, 从而为集群性能优化提供科学依据。
集群负载分析:针对计算资源与存储资源及其负载状况的收集与研究。通过追溯特定时间段内这些资源的使用情况来辅助集群管理和优化其租户间的资源配置。
通过对其权限、数据操作及登录操作实施的安全审计工作,能够及时发现潜在的安全漏洞并发出告警信息
该平台包含日志中心、运维知识库以及基于租户权限划分的运维视图。该平台向集群管理员和租户管理员等用户提供了相应的管理功能。

一.1.1.2.1 集群性能洞察****
自动对集群主机、网络以及HDFS等核心组件的运行状态和性能参数进行持续监控,并生成相应的巡检报告。从而显著降低了运维人员的知识门槛,并通过实时监控快速评估集群的整体健康状况及关键性能参数。
根据HDFS image metadata进行分析
一.1.1.2.2 集群负载分析****
呈现直观的运维管理界面,并实时显示集群及队列资源使用率;同时能够突出占用资源最多的前10作业及其运行时间分布情况,并追踪记录其完成状态及等待状况等;此外该功能同时也为集群整体资源评估提供了重要依据。
一.1.1.2.3 集群安全审计****
该审计功能可确保Hadoop环境中用户的数据显示安全;能够识别非法入侵事件及违反安全规范的操作行为;通过策略化配置实现对潜在风险的即时监控与警示;构建基于用户行为特征的异常数据模式识别系统。
一.1.1.2.4 集群运维工具****
包含日志管理平台、系统运维知识库以及基于租户权限划分的专用运维视图。该系统供集群管理员与租户管理员使用的一套高效且全面的运维支持方案。
一.1.1.3 集群管控****
该平台的架构设计参考图2所示,并主要包含接入层和功能两层结构。其中功能层主要负责提供管理、运营及分析功能,而接入层则负责将各大数据组件进行统一接入。
