嘉信讯通智慧政务之山东省某某市税源可视化管控平台
在大数据时代,数据渗透各个行业,渐渐成为每个机构的战略重点和核心资产。拥有数据的规模、活性,以及收集、运用数据的能力,将决定一个组织的核心竞争力。掌控数据就可以深入洞察业务问题和规律,从而做出快速而精准的应对策略,智能化决策是政府运营模式的必然转变。
第一章 项目概述
过去很多单位和机构对自身发展的分析只停留在数据和信息的简单汇总层面,缺乏对业务、管理、竞争等方面的深入分析。如果决策者只凭主观与经验对业务进行评估而制定决策,将导致战略定位不准,存在很大风险。
随着数据信息化产业的发展,山东省本市已经积累了海量经济发展数据,这些分散、独立存在的海量数据,没有得到充分利用,因此,为了最终达到强化本市产业发展监测、全面了解各个产业、企业经济发展动态、科学判断产业发展态势、切实解决本市经济运行过程中的各项难题的目的,通过使用大数据分析挖掘技术,建立本市经济运行综合数据平台,让大数据更好地为本市经济运行发展提供服务。
第二章 项目目标
依据需求,结合其实际业务目标,通过引入内外部数据,加强信息融合集聚与利用,并探索省级、市级政府数据融合和分析应用的通用模式,利用数据挖掘技术构建指标体系和模型,通过建立青岛市经济运行综合分析平台,更直观地反映出本市企业的经济发展和运营情况,协助青岛市的有关管理部门发现业务现象背后的作用机制。
宏观上监控当地经济运行发展态势,并预测其产业发展趋势;微观上对大中小型企业进行综合评价,挖掘企业发展潜力,使相关部门和人员能够及时了解产业、企业的经济运行情况和重点产业、企业的发展动态,做到对经济发展园区工作实时掌控,实现园区运营和管理的智能化、科学化,打造智慧园区,为本市的产业发展、科技创新和招商引资提供有效的决策支撑。
第三章 研究内容
3.1 数据资源与数据管理体系构建
大数据时代,数据驱动的科学管理和科技创新将成为趋势和必然,基于大数据的精准分析挖掘产生的量化指导将成为这一变革的实现支撑,而这一切的基础是拥有丰富、大量且个性化专属的数据资源;将多渠道、多来源、多元化的数据打造成“数数相连”标准数据资源,将是一切利用数据的行动的起点。
因此,本项目的第一要务即构建为本市相关科学管理与决策分析研究服务的数据资源中心,并以此为试点,初步形成本市乃至本省政府数据采集、整合和标准统一的标本,为市、省政府宏观数据库的形成奠定基本的理论和实践基础,成为青岛市政府数字化工程的奠基石。
3.1.1 规划构建青岛市数据资源中心
首先对数据资源进行全面梳理,规划构建最优化的、具有差别化的、面向应用主题的、本市数据资源中心,进而支持实现相应分析目标的数据挖掘、多维数据分析等,主要包含以下五大方面数据资源:
(1)整合以本市企业为维度的统计口径的数据,主要以一套表系统数据和火炬系统数据为主,建立本市企业(被纳入统计的)全景视图;
(2)整合部分其它国家级本市的相关数据以及火炬计划年鉴的数据,建立国家级本市数据资源库,用于横向比较等分析研究;
(3)整合必要的外部宏观经济数据和区域经济等数据,形成本市经济分析补充数据资源库,用于相关的分析应用;
(4)整合省市部分相关部门的企业数据源,如:省(市)统计局、省(市)经信委、省(市)发改委、省科技厅、商务厅和市科技局等处可以协商采集的相关数据,用于综合分析园区的经济发展态势;
(5)基于精准招商需求,整合相关行业的全量企业数据,并在分析后形成招商对象企业数据库,服务本市精准招商。
上述数据源将通过相关系统接口开发导入、数据格式转换等方式进行自动、半自动的定期加载,形成动态更新的山东省本市“经济气象”数据资源中心。
3.1.2 规划建立数据管理体系 高质量的数据是数据分析的基础,为此数据的产生、收集、清洗、存储、整合需要一套完整的数据管理体系来支撑。数据管理体系按照数据类型可以分为元数据管理和数据质量管理。
(1)元数据管理是数据质量管理的基础和先行条件。元数据可以简单理解为数据的标准。确立统一的数据统计口径标准,构建全面、丰富的数据指标体系。形成一系列面向应用的可更新的综合分析专题数据库。通过元数据管理可以很大程度上从源头杜绝问题数据的产生。
(2)数据质量是数据分析的基础,为此需要结合具体数据质量问题,制定严密的数据质量校核方案。为了保证数据的可靠性和可用性,在使用数据前必须要对每个准备应用的数据项做数据质量评估,并通过数据质量监控,进行问题数据追溯和问题数据处理。 数量质量校核是针对目前园区数据管理中存在的数据质量问题,例如完整性、一致性、准确性、规范性等问题,整合数据仓库、数据分析、数据挖掘、可视化展现以及工作流等多项信息技术,将结合客户的业务规则,设计并开发数据质量完整性模型、规范性模型、准确性模型、离群值模型、孤立点探测模型等,实现对业务数据的全面、专业、高效的数据质量校核与监控。
具体实施步骤如下:
①数据质量模型设计可视化:可视化操作,降低业务人员技术门槛;
②数据管理校核任务流程化:采用工作流管理模式,可方便进行模型间的组合形成工作流,同时对该工作流的调度管理按照任务管理模型进行,方便易用;
③问题数据追溯智能化:对于问题数据按照业务归属自动推送到相关业务归口单位,实现智能推送,闭环管理业务流程;
④标准六大业务模块:数据质量评价模块、问题追溯模块、模型管理模块、可视化展现模型、数据质量分析模块、任务管理模块。
3.1.3 数据仓库设计及实现
(1)数据仓库规划及存储模型搭建
数据仓库的建设是一个战略性工程,它将直接影响到数据驱动的全新管理模式的未来发展。能否成功地建立管理信息系统并发挥其作用,关键在于数据仓库的设计和建设的速度及质量。所以在设计开发数据仓库时应遵循前瞻性、实用性、安全性、可信性和科学易用性等特点。
(2)ETL设计与实现
数据仓库的数据来源于业务处理系统,但是数据仓库的数据并不是对源系统数据的简单叠加,它需要按照数据仓库的逻辑模型和物理模型,在源系统数据分析的基础上,按照源系统数据和数据仓库数据之间的映射关系,经过数据的抽取(Extraction)、转换 (Transformation)和加载(Loading)等环节方可进入数据仓库,这个过程简称为ETL处理。
ETL是搭建数据仓库数据平台的基础,也是保证数据仓库的数据质量的具体实现。基于数据仓库项目开发的经验,在大多数据仓库的实施过程当中,ETL都是一个非常复杂、耗时的过程,其工作量约占整个数据仓库项目的40-50%,占数据仓库设计阶段工作量的70-80%,有许多原因影响这一阶段的时间和进度,比如对原有业务系统和旧的操作环境的了解有限,原系统文档不全等,使得ETL任务在了解旧的业务应用以及如何抽取数据上花费了较多的时间。
ETL实施困难的另一个原因是原有的系统平台没有足够的容量/系统资源来支持数据抽取处理,系统资源不足可能表现为:CPU、磁盘空间、I/O带宽或没有一个有效的窗口去运行抽取、转换程序。
ETL过程不仅工作量大,而且还受到很多时间窗口的限制,它不仅需要在不同的特定(非确定)的时间抽取数据,而且还必须要在特定的时间范围内把数据加载到数据仓库。由于ETL过程是数据仓库应用系统每天都要进行的工作, 所以ETL设计的科学性和效率性是非常重要的,ETL设计的好坏关系到数据仓库项目的成败。
3.2 三大业务分析体系构建 针对全国本市对标、经济运行动态掌握和精准招商三大园区业务诉求,基于上述阶段构建的大数据资源中心,通过统计分析和数据挖掘等方法,构建相关模型,用模型的量化结果和分析研究成果等构建相应主题的分析体系,利用分析体系协助本市业务管理部门掌握相关模式和规律,找到工作提升和改进的发力点和突破口,从而进行科学决策指导行动。
3.2.1 本市动态综合评价分析 基于中国火炬统计年鉴数据、本市火炬计划项目数据、科技部火炬中心的国家高新技术产业开发区评价指标体系等尽可能多的底数,运用数理模型对比不同本市评价体系的差异性,分析影响山东省本市综合排名的重要指标,再结合有关专家的经验,优化该评价模型,最终得到排名测算方法及排名提升量化结果,并固化模型形成一套山东省本市排名预警机制来综合指导本市排名提升的工作具体内容和量化值,确保本市按照预设目标实现排名位次。
本分析体系的主要分析内容为以下三方面:
(1)本市火炬排名的关键指标对标分析 通过对企业对外的利润总额、出口创汇、科技投入等重要指标进行模型打分与专家打分综合测算,确定基准与对标值、找出待提升指标并给出量化要求,从而指导工作任务安排,以达成更好的绩效。
(2)动态更新排名信息 通过建立系列分析模型,测算出国家级本市排名方法,并据此实时呈现所有与排名有关的指标,同时呈现山东省本市在所有国家级本市中综合排名现状及各指标对排名变化的影响程度,从而明确排名影响的大方向及可控度。
(3)年度排名预测
预测下一年度本市排名状况,并根据下一年度排名预期目标,构建一整套本市排名预警指标体系及相应阀值区,实时预警影响排名的关键性指标,并给出提升的量化要求,指导本市有效达成年度排名提升目标。
此外,影响排名发展的相关指标一定程度上反映产业发展现状及存在问题,并指出改进的方向,以对科技创新方向、招商重点等进行决策指导。 国家本市排名预警机制呈现页面相关示例图:
3.2.2 经济发展运行分析 经济发展运行分析拟依托大数据相关技术,宏观上监控整个园区的经济运行发展态势,并预测其产业发展趋势;微观上对企业进行综合评价,挖掘企业发展潜力,使领导能够及时关注重点企业的发展动态,做到对园区工作实时掌控,同时也为企业今后发展提供数据支撑。
(1)园区宏观经济运行态势及发展预测分析 基于园区积累多年的企业数据,根据所属行业进行产业划分,形成园区产业划分的标准体系;将资产、负债、主营业务收入、主营业务成本、工业总产值、利润总额及应交增值税等重要指标按产业、行业进行呈现,并运用时间序列等模型对关键性指标进行预测,从而宏观把控园区整体经济运行态势。同时依据本市宏观经济数据相关指标进行对比分析,了解本市经济发展的相互影响关系。
(2)企业综合评价分析 企业的综合评价是根据与生产规模、经营情况相关的资产、负债、主营业务收入、应交增值税等关键财务指标来衡量企业的在产业中的发展状况。 “企业综合评价模型”是结合园区企业数据,运用特征选择模型确定影响园区经济发展的重要指标,进而运用主成分分析等模型综合评价企业,并以此为企业发展提供参考。
(4)园区企业数据分析服务 企业是数据生产者,利用业务数据进行面向决策的分析是未来的必经之路。但是传统企业缺少专业的数据分析人员,缺乏数据获取与分析技能,因此很多企业缺乏足够的能力开展数据分析工作。所以通过园区企业数据分析服务的开放,帮助企业进行经营管理决策,将来源于企业的数据直接为企业服务。
将“企业综合评价”模块开放给企业自身,同时将该企业的经济运行数据也对本企业进行开放和呈现,使企业能够明了自身在园区产业中的发展变化状况以及优劣指标程度,为其提供生产经营的决策参考。这一模式,可使企业感受到日常向管委会上报自身数据的回馈服务,尝到数据提供的“甜头”,可以有效提高数据上报的效率和质量,同时为日后启动全面企业级数据采集工作起到积极推动作用。 提供给企业的数据分析服务在分析方法上主要采用比较分析法,用来了解企业经济活动的成绩和问题。 趋势分析:与本公司历史比,即不同时期指标相比。横向比较:与同类公司比,即与行业平均数或竞争对手比较。
3.2.3 精准招商引资分析
招商信息推送服务,精准招商引资分析平台初步构建。根据山东省本市招商定位、特点以及同类园区情况,按照本市招商部门的需要,经相关分析后从乙方掌握的全国企业数据库中推送所需要名单,给招商工作切实的信息补充。
第四章 技术实现
为了保证数据及模型结果的有序呈现和使用,把相关联的业务按分析主题合理组织,即需要进行本市动态综合评价平台系列界面设计开发、经济发展运行分析平台系列界面设计开发和精准招商引资分析平台系列界面设计开发。 同时构建园区今后能够追加模型的环境,需要基于IT技术支撑和保障实现。通过数据库架构设计搭建、数据仓库构建及系统平台设计开发、数据可视化技术嵌入及后台管理等过程,以达到协助园区综合管理,促进园区经济社会可持续发展等决策支持目标。
4.1 平台架构设计 能满足用户多种分析层次的需求,界面友好,易于使用;容易实施,方便部署,易于维护;系统安全性好,可靠性高,具有一定的容错能力;系统具备良好的弹性、开放性,以适应商业发展的需求;具备的强大而灵活权限控制,用户管理能够为用户分配相应的系统角色,并能够定义用户可以在系统中执行哪些操作以及服务。
4.2 三个子平台的开发实现 需要对本市动态综合评价分析、经济发展运行分析和经济发展运行分析的相关指标按不同的用户需求进行组织分类,确定指标的摆放顺序、分析界面的数量、界面之间的跳转关系等进行设计。
4.3 特殊功能模块研发
(1)可视化技术研究和实现:种类繁多的信息源产生的大量数据,远远超出了人脑分析解释这些数据的能力。为避免计算被浪费,需要通过友好的可视化技术对大量数据进行呈现解析。
(2)固定报表:用以实现业务分析报表的自动导出。具体功能:可以实现报表的定期自动更新;可以实现报表的自动批量生成;支持报表的EXCEL导出;支持纯浏览器的报表生成、下载和打印。
(3)智能报告:智能报告主要通过与业务人员沟通,了解其常用报告形式,据此设计开发固定格式的报告。可以实现根据报告时间、报告主体的自定义选择,然后单独或者批量生成一份或多份报告。同时,可以实现报告的定期自动更新;可以实现报告的自动批量生成;支持报告的word、pdf格式导出;支持报告中对异常数据的自定义预警。
4.4 系统安全设计
本项目按照公安部《信息安全等级保护管理办法》和《信息系统安全等级保护基本要求》,根据山东省本市实际情况和安全要求,进行安全设计并且建立完整的数据备份机制。
4.4.1 系统安全设计原则 由于在网络环境下,任何用户对任何资源包括硬件和软件资源的共享,所以必须通过制定相应的安全策略来防止非法访问者访问数据资源,对数据资源的存储以及传输进行安全性保护。在本系统中,参考OSI的七层协议,从网络级安全、传输级安全、系统级安全和应用级安全等几方面进行考虑,主要遵循下面的设计原则: 标识与确认:任何用户访问系统资源,必须得到系统的身份认证以及身份标识,如用户的数据证书、用户号码、密码。 授权:对系统资源,包括程序、数据文件、数据库等,根据其特性定义其保护等级;对不同的用户,规定不同的访问资源权限,系统将根据用户权限,授予其不同等级的系统资源的权限。
日志:了保护数据资源的安全,在系统中对所保护的资源进行任何存取操作,都做相应的记录,形成日志存档,完成基本的审计功能。 加密:通过整体考虑来保证网络服务的可用性、网络信息的保密性和网络信息的完整性。 系统级安全:系统级安全主要体现在物理设备的安全功能以及系统软件平台的安全设置上。
4.4.2 系统软件平台的安全管理
(1)数据库系统的安全管理 数据库系统是整个系统的核心,是所有业务管理数据以及清算数据等数据存放的中心。数据库的安全直接关系到整个系统的安全。在本系统中对此考虑如下: 数据库管理员(SA)的密码应由专人负责,密码应该定期变换; 客户端程序连接数据库的用户绝对不能使用数据库管理员的超级用户身份;客户端程序连接数据库的用户在数据库中必须对其进行严格的权限管理,控制对数据库中每个对象的读写权限;利用数据库的审计功能,以对用户的某些操作进行记录; 充分使用视图以及存储过程,保护基础数据表;对于不同的应用系统应建立不同的数据库用户,分配不同的权限。
(2)系统备份 为保证系统长期、稳定的运行,设计必须考虑系统的备份方案,根据系统的硬件环境,可对代码备份和数据备份。 数据备份:数据库的备份和恢复是保护存储在数据库中有关关键业务数据的重要保护措施。采用本机和异机两种自动备份方式,备份周期为日备份,本机备份保留近3天的数据,同时在专用的磁盘阵列中保存近30天的备份数据,超过30天的数据系统会自动保留每月1日的备份数据,最长保存时间为3年。当数据库出现问题(如介质出错、用户错误或一个服务器的永久丢失)时可将数据恢复到正常状态。
代码备份:主要是对本系统代码以及模型文件进行及时备份,在每次对代码部分进行更改前手动备份,保证在系统出现问题时能够快速恢复到任意版本。
第五章工作步骤
5.1 业务调研 业务调研是乙方为充分了解甲方业务需求,而开展的调研活动。业务调研可以熟悉甲方业务,核实甲方业务数据表情况,精准的把握甲方真实的业务需求,建立的模型才能更有价值和意义。
5.2 数据采集 乙方根据甲方业务需求,采集建模所需要的数据,采集的数据要确保全面、完整、真实、可靠。
5.3 数据整合 乙方为保证从甲方采集来的数据规范化及数据挖掘的可用性,需要对采集到的数据进行数据整合,主要包括元数据规范化和搭建数据仓库架构。 数据整合可以使数据具有科学性、规范性、兼容性、一致性等一系列良好特性,能够保证数据的规范化和数据挖掘的可用性。
5.4 数据挖掘 数据挖掘步骤是按照CRISP-DM(cross-industry standard process for data mining)的理论基础进行开展,CRISP-DM即为“跨行业数据挖掘标准流程”,共有六个步骤,即业务理解、数据理解、数据准备、建立模型、模型评估、结果部署。
5.4.1 业务理解 从业务角度理解甲方需求,熟悉甲方的业务逻辑关系,并将这些知识转化为确定的数据挖掘目标,进而完成目标的初步计划。
5.4.2 数据理解 从初始的数据收集开始,对从本市采集到的数据进行理解,评价数据质量,了解数据的内部属性,进而探测影响目标的隐含数据信息。比如,数据是否有缺失值,是否有离群值,是否有错误值等。
5.4.3 数据准备 数据准备阶段包括从未处理的数据中构造出模型最终所需要的综合关联综合宽表数据,并对选择数据进行清洗,转化成可以用来建立模型的标准形式。具体任务包括指标的选择,以及通过模型工具对数据进行清洗和转换。比如:数据清洗的过程,包括缺失值填补、离群值处理、错误值更换、数据分类等。
5.4.4 建立模型
经过数据准备阶段后,以三大业务分析体系的构建为目标,选择和应用不同的建模技术,构建模型。一般地,有些建模算法对数据有特殊要求,因此需要经常地跳回到数据准备阶段,对数据做进一步的预处理。
5.4.5 模型评估
模型建立以后,需要验证模型的准确性,对模型进行评估及优化,以确保模型的科学合理性。优化后的模型,只是一系列模型流,需要对其解读成非专业人员可以理解的文字说明,形成标准的解读说明文档。
5.4.6 模型部署
模型的构建不是项目的结束,模型的作用是从数据中找到知识,获得的知识需要便于用户使用的方式重新组织和展现。根据需求,将模型部署到相应的平台,实时运行模型,更好地体现模型应有的价值和作用,为本市的管理决策提供有力的数据支撑。
5.5 成果呈现
5.5.1 报告推送 基于对三大业务分析体系的构建,并根据数据的更新频次,实时推送本市综合评价报告、行业分类报告、产业发展及产业企业投资活跃度报告。
5.5.2 企业名单推送 通过一系列咨询与分析定时推送相关领域的龙头企业名单、有代表性的行业重点企业名单和行业中科技评价领先的企业单位(涵盖行业龙头企业、重点企业及中小微企业),这些企业名单(每月20家)均在平台中自动生成并月度更新,同时满足用户根据设定的条件,筛选出符合条件的候选企业名单。
如果您希望进一步了解该项目的详细信息可以联系公众号作者,我们为企业、公司、机构提供经济运行平台的需求调研、定制化开发,部署、维护、升级等一系列操作。
青岛嘉信讯通信息有限公司是一家专业从事计算机软件相关业务的高新技术企业。为国内和国外的客户提供软件和集成项目的整体解决方案。
主要营业内容:软件业务、数字安全服务、网络视频服务、物联网平台运营。
软件业务:软件平台开发、手机APP(安卓、苹果)、微信、小程序、技术咨询、产品销售等。
数字安全服务:电子合同签署、招投标平台签署、网络数字安全认证服务等。
网络视频服务:网络视频的整体解决方案、系统集成和弱电施工等。
物联网平台运营:智能硬件终端的电压、电流、温度、湿度、定位信息的采集和远程控制,大数据分析。
在国内的合作伙伴主要有联通、海尔、海信、青岛地铁、兴业银行、北京数字认证、清华同方等上市公司。
在国外的合作伙伴主要有NEC、富士通、软脑、大手海恩等上市企业。