020-29815005
预约专线时间:09:00-23:59

大数据政务治理之数据采集接入

新闻来源:本站 日期:2021-05-27
先说说数据采集,数据访问的定位,数据采集:从规划和服务实战的角度,计划采集哪些数据从哪里来,以及计划何时完成数据采集。资料存取:从资料执行层面,将收集的协调资料,透过适当的连结连结,以ETL工具或人工复制方式,存取至资料平台。
  巧妇难为无米之炊:很形象地体现了数据采集和访问的价值,在整个大数据过程中都十分重要。

  先说说数据采集,数据访问的定位,数据采集:从规划和服务实战的角度,计划采集哪些数据从哪里来,以及计划何时完成数据采集。资料存取:从资料执行层面,将收集的协调资料,透过适当的连结连结,以ETL工具或人工复制方式,存取至资料平台。

  资料收集需要避开的坑:不需要收集任何资料,有计划有目标地推进资料收集工作。举例来说:全省大数据平台的收集工作,要有明确的定位,各级单位负责收集哪些数据,厅直单位负责收集哪些数据,地市负责收集哪些数据,明确哪些数据需要统一汇集到大数据平台上,各级留有哪些数据,待需要时再收集。举例来说:常住人口数据由厅警钟长鸣,一旦数据采集完毕,便可保证数据的唯一来源,需要从其他单位或地市进行数据采集时,需要从其他单位或地市进行数据采集时,则需要统一提供给大数据平台访问,这样可以保证数据的权威性,避免数据在采集访问时出现重复采集、费力不讨好的情况,更进一步,根据各单位的职责,明确采集哪些数据,这样职责清晰,边界明确,有利于大数据系统的长远发展。


大数据


  对数据采集的思路先讲一讲,现在讲数据访问:数据访问面对所采集到的数据访问汇聚成大数据平台的过程,为后续的数据治理支持应用建设提供基础。

  一、数据访问的多源异构:有数据库的方式-Oracle、mysql和excel等各种类型的数据,还有离线拷贝的文件,这给数据访问的实施带来了极大的挑战,需要数据访问工具逐步支持这种多源异构情况,在保证数据一致性的前提下,实现数据访问的工作。

  二、数据接入的一致性保证:数据接入完成后会不代表接入就完成了,需要对数据进行核对,保证数据接入的源头和接入平台的资源,数据量的始终,字段数的始终,字段的始终,字段的始终,这些都是非常重要的工作,只有保证数据的一致性,后续数据才能发挥更大的价值,当然还会涉及数据质量,数据质量非常重要,后续专题展览中,数据要有生命力,数据质量要符合应用建设的要求,就像做项目一样,满足需求。

  三、数据访问的实施步骤:系统探查、数据探查和输出探查报告,系统探查,数据资源表的探查,主要是从该系统中获取的数据,源的相关属性字段就行进行探查,这一数据资源方面随后会更好地刻画和描述。DataProcessing:是一种针对数据资源的特殊资源,它存储数据值,包括表中有多少字段,每个字段的注释中文名称是否完整,数据值是否不为空等。在完成系统探查和数据探查之后,可以通过ETL工具进行具体的数据提取,包括在目标库建表中进行数据提取,数据提取需要考虑数据是否不断更新,更新机制是如何建立的,数据是否每日、每周更新,还是实时更新。

  获取资料的工作,是一项长期的工作,是一件很苦很累的工作,但是也是一件很重要的工作,没有获取资料,就没有大数据平台。随着应用建设越来越为各级政府和人民群众服务,对数据采集的需求也将不断提高,如何采集到权威、符合应用需求的数据成为当前亟待解决的问题。