020-29815005
预约专线时间:09:00-23:59

四点关于数据处理与分析

新闻来源:本站 日期:2021-05-27
现实生活中现在所有事情都受到监视及测试,从而创建了许多数据流,其数据量通常比公司处理的速度还快。因此问题就来了,按照定义,在大数据很大的情况下,数据收集中的细微差异或错误会导致重大问题。
  第一步:收集数据。

  对企业而言,无论是新实施的还是旧实施的系统,要实施一个大数据分析平台,首先需要了解需要收集哪些数据。由于数据采集的难度和成本,大型数据分析平台不会收集企业的全部数据,而是直接或间接地收集相关数据。公司应该知道哪些数据可以用于战略决策或具体的决策,经过分析的数据得到的结果是有价值的,这也是对数据分析师能力的考验。举例来说,这家公司只想知道生产线上的设备是如何工作的。这时,只需收集影响流水线设备性能的关键参数。再次,在产品的售后服务方面,公司需要了解产品的使用状况、购买类别和其他信息,这些数据对支持新产品的开发和市场预测非常重要。所以,建议企业在实施大数据分析计划时,准确地分析项目目标,这样更容易实现业务目标。

  数据收集过程中的困难主要是由于并发数量高,因为可能有数千名同时访问和操作的用户,如12306网和淘宝网,在2007年,他们的并发访问量已达数百人。所以需要在集合端部署大量的数据库来提供支持。此外,还需要深入考虑如何在这些数据库之间进行负载平衡和分段。

  第二步:导入和处理数据。

  采集过程只是建立大数据平台的第一步。决定需要收集哪些数据后,接下来就需要对不同来源的数据进行统一处理。比如,在智能工厂,可能会有视频监控数据、设备运行数据、物料消耗数据等等。该数据可为结构化或非结构化。当前,企业需要使用ETL工具将分布式和异构数据源(如关系数据和平面数据文件)中的数据清除到临时中间层以进行转换和集成,并将其从前端导入中央式大型分布式数据库或分布式存储集群,最终装入数据仓库或数据集市,作为在线分析处理和数据挖掘的基础。在导入和预处理数据源时,最大的挑战主要在于导入的数据量,通常该数据源每秒可达到100兆甚至千兆位。


大数据


  第三步:统计分析。

  统计学与分析学主要是利用分布式数据库或分布式计算集群,对存储在其中的大量数据进行常规分析与分类,以满足最普遍的分析需求。对此,一些实时需求将使用诸如EMC的GreenPlum、Oracle的Exadata和基于MySQL的列式存储Infobright等等,而一些批量或基于半结构化数据的需求可以使用hadoop。统计分析方法有多种,如假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、逻辑回归、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类与聚类、判别分析、对应分析、多元对应分析、最优尺度分析、自举技术等。在统计和分析部分,主要的特点和挑战是分析涉及到大量的数据,这会极大地消耗系统资源,特别是I/O。

  第四步:价值挖掘。

  不像之前的统计和分析过程,数据挖掘通常没有任何预先设定的主题,它主要是根据已有数据的各种算法进行计算,以达到预测的效果,满足某些高级数据分析需求。典型的算法包括Kmeans的聚类、SVM的统计学习和NaiveBayes的分类学习。Hadoop使用的主要工具是MahoutforHadoop。其特点和挑战主要在于挖掘所用的算法非常复杂,计算所需的数据量和计算量也很大。一般的数据挖掘算法多采用单线程方法。