四点关于数据处理与分析

新闻来源：本站日期：2021-05-27

现实生活中现在所有事情都受到监视及测试，从而创建了许多数据流，其数据量通常比公司处理的速度还快。因此问题就来了，按照定义，在大数据很大的情况下，数据收集中的细微差异或错误会导致重大问题。

第一步：收集数据。

对企业而言，无论是新实施的还是旧实施的系统，要实施一个大数据分析平台，首先需要了解需要收集哪些数据。由于数据采集的难度和成本，大型数据分析平台不会收集企业的全部数据，而是直接或间接地收集相关数据。公司应该知道哪些数据可以用于战略决策或具体的决策，经过分析的数据得到的结果是有价值的，这也是对数据分析师能力的考验。举例来说，这家公司只想知道生产线上的设备是如何工作的。这时，只需收集影响流水线设备性能的关键参数。再次，在产品的售后服务方面，公司需要了解产品的使用状况、购买类别和其他信息，这些数据对支持新产品的开发和市场预测非常重要。所以，建议企业在实施大数据分析计划时，准确地分析项目目标，这样更容易实现业务目标。

数据收集过程中的困难主要是由于并发数量高，因为可能有数千名同时访问和操作的用户，如12306网和淘宝网，在2007年，他们的并发访问量已达数百人。所以需要在集合端部署大量的数据库来提供支持。此外，还需要深入考虑如何在这些数据库之间进行负载平衡和分段。

第二步：导入和处理数据。

采集过程只是建立大数据平台的第一步。决定需要收集哪些数据后，接下来就需要对不同来源的数据进行统一处理。比如，在智能工厂，可能会有视频监控数据、设备运行数据、物料消耗数据等等。该数据可为结构化或非结构化。当前，企业需要使用ETL工具将分布式和异构数据源(如关系数据和平面数据文件)中的数据清除到临时中间层以进行转换和集成，并将其从前端导入中央式大型分布式数据库或分布式存储集群，最终装入数据仓库或数据集市，作为在线分析处理和数据挖掘的基础。在导入和预处理数据源时，最大的挑战主要在于导入的数据量，通常该数据源每秒可达到100兆甚至千兆位。

大数据

第三步：统计分析。

统计学与分析学主要是利用分布式数据库或分布式计算集群，对存储在其中的大量数据进行常规分析与分类，以满足最普遍的分析需求。对此，一些实时需求将使用诸如EMC的GreenPlum、Oracle的Exadata和基于MySQL的列式存储Infobright等等，而一些批量或基于半结构化数据的需求可以使用hadoop。统计分析方法有多种，如假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、逻辑回归、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类与聚类、判别分析、对应分析、多元对应分析、最优尺度分析、自举技术等。在统计和分析部分，主要的特点和挑战是分析涉及到大量的数据，这会极大地消耗系统资源，特别是I/O。

第四步：价值挖掘。

不像之前的统计和分析过程，数据挖掘通常没有任何预先设定的主题，它主要是根据已有数据的各种算法进行计算，以达到预测的效果，满足某些高级数据分析需求。典型的算法包括Kmeans的聚类、SVM的统计学习和NaiveBayes的分类学习。Hadoop使用的主要工具是MahoutforHadoop。其特点和挑战主要在于挖掘所用的算法非常复杂，计算所需的数据量和计算量也很大。一般的数据挖掘算法多采用单线程方法。

上一篇：为什么要企业定制开发H5？

下一篇：怎样分析大数据？

客服电话：020-29815005

开班信息 MORE>>

有问必答 MORE>>