020-29815005
预约专线时间:09:00-23:59

大数据时代的思考方式

新闻来源:本站 日期:2021-05-26
大数据时代,什么样的思考方式能帮助我们快速进入工作状态?
  全面思考问题。

  相对于全量思维,抽样思维在很长一段时间内,甚至在当今许多产业和实验中,抽样思维都扮演着重要角色。当数据难以获得和难以处理时,抽样思想是一种很好的权宜之计。

  但是在大数据场景中,数据的获取变得非常方便,数据的存储不再昂贵,各种硬件的性能不断提高,数据的运算速度也越来越快。特别是还有许多优秀的研发机构,如Hadoop,Spark,Flink等推出了强大的大数据架构,进一步降低了全量处理成本,使全量数据分析成为可能。

  容忍错误思想

  第二个重要的思想,就是容错,它建立在全量思想之上。

  由于我们生活的世界是纷繁复杂的,不确定因素使我们的世界充满了各种异常、偏差、错误,因此我们收集的全量数据自然也存在着这些问题,这是由数据的残缺、误差、采集设备的不足以及对非结构化数据的不同认识造成的。以往对数据的处理往往追求精确,希望借助严格的数据筛选策略和足够复杂的计算逻辑,以达到完美的结果,但这种方法并不符合实际情况,过于复杂也会导致泛化性能差,在测试阶段的优异效果,到了实际生产环境中往往会出现水土不服的现象。

  在大数据系统中,我们更应注重效率的提高,在这样的前提下,我们还应容忍一些错误,甚至是自身存在的错误,因为这些错误是大数据系统所无法避免的。


大数据


  关联思考

  因为海量数据的数量巨大,而海量数据中存在着各种各样的错误甚至是错误,数据之间的关系错综复杂。从这些资料中,我们可以看出,其中所蕴涵的各种奇特知识,都属于“事实”而非“因果”。比如,当某一地区在百度上搜索“感冒”的人数比平常多时,你可以根据数据推测出这里有许多人患了感冒,并因此作出一些商业决定,比如出售感冒药,但你很难从这些数据推断出他们为什么患了感冒。感冒的原因有很多种。

  大数据背景下,人们不再追求难以捉摸的确定的因果关系,转而寻找相关性。从相关关系分析可以看出:

  与东北人相比,广东人更喜欢洗澡;

  从十月到十一月是香山的全年交通高峰;

  在美国选举中,义乌印出的旗子多的人将当选。