全面思考问题。
相对于全量思维,抽样思维在很长一段时间内,甚至在当今许多产业和实验中,抽样思维都扮演着重要角色。当数据难以获得和难以处理时,抽样思想是一种很好的权宜之计。
但是在大数据场景中,数据的获取变得非常方便,数据的存储不再昂贵,各种硬件的性能不断提高,数据的运算速度也越来越快。特别是还有许多优秀的研发机构,如Hadoop,Spark,Flink等推出了强大的大数据架构,进一步降低了全量处理成本,使全量数据分析成为可能。
容忍错误思想
第二个重要的思想,就是容错,它建立在全量思想之上。
由于我们生活的世界是纷繁复杂的,不确定因素使我们的世界充满了各种异常、偏差、错误,因此我们收集的全量数据自然也存在着这些问题,这是由数据的残缺、误差、采集设备的不足以及对非结构化数据的不同认识造成的。以往对数据的处理往往追求精确,希望借助严格的数据筛选策略和足够复杂的计算逻辑,以达到完美的结果,但这种方法并不符合实际情况,过于复杂也会导致泛化性能差,在测试阶段的优异效果,到了实际生产环境中往往会出现水土不服的现象。
在大数据系统中,我们更应注重效率的提高,在这样的前提下,我们还应容忍一些错误,甚至是自身存在的错误,因为这些错误是大数据系统所无法避免的。
关联思考
因为海量数据的数量巨大,而海量数据中存在着各种各样的错误甚至是错误,数据之间的关系错综复杂。从这些资料中,我们可以看出,其中所蕴涵的各种奇特知识,都属于“事实”而非“因果”。比如,当某一地区在百度上搜索“感冒”的人数比平常多时,你可以根据数据推测出这里有许多人患了感冒,并因此作出一些商业决定,比如出售感冒药,但你很难从这些数据推断出他们为什么患了感冒。感冒的原因有很多种。
大数据背景下,人们不再追求难以捉摸的确定的因果关系,转而寻找相关性。从相关关系分析可以看出:
与东北人相比,广东人更喜欢洗澡;
从十月到十一月是香山的全年交通高峰;
在美国选举中,义乌印出的旗子多的人将当选。