(1)收集数据。
各种各样的数据生产方式都需要我们配有完整的数据采集方案,比如你想在应用程序上收集用户的行为信息,就需要在应用程序中设置各种数据埋藏点。
(2)储存数据。
尽管说存储的硬件成本降低了,但最终还是有成本的,同时数据也不能杂乱无章地堆积在存储设备上,因此相应的数据库和文件存储方案,需要精巧的设计来支持如此大量的数据访问。
(3)数据计算。
现在主流的方法是批量处理和流处理,针对这些方法,已经开发出了许多种计算框架,如现在广泛使用的Spark,Flink等。
(4)数据采集和分析。
考虑到数据量大、密度低等优点,我们希望能用一些巧妙的方法,从这些方法中找出有用的信息,甚至得出结论,因此出现了各种各样的算法和工具。
(5)使用数据。
由数据挖掘而来的有价值的信息,正在发挥着巨大的经济价值,内容推荐,气象预报,甚至疫情控制,都是在大数据的指导下进行的。
(6)数据安全性。
大数据具有很大的价值,这些数据一旦泄露,也会成为不法分子侵害我们权益的帮手。因此,如何保证数据的安全性也是一个重要问题。