020-29815005
预约专线时间:09:00-23:59

数据分析的陷阱?

新闻来源:本站 日期:2021-08-03
可视化数据越来越受到企业或业务部门的重视,也成为我们在实际工作中最重要的参考和决策支持。
    很多数据分析人员往往过于注重数据或分析方法等等,特别是对于初学者,在读数据的过程中,受数据来源、采集方法、统计口径、分析方法、业务经验、思维方式等因素的影响,就会出现一些容易忽略的“陷阱”,从而得出结果有偏差。因此,重视数据分析固然不错,但也绝不能落入数据分析的“陷阱”。

    然后,本文将从业务的角度,对数据分析过程中可能出现的几个常见的“陷阱”进行探讨和梳理,旨在为刚入门的、产品、运营等提供一些有益的经验分享,帮助大家在实际工作场景中遇到这些情况时,尽量避开一些不太注意的“陷阱”。

    1不了解数据来源,也不保证其正确。

    分析更多地关注于分析,而非数据本身,这就造成了数据分析的最大陷阱:不了解数据来源,不能保证其正确性,就开始分析。所以数据分析的第一步是了解数据源,保证数据的准确性。

    例如,一款考勤软件App在做渠道投放,新版落地页上线。在上线一段时间的数据稳定后,业务人员从数据中发现,该渠道的落地页面点击率、转化率等数据比其他渠道投放的效果要高得多,从数据上可以看到说明这个渠道的用户效果很好,从数据上可以看到说明这个渠道的投放效果很好。可是,突然间接到技术员的反馈,在资料埋藏时无意中埋设错误,导致统计数据出现问题,本渠道的资料是本频道两个其它渠道的总和!

    由于数据不正确,导致错误的分析结果,也会做出随后的错误决策。因此,对数据进行有效分析的前提,就是对数据做好分析。特别是小公司的人员,没有强大的数据团队,可能会借助于各种第三方的统计软件做数据埋点,此时首先要确认数据的正确性,去梳理数据来源。

    2要求不匹配,分析目的不明确。

    整理数据来源,确保数据准确是前提。然后就是要明确分析的目的,分析的目的是明确的,后面的各种统计数据和分析方法以及分析结果才有意义。达到明确目的后,才有后续分析思路。

    举例来说,考勤应用程序的业务人员会要求转化率更低,是否需要优化空间。不过我们也没有进一步确认是哪一个环节的转化率低,就开始直接拉取数据进行分析,其实业务人员所说的是新用户会员成单的转化率,是不是来源不精准,是否要优化渠道或者停止投放,而我们的需求不明确,就是无法进一步分析的。

    所以,根据业务方的需求,首先要明确为什么要做数据分析,解决哪些问题,即分析的目的。接着针对分析目的,构建分析框架,选择分析方法和具体分析指标,并明确抽取哪些数据、用到哪些图表等分析思路,只有对分析目的有一个清楚的认识,才能避免错误分析,分析的结果和过程就越有价值。



    3数据未经清理,数据采集有偏差。

    理解数据源,确定准确,明确分析需求,下一步就是数据采集和数据清理,这也是最容易出问题的一个环节,有些问题甚至很隐蔽很难发现。所以数据本身就没有视角,分析时不能预设视角,只偏爱那些可以支持自己观点的数据,在数据清洗过程中,合理地确定数据容量大小,剔除脏数据。

    关注选择性偏见和幸存者偏见。在所有的样本中,任何一组样本的平均值,都将围绕整个群体的平均值展开。在此基础上,我们就可以在整个样本中随机抽取一个小群体进行抽样分析,得到的结论将会更接近于实际情况。但收集数据的过程是否真的是随机的。

    例如,在一款考勤软件APP应用升级期间,通过测量用户的日寿命、留存率、活跃企业数等指标,判断用户对新版的喜爱是否比旧版本好。但是实际上,在这里隐藏了选择的偏差,因为当新版本发布时,第一个升级到的用户通常是最活跃的用户。这个用户在这些指标上,本来表现都优于普通用户,所以指标数据越高也不代表越好。

    关注数据样本容量不足。分析某一特定用户行为数据时,用户可能很少使用这些数据。或是在数据提取的过程中,添加了许多限制条件或多个用户行为或属性进行交叉后,得到的样本很少。至此,所得出的分析结果并不可信。由于大数定律,只有当数据量达到一定程度时,才能反映特定的规律。但样本量的多少才算合理,通常只是具体的情况。

    例如,一款考勤软件APP应用新上了学习打卡的新功能,但由于前期没有预算做推广,导致新功能只能在少数老用户群中曝光,因此,从数据中判断此功能并不受欢迎。但是实际的数据样本容量不足,并不能说明问题。所以,遇到这种情况,建议可以延长时间表,以便有可能得到足够数量的样本。此外,还可以去除无关紧要的限定条件,或者增加样本数量。

    小心脏数据的存在。脏话数据是非常不合理的,或者对于实际业务来说没有任何意义的数据,通常是由于程序缺陷、第三方攻击、人为原因等。这些数据对指标准确性有很大影响。

    例如,我们要分析某一种考勤软件APP上各企业类型打卡规则的分布情况,而用来分析打卡视角的用户打卡视角多是个人打卡并不是我们要分析的目标群体或某个人工种的特殊性,就会造成打卡规则分布不规则的情况,容易造成对用户偏好的误判。所以,对脏数据的清理与处理,也是数据分析师日常工作中很重要的一部分。对具体业务进行分析时,也要针对具体业务,过滤掉不正常的数据,以保证数据质量。

    4指标不合理,数据具有及时性。

    清理完数据后,下一步要明确数据指标分析,要对数据进行分析,其数据分析的结果往往是各种各样的指标,每一个指标都有它自己的统计逻辑,反映事物某些方面的本质。

    例如,很多时候我们用平均值来描述一组数据的集中趋势。当我们设定业务阈值的时候,也经常参考均值。然而,有一些业务场景不适合平均计算。比如有较大的变化,有极端值的数据,或对最终结果不一致的数据。这时,你就要考虑其它的指标,例如加权平均数,百分位,小数值合并,然后计算平均数。

    所以,在进行数据分析时,如果不能正确选择指标,也有可能走入误区,从而得出错误结论。这些数据具有一定的时效性,不同情况下的数据,有些以前的数据可能不再适用,需要找到新的数据指标。

    5组使用方法,分析结论不严谨。

    明明白白的数据分析指标,接下来就是通过各种数据分析方法分析数据,得出结论,支持商业决策。资料分析方法学是指导一项资料分析项目整体工作的一种理念模式。不过,在进行数据分析学习时也许习惯了各种各样的解题步骤,但实际练习中却没有普遍的分析方法。不一样的行业、不同的业务、不同的阶段,即使使用同一分析方法的结论也应该有所区别。

    举例来说,在实际的工作场景中,数据分析需要快速判断数据表现,从而指导操作决策,而不像学术研究那样严格,无需在每次分析之前验证样本群是否符合某种统计分布,等等,实际工作中,考验得更多的是对业务的理解能力。因此,在开展数据分析工作时,不能完全依靠以往类似案例和分析方法,而应重视对业务的认识。

    所以,每一次分析,都要结合商业场景来思考,更不能被各种套路式的方法论所束缚,也不能仅仅依靠过去的类似案例。

    6轻视商业,脱离实际场景。

    跟据不同于真实的场景,真实的场景往往比数据更复杂,分析时需要具体的场景,而不是抽象的数据,对数据进行分析,初学者极易犯错误,只知道工具不懂业务,不能真正理解业务需求。优秀的分析员需要既懂工具和业务,还应该多到前线了解业务操作,帮助解决业务运行中遇到的各种问题。

    例如,结构化思维模型、KANO分析模型、RFM模型、四象限模型...这些经典且被广泛应用。建立一个丰富的数据分析模型库,用于处理各种业务场景。

    所以,数据分析师结合实际业务场景,需要具体问题具体分析,服务于业务应用。数据分析的结果能够及时地与企业各部门进行沟通和共享,从而体现数据分析的真正价值。因此,作为数据分析师,要结合业务需要,保持独立思考的心态,大胆假设,谨慎求证,警惕并避免走进数据分析的陷阱。

    概述。

    现实生活中,还有许多与数据分析有关的问题需要我们注意,这里并不一一展开,本文只是从业务层面的角度,梳理一些关于数据分析各个环节可能存在的误区,从而引发误导。

    1、不了解资料来源,不保证资料的正确性。

    2、需求不匹配,分析目的不明确。

    3、数据未经清理,数据采集有偏差。

    4、指标不合理,数据具有及时性。

    5、应用方法分析结论不严谨。

    6、轻视业务,脱离实际的场景。

    总而言之,我们需要逐步积累经验,有效地使用数据,避开上述数据分析“陷阱”,分析就会越来越准确。值得注意的是:过去成熟的分析方法以及经验虽然很实用,但随着大数据时代和5G的到来,企业的数据量不断扩大,业务需求不断变化数据分析的环境也不断变化,要实时地更新知识和工具库也要警惕和避免在大数据时代和5G的到来下,特别是对刚入门的数据分析。