风铃系统:如何清理问卷中的脏数据?
风铃系统致力于打造未来的商业操作系统,运用大数据和人工智能技术,推出了品牌体验、产品体验、服务体验和员工体验组成的CEM产品矩阵,为企业、政府、高校和个人提供问卷设计、样本收集、建模分析、决策建议等一站式解决方案。
那么,接下来风铃系统跟大家聊聊:调查问卷中脏数据的清理。
好的问卷数据举足轻重,但脏数据会污染好数据,甚至扭曲问卷结果,导致洞察失误。即常说的“Garbage in, garbage out”(GIGO,错进错出)。如果基于脏数据做出决策,可能会让调研的心血都付诸东流。2016年IBM一项研究估计,脏数据每年给美国企业造成的损失高达3.1万亿美元。
为了减少成本、做出正确决策,你需要学会清理脏数据,也就是那些不准确的、可能导致你的调查结果出现误差的数据。以下是简单的数据清理方法和步骤。
未完成问卷
未完成问卷产生的原因有很多:他们没法回答你的问题,比如从不运动的人无法回答对运动装备的使用体验;受访者产生调查疲劳,缺乏答完问卷的耐心,这样的受访者已作答部分可能不够认真,无法作为有效数据计入问卷结果。
如果完成率低得惊人,对于你来说是个危险信号,意味着很可能是问卷本身设计出了问题,比如问题过多过杂,未设置正确的跳转/显示逻辑等等,需要你对问卷作出进一步细致检查。
未完成问卷可以通过风铃系统筛选器清理,根据基本信息中的作答状态筛选,勾选包含“成功”作答的问卷就可以过滤未完成问卷了。
非调研对象的问卷数据
比如你的调研对象是Z世代,那么95年之前出生的人群就不符合条件。一般这样的人口属性要求,都要在问卷中设计对应甄别题,比如“您的出生年月是?/您的周岁年龄是多少”。但如果你在风铃系统的样本库中发放问卷就可以节省这步操作了,因为我们的400万+样本库覆盖了各年龄段、各行业和地域,可以根据人口属性和用户画像、行为画像等各类标签进行精准抽样,并在正式问卷之前设置前置问卷,确保抽样标签的准确,每份问卷低至0.5元。
超速者(speeders)和直线作答者(straight liners)
超速者指的是作答时间过短/过长的受访者,比如有人用20秒就答完了20道题,或者有人的作答时间比平均时长多出1/3。风铃系统在“总体报表”中自动计算好了平均完成时间,在作答数据中还可进一步查看每位受访者进入和完成的时间,以及总计时长。当你识别出超速者,即可标记为无效,无效问卷将不纳入问卷数据分析中。
更简便的方法是防患于未然,通过试调研确定最短作答时长标准,在发布时即可一键甄别超速者。
直线作答者是回答呈现出一定规律的受访者,这类问卷数据清理难度大,可以事先在问卷中设置陷阱题、反向题来检验受访者认真程度。
前后不一/与实际不符的作答
在年龄题中选“18岁以下”、在婚恋状况中选“已婚”的受访者,显然是反常的。有的人前后答案不一致,比如已声称自己从未使用某产品,却在回答了自己最喜欢的产品功能。像这样的答案可以通过筛选器进行筛选。
离群值(Outlier)
比如调查中声称自己有10个孩子,或者每天喝10L水等反常答案。你不能说100%是假的,但是这并不能反映一般情况,反而还会影响统计结果,比如范围、极值、均值、误差等,所以应该从数据中删除。
开放题无意义的答卷
有时哪怕已经限制了开放题形式(汉字/数字/字母等)和字数,依然会出现一些驴唇不对马嘴的的无效答案,像“啊啊@#¥……**%¥@%”之类的,都需剔除。
但不存在完美无瑕的数据,再好的问卷调查必然会存在误差,所以清理之前需要更小心谨慎。你可以自上而下(从数据分析结果来看)和自下而上(从原始数据来看)两方面进行评估删除数据是否会对结论造成影响。如果删除了脏数据但结论依然不符合假设,信效度不够,那么就该考虑是否是别的地方出现问题了。