风铃系统：如何清理问卷中的脏数据？

风铃系统致力于打造未来的商业操作系统，运用大数据和人工智能技术，推出了品牌体验、产品体验、服务体验和员工体验组成的CEM产品矩阵，为企业、政府、高校和个人提供问卷设计、样本收集、建模分析、决策建议等一站式解决方案。

那么，接下来风铃系统跟大家聊聊：调查问卷中脏数据的清理。

好的问卷数据举足轻重，但脏数据会污染好数据，甚至扭曲问卷结果，导致洞察失误。即常说的“Garbage in, garbage out”（GIGO，错进错出）。如果基于脏数据做出决策，可能会让调研的心血都付诸东流。2016年IBM一项研究估计，脏数据每年给美国企业造成的损失高达3.1万亿美元。

为了减少成本、做出正确决策，你需要学会清理脏数据，也就是那些不准确的、可能导致你的调查结果出现误差的数据。以下是简单的数据清理方法和步骤。

未完成问卷

未完成问卷产生的原因有很多：他们没法回答你的问题，比如从不运动的人无法回答对运动装备的使用体验；受访者产生调查疲劳，缺乏答完问卷的耐心，这样的受访者已作答部分可能不够认真，无法作为有效数据计入问卷结果。

如果完成率低得惊人，对于你来说是个危险信号，意味着很可能是问卷本身设计出了问题，比如问题过多过杂，未设置正确的跳转/显示逻辑等等，需要你对问卷作出进一步细致检查。

未完成问卷可以通过风铃系统筛选器清理，根据基本信息中的作答状态筛选，勾选包含“成功”作答的问卷就可以过滤未完成问卷了。

非调研对象的问卷数据

比如你的调研对象是Z世代，那么95年之前出生的人群就不符合条件。一般这样的人口属性要求，都要在问卷中设计对应甄别题，比如“您的出生年月是？/您的周岁年龄是多少”。但如果你在风铃系统的样本库中发放问卷就可以节省这步操作了，因为我们的400万+样本库覆盖了各年龄段、各行业和地域，可以根据人口属性和用户画像、行为画像等各类标签进行精准抽样，并在正式问卷之前设置前置问卷，确保抽样标签的准确，每份问卷低至0.5元。

超速者（speeders）和直线作答者（straight liners）

超速者指的是作答时间过短/过长的受访者，比如有人用20秒就答完了20道题，或者有人的作答时间比平均时长多出1/3。风铃系统在“总体报表”中自动计算好了平均完成时间，在作答数据中还可进一步查看每位受访者进入和完成的时间，以及总计时长。当你识别出超速者，即可标记为无效，无效问卷将不纳入问卷数据分析中。

更简便的方法是防患于未然，通过试调研确定最短作答时长标准，在发布时即可一键甄别超速者。

直线作答者是回答呈现出一定规律的受访者，这类问卷数据清理难度大，可以事先在问卷中设置陷阱题、反向题来检验受访者认真程度。

前后不一/与实际不符的作答

在年龄题中选“18岁以下”、在婚恋状况中选“已婚”的受访者，显然是反常的。有的人前后答案不一致，比如已声称自己从未使用某产品，却在回答了自己最喜欢的产品功能。像这样的答案可以通过筛选器进行筛选。

离群值（Outlier）

比如调查中声称自己有10个孩子，或者每天喝10L水等反常答案。你不能说100%是假的，但是这并不能反映一般情况，反而还会影响统计结果，比如范围、极值、均值、误差等，所以应该从数据中删除。

开放题无意义的答卷

有时哪怕已经限制了开放题形式（汉字/数字/字母等）和字数，依然会出现一些驴唇不对马嘴的的无效答案，像“啊啊@#￥……**%￥@%”之类的，都需剔除。

但不存在完美无瑕的数据，再好的问卷调查必然会存在误差，所以清理之前需要更小心谨慎。你可以自上而下（从数据分析结果来看）和自下而上（从原始数据来看）两方面进行评估删除数据是否会对结论造成影响。如果删除了脏数据但结论依然不符合假设，信效度不够，那么就该考虑是否是别的地方出现问题了。

风铃系统：如何清理问卷中的脏数据？

相关推荐