单一的数据点一般没有价值。相反,数据价值随着可连接的数据点数量的增加而增加。知道一个人是男性并没有什么用。然而,这些信息结合他们的位置和他们在过去30天里的购物情况,就可以用来预测或锁定他们需要和想要的产品。
匿名数据本身并不完美。研究表明,只要知道一个人的邮政编码、出生日期和性别,就能识别出他的身份,这个识别准确率达87%。同样,Netflix的研究人员发现,即使Netflix的评论是匿名发布的,他们也可以识别出在两周内给六部电影打分的人是谁,这个识别准确率达99%。6
克里斯:数据匿名化有四种类型,可移除个人可识别的信息。你可以完全移除任何可用于识别某人的信息;你可以编辑,即用记号把纸上的数据涂掉;你也可以给数据加密,或者掩盖个人身份信息。7
艾美:假名取代了数据中可识别的部分,因此在没有额外信息的情况下,假名不能被用来重新识别一个人的身份。匿名化会破坏可用于识别个人身份的数据。8