BT财经

大数据“虫灾”:你的隐私可能只值一块钱

By 甘弋
2019-11-30 09:29:00

近日,江苏淮安警方查封了7家利用爬虫技术盗取用户隐私的科技公司,这7家公司共计盗取了4.68亿个人身份信息,而目前中国网民的数量为8.54亿人。换言之,至少有超过一半的网民失去了隐私。

 

 

2019年9月以来,警方发起互联网“除虫”行动,大力打击非法抓取用户信息的违法犯罪行为。在此之前,51信用卡、同盾科技等“独角兽”也在爬虫数据的应用方面误入歧途,丢了生意也毁了声誉。

作为互联网大数据最早也是最广泛的应用之一,爬虫技术正在遭遇前所未有的信任危机。

你的隐私只值一块钱

挂上科技公司的“羊头”,做着卖用户隐私的“狗肉生意”,这背后是暴利的诱惑。

据江苏淮安警方通报内容显示,此次被查封的科技公司,主要是通过“黑爬虫”网站的软件非法获取小贷公司的用户数据,再打包售卖的下游客户从中牟利。

据此前媒体报道案例显示,一份包含有个人身份信息、贷款数据、逾期数据等内容的400人隐私数据包,售价为500元,算下来,一个人的隐私价格为1块多钱。当购买者所需要的数据量足够大,一条个人信息的单价甚至可以低至1分钱。

 

 

在此次江苏淮安警方查获的7家涉事公司中,拉卡拉支付旗下的考拉征信也在其中。据了解,考拉征信向下游一家叫北京黑格公司的数据公司售卖数据接口后,该数据再次流通到下游购买方。

作为二级“代理商”的考拉征信,从2015年3月以来共计提供了近1亿次“身份证返照”查询的非法业务,从中获利3800万元。照此计算,考拉征信贩卖一条隐私信息可获利2.63元。

贩卖隐私信息的成本是多少?通过工商信息可以了解到,作为隐私数据源头的北京黑格公司登记员工人数为3人。若这3名员工均为爬虫技术工程师,按照目前2万至4万的薪资计算,北京黑格的人工成本为每年72万元-144万元。按照1分钱一条隐私的价格,只需要售卖7200万条信息就能回本。

隐私的终点站

据警方通报信息显示,上述7家科技公司售卖的隐私数据,最终将被用于推销贷款和催收,以及和其他公司交换信息。其中,专门从小贷公司专区截获的个人信息,可用于放贷以及继续向下游客户售卖。

10月21日,港股上市公司51信用卡因委托外包催收公司涉嫌寻衅滋事等违法行为,被公安机关调查。消息称,51信用卡通过爬虫数据窃取用户隐私数据,并将数据库打包流通至催收公司。在此之前,该公司因未经用户同意收集个人信息而被工信部点名批评。

9月,大数据明星创业公司魔蝎科技的涉案人员,因非法贩卖个人隐私被警方带走。在此之前,该公司曾开发过一款专门爬取支付宝数据的产品。据其产品介绍,个人只要扫描一枚二维码就会将包括真实姓名、手机号、收货地址、近一年的购物信息、交易记录等信息事无巨细地统统“上交”给数据库。

2019年3月,号称中国最大的简历大数据公司、曾获李开复旗下创新工场投资的巧达科技,被警方“一锅端”,原因是非法售卖简历信息。

据警方披露,巧达科技非法获取了2.2亿自然人的简历信息以及超过10亿份通讯录。而这些信息背后,是与此相关的社会关系、组织关系、家庭关系。按照此前巧达科技的官宣数据,这家公司拥有超过8亿自然人的全方位数据。

更早,“大数据行业第一股”数据堂的员工也爆出贩卖公民信息的丑闻。据公开信息显示,该案6名主要涉案人员在8个月时间内,共计贩卖公民信息量达到百亿条,累计传输数据压缩后约为4000GB左右,相当于传送了2000部《战狼2》。

这些隐私数据的主人不一定是贷款人或者小贷平台的用户,他们可能是网购达人、准备买房的青年、正在准备就业的大学毕业……据悉,数据堂所贩卖的隐私数据主要内容为手机号、地区和互联网使用习惯偏好,通过标签化可以做到精准营销。

大数据光环下的“虫灾”

爬虫技术诞生于上个世纪90年代,最早被应用于Google等搜索引擎。爬虫技术通过抓取互联网网页信息并对其进行筛选、储存,就能成为一个巨大的“数据包”,供用户在搜索引擎上检索。百度搜索也是基于爬虫技术而实现的。随着技术的演进,后续还出现了“算法推荐”等基于爬虫数据库而升级的新工具。

技术无罪,人性作祟。在爬虫技术诞生之初,一些搜索引擎同一些网站通过邮件的方式定下“君子协议”—— robots.txt。协议内容规定了搜索引擎在网站抓取内容的范围和禁区。彼时,爬虫技术的生长环境还是透明的,内容获取和提供方的关系也更为和谐。

 

 

历史上关于爬虫数据的第一场纷争发生在2000年。美国支付平台eBay将一家比价网站BE告上法庭,原因是BE违反了爬虫协议,将禁区内的用户信息爬取并聚合公开。尽管BE声称该内容属于用户集体贡献而不归用户所有,但最终eBay胜诉。

2017年,领英以违法爬虫将一家数据分析公司告上法庭。但结果和eBay不同,领英败诉。

尽管领英一再强调保护用户隐私不被未知第三方滥用,且用户能够控制自己的数据将被用于何处。但实际上,领英对这家数据公司的爬取是知情的。发起诉讼,源自领英准备开展与该数据公司类似的业务,为此需要阻断其爬取行为。

两场官司的出发点发生了变化。从最初的单纯维护爬虫协议的“保护隐私原则”,转变为以谋求自身利益的爬取反制——经过20年的演变,爬虫数据的行业自律行为,已经远远超过互联网道德约束的边界。

什么数据能爬取、爬取行为如何约束以及怎么使用爬取的数据,业界标准无法统一。“君子协议”防不住小人,只能由警方和检方出马了。但此起彼伏的追查行动,无法根治爬虫带来的“互联网虫灾”。

解铃还须系铃人,爬虫数据迫切需要进行技术革新,以突破其不受约束的自我局限性,重拾公众信任。

版权声明:本文版权归BT财经(微信号:BT财经)所有,财经时报为BT财经授权转载的唯一网站,未经BT财经允许,任何单位或个人不得转载、复制或以任何其他方式使用本文全部或部分,侵权必究。
© Copyright 2024 BT财经.