隐私挖掘 | 互联网数据工作者的一天

-回复 -浏览
楼主 2018-12-14 03:30:04
举报 只看此人 收藏本贴 楼主


钟平顺(笔名),任职于某互联网广告公司,现居北京。


感谢钟同学投稿!





 1   勤勉朴素乏善可陈


零点,电脑桌面右下脚的日期跳动了一下。

 

再调试调试训练流程。代码半小时,运行半小时。提交代码,改相关设置。徒挂 title,多少熬夜,终于有些成果。。

 

一点多。还可看书。翻蔡东藩的《南北史演义》。满纸骄佞荒淫,依然千秋万世。读了个把小时,意犹未尽。但还有因写科普文搁置的 The Elements Of Statistical Learning 等着。

 

四点了,筋疲力竭,睡觉。

 

九点四十,闹钟响。拿起手机看一眼微信。有报警,起床,开机,

 

登陆,定位,通报一声问题。

 

洗漱,吃饭,看天。天蓝自行车,天灰公交。上班。

 


 2   鸡毛蒜皮做职业人


安卓平台 SDK(Software Development Kit,软件开发工具包)新增订阅 Google Play API 功能: 收集设备正在下载的文件名。在用户数据这一环有所补强,看来模型优化有望。[1]


[1] 做模型是为了提升广告的转化率,为广告主降低获客成本。一般数据收集越多越全,模型就更容易做好。

 

产品经理提出需求,对发回的日志建立报表,分析用户下载内容,以建立所谓的“用户画像“[2] ,方便向广告主兜售流量……即使不论产品的蓝图,数据解析整理[3] 仍是必要的。但解析任务屡屡失败,解决问题需下一番功夫。


[2] 用户画像是互联网常见的营销方式,比如将用户按性别、年龄分类,这样广告投放的时候可以选择只投女性用户之类的。

[3] 数据收集的下一步就是数据清洗,把有用的部分提取出来,验证有没有问题。

 

产品要求在数据接口里添加区分广告类型投放数据的字段。照着需求做了十来个判断,临了验收又加了两个。

 

输入文件解压后上 G,每次运行调试都耗时数分钟。运行时间隙刷票圈,看到互联网权限问题被关心了起来,随手评论了几句。

 

新功能发回的日志包含了从谷歌邮箱下载的文件名。面试通知,银行账单,新闻图片,各式各样的 pdf……[4] 看来极难归类整理。并且来自邮箱的信息包含大量不可见和编码控制的字符,常常超过数据库长度规范。这些数据简直可以称作智齿。可惜。


[4] 隐私泄露的一大途径,过于开放的系统权限。Android 系统为甚。

 

午饭便利店,能吃上 20 块钱的番茄鸡蛋加土豆牛肉套餐,就算幸福。

 

数据处理集群负载异常,似乎被入侵了。[5] 


[5] 隐私泄露另一大途径,系统漏洞。。


运营同事反馈某个广告投放时无法显示下载页面,需要排查链接故障。

 

iOS 端负责分析竞品的同事发现某大 SDK 跳转时判断了应用是否安装。获取全量应用安装数据虽然有系统 API 可实现,但属于 AppStore 高压线,一经发现就可能下架。iOS11 后,获取全量安装列表的功能也失去了,高压线收缩到只能查询某应用是否已安装。[6] 若竞品有高招绕过高压线,再好不过。兴趣始终是教科书模型中的一环。


[6] Apple 的权限较为严格,但是强有力的数据带来的收益足以支撑犯险。

 

大广告商认为转化效率低,要扣款,需要原始日志。[7] 


[7] 广告商的 KPI 压力就是犯险的动力。


手动换过所有感染节点,同时禁止外部用户提交任务。


查询网络请求日志,发现最后跳转的地址看起来都是以 lazada:// 之类开头的——原始日志正在下载——看来是写在开发文档里的特性——估计竞品 sdk 判断的技术与此类似——日志下载完成——集群节点更换完毕——搜索 AppStore 官方文档关于 schema 的内容[8] ——整理下载好的日志,发给运营同事——集群负载暂时正常——因为转化效率低广告主要关停推广[9] ——读 AppStore 开发文档,与我所料相近——查看集群开放端口——关闭可疑的端口——转发文档——为早上提交的代码添加监控——检查集群的密钥和文件是否泄露——检查模型的代码是否正常运行——该提升数据的实时性还是该用新算法——检查集群数据是否有异常访问……


[8] 大部分权限和对应的功能在文档里都会有描述。独辟蹊径成本很高,且基本是高压线。不过利之所在,屡禁不止。

[9] 繁琐的 KPI 处理。

 

看来集群入侵者只想用机器挖矿,对集群存储的数据并无兴趣。


偷偷摸摸踩着高压线拿到的数据还在服务器上,一直没空看上一眼。这还是春节前赶着发出的版本,节后好分析数据。[10] 只能留待来日了。


[10] 厂商想方设法搞小动作。

 


 3   徒言壮语空怀激烈


八点了。到家九点。练吉他。十一点。

 

想看书,想看数据,想看模型。想起今天好像说要写点什么。


接上相伴多年的 cherry 键盘[11] 


哪里有什么隐私?!汲汲营营,无非效率,心心念念,只是特征。兢兢业业,唯唯诺诺,蜗居斗米。谁复记取虚无缥缈的权利。这虚拟世界中的大屠杀,权势资本永是上座,权利技术俱是奴役。互相残杀,无一生还。它发生过,在血肉之躯的世上。何曾有过温柔敦厚的资本,何曾有垂拱无为的权力?血肉之躯,尚且奉为牺牲,如何为空权留有余地?身临瓮釜鼎镬,还要嫌羹汤太热——只能嫌羹汤太热。


[11] 写完又是一个勤恳的收集数据的好码农。

我要推荐
转发到