有人的地方就有江湖。有互联网的地方就有色流大军。人工智能时代,在这场用色情变现与用人工智能抵御变现的博弈战中,谁更胜一筹?
贪嗔痴、奢淫逸、黄赌毒,人有七情六欲。每一类情欲都是巨大的风口,加以利用便是千亿级的产业。游戏、音乐、夜场满足人们对犬马声色的渴求;电影、书籍、报刊满足人们对窥视的好奇;门户、直播、微信的出现,更是滋生了巨大的色情产业江湖。
暗流涌动:进军互联网+情色
互联网的飓风,正以摧枯拉朽之势改变或颠覆着传统商业模式。如出行、医疗、零售、金融等领域,而地下色情产业更是利用互联网开辟出卖淫之外的新战场——色情直播、一夜情等。
战场有了,玩家如何入局?色流产业链应运而生。这些“战场”都处于隐蔽地带,需要一批专员接送玩家,于是催生出了一批引路人,这些人组成了色流大军——专门在网上发布色情信息,以吸引流量,从而变现。
而另一拨人为营造绿色网络环境,需不断封杀发布情色信息的色流大军。1978年,第一封互联网垃圾邮件的出现,打响了双方攻防大战的第一枪。
到2008年,战斗已打了近三十年,战场从网易、新浪等门户网站、打到百度贴吧、腾讯QQ、微信等。显然,线上色情信息传播渠道,基本集中在当下各大门户网站和社交平台。因为,只有最火爆的产品,才能吸引更火爆的色情流量。
2008年的博客,独领风骚,傲视互联网群雄。此时,一群躲在暗处的人正对着博客虎视眈眈,朱小虎(化名),正是这群人中的一个。
初中毕业的朱小虎,工作两年,那年他待业在家,整日沉浸网游《真三国无双》之中。两个月后的一天深夜,他的QQ收到了一个消息,是他一个在城市打工的初中同学发来的——问他是否有意一起干大事——足不出户月入上万。有这样的工作,他自然高兴加入。
当时色流大军正处于文本信息时代,朱小虎的工作主要是注册帐号、在网易博客等各大互联网阵地复制粘贴暧昧消息,并留下QQ号码,达到引流目的,根据每个QQ号吸引人数的多少进行提成。
很快色流大军和网易内容安全部展开了攻防拉锯战。同年,现任网易云安全(易盾)CTO朱浩齐加入网易,负责网易博客内容安全。
网易云安全(易盾)CTO朱浩齐告诉Xtecher,对于这类色情文本信息处理,从技术层面相对容易,只需通过抓取关键词、查询同一时段留言帐号的IP是否相同,通过长期监测帐号行为,系统基本就可过滤大部分色情等垃圾信息。
正如朱小虎表示,刚入行那会,没什么经验,没有什么好办法回避网站安全检测的慧眼,发出的消息第二天可能就被删除,吸引不到流量。但以朱小虎为代表的黄色信息传播者会就此收手吗?
地下组织:锐不可当的色流大军
随着技术的变革,色流大军开始组织化,团伙化,分工与合作明确,上下游产业链日渐成熟。
在朋友的指导下,朱小虎逐渐学会了文本上的变种,通过谐音、异形字、敏感词之间加入乱码等形式来骗过系统审查。“那个时候被删得没那么快了,收入也高了一点,有不同项目来找我们。”
朱小虎说的“项目”指的是他们的客户,这些客户有的是赌场,有的是发票公司,更多的是色情组织。
(消息自动发送软件)
通常色情组织负责人会给他们几个QQ、微信帐号,让他们将客户吸引到这些帐号里,每个色流客户价格从几毛到几元不等。这条色流产业链已经逐渐形成规模化。
朱浩齐告诉Xtecher,当有人提出寻找潜在色情客户的需求后,一些团队打着“互联网营销推广”的名义承接业务。之后,团队分析订单技术难度。要想吸引更多潜在用户,需要在热门产品下曝光。但这些产品帐号注册需要验证码甚至短信验证,如果全部自己操作无疑会加大投入成本,于是他们开始找寻下家合作。
在这条色流产业链上,有的黑产负责注册大量帐号,这些帐号几天登陆一次,发贴、回复,其行为和普通用户没有区别,属于色流产业中的高端帐号。一旦等到客户出现,便批量将帐号卖出。
朱浩齐表示对于这些帐号,网易云安全(易盾)会将其列入灰名单,待其有违规举动,立即封杀。
此外,有的黑产提供IP资源,研发自动评论工具,利用病毒控制大量肉鸡,只需将帐号和IP输入工具内,便会自动切换帐号和IP进行评论发布。
有的黑产研发验证码、短信验证打码平台,只需将验证码的图片通过API发送到平台,就能得到正确的验证码结果。
黑色产业链的形成,使得色流大军从当年的散兵游勇,升级到了正规军兵团,其战斗力不可同日而语。色流大军开始攻城略地,所到之处,色情信息遍地,各大门户、论坛苦不堪言。新浪、网易博客,QQ空间等产品都曾遭受色流大军的攻击。也正是这个节点,网易迎来了历史上最强劲的一次攻击。
攻与防:道一尺魔一丈
“哪个地方最火爆,我们就去哪里发帖,不管是门户还是游戏网站。新浪,网易,一些楼凤论坛,英雄联盟这些地方我们都发。”朱小虎表示,哪里屌丝多,他们就去哪里,“老司机论坛才有转化率”,相比一些文学论坛他们就发的少——“这些地方的人,精得很,转化率太低。”
形成产业链后,最高时朱小虎可日进万元。他只需专注利用工具发帖,得到足够多的流量后,自然有人给他报酬。“高的时候一天有近万人加我。”——这是朱小虎攻城略地的战果。按每人一元计算,如果流量全部被收购,朱小虎的一天收入不菲。
近万的流量如何生成?有一部分就是从各大博客转换而来的。当时的黑产大军进行了技术升级,不再仅限于文字攻击。
朱小虎有着用色情信息攻击博客群的实战经验。2009年的一个夜里,他收到了消息,当天夜里他需要和团队一起攻城略地。离出击的时间越来越近,QQ头像闪动,打开对话框跳出两个字——出击!
无法确定是否在同一天,同样在2009年的一个夜晚,朱浩齐接到值班人员的告急电话——博客正被大量色流信息攻击。
养号千日,用号一时,这一回色流大军使用了许多平日里“表现良好,无不良记录”的帐号,并且通过发布大量大尺度却不违规的美女照片,吸引网友点击他们的帐号,并在帐号主页里留下并不违规的交友信息与QQ号。
此举骗过了系统,很快大量情色信息充斥到了网易博客。值班人员发现后立刻通知朱浩齐,查明原因后,网易紧急调动几百人开始对这些大尺度照片进行人工删除,奋战终日,方才控制住局势。
网易云安全(易盾)CTO朱浩齐告诉Xtecher,当时参与删帖的同事都戏称那是公司发放的“福利”。
此后色流大军的攻击方式日益多样化,攻击力度亦与日俱增。许多色流从业者伪装成用户,打电话到网易安全部,套问自己的帐号通过什么手段被封杀,继而改变策略继续攻击。朱浩齐告诉Xtecher,2008至2009年博客类产品飞速增长,一年间网易博客估计删除垃圾信息数十亿条,封禁垃圾用户上千万。
【2015年网易清理的垃圾信息,资料来自网易云安全(易盾)】
朱浩齐表示,数据显示,这背后的攻击,多数来自一线城市的郊区地带。在这些地方,能便捷获得各类硬件、软件等技术支持。
垃圾黑产的团伙化以及追逐流量而进行的攻击,成了网易成立专业内容安全部门的触发点。
人工智能:力挽狂澜
随着互联网产品日趋多样化,色情信息的传播路径和形式越发“高级”。比如,视频直播的出现让色流大军在热门直播平台的各个角落里散布垃圾内容:弹幕,评论,昵称,头像,签名,用户资料,甚至直接参与违法直播表演。
这令鉴黄人员苦不堪言。他们24小时轮流值守,查看直播间是否有色流弹幕、有无大尺度露点等,以阻止色情信息的传播,甚至有的男性鉴黄人员因为长期观看大尺度照片、视频,到家缺乏精力,被女友责难。
显然,继续用传统的人力手腕来阻止色流信息的传播,已经变得势单力薄了。色流大军的猖狂不绝,迫使网易在2009年开始提升对黄色信息的狙击能力,研发更先进的算法。当时网易已将肤色识别,纹理识别等应用到反色流领域,但肤色识别同样存在缺点——系统将黄色树叶、黄色的沙子当做了色情图片予以屏蔽。
随后,网易尝试使用非机器学习领域的算法与模型,但基于当时的算法、硬件等生态环境的不够成熟,最后试验出的效果总无法满足实际操作情况。
显然,此时的网易仍旧处在被动的防御状态,直到人工智能的出现。
2012网易开始组建内容安全部门,即网易云安全(易盾),并进一步尝试人工智能在内容安全领域的应用。而色流大军早已将垃圾信息进行各种的演绎,试图骗过系统识别。
(色情消息变种图)
道高一尺,魔高一丈。其中以最后两条较为隐蔽,传统文本失效后,色流大军发布了各种Unicode符号替换文本内容,如图中汽车,并修改帐号昵称,更在头像中留下微信号码,以传播色情信息。如果加上IP,帐号等不停变化,抓取难度便大幅提升。甚至,某些色流大军使出了凌波微步,传统检测方式单独处理昵称或者评论时,都可能失效。
对此,网易云安全(易盾)设计开发了“所见即所得”的过滤系统,尽可能真实地还原产品数据展示形式,将昵称和评论内容一起做语义分析,也会将头像图片经过机器识别后跟评论内容一起审核。
随着语义理解、图像识别等智能文本、图像鉴黄登场,大批鉴黄人员被从中解放了出来。除了网易云安全(易盾),更有达观数据、极限元等科技公司披坚执锐,以阻止色流信息的传播。
搏杀之利器:文本、语言、图像
2015年下半年,达观数据CEO陈运文离开阅文集团(腾讯阅读和盛大文学合并),创办“达观数据”。同年年底“达观”完成1000万元天使轮融资,2017年获5000万元融资,专注提供大数据技术服务,其中一项业务是:文本处理功能。该功能可以自动提取关键词、打标签、文本内容检测、分类等。
陈运文告诉Xtecher,在文本信息层面,他们通过生成对抗网络,可以删除过滤色流信息。
“通过人工智能防御系统,在实战中不断升级,将最新出现的各类色流变种信息,整合到模型中,继而达到系统自我识别预判的目的,能将色流信息的各种变形变换,中间跳字等变种识别出来,加以屏蔽。”他进一步解释“达观数据”绞杀不良信息的本事。
陈运文做出了一个直观的比喻,“我们做的就是抗生素,当然病毒会不断变异,我们不断升级抗生素的杀菌能力,有点像打疫苗。”
有了人工智能做出的疫苗系统,下次色流病菌入侵的时候,就将被自动免疫。“当然以上针对的只是文本层面的色流信息,而对于图像层面的色流信息,就需要用到图像识别。”原因是,图片中的色流信息千变万化,在图片识别上,色流工作者会更多采用非常规字体贴到图片上,比如将普通字体变形、加入艺术字等,加大了人工智能识别难度。
显然,清除带有黄色信息的图片需要从技术层面强化。
对此,另一家专注智能语音、计算机视觉等领域的人工智能技术公司----“极限元”在图像识别鉴黄领域也有自己的建树。极限元联合创始人马骥告诉Xtecher,对于色流图片中的字符内容、二维码等信息,主要通过对字符、二维码的检测、定位,来识别其中的内容信息。另一方面,通过深度学习技术,基于大量图片数据,训练图像视频识别模型,用以识别图片及视频中的涉黄内容。
马骥表示,目前直播平台涉黄图像检测的准确率高达99%以上,误报率低于1%,需要客服进行人工复核的比例不超过3%。人工复核后的数据会被收集起来进行迭代训练,这样可以不断提升识别的准确率。
(极限元在线直播音视频敏感信息检测图)
而除了使用文字和图片继续色情引流之外,色情传播的形式更向动态化演进。比如,女主播还会通过语音播报微信号码,让观看直播的男性添加微信,此类引流手段甚为快捷,两个小时即可引来五六百的流量,然后通过视频软件“开车”。观众只需发送几十元的红包,即可“上车”观看女主播线上举办的闭门大尺度直播盛宴。许多女主播,一晚收入数千、上万,月入十余万。
为此,除了文本和图像方面对色情信息的识别,各大人工智能技术平台更将智能语音应用到了直播领域。极限元通过深度学习技术,识别和分析出语音中的信息内容,从而判断出语音内容中是否含有敏感信息。使得在文本和图像外让反色流多一个观察维度。此外,极限元还拥有智能语音、声纹、图像识别等一系列人工智能技术,已和国家网信办、公安部、搜狗、奇虎360等机构合作。
而网易云安全(易盾)更是专门为直播行业打造智能鉴黄系统,代替鉴黄师,解决视频鉴黄、互动过滤,将用户签名、头像等都纳入审核管理。
百战不殆:新时代的色流大军
基于图像识别技术的视频涉黄检测,准确率可以达到99%以上,通过对人工智能的应用,极大地将人在对抗色流大军的繁琐工作中解放出来,然而即便如此,这场战斗仍旧没有打完。
原因是,目前人工智能在色流抵御的某些环节技术能力仍薄弱。比如对于新增的色流传播形式和途径缺乏了解,等待人工标注数据,学习建模后有一定滞后性。
正如极限元马骥所言,“人是懂得暗示的,除了显而易见的敏感关键词,还不断使用大量隐晦的关联词语。” 比如,色流大军经常肆无忌惮地出现在LOL游戏、直播中,用软件自动发布内含隐晦色情信息和联系方式的弹幕,继而得到流量。
此外,除了在开放性的论坛、门户网站、直播间等平台发布色流信息外,色流大军更是将战斗力转移到微信等封闭式产品中。
(群控手机)
打开微信附近的人,随意可见各类妩媚女性,常有美女主动打招呼,相聊甚欢,但背后,控制这个美女帐号的,可能是一个猥琐大叔。
当一个帐号添加足够人数后,会被卖给各类情色会所、化妆品公司、理财机构等。朱小虎表示,这些机构买下微信帐号后,通过朋友圈展示产品、情色资源等,以达到流量变现的目的,而这其中以色情流量转换率最高。
因为微信聊天内容属于隐私,目前似乎还难以监管,所以庞大的色流大军不断涌入,渴望分一杯羹。
随着互联网传播媒介的不断变化,色流大军亦紧随时代步伐,不放过任何可利用的产品与漏洞。
虽然人工智能技术被应用于反色流,但网易云安全(易盾)CTO朱浩齐表示,色流信息并没有因此而减少,反而随着科技的进步色流攻击越来越多。
色流产业有多大的规模,目前难以预测,腾讯、新浪、网易等各家数据都是封闭的,难以以一家数据预测产业链规模。
从传统互联网博客,到移动互联网的微信、直播等,随着互联网技术和产品形态的演进,带宽的增加、群控设备的研发等,色流大军发布垃圾消息的门槛越来越低,垃圾信息会有更多演绎。
而色流大军难以一举歼灭,产业的背后,站着一支庞大的技术力量。朱浩齐告诉Xtecher,许多黑客为了证明自己,会率先研发最新工具,以攻破各大网站的反垃圾系统。甚至各大网站的反垃圾技术还落后于黑客开发的攻击系统。
黑产大军躲在暗处,打一枪换一炮,四处游击,防不胜防。从第一封垃圾邮件打响的第一枪,到如今数十年过去,这条地下黑色产业链非但没有被根治,反而愈演愈烈。
正所谓, 有人的地方就有江湖。有互联网的地方就有色流大军。伴随着互联网产品的层出不穷,也将有技术升级的色流大军投身其中。这场人工智能时代的扫黄战仍将继续……