随着新一代互联网信息技术与实体经济交融进程加速,互联网带来多种多样的应用,已与人们的日常消费生活深度交融。人们在享用即时通讯工具、短视频平台、资讯平台、网络直播平台等带来便利的同时,也遭受着来自互联网上色情、暴力、低俗等不良信息的影响。
固然国际国内政府、互联网平台都纷繁抵抗各类不良信息充满于互联网空间,破费了大量人力物力,运用技术手腕对这些不良信息停止持续管理,但仍有大量不法人员不时应用关键词变异、视频翻拍、换脸、图片编辑、虚假信息等新型信息处置技术和信息形式,来规避网络信息内容辨认,他们经过对关键词、图片停止变形和编辑处置,增加文本图片噪声,以至伪造图片视频,传播虚假信息,对互联网信息内容辨认技术提出更高请求。本文对近期新型信息处置技术和信息形式停止剖析,为技术检测手腕的开展方向提供参考。
关键词变异
常见的关键词变异方式有如下8种:
缩写:包括汉语拼音缩写、英文缩写、词汇缩写、新词语,例如“JS”(表示“奸商”);
语音交换:包括汉字谐音、萌化音、数字化、复合词,例如“砖家”、“肿么啦”、“1314”、“3Q”等方式;
汉字拆分组合:包括汉字的拆字和合字,例如“壕”(表示“土豪”)等方式;
人物昵称或外号:例如“幂幂”(表示“杨幂”)等方式;
翻译和音译:包括将英语翻译成汉语和将其他言语音译成汉语,例如“川普”、“纳尼”等方式;
人物映射:主要表现为用历史人物、小说人物来映射当今人物,例如“乔帮主”(表示“乔布斯”)、“小马哥”(表示“马化腾”)等方式;
历史、背景学问映射:例如“帝都”(表示“北京”)、“葱省”(表示“山东”)等方式;
由特定事情触发:例如“600亿”(表示“罗永浩”)等方式。
变异后目的关键词辨认不同于传统的命名实体辨认等技术,有本身的难点,可表现为以下方面:
文本长度短、且短少上下文信息,如微博博文、新闻完好评论等信息,常常含有大量的噪声且缺乏足够的上下文;
变异后的关键词比例较低,缺乏大量的标注数据,难以快速在海量社交媒体数据中完成大范围语料的快速辨认;
关键词歧义性,变异后的关键词通常具有暗示性,但同时也形成了变种关键词的歧义性,最常见的有拼音缩写等方式;
变异关键词缺乏前后文关联性,互联网呈现的很多动词词组曾经与其字面所感知的意义毫无相容之处,增加了依据语义环境辨认不良内容的难度;
当前大量的变异关键词是依据人物映射、历史背景学问、特定事情等激起而产生的,单纯基于词汇上的特征是很难捕捉到的这3种方式所生成的关键词,需求应用深层语义信息和上下文;
变异关键词通常具有不同的传播渠道和周期,且随着时间疾速演化。
视频翻拍
视频网站内容平安面临两大问题:一是合规,二是版权。其中合规问题触及面更广,包括色情、暴力等,方式不只包括视频内容自身的信息,同时还包括用户头像、昵称、签名、标签、评论、弹幕、站内信等各种用户能够自行输入的文本或图像内容;版权问题触及视频能否被受权、能否具有版权等状况。
目前常用的视频检测方式主要有两种:一是视频抽帧方式,抽取视频中的关键帧,应用图像辨认相关技术辨认特定场景、人物、文字等信息,判别视频能否含有违规现象;二是已知视频样本的查找发现,多采用视频MD5码的方式,但该办法需求保证视频完整分歧。
这两种视频审核主要是对库,而随着录制、剪辑等技术的进步,单纯的对库审核已无法对违规违禁视频做到全面辨认,需求引入基于深度学习、图像辨认、云技术的机器智能审核与人工审核相分离,这对各平台的技术才能将是一个考验。而人工审核是目前无法短时间内被替代的一种审核形式,依托大量人审形式,经过7*24小时不连续肉眼+机器辅助停止审核,固然会大大降低内容风险的呈现,但同时会大幅提升企业对人工审核的投入本钱,而人工审核的本钱扩容跟随着企业用户量及用户内容上传数量相应增加。
同时对视频中的场景断定,道德审讯,言语包含的细粒度情感了解,尚未成熟的人工智能辨认技术,短时间内无法脱离人工停止独立审核,人工审核是一项成熟的才能业务,如何进步人工审核的效率也是当下视频审核的一大难点。
深度伪造
深度伪造(Deepfake)在2017年由Reddit网站用户“Deepfakes”提出并开源,便在论坛炸了锅。随即衍生出FakeApp等视频合成工具和一系列伪造影片。这种源自人工智能生成对立网络的伪造技术,能够完成用另一张人脸图片交换掉原始视频中的原始人像。
一方面,Deepfake技术应用在影视文化行业的想象空间极大,另一方面,恶搞与色情影片对人性的耸动,使其从降生之初就随同着肖像权、版权和伦理层面的纷争。
Deepfake被滥用带来三大风险:一是关于普通人或知名度较低的女性而言,Deepfake技术让造假低俗视频变得非常容易,基于报仇或其他目的的低俗视频,可能让女性面临更高的声誉风险而难以自辩;二是技术的改造也让“狡诈产业”不时改头换面,基于Deepfake的合成人像、合成语音乃至合成笔迹,让狡诈活动变得愈加隐秘而难以侦查和防卫;三是Deepfake的潜在效应还将蔓延到群众的信息获取和社会信任层面。目前,对深度伪造类的图片、音视频的辨认技术也尚在初始阶段,还有很大开展空间。
不良用户为了规避图片辨认检查,对违规图片编辑后大肆在互联网上传播,常见的图片编辑方式有:一是增加图片背景噪声,例如增加水印,进步图片辨认难度;二是对图片停止人为涂改,例如人脸划线、场景擦除等手腕;三是采用不标准字体,例如字体倾斜、艺术字等方式。
图片内容平安检测的方式具有如下三种特性:一是检测内容包括辨认图片中的不良文字图形、目的人脸、以及与黑名单上画面类似的图片;二是检测手腕运用MD5哈希算法,以完成对话中图片的实时、自动检查;三是检测主题能否与政府、社会抗争有关的主题,同时也对新闻事情作出反响。
虚假新闻
随着网络社会建立的持续推进,更多网民以网络为载体、社交媒体为平台传播信息,网民享用信息传播便利的同时,互联网也成为虚假信息的重要传播途径,激进且负面的虚假信息扰乱人们的日常生活、障碍经济开展、毁坏社会稳定,已成为当下全球性难题。有些不法分子为了牟取非法利益,到达非法目的,歹意分布谣言,以博人眼球。
虚假新闻可从以下4方面判别:
来源虚假能否虚假:该类新闻最易被识破,大多从虚假新闻网站流出,应用误导性的照片和标题包装成“确凿的事实”;
标题能否与报道内容相吻合:“标题党”用夺人眼球或调侃式的标题来骗取点击率——这类文章的内容可能基本与标题毫无关系;
是新近音讯还是“旧闻”重提:有时即使是真实的音讯,也会由于胡乱拼凑而在多年后被歪解扭曲为新的“爆点”;
视频和照片能否可信,可表现为如下三种状况:一是图片窜改,经过对既有图片停止歹意的窜改来到达混杂读者视听的效果;二是图文不符,图片自身是真实拍摄的,但与文字描绘对图片停止了错误解读;三是图片过时,运用以往新闻的配图来充任当前新闻的配图。
(
互联网责编:
陈峰 
)