[新闻] 阿里AI鉴黄师上线:一日鉴图上亿张 能听

楼主: TWOOOOOOOOOO (给妳2亿)   2018-08-19 19:55:24
阿里AI鉴黄师上线:一日鉴图上亿张 能听懂外语方言
2018-08-19 16:49联合报 记者林宸谊╱即时报导
随着AI鉴黄技术的发展,人工鉴黄师将会逐渐从鉴黄行业里被解放出来。阿里AI鉴黄语音反
垃圾服务日前上线公测,能辨别外语或大陆方言中涉黄或广告等违规信息,一天还能“过滤
”上亿张“涉黄”图片。
鉴黄师是大陆一种专门鉴定淫秽色情光盘的职业,隶属于公安机关,工作内容是将办案单位
送来的淫秽光盘和影片进行区分和鉴定,并开具鉴定结论,提供给办案单位进行处罚的依据

澎湃新闻报导,阿里巴巴集团安全部高级算法专家威视表示,假设一天要审核4亿张图片
,单纯交由人工来审,1人一天审1万张,就需要4万人力;而经由AI鉴黄后,需要交由人工
审核的量大约只需20万张,这样只需要20人,大大节省了人力。
不仅在识图领域,阿里AI鉴黄还覆蓋到语音、影片等多媒体领域,目前已可以识别中文、英
文、日文、俄文等语言,还可以识别大陆多省份方言,无语义的呻吟声也能识别。
阿里的鉴黄AI做的色情图片检测,从原理上来说,就是一个典型的图像分类问题,目前的解
决方案是标注样本后,使用深度学习技术训练人工神经网络。
具体步骤包括明确分类标准→收集样本→样本打标→模型训练共四个步骤,其中前三个步骤
主要由人工完成。
四个步骤听起来似乎是最后一步的技术难度最高,但阿里的相关人士透露,花时间最久的是
第一步,例如“露点不露点”之类的色情,还有比较明确的判断标准。
在收集样本的过程中,团队“集思广益”,浏览了近2,000家网站,下载了超过6,000万张疑
似色情图片,实际去重后约2300万张图片,并实际标注了超过1,300万张图片。
这1,300多万张图片成为类比训练的原始数据库,因此这一浩大的工程,被技术人员认为是
鉴黄引擎成功最重要的基础。
阿里安全部产品专家念夏表示,目前AI鉴黄最好的应用模式仍然是人工+机器,不管是前期
设计模型的标准和实际打标,或是后期人工覆核,人的参与都是不可或缺。
https://udn.com/news/story/7086/3318120?from=udn-ch1_breaknews-1-0-news

Links booklink

Contact Us: admin [ a t ] ucptt.com