Smilegate AI中心为人工智能伦理研究创建和公布仇恨言论数据集 2022-01-24

2022-01-24

■ Smilegate AI中心创建恶意回帖及仇恨言论数据集…从5万多份数据中筛选出1万份数据

■ 在类型细分上考虑了仇恨言论的社会背景…今后可运用于游戏社区、客服聊天机器人和舆论调查等多个领域

Smilegate AI中心（负责人韩宇辰）于20日宣布，将发布恶意回帖及仇恨言论数据集。

Smilegate AI中心考虑到近期仇恨性用语在网络空间大范围增加，并有可能导致社会性问题这一点，创建了恶意回帖及仇恨言论数据集，主动感知和应对仇恨言论。该项目与知识内容初创公司Underscore合作完成。

恶意回帖及仇恨言论数据是在2019年1月1日至2021年7月1日期间，从门户网站、社区等各种类型的网站帖子中收集而来。在收集过程中，考虑到仇恨言论相关数据的时宜性和倾向性特点，在约55万份数据的基础上创建了1万份数据集。

特别是在创建数据集的过程中，将数据分为了八个类别，分别是“女性/家庭”“性少数群体”“男性”“种族/国籍”“年龄”“地区”“宗教”和“其他仇恨言论”。另外，Smilegate AI中心还发布了划分仇恨言论的标准模型，通过此模型可以提取仇恨言论。

Smilegate AI中心的恶意回帖及仇恨言论数据集今后将有望被用于各个领域。用户可以在游戏社区内的评论、客服聊天机器人和舆论调查等多个领域识别是否存在针对目标对象的仇恨言论。Smilegate AI中心今后也会持续进行研发，并计划通过从中获取的技术能力，提高仇恨言论的识别技术，达到更高的精确度。

此外，本次收集的数据计划于1月中旬通过Smilegate AI中心的GitHub页面（链接）发布。

Smilegate AI中心负责人韩宇辰表示，AI中心除了自然语言处理及分类相关的研究外，同时也是一个对伦理缺失的人工智能所引发的社会问题进行研究的机构，因此具有责任感和问题意识。特别是希望此次公开的数据能够提前对仇恨言论或人工智能的伦理性进行分类和预防，为更安全地利用人工智能奠定基础。他还称，Smilegate AI中心将努力进行各种尝试，使迄今为止的研究成果和努力不仅能从技术角度做出贡献，也要能为社会做出积极的贡献。

Interview Request List