[이코노믹리뷰] “착한 AI로 혐오표현 없앨 것” 2022-02-03

■ 김성현 스마일게이트 AI센터 멀티모달 대화모델 연구원

‘통구이, 오뎅(어묵)…’ 일상에서 음식을 지칭하는 단어들이 인터넷상에서 특정 대상을 비하하는 혐오표현으로 쓰인 적이 있다. 통구이는 대구 지하철 참사 희생자를, 오뎅은 세월호 희생자를 비하하는 데에 사용돼 사회에 큰 충격과 슬픔을 안겨줬다.

여기서 끝이 아니다. 혐오표현이 인공지능(AI), 메타버스 등 기술 공간에서도 폭력의 행위로 사용되고 있다. AI 챗봇 서비스가 성소수자와 장애인, 인종에 대한 혐오를 학습해 표출하거나 이용자가 AI나 아바타를 성희롱 대상으로 활용하는 등 문제가 확산하고 있다.

스마일게이트 AI센터가 최근 이러한 혐오표현을 연구해 데이터셋(data set, 자료 집합)을 구축, 외부에 공개하기로 했다. 애플리케이션(앱), 게임 개발자가 데이터셋을 자유롭게 활용해 혐오표현을 걸러내는 시스템을 쉽게 구축하도록 지원하려는 취지다.

이미지1.jpg

▲김성현 스마일게이트 AI센터 멀티모달 대화모델 연구원

■ “AI로 혐오표현 걸러낸다”

김성현 스마일게이트 AI센터 멀티모달 대화모델 연구원을 이코노믹리뷰가 만났다.

대학에서 뇌공학을 전공한 그는 2020년 11월 스마일게이트 AI센터에 합류해 혐오표현 태깅(Tagging)을 위한 가이드라인 설정부터 데이터셋 구축까지의 여정을 함께 했다.

김성현 연구원은 혐오표현 데이터셋 구축 취지에 대해 “AI가 급속도로 발전하면서 AI 윤리가 사회적 이슈로 떠올랐다. AI가 인간에게 상처를 주는 혐오성 발언을 뱉거나, 반대로 유저가 AI에 혐오성 발언을 가르치진 않을까 경계해 이를 필터링하기 위한 장치가 필요하다고 판단했다”고 설명했다.

작업은 ‘혐오’를 ‘특정 집단을 지칭한 혐오표현’으로 정의하는 것에서부터 시작됐다. 집단은 남성, 여성, 종교, 지역, 연령, 인종, 성소수자, 기타 등 8개로 정했으며 인터넷 댓글을 대상으로 수집한 55만여개의 데이터를 이에 따라 분류, 1만개를 추려 데이터셋으로 묶었다.

이미지2.jpg

▲김성현 스마일게이트 AI센터 멀티모달 대화모델 연구원

스마일게이트 AI센터는 데이터셋의 정교화를 위해 수집 요원들도 사회과학을 전공한 석사 이상으로 선별, 데이터 수집에도 공을 들였다. 이후 혐오표현으로 분류하는 작업은 분류자에 따라 혐오로 판단할 수도 있고 아닐 수도 있어서 토론의 연속이었다고 김 연구원은 회상했다.

그는 “대놓고 특정 집단을 지칭하는 혐오 외에도 ‘흑형은 운동을 잘한다’, ‘동양인은 수학을 잘해’처럼 인종에 대한 고정관념을 투영하는 표현, ‘여자는 게임을 해서는 안 돼’, ‘게이는 잘생겨야지’ 등 욕설은 없지만 대상을 강제로 고착화한 표현, 특정 인물을 지지하는 집단을 향한 비하 발언인 ‘X슬림’처럼 해당 집단을 비하의 대상에 투영하는 등 유형이 다양하다”고 소개했다.

스마일게이트 AI센터는 혐오를 반대하는 집단에 대한 비난 역시 혐오로 규정했다. 가령 페미니스트라는 개념은 여성 인권 신장을 위해 등장한 말이지만, 페미니스트에 대한 비난의 뜻을 담아 사용될 경우 이를 여성 혐오로 간주했다. 단순히 단어의 뜻만 분석함을 넘어 문맥과 상황을 고려해 혐오표현을 추려낸 것이다.

김 연구원은 모호한 표현을 걸러내는 작업은 특히 쉽지 않았다고 털어놨다. 그는 “특정 커뮤니티에서만 사용하는 은어의 경우 어떤 대상으로 하는 혐오표현인지 알 수 없어 인터넷 커뮤니티에 직접 접속해서 그들의 행태를 관찰하며 정보를 얻었다”며 “‘통구이’와 같은 표현은 숨은 뜻을 알고 난 후 머리가 지끈거릴 정도로 힘들었다”고 토로했다.

의미가 변질된 표현을 거르는 작업도 만만치 않았다. ‘창렬하다’는 표현은 특정 인물로부터 탄생된 혐오를 포함한 은어지만, 이제는 특정 제품의 ‘가성비가 안 좋음’을 표현하는 것으로 자리를 잡아 혐오표현으로 보기 어렵게 됐다.

또한 ‘김치’처럼 앞뒤 맥락 없이 단어만 적힌 저맥락 문장을 파악하는 데에 어려움이 따랐다. 이 경우 수집된 소스의 본문과 앞뒤 댓글을 함께 들여다봐야 했으므로 공이 많이 들었고, 연구원들 간 판단이 엇갈리면 투표를 통해 결정하기도 했다.

김 연구원은 혐오표현 데이터셋이 ▲악성 발화 필터링 ▲인공지능의 혐오 발언 필터링 ▲인간이 인공지능에 가하는 혐오 발언 필터링 ▲상담사에게 가하는 혐오 발언 필터링 ▲특정한 사건이 온라인 여론에 미치는 영향 분석 ▲특정 제품에 대한 긍부정 여론 분석 등 다양한 분야에 활용될 수 있다고 기대했다.

그는 “예를 들어 게임 업데이트 이후 유저들의 반응을 분석해 다음 업데이트에 반영하거나, 특정 정책 발표 이후 갑자기 무슬림에 대한 혐오가 증가했다면 정책의 방향성과 국민으로의 전달 방법을 다시 검토해보는 데에도 활용이 가능하다”고 말했다.

■ 혐오표현 데이터셋, AI 윤리 주춧돌

스마일게이트는 이번 데이터셋을 AI센터 홈페이지 ‘깃허브(GitHub)’ 페이지에서 공개할 예정이다. 현재 1만건 정도인 데이터 개수 확장 업데이트와 혐오표현을 정교화하기 위한 작업은 계속된다. 장애인이나 경제적 차이에 대한 혐오 등 카테고리도 추가할 예정이다.

김 연구원은 혐오표현 데이터셋이 AI 윤리를 향한 주춧돌 역할로써 사회적 편견 분석에 활용되길 원하고 있다. 대중들이 어떤 대상에게 혐오 감정을 가지는지 파악, 이를 해소하는 정책과 교육을 통해 단순히 AI 윤리뿐만 아니라 인간의 윤리, 사회 전반의 윤리를 제고할 수 있다고 보기 때문이다.

김 연구원은 끝으로 텍스트 외에 음성, 제스처, 시선, 표정, 생체신호 등 여러 방식으로 사람과 소통하는 멀티모달로 ‘착한 AI’를 탄생시키고 싶다고 꿈을 밝혔다. 자아를 가진 친구 같은 AI를 만들겠다는 것이다.

그는 “AI는 사람의 피드백을 받을 수 있어야 한다. 챗봇이 윤리에 어긋나는 표현을 했을 때 상대방의 피드백을 받아서 다시는 하지 않도록 학습하는 것이 필요하다”며 “결국 인간 같은 AI를 만들려면 물리적인 로봇이 있어야 하는데, 현실화된 로봇이 어렵다면 정교하게 잘 만들어진 메타버스 세상에 제가 연구한 AI를 두고 세상을 학습하도록 하고 싶다”고 강조했다.

이미지3.jpg