스마일게이트가 활짝 열어 준, 음성인식 AI 전문가로 성장할 기회
2023 한국어 인공지능(AI) 경진대회 최우수상 수상자
박정균 | 서강대학교 대학원 DHE 석사과정
스마일게이트가 지원하는 차세대 인공지능(AI) 전문가들이 또 한 번 뜻깊은 결실을 맺었다. 스마일게이트 AI 센터와 서강대학교 AI 융합대학원이 공동 운영하는 커리큘럼 ‘디지털 휴먼&엔터테인먼트(Digital Human&Entertainment, 이하 ‘DHE') 트랙을 밟고 있는 박정균 학생(석사)이 ‘2023 한국어 인공지능 경진대회’(이하 ‘경진대회’)에서 최우수상의 영예를 안은 것.
스마일게이트 AI센터는 지난 2021년 9월 서강대학교 AI 융합대학원과 AI 인재양성을 위한 산학협력을 맺고 AI 인재 발굴 및 육성에 나섰다. DHE 트랙은 AI 시대를 이끌어갈 인재를 키워내고, 기업과 대학이 머리를 맞대 혁신적인 AI 기술을 연구하고 상용화 하는 것을 목표로 신설됐다. DHE 트랙을 밟고 있는 학생이 경진대회에서 최우수상을 받은 건 이번이 처음이다. 박정균 학생을 만나 차세대 AI 전문가로서의 포부와 DHE만의 차별화 된 강점에 대해 들어봤다.
DHE 트랙 참여 학생, ‘2023 한국어 인공지능 경진대회’ 최우수상 쾌거
최근 생성형 AI를 기반으로 한 다양한 프로그램이 주목 받으면서 ‘음성 인식’ 기술이 각광받고 있다. ‘음성 인식’은 AI가 더욱 빠르고 정확하게 인간의 대화(자연어)를 인식하게하고, 그를 바탕으로 문제 해결 능력을 갖추는 데 필수적인 기술이다. 경진대회는 한국어 음성인식 기술 분야에서 우수한 AI 전문가를 발굴하고 육성하는 것을 목표로 삼고 있다.
박정균 학생은 상대적으로 정보 취약계층으로 분류되는 노인 및 소아 계층에 특화된 음성인식 AI모델을 선보여 주목받았다. 일반적인 음성 인식 AI모델은 평균적인 나이와 성별을 기반으로 데이터를 수집, 학습하기 때문에 노인 및 소아 계층에 맞는 데이터가 제한적이다. 때문에 기존의 음성 인식 AI모델을 노인 및 소아를 대상으로한 AI서비스(제품)에 적용하면 인식률이 떨어질 수밖에 없다. 박정균 학생은 일반 음성 데이터에서 노인 및 소아 관련 데이터만 추출, 파인튜닝해 새로운 음성 인식 AI 모델을 구축했다. 그 결과 기존 모델보다 CER(문자오류율)과 WER(단어오류율)을 크게 낮추는 성과를 보이며 우수한 평가를 받았다.
*fine-tuning : 사전 학습된 인공지능 모델에 새로운 데이터를 입력하며 성능을 향상시키고, 학습 시간을 단축하는 과정.
“제가 DHE 과정에서 연구하는 분야는 음성 인식입니다. 일반적으로 음성인식 모델은 여러 요소에서 평균값을 나타내는 일반인의 데이터가 많았습니다. 상대적으로 정보 취약계층인 노인이나 어린아이의 음성 데이터가 부족하고 연구도 덜 되었습니다. 이번 대회에서는 이런 문제를 해결하는 과제가 주어졌습니다. 데이터가 부족한 상황이었지만 ‘위스퍼 모델’ 을 적용해서 이 문제를 해결했고, 좋은 성과를 얻을 수 있었습니다. 특히 지난해 경진대회에서 같은 부문에 참가해 장려상을 수상했는데, 올해는 더 나은 성과로 최우수상을 받을 수 있게 돼 기쁩니다.”
* 위스퍼 : 챗GPT로 유명한 ‘오픈AI’에서 공개한 오픈소스 음성인식 AI 모델
음성인식 기술로 노인과 장애인, 어린이 등 정보 취약계층에 도움의 손길
박정균 학생은 ‘음성 인식’ 중에서도 ‘시청각 음성 인식’ 분야를 집중적으로 연구하고 있다. 일반적인 ‘음성 인식’이 귀로만 듣는 방식이라면, ‘시청각 음성 인식’은 소리를 듣기 어려운 시끄러운 상황에서 사람의 입술 움직임을 같이 파악해 인식률을 높이는 방식이다. 카메라를 활용한 멀티모달을 적용하는 것이다.
*Multi Modal : 시각 및 청각 등 여러 인터페이스로 정보를 주고 받는 개념.
최근 그는 ‘맥락을 읽는 음성 인식 모델’에도 관심을 갖고 있다. 이 모델은 특정 상황별로 데이터를 수집, 학습해 해당 상황에 맞는 정보의 맥락을 더 잘 파악할 수 있도록 인식율을 높이는 기술이다. 예를 들어 “세미나”라는 정보가 파악되면, 음성 인식기가 그 맥락을 인지하고 보다 적합한 결과를 도출해내는 방식이다. 일반 대화에서 사용하는 단어와 세미나에서 사용하는 단어에 차이가 있기 때문에 특정 상황의 맥락을 파악한다면 더욱 정밀한 음성 인식이 가능하다는 기대를 하고 있다.
“앞으로 음성 인식 모델은 다양한 산업에 도움이 될 것입니다. 특히 ‘맥락을 읽는 음성 인식’은 사용자에게 특화된 서비스를 제공할 수 있다는 점에서 관심이 큽니다. 개인 AI 비서를 활용한다거나, 전문적인 영역, 서비스 산업 등 많은 분야에서 유용하게 사용될 수 있습니다. 또 ‘시청각 음성 인식’은 최근 대중화된 키오스크 환경에서 유용할 것이라고 생각합니다. 지금은 키오스크를 터치하는 방식으로 사용하지만, 주변 잡음에 영향을 덜 받는 ‘시청각 음성 인식’이 개발된다면 시끄러운 곳에서도 음성으로 키오스크를 사용할 수 있어요. 그러면 키오스크 사용에 어려움을 겪는 어르신이나 시각장애인, 아이들에게 도움을 줄 수 있을 거예요.“
‘DHE 과정’으로 음성인식 AI 전문가로 성장할 기회 얻어
박정균 학생은 학부에서 신문방송학을 전공했다. 소위 ‘비전공자’였던 그가 AI 개발자로 진로를 전향할 수 있었던 것은 ‘DHE 과정’ 덕분이다. “개발자로의 전향을 결정하고 어떤 분야를 공부해야 할지 고민하던 차에 서강대학교 AI융합대학원에 ‘인공지능 연계전공’이 신설됐다는 이야기를 들었고, ‘DHE 과정’에 입학했습니다. DHE 과정은 인공지능의 기본이 되는 최적화 이론부터 음성인식 등 분야별로 특화된 과목들을 집중해서 배우고 연구할 수 있는 커리큘럼이라서 비전공자인 저도 크게 도움을 얻을 수 있었어요.”
박정균 학생은 ‘DHE 과정’의 강점으로 심도 있는 연구 지도는 물론 챗GPT 등 생성형 AI 분야와 예술 창작을 위한 딥러닝을 산업과 연계해 연구 할 수 있다는 점을 꼽았다. 스마일게이트 AI센터 와 연계한 현장 실습 과정도 학생들에게 큰 기회라고 덧붙였다. 스마일게이트 AI센터 를 통해 학생들이 연구하는 AI 기술들의 상용화를 모색해 볼 수 있다는 점에서 산학협력의 시너지도 기대할 수 있다.
“DHE 과정에서 배운 내용들이 이번 경진대회를 치르면서 큰 도움이 되었습니다. DHE 과정은 장점이 정말 많아요. 타 연구실이나 동기, 선후배들과의 교류가 많은 점도 도움이 돼죠. 여러 분야의 사람들과 교류하는 과정에서 융합할 수 있는 연구 결과가 나오고, 기업의 현장 실습을 통해 빠르게 접목해 테스트해볼 수 있죠. 그리고 기업에 필요한 AI기술을 알게 되는데도 많은 도움이 되었어요. 향후 저는 산업계와 전문가들뿐 아니라 일반 사람들도 일상적으로 활용할 수 있는 더욱 대중화 될 수 있는 인공지능 모델을 연구해 나갈 계획입니다.”
#스마일게이트 #인공지능 #AI #디지털 휴먼&엔터테인먼트 #Digital Human&Entertainment #DHE #2023 한국어 인공지능 경진대회 #최우수상 #서강대
단, 콘텐츠를 기사에서 인용 시 ‘스마일게이트 뉴스룸’으로 표기 부탁드립니다.