구글 제로샷, 1만 언어쌍 번역 앞당기나 (2,100자)

피처 이미지
[사진=Pixabay] 알파벳 필기체로 작성된 낡은 편지지.
2017년 3월 2일 동료 손경호 기자가 쓴 기사(http://www.zdnet.co.kr/news/news_view.asp?artice_id=20170302163740)를 보고 든 생각 짤막히 정리함.

기사에 따르면 구글은 2015년 9월부터 번역서비스에 기계학습 알고리즘을 탑재. 2016년 11월부터 GNMT라는 이름으로 16개 언어쌍에 신경망기계번역 기술을 적용.

2017년 2월 구글코리아가 개최한 구글AI포럼에서 구글브레인 팀의 마이크 슈스터 박사는 구글번역 현황을 이렇게 언급. “하루에 1천400억개 단어를 번역. 한 언어쌍 번역모델 학습에 최소 1억문장 필요. GPU 100개를 2~3주 써서 연산해야.”

기사는 이렇게 적고 있음. “구글이 지원하는 103개 언어에 대해 모두 번역 서비스를 제공하려면 103의 제곱만큼 언어쌍을 지원해야 한다. …(중략)… 컴퓨팅 파워를 효율적으로 사용하고 있지만 아직은 모든 언어쌍에 대한 번역을 서비스하기에는 부족한 실정이다.”

103의 제곱은 1만609. 구글이 지금 서비스중인 GNMT가 지원하는 언어쌍의 663배 규모. 기존 방식대로라면 지금 연구자들이 늙어 죽을 때까지 번역 학습을 수행해도 GNMT가 모든 언어쌍을 번역하는 건 불가능. 점차 개선 중인 컴퓨팅 파워와 확장되고 있는 컴퓨팅 인프라를 통해 단축하는 것만으로도 충분하지 않을 듯.

0. 기사 한 줄 요약

-구글은 이미 확보한 번역 언어쌍 학습 데이터를 활용해 아직 확보되지 않은 언어쌍의 번역 능률을 높일 수 있는 신경망기계번역 노하우를 확보, 그걸 제로샷이라 부르기로 했다.

1. 기계번역 기본개념

-구글이 예시한 영어 한국어 일본어 3개 언어간 가능한 번역 언어쌍은 (출발어-도착어) 영한, 한영, 영일, 일영, 일한, 한일, 6가지. 원래 신경망기계번역은 각각의 언어쌍을 모두 따로 학습해야 함.

2. 구글의 ‘제로샷 번역’

-구글은 영일, 일영, 영한, 한영, 4가지 언어쌍 학습을 통해 일한, 한일, 2가지 언어쌍까지 번역할 수 있음을 알게 됨. 번역 언어쌍마다 드는 비용이 같다고 가정하면, 6개 언어쌍 학습 비용을 50% 줄일 수 있는 것.

3. 비밀은 전이학습(transfer learning).

-신경망기계번역의 전이학습은 대충 이런 것. A언어를 B언어로, B언어를 C언어로 번역하는 학습을 거친 시스템은, (직접 학습하지 않은) A언어를 C언어로 곧장 번역이 됨.
-앞서 구글이 학습시킨 3가지 언어의 4가지 번역쌍을 잘 보면 한영-영일, 일영-영한, 이렇게 짝이 지어짐. 영어를 매개로 한일, 일한 번역쌍 전이학습이 이뤄진 셈.
-이 자체가 새로운 개념은 아니지만 구글 측은 자신들의 제로샷 번역도 전이학습의 일종이나 뭔가 새로운 점이 있는 것으로 소개. 정작 그 새로운 뭔지는 내가 잘 모르겠음. 기사 본문에 링크 연결된 구글 발표 논문을 읽어보면 알 수 있겠지만 내 능력 밖인 것 같음….
https://arxiv.org/abs/1611.04558

4. 내맘대로 짐작

-구글처럼 세계 언어권별 사용자의 언어표현 데이터를 끌어다 쓸 수 있는 다국적기업이 전이학습으로 번역품질 높이는 건, 아무래도 시간문제.
-전이학습으로 번역 가능한 언어쌍은 이미 학습한 전체 언어쌍과 함께 계속 늘어날 테고, 이미 학습한 전체 언어쌍은 구글이 가장 광범위할 것이기 때문.
-단기적으로 개인소비자용 인터넷 다국어 번역은 구글이 짱먹을 듯. 마이크로소프트와 IBM같은 회사는 언어관련 기계학습 경쟁의 구도를 다르게 가져갈 듯.
-오늘 마이크로소프트가 오피스 패스트링 업데이트로 선보인 MS워드 편집자(Editor)기능이 ‘언어관련 기계학습 경쟁의 다른 구도’ 중 하나 아닐까.

5. 한국 회사들

-네이버와 카카오의 연구자들, 한글과컴퓨터나 다른 자연어처리 엔진을 보유한 소프트웨어 회사들에게도 상당히 부담스러운 상황일 것 같음.
-이들은 기본적으로 한국어 화자, 청자를 일반 사용자로 전제하고 기계번역 기술 활용이나 사업화를 추진해 왔을 텐데, 일반 사용자들에게 기술력을 시연하는 차원에서 손쉽게 제공할 수 있는 다국어 번역의 품질로 구글과의 경쟁에서 우위를 점하고 지켜나가기가 만만치 않을 것 같다는 생각.
-명시적으로 밝힐 수 있는 상황일지 아닐지는 모르겠지만 다른 구도의 경쟁을 고민하고 있을 것 같고, 그걸 사업적 궤도에 올렸을 때 산업 매체들이 눈치채 주길 간절히 원하고 있을지도.

170402 옮김.