구글·네이버·MS 번역기에 영어소설 번역을 시켜봤다 (2,700 + 400자)

네이버가 ‘파파고(papago)’라는 앱을 만들었다. 앱은 신경망기계번역(NMT)이라는 기술로 텍스트, 음성, 사진속 문자를 자동으로 번역한다. 한국어, 중국어, 일본어, 영어를 지원한다. 8월초엔 안드로이드, 9월초엔 iOS 버전으로 나왔다. 파파고에 적용된 NMT 기술은 이르면 다음달(12월)에 네이버 웹 번역기에도 적용된다. 통계적기계번역(SMT)에 의존한다는 네이버 웹 번역기는 아직 파파고보다 정확하지 않다던가.

구글도 자기네 ‘구글 번역(Google Translate)’에 NMT 기술을 적용했다. 한국어, 프랑스어, 터키어, 중국어, 일본어, 영어, 스페인어, 독일어, 8개국어간 번역에 NMT 기술을 적용한다고 이달(11월) 중순 발표했다. 영한번역 결과물을 적용해 보니 품질이 기대 이상이라고 놀라워하는 사람들이 많았다. 생활영어나 사무영어 사용 환경에서라면 인간의 어학능력을 대신할 수 있을 정도라는 인상을 받은 것 같다.

심심해서 나도 영한번역 결과물 품질대조를 해 보기로 했다. 생활영어나 사무영어는 다른 사람들이 받은 인상이 대체로 맞겠거니 생각한다. 나는 다른 게 궁금했다. NMT 기반 번역이 원어 표현의 탁월함이나 고급스러움 내지 감각적인 인상까지도 다른 언어로 재현해줄 수 있을까? 문맥에 의존하는 표현이나 어휘가 등장하는 텍스트라면 아직 인간의 번역 솜씨가 더 나을 것 같은데, 문학작품이 그런 표본이 되겠다.

SF소설가 코리 닥터로우의 ‘프린트범죄’를 갖고 실험해 봤다. 전체 12문단 길이의 짤막한 소설이다. 구글, 네이버, 마이크로소프트 빙(Bing) 3개 자동번역 서비스를 쓴 결과물과, 내가 직접 번역한 결과물을 대조했다. 본문 앞 텍스트, 제1, 4, 7, 10문단 대조표를 만들었다. 전체 영어판 원문은 여기(http://craphound.com/stories/2006/01/12/printcrime/)에, 내가 번역한 한국어판은 여기(http://encodent.com/38)에 있다.

구분영어 원문구글네이버MS 빙내 번역
제목,출판일,작가명Printcrime

Copy this story.

(originally published in Nature Magazine, January 2006)

Cory Doctorow
인쇄물

이 이야기를 복사하십시오.

(원래 Nature Magazine, 2006 년 1 월)

코리 닥터
Printcrime

복사해서 이 이야기.

(원래 자연 Magazine에서 2006년 1월 출판되).

코리 Doctorow
Printcrime

이 이야기를 복사 합니다.

(원래 출판 자연 잡지, 2006 년 1 월)

코리 닥터
프린트범죄

이 이야기를 복사하십시오.

(네이처 매거진 2006년 1월호에 먼저 실림)

코리 닥터로우
제1문단The coppers smashed my father’s printer when I was eight. I remember the hot, cling-film-in-a-microwave smell of it, and Da’s look of ferocious concentration as he filled it with fresh goop, and the warm, fresh-baked feel of the objects that came out of it.경찰들은 내가 8 살 때 아버지의 프린터를 때렸다. 나는 뜨겁고 끈적 끈적한 전자파 냄새가 나는 것을 기억하고, Da는 맹렬한 집중력으로 신선한 농도로 채웠으며, 따뜻하고 신선한 구운 느낌의 물건을 그것으로 채웠다.내가 8살 때 그 경찰관들은 아버지의 프린터 박살냈다. 나는 그것의 뜨거운,cling-film-in-a-microwave 냄새가 지독하고, 흉포한 농도의 다의 표정으로 그는 신선한 이 끈적끈적한 곳을 가득 채워서는 제공된 개체의 따뜻하고,fresh-baked 느낌을 기억한다.그것경찰도 내가 여덟 살 때 아버지의 프린터를 박살. 난 그 신선한 goop와 나온 개체의 따뜻한, 신선한 구운 느낌 가득, 그것의 뜨거운, 집착-영화-에서-한-전자 레인지 냄새와 사나운 농도의 다의 모습 기억.경찰들이 아빠의 프린터를 부순 건 내가 8살때 일이다. 난 프린터의 열기, 그 전자레인지에 주방용랩을 씌워 돌렸을 때같은 냄새, 기기 안에 새 충전재를 채워넣을 때 아빠가 굉장히 열중하던 모습, 그리고 프린터에서 갓 구워진 물건이 나올 때의 느낌을 기억한다.
제4문단Da. What they did to him. When he was done, he looked like he’d been brawling with an entire rugby side. They brought him out the door and let the newsies get a good look at him as they tossed him in the car. All the while a spokesman told the world that my Da’s organized-crime bootlegging operation had been responsible for at least 20 million in contraband, and that my Da, the desperate villain, had resisted arrest.다. 그들이 그에게 한 짓. 그가 끝났을 때, 그는 럭비 쪽 전체와 싸우고있는 것처럼 보였습니다. 그들은 그를 데리고 나와 차량에 던져 넣은 소식통에게 잘 보게했습니다. 대변인은 내 Da의 조직 범죄 침략 작전이 적어도 2 천만명의 밀수품에 대한 책임이 있었고, 절망적 인 악당 인 나의 다가 체포에 저항했다는 것을 세계에 전했다.다. 그들은 그에게 무슨 말을 했다. 끝내고 나자 놈처럼 그는 럭비 측과의 싸움, 그가 보였다. 그들은 그들은 차에 던져 그 newsies 그를 잘 살펴봐 그가 문을 꺼냈습니다. 그동안 대변인은 말했다 세상은 내 다의 organized-crime 주류 밀매 업자 수술에 책임이 적어도 20만에서 밀수품,이고, 제 다, 폭한, 있었다.저항을 체포.다입니다. 그들은 그에 게 않았다. 그가 완료 되었을 때 그는 그가 전체 럭비 측을 가진 싸움 했다 처럼 보였다. 그들은 문 밖으로 데 려 고 그들은 차에 그를 던져 서 그에서 좋은 모습을 얻을 newsies 하자. 그동안 대변인은 말했다 세계 내 다 조직 범죄 bootlegging 작업에서 밀수 품, 적어도 20 백만에 책임 있었다 내 다, 절망적 인 악당, 체포에 저항 했다.아빠. 그들이 아빠에게 무슨 짓을 했던가. 아빠가 체포됐을 때 모습은 마치 혼자서 럭비팀 한 무리를 상대로 싸운듯 보였다. 그들은 아빠를 문 밖으로 끌어내 기자들이 잘 볼 수 있게 해준 뒤 차에 던져넣었다. 경찰 공보실장은 대외발표에서 아빠가 밀매품 최소 2천만개에 대한 책임이 있는 불법제조행위의 조직범죄를 저질렀으며 체포시 저항했던 흉악범이라고 말했다.
제7문단“Lanie,” he said, as he sat me down. “You’re a smart girl, I know that. You wouldn’t know where your old Da could get a printer and some goop?”"Lanie,"그는 나를 앉히고 말했다. "당신은 똑똑한 여자 야. 나도 알아. 당신은 당신의 오래된 Da가 프린터와 어떤 깡충 뛰기를 얻을 수있는 곳을 알지 못할 것입니다. "“Lanie,”그는 그는 날 앉혔다 말했다. “넌 똑똑한 소녀, 저도 알아. 어디에서 당신의 오래 된 다 프린터와 일불 이 끈적끈적한 곳을 얻을 수 있었습니다. 당신은 모를 거예요?”."깊숙히," 그는 말했다, 그는 나를 앉. "스마트 여자 야, 나도 알아. 당신은 모르겠다 프린터와 일부 goop 당신의 오래 된 다 얻을 수는 어디 "?아빠가 나를 앉히며 "레니"하고 말했다. "넌 똑똑한 아이지, 난 알아. 너는 늙은 애비가 프린터와 충전재를 구할 수 있는 곳이 어딘지 모르지?"
제10문단“Come here, Lanie, let me whisper in your ear. Let me tell you the thing that I decided while I spent ten years in lockup. Come here and listen to your stupid Da.”"이리와, 래니, 네 귀에 속삭이게 해줘. 내가 잠자고있는 동안 10 년 동안 내가 결정한 것을 말해 줄께. 이리 와서 너의 바보 같은 말을 들어라. "“이리 와봐, Lanie, 내가 여러분의 귀에 속삭이다. 나를 여러분은 제가 10년 교도소 보냈다 나는 결정하는 것을 알려 줄게요. 여기와 당신의 멍청한 다 듣기 와.”."와 서 여기, 깊숙히, 하자 귀에 속 삭 임. 록 업에 10 년을 보냈다 하는 동안 결정 하는 것을 말해 보자. 여기와 서 당신의 바보 다 들어. ""레니야, 이리 오렴. 조용히 해 줄 얘기가 있단다. 감옥에서 10년을 지내면서 결심한 걸 말할게. 이리 와서 바보같은 애비 얘길 들어봐."

위 표로 정리한 내용 위주로 발견한 점은 다음과 같다.

1. 제목-출판일-작가명 부분부터. 기계번역은 전반적으로 사람번역보다 작가명과 등장인물 인칭 등 인물이나 고유명사 처리가 항상 어설프다. 그나마 Doctorow를 ‘닥터’라 쓴 구글, MS보단 원어로 놔둔 네이버가 낫다.

2. 제1문단에서 smashed를 ‘때렸다’로 쓴 구글이 제일 어설프다. 다만 문단의 나머지는 3사 모두 엉망이다. 그럼에도 구글은 낯선 표현들을 최대한 한국어로 표현한 흔적이 보인다. 네이버는 어순부터 매끄럽지 못하고, cling-film-in-a-microwave와 fresh-baked라는 조어를 처리하지 못했다. MS 역시 앞의 표현을 단순 단어 바꿔치기해 ‘집착-영화-에서-한-전자 레인지’로 쓰고, 아예 문장을 완성하지도 못했다.

3. 제4문단에서 딸이 아빠를 부르는 표현(Da)을 ‘다입니다’로 쓴 MS가 제일 어설프다. 인상적이다. 여기서 구글은 밀매품(contraband) 언급 문장을 그나마 한국어 문장에 가깝게 처리해 줬다. 기본적으로 수와 관련된 표현을 한국어에 맞게 옳게 처리한 건 구글 뿐이었다. 숫자 2천만(20 million)을 구글은 ‘2천만명’이라 썼고, 네이버는 ’20만’이라고 오역했고, MS는 ’20백만’이라고 직역했다.

4. (내가 번역한 ‘체포됐다’라는 표현이 최선인가는 스스로도 의문이지만) 제4문단 본문에서 아빠가 ‘체포됐다’는 개념을 이해한 번역은 없는 듯. 굳이 체포라는 직접적인 표현을 쓰지 않더라도 어쨌든 한국어로는 그에 상당한 표현을 썼어야 ‘경찰에 의해 아빠가 어떻게 됐는지’가 드러나는데, 본문의 ‘was done’을 그저 ‘끝나다'(구글, 네이버)나 ‘완료하다(MS)’로만 썼다.

5. 제7문단에서 나타나듯, 기계는 본문의 부녀관계를 제대로 이해하지 못한다. 하지만 인명(Lanie)을 ‘깊숙히’라고 번역한 MS는 대체 뭐야 이게…라 생각케 한다.

6. 제10문단에서 3사 번역의 차등이 두드러진다. 가장 매끄러운 건 구글이지만, 10년 감옥살이를 ‘잠자고 있는 동안’이라 썼고, 아빠가 자신을 칭하는 부분을 누락해 ‘너의 바보 같은 말을’이라는 문장을 내놓는 오류를 보였다. 네이버는 본문의 2인칭대명사(your, you)가 단수임에도 복수형(여러분)으로 쓰는 실수를 했다. MS는 여전히 인명을 ‘깊숙히’로 썼고, 족보 없는 외래어 표기 ‘록 업’을 썼으며, 마지막 문장도 엉망이다.

간단히 결론을 내자면, 고유명사를 다루는 부분, 등장인물이나 화자와 독자간의 시점에 따른 관계, 일상회화에서 쓰지 않는 조어나 은유적인 표현 등 본문에 주어진 단서로 유추할 수 있는 표현의 번역도 ‘훌륭하다’고 하기는 어려운 수준. 단순히 의미를 전달하는 용도가 아니라 표현의 심미성까지 고려하는 번역이 필요한 전문번역의 영역은 아마 표현을 대체하는 것과는 다른 종류의 지능을 요할 듯.

NMT 기반이라는 구글의 영한번역 품질이 그나마 괜찮은 수준이었다. 아직 NMT 기반이 아닌 네이버는 몇몇 일반적인 표현과 문장에서 구글보다 나은 결과를 보였지만 전반적으로는 그에 미치지 못한다. MS는 구글과 네이버에 한참 못 미치는 결과물을 보여 주고 있다. 어쨌든 3사 자동번역이 공통적으로 소설과 같은 문학작품에서는 기계번역이 갈 길이 멀다는 방증아닐까.

다만 네이버가 파파고에 적용했다는 NMT 기술을 웹 번역기에도 적용하면 다시 실험해 봐야할 듯.

161122 추가. 알고보니, 네이버 정식서비스가 아니라 시범서비스 형태로 네이버 랩스페이스에서 제공하는 웹 번역기(http://labspace.naver.com/nmt/)가 NMT 기술을 적용한 상태다. 여기에 프린트범죄 전문을 영한번역해 보려고 했는데, 일부 번역이 불가능한 문장이 있었다. (소설 원문엔 200자 넘는 문장이 제법 있다. 랩스페이스 웹 번역기에는 200자를 초과해 입력할 수 없었다.) 내친 김에 파파고 앱으로도 프린트범죄 영한번역 결과물을 확인했다. (파파고는 200자를 넘는 문자도 번역할 수 있었다.) 흥미롭게도, 파파고의 번역 결과와 네이버 랩스페이스 웹 번역기의 번역 결과엔 차이가 있었다. 알고리즘이 다른 건지, 학습 데이터셋이 다른 건지, 혹은 둘 다인지? 이 포스팅에 한 것처럼 문단별로 대조하는 건 나중으로 미룬다.

170402 옮김.