동아일보 2017-02-13 03:00:00
고전번역원 ‘인공지능 번역’ 첫 도전
올해부터 세계 최초로 인공지능(AI)으로 한문 고전이 번역된다.
첫 대상은 고전 번역의 최대 숙원 사업 중 하나인 ‘승정원일기’로, 앞으로 45년이 걸릴 것으로 예상되는 번역 기간을 AI 번역을 통해 27년가량 단축해 18년 뒤에는 마칠 수 있을 것으로 기대된다.
한국정보화진흥원 관계자는 “미래창조과학부가 본원을 통해 진행하는 ‘2017년 정보통신기술(ICT) 기반 공공 서비스 촉진 사업’의 과제 중 하나로 한국고전번역원의 ‘인공지능 기반 고전 문헌 자동 번역 시스템 구축 사업’을 확정했다”라고 최근 밝혔다. 예산(20억 원)도 확정돼 올 12월에는 인공지능이 한문 고전을 번역한 첫 결과물이 나올 것으로 전망된다.
승정원일기는 조선의 최고 기밀 기록으로 사료로서의 가치뿐 아니라 스토리텔링 활용 가능성도 무궁무진하지만 1994년 번역을 시작했는데도 번역률이 20%가 안 된다. 3243책, 2억4000만여 자에 이르는 방대함 탓이다. 고전번역원은 향후 일성록(日省錄)이나 재번역 중인 조선왕조실록, 일반 문집에까지 인공지능 번역을 확대한다는 계획을 갖고 있다.
구글 번역기를 비롯해 우리 시대에 쓰이는 언어를 서로 번역하는 인공지능은 이미 여럿 나와 있지만 과거 문헌을 번역해 현대와 시대적 소통을 모색하는 인공지능은 이번이 세계 최초다. 중국에 옛 한문을 현대 중국어로 옮기는 서비스가 있다고 알려졌지만 기본적으로 같은 언어여서 비교 대상이 안 된다는 게 전문가들의 의견이다.
고전번역원의 AI 번역에는 인공신경망번역(NMT·Neural Machine Translation) 기술이 적용된다. 스스로 학습하며 번역 수준을 향상시켜 나가는 딥러닝 방식으로 이세돌 9단과의 대국에서 승리한 인공지능 ‘알파고’와 크게 보면 같은 범주다. 물론 바둑 대국을 하는 알파고와는 다른 알고리즘이다.
번역 작업은 우선 기존에 전문 번역자들이 번역해 놓은 승정원일기의 영조 때 기록 20만∼30여만 문장의 ‘코퍼스(말뭉치)’를 인공지능에 입력한다. 한문 원문과 우리말 번역문을 함께 입력하기 때문에 이를 ‘병렬 코퍼스’라고 부른다. 이 같은 빅데이터가 구축되면 인공지능이 기계학습을 통해 번역 모델을 생성한다. 여기에 아직 번역되지 않은 다른 원문을 새로 입력하면 자동으로 번역 결과물을 내놓게 되는 방식이다. 조선시대라고 해도 500년에 걸쳐 사용된 용어 등이 시기별로 다르기 때문에 인공지능의 학습 자료가 되는 코퍼스도 시기별로 따로 입력해야 한다. 고전번역원 관계자는 다양한 자동 번역 방식 중 NMT를 선택한 데 대해 “정형화된 번역이 쉽지 않은 한문 문장의 맥락에 따라 인간의 번역처럼 유려하게 옮기는 데 적합할 것으로 보고 있다”라고 설명했다.
인공지능 번역이 혹시 고전번역교육원 수료생 등의 미래 일자리를 빼앗는 건 아닐까. 백한기 고전번역원 고전정보센터장은 “당장은 인공지능이 초벌 번역 수준의 결과물을 낼 것으로 보이고 주석, 원문 대조, 교감, 학술 연구 등은 지금의 인공지능이 할 수 있는 작업이 아니다”라며 “인공지능은 역자를 대체하는 게 아니라 역자의 업무를 지원하게 될 것”이라고 말했다.
인공지능의 고전 번역이 필요한 이유는 무엇보다 고전 자료의 방대함이다. 조선왕조실록 등 주요 고전 외에도 서울대 규장각, 한국학중앙연구원 장서각, 성균관대 존경각 등에 엄청난 양의 고전이 원문으로 남아 있다. 그러나 국내 전문 고전 번역자는 약 200명 수준이다.
이명학 고전번역원장은 “주요 고전의 번역에만 약 100년이 걸릴 것으로 예상되고 있어 신기술을 통해 번역 속도를 높일 필요성이 절실하다”라며 “인공지능이 우리 고전의 번역을 대폭 앞당길 것으로 기대한다”라고 밝혔다.
조종엽 기자
모두 2억4000만여 자에 이르는 승정원일기. 동아일보DB
첫 대상은 고전 번역의 최대 숙원 사업 중 하나인 ‘승정원일기’로, 앞으로 45년이 걸릴 것으로 예상되는 번역 기간을 AI 번역을 통해 27년가량 단축해 18년 뒤에는 마칠 수 있을 것으로 기대된다.
한국정보화진흥원 관계자는 “미래창조과학부가 본원을 통해 진행하는 ‘2017년 정보통신기술(ICT) 기반 공공 서비스 촉진 사업’의 과제 중 하나로 한국고전번역원의 ‘인공지능 기반 고전 문헌 자동 번역 시스템 구축 사업’을 확정했다”라고 최근 밝혔다. 예산(20억 원)도 확정돼 올 12월에는 인공지능이 한문 고전을 번역한 첫 결과물이 나올 것으로 전망된다.
승정원일기는 조선의 최고 기밀 기록으로 사료로서의 가치뿐 아니라 스토리텔링 활용 가능성도 무궁무진하지만 1994년 번역을 시작했는데도 번역률이 20%가 안 된다. 3243책, 2억4000만여 자에 이르는 방대함 탓이다. 고전번역원은 향후 일성록(日省錄)이나 재번역 중인 조선왕조실록, 일반 문집에까지 인공지능 번역을 확대한다는 계획을 갖고 있다.
구글 번역기를 비롯해 우리 시대에 쓰이는 언어를 서로 번역하는 인공지능은 이미 여럿 나와 있지만 과거 문헌을 번역해 현대와 시대적 소통을 모색하는 인공지능은 이번이 세계 최초다. 중국에 옛 한문을 현대 중국어로 옮기는 서비스가 있다고 알려졌지만 기본적으로 같은 언어여서 비교 대상이 안 된다는 게 전문가들의 의견이다.
고전번역원의 AI 번역에는 인공신경망번역(NMT·Neural Machine Translation) 기술이 적용된다. 스스로 학습하며 번역 수준을 향상시켜 나가는 딥러닝 방식으로 이세돌 9단과의 대국에서 승리한 인공지능 ‘알파고’와 크게 보면 같은 범주다. 물론 바둑 대국을 하는 알파고와는 다른 알고리즘이다.
번역 작업은 우선 기존에 전문 번역자들이 번역해 놓은 승정원일기의 영조 때 기록 20만∼30여만 문장의 ‘코퍼스(말뭉치)’를 인공지능에 입력한다. 한문 원문과 우리말 번역문을 함께 입력하기 때문에 이를 ‘병렬 코퍼스’라고 부른다. 이 같은 빅데이터가 구축되면 인공지능이 기계학습을 통해 번역 모델을 생성한다. 여기에 아직 번역되지 않은 다른 원문을 새로 입력하면 자동으로 번역 결과물을 내놓게 되는 방식이다. 조선시대라고 해도 500년에 걸쳐 사용된 용어 등이 시기별로 다르기 때문에 인공지능의 학습 자료가 되는 코퍼스도 시기별로 따로 입력해야 한다. 고전번역원 관계자는 다양한 자동 번역 방식 중 NMT를 선택한 데 대해 “정형화된 번역이 쉽지 않은 한문 문장의 맥락에 따라 인간의 번역처럼 유려하게 옮기는 데 적합할 것으로 보고 있다”라고 설명했다.
인공지능 번역이 혹시 고전번역교육원 수료생 등의 미래 일자리를 빼앗는 건 아닐까. 백한기 고전번역원 고전정보센터장은 “당장은 인공지능이 초벌 번역 수준의 결과물을 낼 것으로 보이고 주석, 원문 대조, 교감, 학술 연구 등은 지금의 인공지능이 할 수 있는 작업이 아니다”라며 “인공지능은 역자를 대체하는 게 아니라 역자의 업무를 지원하게 될 것”이라고 말했다.
인공지능의 고전 번역이 필요한 이유는 무엇보다 고전 자료의 방대함이다. 조선왕조실록 등 주요 고전 외에도 서울대 규장각, 한국학중앙연구원 장서각, 성균관대 존경각 등에 엄청난 양의 고전이 원문으로 남아 있다. 그러나 국내 전문 고전 번역자는 약 200명 수준이다.
이명학 고전번역원장은 “주요 고전의 번역에만 약 100년이 걸릴 것으로 예상되고 있어 신기술을 통해 번역 속도를 높일 필요성이 절실하다”라며 “인공지능이 우리 고전의 번역을 대폭 앞당길 것으로 기대한다”라고 밝혔다.
조종엽 기자
'生活文化 > 그때그일그사람' 카테고리의 다른 글
[박윤석의 시간여행]김옥균과 이준용의 운명 (0) | 2017.02.20 |
---|---|
250년 간 묻혀 있던 작품, 알고보니 렘브란트作 (0) | 2017.02.16 |
[Why] 1300년 동안 도굴 막아낸 측천무후 무덤의 비밀 (0) | 2017.02.11 |
[이광표의 근대를 걷는다]베버 신부와 '고요한 아침의 나라' (0) | 2017.02.09 |
[공감!문화재] 신라의 조각명장 양지 스님 (0) | 2017.02.08 |