인공지능 시대에 번역하고 먹고 살기

in #kr6 years ago

나는 지식재산(IP) 특허 번역가다.

인공지능 기계번역의 시대가 도래했다. 엄연한 기정 사실이다. 번역 단가는 낮아지고 그만큼 번역가는 저녁시간과 잠을 줄여 더 일하게 될 상황이 오고 있다.

Screenshot_20180627-234739_Samsung Internet.jpg

IP 번역의 수준은 크게 3등급으로 나뉘고 있다고 본다.

  1. 기계 번역 그대로의 수준
    '그럭저럭' 이해할 수 있는 정도면 된다. 낮은 수준의 선행조사 검색을 할 때 필요하다. 기술적으로 중요한 키워드/구/절/문장이 해당 문서에 존재하는 여부만 파악할 수 있으면 된다. 현재 많은 선행조사 인력들이 모든 언어에 능숙할 수 없기 때문에 이 정도의 작업(윕스 검색)은 하고 있다.

  2. 기계번역 기반 후처리(이하, 포스트 에디팅) 수준
    포스트 에디팅이란 사람이 기계번역 결과를 기반하여 용어를 통일하고, 문맥을 조정하고, 무엇보다, 기술적인 오류를 수정하는 작업을 말한다. 일종의 초벌번역이다. 포스트 에디팅과 관련된 연구 논문도 다양하게 진행되고 있으며, 최근에는 MTE(Machine Translation Editor) 자격증도 생겼다. 기술 번역가는 그야말로 기술자(테크니션)가 되고 있다. 2016년을 전후(특히, 2017년 이후)로 인공신경망 기반 기계번역(NMT) 실력이 매우 좋아졌기 때문에 가능한 현상이다. 마치, 포토샵 마스크 플러그인이 발전해서 선따기 작업 같은 중노동이 한결 쉬워진 것으로 비유할 수 있겠다. 아주 심각하고 심란하게 표현하자면, 이제 기술 번역 포스트 에디터들은 동네 폐지를 줍거나 인형 눈알 붙이는 수준으로 대접 받을 수도 있다는 각오를 해야 한다. 포스트 에디팅은 트라도스와 같은 CAT툴을 기반하는 경우가 많은데, 향상된 구글 번역을 활용해서 더 정돈되고 정확하게 만든 번역 결과가 다시 기계 번역의 데이터 소스로 활용되기 쉽기 때문이다. 진퇴양난.

  3. 보증된 검수자 수준
    기존의 전문 검수자(리뷰어) 정도의 실력을 가진 번역가가 실질적인 책임을 지고 작업한 번역물을 말한다. 특히, 기술에 대한 법적인 보호범위가 중요한 특허 번역에서 더욱 의미가 있다. 포스트 에디팅 작업이 번역의 속도를 높여주기는 하지만 번역 품질과 정비례하지 않을 수 있다. 포스트 에디터가 양산될수록 이미 촉박한 납기는 더 빠듯해지고 단가는 낮아질 확률이 높은데, 빠른 초벌 번역으로 확보한 시간을 자체적인 검수에 활용하지 않고 다음 의뢰건에 투입하게 되기 쉽다. 인공지능 시대에는 포스트 에디팅의 타성에 젖지 않도록 여러 가지가 학습되고 숙련된 번역가가 조금 더 오래 살아남고 대접 받을 것이다. 이는 다음 기회에 구체적으로 모색해 보겠다.


joopan.jpg

scurve.jpg

두뇌 계발하는 것이 아니라면, 주판보다 계산기를 사용하는 것이 일반적으로 효과적이다. 계산이 복잡해지면 스프레드시트(MS엑셀)를 사용해야 한다. 번역 경력에 비례해서 번역 실력도 증가하겠지만 'S'자 곡선처럼 결국에는 그 효율은 떨어지게 된다. 특허 번역에 있어서도 컴퓨터 활용 능력은 필요하다. 특히, 기계번역이 날로 좋아지고 있는 상황에서는 더욱 그러하다. 기술과 언어 실력이 전혀 없으면 당연히 업무를 달성하기 어렵겠지만, 기계가 할 수 있는 것은 기계가 하도록 해야 한다고 생각한다. 주판의 아래 네 칸은 4이고, 5를 만들기 위해 위의 한 칸을 내리고 아래를 모두 털어버리는 과정은 주판을 만지고 있는 상황에서만 필요한 과정이다. 계산기를 사용할 때에는 전혀 필요 없다.

인공지능 번역기 VS. 인간 번역가

ai_vs01.jpg

ai_vs03.png

2017년 2월, 알파고가 바둑을 이기고 얼마 지나지 않아서 구글, 네이버, 시스트란의 번역기와 번역 전문가 3인이 문학/비문학 문제로 대결을 했다. 30점 만점에 평균 10:24.5라는 '월등한' 점수차로 인간이 승리했다고 기사화되었다.

ai_vs02.png

하지만, 이는 정확도만 평가한 결과이다. 속도를 기준으로 한다면 인공지능이 압승이다. 인간끼리 박수치며 토닥거리는 거다.

인공지능과 번역의 미래 대담
같은 해 5월, 카이스트 정재승 교수(바이오 및 뇌공학)와 이화여대 정영목 교수(통번역대학원)가 인공지능과 번역에 대한 대담을 나눴다. 그 내용은 다음과 같다.

"(중략) .. 인공지능 번역 수준이 인간 번역을 넘어서기 이전이라도, 통역·번역가의 일감이 줄어드는 것은 막기 어렵다. 일반인들이 ‘이쯤 되면 쓸 만하네’란 생각이 드는 순간 번역가의 일감 상당 부분이 사라질 것이다. 인공지능 번역은 거의 공짜로 이용할 수 있기 때문이다. 어느 정도(93%)의 정확도만 보인다고 해도 번역에 드는 비용이 거의 없고 속도가 무척 빠르기 때문에, 사람들은 '번역의 질이 특별히 중요한 경우'를 제외하고는 대부분 인공지능에 번역을 맡길 것이다.”

"번역가는 다양한 인공지능 번역기의 특성을 분석하면서 장단점을 파악해 더 효율적으로 작업할 수 있다. 통역번역대학에서 적극적으로 인공지능 번역을 교육과정 안으로 끌어안아야 한다"

출처: http://m.news.naver.com/read.nhn?mode=LSD&mid=sec&sid1=105&oid=028&aid=0002366418


Screenshot_20180627-234839_Samsung Internet.jpg

인공지능과의 협업은 점점 불가피해지고 있다. 이제는 기계번역을 적극 활용해야 한다. 어차피, 당장 때려치지 못할 바에는 포스트 에디팅을 '당분간' 잘 활용해야 한다. 아울러, '번역의 질이 특별히 중요한 경우'를 충족할 수 있도록 차근차근 준비해야 한다.

일단, 아래에서는 개인적으로 활용하고 있는 포스트 에디팅과 관련하여, 번역가라면 갖추어야 하는 최소한의 컴퓨터 활용 능력을 설명하겠다.

번역을 위한 기본적인 컴퓨터 활용 능력에는: 기계번역(구글번역) / CAT툴 / API / 문서편집기(마커 등) / 정규표현식 / 매크로 / OCR 등이 있다.

1. 기계번역

gooppa.jpg

g_trans01.png

g_trans02.jpg

구글번역과 네이버 파파고가 대표적이다. 영한-한영 번역에 있어서는 구글이 월등히 우수하고, 중한-한중은 양자 모두 개선이 많이 요구되지만 파파고가 약간 앞서고 있다. 2016년을 기점으로 영한-한영 번역의 품질이 혁신적으로 개선되었다. 현업에서 포스트 에디팅이 상당 부분 가능할 정도로 번역 환경이 편해졌다. 다만, 구, 절, 또는 문장 단위로 번역할 경우에는 각각의 구, 절, 또는 문장간에 용어의 통일성이 다소 떨어지므로 주의를 요한다. 특히, 국문 명세서는 과도하게 현학적으로 서술한다거나 문장을 길게 쓴다거나 하는 경향이 있다보니, 비문이 많다. 즉, 원문 세그먼트를 잘 해야 기계 번역 품질이 좋아진다.

2. CAT툴

20180629_184141.png

CAT툴(Computer Assisted Translation tool)이란 컴퓨터 보조 번역 프로그램을 말한다. 구글번역과 같은 기계 번역과는 다르다. 기계번역은 휘발성이지만, CAT툴은 번역한 내용을 기억한다.
우선, 번역자의 관점에서 설명하자면, CAT툴 프로그램에는 애초에 번역된 내용이 없는 제로베이스에서 시작한다. 대신에, 구글번역과 다른 유용한 기능을 제공한다. 번역자가 직접 번역한 문장이 번역메모리(Translation Memory; TM) 파일로 저장된다. 이후에 유사한 원문을 번역하는 경우에는 TM에서 자동으로 검색하여 유사한 정도(일치도; concordance)와 함께 추천을 해준다. 즉, 직접 또는 간접적으로 번역하는 과정이 줄어든다. 일치하지 않는 글자는 다른 색으로 표시하므로 상이한 부분만 신속하게 고칠 수 있다. 염기서열이 나열된 바이오 특허가 가장 효과적일 수 있다. 또한, 전문적인 용어(glossary)도 추천해주므로 사전을 찾는 번거로움을 줄여주고, 고객별로 일관성 있는 작업을 가능하게 한다. 처음은 아무 자료가 없지만 번역 경력이 늘어날수록 자신만의 노하우가 늘어나는 것이다. 일정한 파일 형식을 사용하므로 기존의 말뭉치(코퍼스)를 수집 및 편집하여 TM 및 glossary를 준비한 상태에서 번역을 시작할 수도 있다. 또 다른 장점으로는, 원문의 서식을 별도로 편집할 필요 없이 자동으로 구분해주기 때문에, 텍스트 번역 자체에만 집중할 수도 있다는 점이다. 번역회사의 입장에서도 유용한 기능을 제공한다. 여러 번역자들과의 공동작업을 분배 및 통합하면서 프로젝트 관리를 할 수 있다. 또한 번역 검수 기능을 통해 번역자와의 커뮤니케이션을 구현하며 번역 품질도 향상된다.
시중에는 수 십개의 CAT툴이 있는데, 가장 유명한 프로그램은 트라도스이다. 기능이 많은 만큼 가격도 매우 높고 고사양이다. 개인용이 백만원에 가깝다. 현재의 트라도스는 기능이 막강하지만, 번역가보다는 번역 업체의 편의를 지향하는 경향이 있다. 온라인(클라우드)에서 구동되는 서비스도 많아졌다. 한편, 오메가T라는 오픈소스 프로그램도 유명하다. 무엇보다 무료이므로 입문자에게 적합하지만, CAT툴의 주요 기능을 구현하는 데 전혀 부족함이 없다. 세부적으로는 호불호가 다르겠지만, 개인적으로 몇 년간 현업에서 문제 없이 잘 사용하고 있는 프로그램이다. 내가 이 프로그램을 사용하는 가장 큰 이유는 가벼워서다. 기술을 오류 없이 정확하게 파악하기 위해서, 그리고 효율적인 기계 번역을 위해서는 원문을 잘 쪼개야(segment) 한다. 원문 파일을 변경하고 CAT툴에 빨리 반영하기에는 나에게 오메가T가 적합하다. 원문 쪼개기(split) 기능이 있는 다른 CAT툴도 있는데, 나에게는 무겁다.

3. 번역 API

g_api.png

구글번역과 같은 기계번역의 또 다른 단점은, 복사하기 및 붙여넣기를 반복해야 한다는 것이다. 필요할 때마다 원문을 웹브라우저에 복사하여 붙여넣고, 검색된 번역 결과를 다시 문서 편집기로 복사하여 붙여넣기를 반복해야 하는 경우, 피로가 누적되어 업무 효율이 떨어지게 된다. 이 경우에 API를 활용한다. API(Application Programming Interface)를 이용하면, 웹브라우저(구글번역)와 편집기를 왔다 갔다 하면서 복사(Ctrl+C / V)를 반복할 필요 없이도, 편집기에서 구글번역의 변역 결과를 직접 가져올 수 있다. 근래에는 수많은 웹서비스들이 API를 유료 또는 무료로 공개하고 있다. 또한, 많은 CAT툴이 구글번역 등의 API를 지원한다. 위의 이미지는 본인이 사용하는 구글번역 API 페이지다. 한 달 평균 사용액은 3천원이 조금 넘는데, 업무 효율은 수십 배가 향상되었다.

4. 문서 편집기

marker01.PNG
marker02.PNG
marker03.PNG

번역의 직접적인 작업은 주로 CAT툴에서 세그먼트 단위(문장 또는 절)로 이루어진다. CAT툴에서 문서가 완료될 경우도 있지만, 문서 단위의 완성은 대부분 문서 편집기에서 한다. MS워드가 가장 유명한 문서 편집기 중의 하나이지만, 나는 IT개발자용 텍스트 에디터(엠에디터)를 사용한다. MS워드를 보완하는 매우 다양한 기능들이 있어서, 번역 속도와 품질을 높일 수 있다. 구체적으로, 전문 텍스트 에디터를 사용하는 주요 기능에는 마커(강조 표시) 기능, 매크로 기능, 스니펫 기능, 정규표현식 기능, 줄바꿈 기능이 있다.

  • 마커 기능이란 미리 설정해 둔 특정 문자, 단어 또는 패턴에 여러 가지 색상 등으로 구별되게 강조 표시를 하는 기능을 말한다. 처음에는 산만하다고 느낄 수 있다. 하지만, 본인이 일정하게 설정한 규칙이 있기 때문에 곧 익숙하고 편해진다. 이 기능을 사용하면, 전체적인 글이나 문장의 구조를 파악하기 쉽다. 특정 등위접속사 및 문장부호 또는 고정 표현이 강조되기 때문이다. 용어나 관사를 오류 없이 사용하기 위해서도 마커 기능은 유용한다. 가령, 미국 특허 문서의 경우, 'a/an'과 'the'는 특히 청구항에서 매우 중요하기 때문에(antecedent basis) 심지어는 'a first'처럼 서수도 'a/an'을 쓴다. 또한, 문서의 제목은 대문자이어야 하며 맨 앞에는 관사를 사용하지 않는데, 이때 발생하는 오류를 가시화 시켜준다. MS워드의 맞춤법 검사 기능이 놓치는 실수들도 줄여준다. 즉, 번역 작업과 동시에 그리고 번역물이 완성된 때에, 1차적이고 형식적인 검수(QA) 기능을 구현할 수 있다.
  • 매크로는 반복되는 동작을 자동적으로 수행하는 기능이다. 원문을 훼손시키지 않고 다른 색상 등으로 표현하는 마커 기능과 달리, 매크로는 원문을 여러 행으로 쪼개거나 다른 표현으로 변경하는 기능을 포함한다. 일반적으로, 특허 명세서는 하나의 문장이 발명의 구성요소를 중심으로 상당히 길게 서술된다. 이러한 장문의 원문 형식을 변경함으로써, 문장 내에서의 형태소 중심의 구조를 파악하기 용이하고, 추후 TM을 효과적으로 구성할 수 있게 된다. 이를 위해, 간단한 자바 스크립트를 사용한다.
  • 스니펫(줄임말) 기능으로 몇 글자만 입력하고 탭 키를 누르면 사전 설정한 표현으로 전환된다. 기술 문서는 정형화된 표현들이 많기 때문에 유용한 기능이다. 가령, "The present invention relates to a"를 tpi(+ 탭키)라고 입력하기만 하면 되므로 시간이 매우 단축된다.
  • 줄바꿈은 특별한 기능이랄 것도 아니지만, 긴 문서를 오르내릴 때 은근 유용하다.
  • 이외에도, 전문 텍스트 에디터에는 아주 다양한 기능들이 있기 때문에, 개발자가 아니라도 추천되는 프로그램이다.

5. 정규표현식

정규표현식이란 특정 문자에 대해 찾기/바꾸기 기능을 할 경우에 사용하는, 일종의 문자 패턴에 관한 기능이다. 상술한 마커, 매크로, 스니펫 기능에서도 정규표현식이 사용된다. 한글/한자/영문, 대문자/소문자, 줄바꿈, 문장 첫/마지막 글자, 탭문자, 숫자, 자리수 등등을 구분할 수 있다. 번역을 위한 직접적인 작업이 아닌 경우에도 매우 유용하다. 인터넷 등에서 가령 TM 또는 glossary용으로 사용할 수 있는 텍스트 자료들을 CAT툴에 적합하게 가공을 할 때, 정규표현식을 사용하지 않으면 결코 손을 댈 수 없는 경우가 발생한다. 가령, 현재 본인이 보유하고 있는 기술 용어(glossary)는 영어는 15만 단어 이상, 중국어는 10만 단어 이상이다. 정규표현식을 몰랐다면 몇 년이 걸렸을지 모를 일이다. 매우 기본적인 정규표현식만 활용하더라도, 이러한 작업을 몇 개월 단축할 수 있다.

6. 매크로 단축기(오토핫키)

macro01.PNG
상술한 문서 편집기의 내부 매크로와 달리, 매크로 전용 프로그램을 이용하기도 한다. 본인은 오토핫키라는 매크로 프로그램을 사용하여, 사전 및 일반 웹 검색 기능을 위해 매크로를 활용한다. 특히 기술 문서에는 익숙하지 않은 용어나 표현들이 자주 나오기 때문에 번역가는 검색을 수없이 해야 한다. 마우스/키보드로 블록 지정 및 복사하기/붙여넣기를 반복하는 작업은 절대적이다. 사전의 종류를 변경하거나 검색엔진을 활성화하는 경우도 있다. 말풍선(툴팁) 사전 기능으로 부족할 때에는, 검색하고자 하는 부분을 블록 지정을 한 후에 키보드의 손가락이 움직이기 편한 위치의 키를 누르면 검색이 자동화된다. 본인의 경우, 가장 많이 사용하는 영어 사전은 왼손에서 가까운 F1키, 중국어 사전은 오른손의 F8키를 한 번 누르기만 하면 된다. 복사하기(Ctrl+C)는 F3, 붙여넣기(Ctrl+V)는 F4, 찾기(Ctrl+F)는 F9, 전체선택((Ctrl+A)는 F10, 일반 구글검색은 F11과 같은 식이다. 시간도 빨라지고, 무엇보다 Ctrl키 때문에 새끼 손가락이 피곤해지는 일이 없다. 작지만 아주 큰 차이다.

7. 문자 인식 OCR

ABBYY.jpg

OCR(Optical Character Recognition; 광학문자인식) 프로그램은 이미지 파일 내의 문자를 텍스트 파일로 변환시켜 주는 기능을 갖는다. 고객이 텍스트 파일(.txt 또는 .docx 등)으로 원문을 의뢰하지 않고 PDF 파일로 의뢰하는 경우가 있다. 이때, 텍스트 인식이 안되는 PDF 문서로 전달 받은 경우, 고객에게 요청하기 텍스트 파일로 다시 보내달라고 요청하기 어려운 경우가 있다. 여러 단계를 거쳐서 문서가 오기 때문이고, 이러한 일로 텍스트 파일을 요청받는 자체를 고객이 불편해 할 수 있기 때문이다. 이럴 때 OCR 프로그램을 사용한다. OCR 프로그램은 번역과 직접적으로 전혀 상관없는 전처리 과정에 소요되는 시간을 대폭적으로 감소시켜 준다. 반나절 또는 하루 이상의 시간을 벌어주기도 한다. 특히 표의문자이고 발음을 잘 숙지하지 못한 경우가 많을 중국어 원본에 대해 매우 유용하다. 이 프로그램 자체를 실행하는 것은 어렵지 않다. 조금 더 스마트한 사용을 하는 경우에는 그 진가를 발휘한다. 즉, 학습 기능이다. 특히, 원본이 불분명하게 출력된 경우 OCR 프로그램은 동일한 인식 오류를 발생할 수 있는데, 학습 기능을 활용함으로써, 추후 발생하는 인식 오류에 대해 일일이 점검할 필요성이 낮아진다. 물론 이러한 학습을 위해서는 별도의 기능을 번역가가 숙지해야 하기는 한다. 현재, 광학 인식률이 가장 좋다고 평을 받는 프로그램은 ABBYY Fine Reader 이고, 가장 비싸다.

결론
상기 기능들은 몰라도 번역을 하는 데에는 전혀 상관이 없다고 반론할 수 있다. 게다가 각각의 기능을 구현하기 위한 세부적인 방법을 숙지하려면 시간과 에너지가 소요된다. 하지만, 절대적인 속도가 높아지면, 품질을 높일 수 있는 시간을 벌 수 있게 된다. 게다가 일단 최적화하여 세팅해 놓으면, 계속 신경 쓰지 않아도 되는 업무 습관이 된다. 세탁기의 발명으로 인해 특히 과거의 여성들의 삶이 혁명적으로 개선되었던 것처럼, 책임감 있는 검수자로서의 번역가가 되기 위해서는 그에 상응하는 시간을 확보할 수 있어야 한다. 이것이 인공지능 번역기 시대에 번역가가 갖춰야 할 최소한의 컴퓨터 능력이라고 생각한다. 최소한.

P.S. 인형 눈 붙이는 번역가 시대로 가는 최대한이기도 하고.

Sort:  

(jjangjjangman 태그 사용시 댓글을 남깁니다.)
호출에 감사드립니다! 즐거운 스티밋하세요!

늘 존경과 감사를 드립니다~

갈수록 번역이 완벽해 지기 때문에 번역일은 먼 훗날 사라질 듯 해요.

네, 그건 확실합니다. 다른 직업보다 빨리 맞겠지요. 극히 일부의 책임있는 번역가만 살아 남을 겁니다.

전세계 850만이 사용하는 통합 번역 플랫폼 플리토도 있어요

플리토 아주 좋은 서비스입니다. 특히, 구어체나 그에 가까운 문어체에 아주 좋습니다. 크로스 검수도 좋구요.

한국어 만큼은 번역 하시는 분들 없으면 안될듯요 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ

네, 한국어라서 제가 생계를 유지할 수 있지요. 영어랑 한국어는 꽤 멀거든요.

기계번역 관련한 거의 모든 노하우가 집약된듯 합니다.
좋은글 감사합니다
업봇 & 팔로 & 리스팀합니다

감사합니다~. 완전히 세밀한 설명은 아니었지만, 도움이 되는 글이었으면 좋겠습니다. 이러한 기계 번역 기술이 이제는 번역 입문 수준이 되는 시대가 되고 있네요. 항상 노력할 수 밖에요.

특허나 계약서 처럼 번역 문구 자체로 중요성이 있거나,
문학처럼 감성 번역이 필요한 경우 등을 제외하면
의사 소통이 원활한 수준으로 AI 번역을 많이 활용하게 될 것 같습니다.

결국 플리토 같은 회사도 번역을 위한 빅데이터 회사로 되어가고 있기는 합니다.

변하고 사라지는 것은 안타까운 일이고 밥줄이 달려 있을 때는 심각한 일이지만, 한쪽 문이 닫히면 다른 문이 열린다고 봅니다☆

얼마전에 '초벌번역가'라는 괴상망칙한 알바를 하는 광고가 많이 나왔는데, 나중에 알고보니 낚시성 광고더라고요. 초벌번역가만 따로 그렇게 많이 필요한 경우는 잘 없고, 대체로 전문번역가 분들이 초벌번역부터 최종번역까지 담당하신다고요.

이런 초벌번역 파트를 기계가 담당하면서 오히려 분업사회가 되지 않을까 하고 소망해 봅니다. 초벌번역 -> AI / 최종번역 및 검수 -> 사람 이렇게요.

네, '초벌번역가'라는 직업은 거의 없다고 들었습니다. 일종의 낚시인거죠. 초벌번역가는 실제로 거의 존재하지 않는데, 번역가를 지망하는 많은 분들이 이제 포스트 에디터 자격증에 많이 솔깃할 겁니다.

하여튼, 기계번역 실력이 좋아지는 것이 사회 전체적으로는 이득이라고 저는 생각합니다. 많은 사람들의 기술문맹을 줄여줄테니까요.

Congratulations @haoya! You received a personal award!

Happy Birthday! - You are on the Steem blockchain for 1 year!

You can view your badges on your Steem Board and compare to others on the Steem Ranking

Do not miss the last post from @steemitboard:

SteemitBoard - Witness Update
Vote for @Steemitboard as a witness to get one more award and increased upvotes!

Coin Marketplace

STEEM 0.19
TRX 0.25
JST 0.038
BTC 97219.48
ETH 3408.71
USDT 1.00
SBD 3.02