'데이터'에 해당되는 글 2건

  1. 2017.04.19 '신경망번역' 탄생시킨 조경현 뉴욕대 교수
  2. 2008.02.27 참회의 글
자료 - 전공자료2017. 4. 19. 19:21

네이버 번역이 구글 못따라가는 이유

데이터·신경망 구조 조밀한 구글 `번역품질`이 타사 압도
사회·문화적 맥락 집중 학습…인공지능, 곧 인간번역 추월

  • 신현규 기자
  • 입력 : 2017.04.04 17:03:59   수정 : 2017.04.05 10:08:21

 

'신경망번역' 탄생시킨 조경현 뉴욕대 교수

 기사의 0번째 이미지
최근 세종대에서 벌어진 인간 대 인공지능 번역 대결은 피조물의 패배로 끝났다. 판정 시비 논란이 있긴 했지만 번역은 아직 인간의 영역이라는 공감대가 형성된 이벤트였다. 글에 담긴 사회적 의미와 문화적 차이 등을 인공지능이 인간만큼 번역하기엔 한계가 있다는 지적이 이어졌다. 기사가 아니라 문학작품 번역에서 그 차이는 더욱 두드러졌다.

지난해 바둑에서 인공지능에 완패 당한 기억 탓인지 '인간의 승리'는 더 값져 보였다. 하지만 상대는 점점 더 강해진다.

인공신경망 번역 분야에서 주목받는 연구 성과를 내고 있는 조경현 미국 뉴욕대 교수(33·사진)는 "지금은 문장 단위 번역이지만, 앞으로는 이를 보완하는 사회·문화적 맥락 단위 번역이 이뤄질 것"이라며 "현재 딥러닝 연구자들이 그런 방향의 리서치를 진행하고 있다"고 말했다. 전문 번역가처럼 사회·문화적 맥락과 작가 스타일을 살려 번역할 수 있도록 하는 연구들이 진행되고 있다는 얘기다.

조 교수는 '신경망 번역(Neural Machine Translation)'이라는 학술용어를 처음으로 탄생시킨 인물이다. 공저자로 참여해 2014년 머신러닝 관련 콘퍼런스(ICLR)에서 발표한 논문 '배치작업과 번역작업을 동시에 학습시키는 신경망 번역'은 현재 대부분 번역엔진에 채택돼 있다. 조 교수가 요슈아 벤지오 몬트리올대 교수와 함께 쓴 논문이다. 벤지오 교수는 앤드루 응 전 바이두 인공지능연구소장, 얀 르쿤 뉴욕대 교수, 제프리 힌턴 토론토대 교수 등과 함께 현존 최고 딥러닝 학자 4인방으로 불리는 인공지능 대가다.

조 교수는 "예를 들어 이미지를 문장과 함께 인공지능 신경망에 포함해 번역시키면 결과물 품질이 더욱 높아질 수 있다"며 "이미지뿐만 아니라 다양한 보조 정보를 인공지능 신경망에 포함시켜 번역 품질을 향상시킬 수 있다"고 했다. 그의 설명대로라면 웃는 이모티콘을 사용하면서 '죽을래?'라고 쓴 문장을 번역하면 'Wanna die?' 대신 'Are you messing with me?' 정도로 번역될 수 있을 것이다. 웃고 있는 이모티콘을 통해 살의를 갖고 협박하는 말이 아니라 장난치는 말이라는 것을 알아채는 것이다. 장기적으로는 저자의 국적, 성별, 스타일까지 반영한 인공신경망 번역이 나올 수도 있다.

인공신경망 번역은 문장 하나를 그 의미와 구조에 따라 가상공간 점에 위치시킨 후 해당 점을 번역해 문장으로 풀어내는 기술이다. 변수들로 구성된 벡터 공간에 문장을 배치하기 때문에 그 공간에 이미지, 이모티콘, 저자 특성 등을 변수로 추가하면 이 같은 사회·문화적 맥락을 가미한 번역이 가능해진다. 이전 통계기반 번역에서는 어구 하나하나를 대입시켜 번역했기 때문에 변수를 추가하기 힘든 구조였다.

 
조 교수는 "기존 통계기반 번역기술에서는 이런 게 불가능했지만, 인공지능 신경망 번역이 나오면서 가능성이 새롭게 열렸다"고 했다.

그렇다면 왜 구글, 바이두, 네이버, 마이크로소프트 등이 내놓은 신경망 번역 엔진들 품질이 다른 걸까. 조 교수는 "사실 모든 회사의 기반기술 자체는 같다"며 "다만 개별 회사가 갖고 있는 데이터 양과 질, 신경망 모델의 크기, 학습 시간, 어떤 특성화된 알고리즘을 사용했느냐에 따라 차이가 난다"고 말했다. 그는 "동물 중에서 고등동물 뇌에 훨씬 많은 신경세포가 연결돼 있고, 그 연결이 많을수록 지능이 높다"며 "인공신경망 번역도 마찬가지"라고 말했다. 훨씬 범위가 넓고 조밀한 신경망을 구성하는 설계 구조가 번역 품질의 차이점이라는 것이다.

[신현규 기자]
[ⓒ 매일경제 & mk.co.kr, 무단전재 및 재배포 금지]

Posted by kicho
글 - 칼럼/단상2008. 2. 27. 14:16
 

참회의 글


                                                    조규익


불교경전에 ‘개구즉착(開口卽錯)’ 또는 ‘미개구착(未開口錯)’이란 말이 있습니다. ‘불립문자(不立文字)’의 오묘함을 깨닫기 위해 반드시 되씹어 보아야 하는 경구이지요. 스스로의 노력으로 견성(見性)하지 못하고 남에게 의지하려 하면 ‘입을 열자마자 그르친’격이거나 ‘입을 열기도 전에 그르친’ 격이라는 말입니다. 예로부터 불교의 선사(禪師)들이 흔히들 써온 이 말은 진리를 깨닫는데 말이 필요 없을 뿐 아니라 오히려 해를 끼친다는 의미를 내포하고 있습니다. 작은 일(?)에 큰 화를 낸 제가 정작 큰 일을 만나자 입을 열지 못하고 있는 것도 어떤 의미에서는 '입을 열자마자 그르친 일'과 같은 격이 아니겠는지요? 그 당시 제 가시 돋친 말의 대상이 되었던 분에게 비로소 미안한 마음을 표할 수 있게 되었습니다. 이 아침 저는 ‘개구즉착’이란 성어에 빗대어 제 그러한 실수를 참회하고자 합니다.

***

 2년쯤 전인가요? 저는 교육부총리로 임명된 김 아무개 교수에게 직격탄을 날린 적이 있습니다.(*그 글을 아래쪽에 첨부합니다)  당시 논문발표와 관련하여 그 분이 저질렀다고 보도된 일들이나 그에 관한 그 분의 해명이 너무나 궁하고 불쾌했던 저로서는 ‘욱’하는 성미를 참을 수 없었고, 급기야 글 한 쪽을 써서 일간지에 실었던 것이지요. 상당수의 사람들이 그 글을 읽고 통쾌해 했다면, 어쩌면 그것은 그 분이 당시 인기 없던 대통령의 측근이었다는 점 때문이었을 겁니다. 개인적으로는 그 분에게 미안하게 생각하면서도, 함께 학문의 세계에 몸담고 있다는 외람된 사명감(?)에 저지른 일이었지요. 그러나 새 정부가 들어서고 장관에 임명된 이른바 ‘폴리페서(polifessor)’들의 ‘추한 모습’을 목격하며 부끄러움과 회한으로 참담함을 금치 못하고 있습니다. 이 분들의 행위에 비하면, 그 시절 그 분의 잘못이야말로 참으로 ‘애교스러운 실수’였을지도 모른다는 판단이 저를 몹시도 괴롭히는 요즈음입니다. 그 분의 잘못에 대하여 그런 글을 썼다면, 지금 문제된 분들에 대해서는 과연 어떤 글을 써야 형평이 맞는 것일까요?

***

제자의 글을 표절하고, 한 논문을 십여 곳에 중복 게재했으며, 십여 년 가까이 제대로 된 논문 한 편 발표하지 못했다면, 학자로서 더 이상 무슨 말을 보탤 수 있겠는지요? 그것뿐인가요? 전국 방방곡곡을 누비며 부동산 등에 투기해온 그들의 행위를 과연 어떻게 설명해야 할까요? 교수들은 긴 방학을 즐길 수 있어서, 학문 하는 여가에 전국을 누비며 땅 투기에 전념할 수 있었노라고 ‘당당하게’ 해명이라도 해야 하나요? 연구가 잘 되지 않아서 하는 수 없이 부동산 투기라도 할 수밖에 없었노라고 변명이라도 해야 하나요? 연구실에서 밤늦도록 불을 밝히고 고뇌하는 제 주변의 교수들은 그럼 어떤 사람들일까요? 왜 새 정부에는 그런 사람들 뿐인가요? 이토록 그들에겐 ‘이런 사람도 있다’고 자신 있게 내세울 만한, ‘단 한 사람’의 표본적 인물도 없는 걸까요?

***

새 정부에 참여하신 문제 교수님들! 당장 거기서 내려오세요. 거긴 여러분께 분에 넘치는 자리입니다. 제가 강요할 사안인지는 모르겠으나, 그동안 투기로 벌어들인 부동산을 처분하여 제자들을 위한 장학금으로라도 내놓으시는 게 어떨지요? 그런 다음 그간 소홀히 했던 학문 연구에 매진하세요. 그렇게 하는 길만이 그나마 속죄할 수 있는 유일한 길임을 깨달아 주시기 바랍니다.

오늘 참담한 마음으로 제 실수를 참회하노니, 강호 제현께서는 부디 제 허물을 너그러이 용서하여 주소서. 

 2008. 2. 27.


 백규 드림



*첨부(조선일보 2006년 7월 28일 오피니언 칼럼)


교육부총리, 안 되겠소

                                                         

신임 교육부 장관 관련 사건들과 이에 대한 당사자의 해명이 갈수록 가관이다. 해명은 의혹만 증폭시켜 사태는 걷잡을 수 없는 규모로 번지고 있다. 이것이 이른바 ‘둔사(遁辭)’의 덫이란 것. ‘둔사 즉 도피하는 말은 논리가 궁하고 결국 정사(政事)에 해를 끼친다’는 맹자의 말씀은 이 경우에 딱 들어맞는다. 장관 하마평이 나돌면서 자녀의 외고 편입에 관한 여러 말들이 나돌았다. 그러나 교육문제에 관해 전문가 뺨칠 정도의 소양을 갖고 있는 국민들의 감정을 누그러뜨릴 만큼 그의 답변은 시원치 못했다. 그러다가 제자논문 표절 사건이 터져 나왔다. 그동안 우리의 지식사회를 감염시킨 표절사건들의 중심에 그가 서 있었음을 만천하에 드러냈고, 그 사건의 노출로 학계는 ‘카운터펀치’를 맞은 셈이다. 그 문제에 대해서도 당사자는 ‘전혀 문제 없다’는 반응을 보임으로써 학계와 국민들은 할 말을 잊었다. 곧바로 ‘BK21 논문 중복 게재 사건’이 뒤를 이었다. 이번에는 그도 어쩔 수 없었던지 사과를 했다. 그러나 ‘실무자의 착오’라는 전제를 달아둠으로써 그의 한계를 여실히 드러내고 말았다. 표절사건만 해도 그렇다. 제자인 신모씨의 논문이 통과된 것보다 자신의 논문 발표가 앞섰으니, 자신은 표절의 주체가 아니라는 것이 장관의 논리다. 제자에게 설문조사나 데이터 작성을 시킨 일은 그럴 수 있다고 치자. 그러나 해괴한 것은 같은 데이터로 제자는 학위논문을, 자신은 일반논문을 작성했는데, 제목도 논조도 결론도 유사하다는 점이다. 시기를 따지면 장관의 논문 발표보다 학위논문 통과가 두어 달 뒤진다. 그러니 자신은 표절의 주체가 될 수 없다는 것이다. 그렇다면 신모씨는 장관의 논문이 발간되고 나서야 학위논문을 작성하기 시작했다는 것인가. 백보를 양보하여 그런 논리를 받아들인다고 해도 의문은 남는다. 박사학위논문에는 최소한 서너 번의 심사과정이 있다. 심사위원인 자신의 논문이 도용당했음에도, 문제를 제기하지 않은 이유는 무엇인가. 인터넷 만능시대, 표절의 전성시대, ‘표절 여부를 가려내는 것이 학위논문 심사의 핵심’이라는 교수들의 한탄을 접하기가 어렵지 않은 요즈음이다. 하물며 직전에 발표한 자신의 논문이 제자의 학위논문에 도용되었는데, 당시 심사위원이었던 장관이 한 마디 문제를 제기하지 않았다면 이게 어찌 정상이란 말인가. BK21 논문사건은 표절보다 더 큰 문제다. ‘21세기 지식기반사회를 위한 고등인력 양성’이란 기치 아래 천문학적인 예산을 투입하여 진행하고 있는 사업이다. 쓴 잔을 마신 필자를 포함하여 전국의 많은 교수들이 몇 개월간 날밤을 새워가며 BK21에 참여하기 위해 애썼으나 선정된 인원은 소수다. ‘피 같은 국민의 세금’으로 세계 수준의 대학을 만들어 보겠노라는 국가의 야심찬 프로젝트에 한때 고무되었던 우리다. 장관은 논문을 중복 투고했으면서도 연구비는 그대로 챙겼으리라. 그렇게 귀한 국가예산을 ‘눈먼 돈’ 쯤으로 여겼단 말인가. 그런 입장으로  어떻게 ‘표절하지 말라, 연구비 집행을 투명하게 하라, 학위논문의 부실을 막기 위해 철저히 심사하라, 자녀들을 좋은 학교에 보내기 위해 편법을 쓰지 말라’는 영(令)을 내릴 수 있는가. 장관직 수행에 행정능력이나 기술이 중시된다지만, ‘교육인적자원부’만은 달라야 한다. 국가의 만년 대계를 책임 진 곳이 바로 교육부다. 행정능력을 바탕으로 인격이나 학자로서의 품위에 시비가 따르지 않을만한 인물을 발탁해야 하고, 스스로 ‘적재(適材)가 아니라’는 판단이 들면 고사해야 하는 것도 바로 그 때문이다. 강호에 묻건대, 과연 지금이 불거진 문제들을 해결하거나 명예를 회복하기 위해 장관직을 고수할 상황이란 말인가.

Posted by kicho