구글 번역기 원리 | 인공지능 구글 번역기는 어떻게 번역할까? 113 개의 자세한 답변

당신은 주제를 찾고 있습니까 “구글 번역기 원리 – 인공지능 구글 번역기는 어떻게 번역할까?“? 다음 카테고리의 웹사이트 https://you.aodaithanhmai.com.vn 에서 귀하의 모든 질문에 답변해 드립니다: you.aodaithanhmai.com.vn/blog. 바로 아래에서 답을 찾을 수 있습니다. 작성자 닷페이스 이(가) 작성한 기사에는 조회수 23,801회 및 좋아요 550개 개의 좋아요가 있습니다.

무수히 많은 텍스트들을 분석하여 번역하려는 상호 언어의 일정한 패턴을 찾아 번역하는 방식“​ 입니다. 구글이 가지고 있는 방대한 양의 데이터베이스 속에서 패턴을 찾아 번역하는 것이죠. 데이터베이스의 양이 많아지고, 질이 높아질수록 번역의 정확도 역시 더욱 높아집니다.

구글 번역기 원리 주제에 대한 동영상 보기

여기에서 이 주제에 대한 비디오를 시청하십시오. 주의 깊게 살펴보고 읽고 있는 내용에 대한 피드백을 제공하세요!

d여기에서 인공지능 구글 번역기는 어떻게 번역할까? – 구글 번역기 원리 주제에 대한 세부정보를 참조하세요

닷페이스를 구독해주세요! https://goo.gl/KnRiYf

[닷페이스를 만나는 다양한 방법!]페이스북 : https://goo.gl/7YChqN
피키캐스트 : https://goo.gl/aa4KL2
트위터 : https://goo.gl/5zPsLx

구글 번역기 원리 주제에 대한 자세한 내용은 여기를 참조하세요.

구글 번역 – 나무위키:대문

이러한 번역 원리를 말뭉치[6] 기반 기계번역(corpus-based machine translation; CBMT)라고 일컬으며, 두 언어 간의 병렬 말뭉치(bilingual parallel …

+ 여기에 보기

Source: namu.wiki

Date Published: 11/20/2021

View: 1727

the 원리 of 구글 번역 – 신경망 번역의 원리 – 네이버 블로그

최고의 번역기가 필요합니다. 이 절체절명의 순간에. 구글이 번역기를 업그레이드했군요. 신경망 번역(NMT, Neural Machine Translation)방식을.

+ 여기에 보기

Source: m.blog.naver.com

Date Published: 6/1/2022

View: 5765

파파고, 구글 번역기는 어떻게 우리 곁에 왔을까? – 성대신문

그렇다면 기계 번역은 어떤 원리로 이뤄졌고 어떻게 발전했을까? 한국어 정보처리 기술을 연구 및 개발하고 있는 국민대 소프트웨어학부 강승식 교수에게 …

+ 더 읽기

Source: www.skkuw.com

Date Published: 9/11/2021

View: 2152

구글 번역기의 작동원리 by 승준 박 – Prezi

구글 번역기의 작동원리. Number of times this content has … 최근에 문장 뜻을 찾아보기 위하여 번역기를 사용했습니다. 그러나, 해석 순서도 엉망이고 단어 뜻도 …

+ 여기에 자세히 보기

Source: prezi.com

Date Published: 8/7/2022

View: 5662

[제243호 과학학술: 인공지능 번역] 인공지능 번역의 트렌드

그 결과 현재 구글 번역기는 108개의 언어에 대해 상당한 수준의 통번역 기능을 제공한다. … 인공지능 번역의 원리 – 신경망 기계번역.

+ 여기에 표시

Source: khugnews.co.kr

Date Published: 1/21/2021

View: 1815

자연어처리 – 구글 신경망 번역의 원리

http://m.blog.naver.com/kcolacup/220865620556 지금까지 구글 번역기는 통계적 방법을 기반으로 하였습니다. 단어나 숙어를 분해한 후 각각 많이 …

+ 여기에 더 보기

Source: aidev.co.kr

Date Published: 9/22/2021

View: 9661

기계번역 어디까지 진화했나? – Sciencetimes – 사이언스타임즈

구글 번역기를 활용해 독일어를 영어로 번역한 내용을 읽었는데 번역이 거의 완벽한 … 기계번역은 특정 언어를 자동으로 번역해주는 기술이다. 구글 …

+ 더 읽기

Source: www.sciencetimes.co.kr

Date Published: 8/6/2021

View: 9883

[인공신경망] (1) 어색한 번역은 그만! AI 탑재한 … – 공개SW 포털

2007년 구글이 웹 기반 자동번역기를… … 쉽게 이해하는 신경망 번역 방식의 원리 … 인공 신경망 기계번역 원리(자료: 네이버).

+ 자세한 내용은 여기를 클릭하십시오

Source: www.oss.kr

Date Published: 7/11/2021

View: 5315

주제와 관련된 이미지 구글 번역기 원리

주제와 관련된 더 많은 사진을 참조하십시오 인공지능 구글 번역기는 어떻게 번역할까?. 댓글에서 더 많은 관련 이미지를 보거나 필요한 경우 더 많은 관련 기사를 볼 수 있습니다.

인공지능 구글 번역기는 어떻게 번역할까?
인공지능 구글 번역기는 어떻게 번역할까?

주제에 대한 기사 평가 구글 번역기 원리

  • Author: 닷페이스
  • Views: 조회수 23,801회
  • Likes: 좋아요 550개
  • Date Published: 2016. 12. 2.
  • Video Url link: https://www.youtube.com/watch?v=5GXz1uhQMa0

[구글번역기] 구글번역기의 비밀에 대해 알아보자!

大家好!!

​여러분 안녕하세요^^ 예금보험공사 대학생 인턴 10기 청산회수2부 권대욱입니다.

다들 학교 숙제하면서 구글 번역기 ( https://translate.google.co.kr/ ) 한 번쯤 사용해보셨죠?

구글 번역기를 사용하면서 어떤 원리에 의해 작동하는지 궁금하지 않으셨나요?

저는 중어중문학을 전공해서 구글 번역기를 자주 사용하는 편이라서 평소에 구글 번역기가 어떻게 작동하는지 궁금했거든요~

오늘은 ​구글 번역기의 비밀에 대해서 알아보겠습니다!

구글 번역기란 구글의 다중언어 자동번역 검색서비스 ​로 영어, 중국어, 한국어 등 90여 개의 언어를 지원합니다.

원하는 언어로 순식간에 번역해주는 편리함이 있는 구글 번역기지만,

가끔 이런 실수를 보여주기도 합니다;; ​

제가 원한 번역은 ‘There are many horses in the cage.’ 정도였는데 말이죠.​

1. 구글 번역기의 작동 원리

구글 번역기는 현재까지 발전한 기계 번역(machine translation)의 가장 고도의 산물이라고 할 수 있습니다!​

​기계 번역은 쉽게 말해서 번역가가 아닌 기계를 이용하여 번역을 하는 것을 말합니다.

구글 번역기는 2007년에 출시되었지만,

기계 번역의 역사는 1949년으로 거슬러 올라갑니다…

재밌는 것은 기계 번역 연구가 본격화 된 데에는

미국과 소련의 군비경쟁이 있었다는 점입니다.​

러시아어로 된 소련의 문서를 미국에서 빠른 속도로 번역하기 위해서

미국 정부가 기계 번역에 대한 막대한 투자를 했다고 하네요~ ​

하지만 예외가 많은 언어의 특수성 때문에 초기 기계 번역 연구는 실패하고 맙니다.

(우리가 외국어를 배우기 어려운 게 정상입니다!!) ​

​구글 번역기는 기존의 기계 번역이 가지고 있던 문제점을

통계적 기계 번역(Static Machine Translation)이라는 방식으로 극복했습니다.

통계적 기계 번역이란,

“무수히 많은 텍스트들을 분석하여 번역하려는 상호 언어의 일정한 패턴을 찾아 번역하는 방식”​ 입니다.

즉, 과거의 기계 번역처럼 일일이 해당 하는 단어를 찾고 문법 규칙에 맞게 적용하는 것이 아니라

구글이 가지고 있는 방대한 양의 데이터베이스 속에서 패턴을 찾아 번역하는 것이죠.

결국 통계적 기계 번역 방식은 구글이 가지고 있는 장점을 극대화한 방식이라고 할 수 있겠습니다.​

데이터베이스의 양이 많아지고, 질이 높아질수록 번역의 정확도 역시 더욱 높아집니다.

우리가 일반적으로 구글 번역기가 번역을 못 한다고 생각하는 것은

한국어로 된 데이터베이스의 양이 많지 않기 때문입니다ㅠ_ㅠ

또 한국어와 영어의 문장구조가 다른 것도 이유입니다.

한국어는 S(주어)+O(목적어)+V(동사) 문장구조를,

영어는 S(주어)+V(동사)+O(목적어) 문장구조를 가지고 있지요.

반면에 문장구조가 비슷하고 축적된 데이터베이스가 많은 영어-프랑스어 간에는 구글 번역이 매우 잘되는 것으로 알려져 있습니다.

제가 프랑스어를 할 줄 몰라서 확인은 못해봤네요;;​

실제로 많이 사용하는 문장, 단순한 구조의 문장은 구글 번역기가 쉽게 번역할 수 있습니다.

다음은 인도네시아 에어아시아의 항공기 실종 사건에 관한 뉴욕타임즈의 기사 일부입니다.

Indonesia AirAsia Flight 8501, an Airbus A320 airliner carrying 162 people, disappeared from radar screens early Sunday, about 40 minutes after leaving the Indonesian city of Surabaya en route to Singapore. A full day of searching the relatively shallow waters off the coast of Borneo has so far yielded no sign of the aircraft, raising a familiar mix of uncertainty and grief just nine months after Malaysia Airlines Flight 370 disappeared shortly after takeoff from Kuala Lumpur. Though Flight 8501 disappeared in a similar part of the world, it involves a different airline and a different type of aircraft.​

이 기사를 구글 번역기를 이용하여 한국어로 번역하면 다음과 같은 문장이 나옵니다.

인도네시아 에어 아시아 항공 8501, 1백62명를 운반하는 에어 버스 A320 여객기는 40 분 싱가포르로가는 도중 수 라바 야의 인도네시아 도시를 떠난 후, 일요일 이른 레이더 스크린에서 사라졌다. 보르네오 해안에서 비교적 얕은 바다를 검색하는 하루 종일 지금까지 단지 구개월 말레이시아 항공 370 편 쿠알라 룸푸르에서 이륙 직후 사라진 후 불확실성과 슬픔의 친숙한 혼합을 제기, 항공기의 흔적을 굴복하지 않았다. 비행 8501 세계의 유사한 부분에 사라하더라도, 그것은 다른 항공사 및 항공기의 다른 유형을 포함한다.​

비문과 다소 부자연스러운 문장이 있기는 하지만 전체적인 맥락을 이해하는데 어려움은 없습니다. ​

전문 번역가나 정확한 번역을 요구하는 경우라면 몰라도

해당 언어에 친숙하지 않은 외국인들에게 구글 번역기는 큰 도움이 될 것입니다.

2. 구글 번역기의 한계 ​

​구글 번역기가 이렇게 유용함에도 불구하고 지탄을 받는 이유는

구글 번역기가 본질적으로 가지고 있는 맹점 때문입니다.

아무래도 사람이 아닌 기계(컴퓨터)가 하는 번역인 만큼 같은 실수를 반복하지요.

그렇다면 구글 번역기의 문제점에는 어떤 것들이 있는지 알아보도록 하겠습니다.

우선 앞서 말씀드린 것처럼 구글 번역기는 데이터베이스에 있는 문서들의 패턴을 분석하여

번역을 하는 방식이기 때문에 문서의 수가 많지 않으면 번역의 정확도가 현저히 떨어집니다.

마찬가지로 번역을 할 때 정확한 번역이 아닌 사람들이 많이 사용하는 표현,

가장 확률이 높은 번역을 하게 됩니다.

확률에 의지한 번역을 하다 보니 문장이 길어지거나 복문이 되면 그만큼 번역이 틀릴 확률이 높아지게 됩니다.

또 관용적 표현, 여러 가지 의미를 가진 단어, 고유명사가 들어간 문장에서 실수하는 모습을 보입니다.

관용적 표현을 잘 번역하지 못하는 이유는 관용적 표현이 갖는 특수성 때문입니다.

관용적 표현에는 일정한 규칙도 없고, 문자 그대로 해석해서는 의마가 통하지 않습니다.

예를 들어 ‘발이 넓다.’라는 문장은 실제로 신체적 의미의 발이 넓다는 의미로 사용되기보다는

인간관계가 넓다는 의미로 쓰이는 것이 일반적입니다.

이러한 경우를 구글 번역기가 인식하기 위해서는 해당 문장뿐만 아니라

앞뒤 문장을 포함하여 전체적인 맥락을 파악해야만 합니다.

또 데이터베이스에 안에 해당 관용어에 대한 정보가 습득되어 높은 확률로 나타나야 합니다.

하지만 현재 구글 번역기의 수준으로는 무수히 많은 관용적 표현을 습득하는 것은 쉽지 않아 보입니다.

따라서 구글 번역기는 ‘발이 넓다.’라는 문장에 대하여 위와 같은 번역을 보여줍니다.

3. 맺으며

최근 온라인 커뮤니티에 구글 번역기를 이용한 유머가 유행한 적이 있습니다.​

정시퇴근을 당연한 것이 아니라 뻔뻔한 것으로 치부하는 사회적 분위기 속에서

그 유머는 자조적 웃음을 자아냈습니다.​

구글 번역기에 ‘퇴근하세요.’라는 문장을 입력하고 영어로 번역하면 ‘Please work.’라는 문장으로 번역됩니다.

정반대의 뜻으로 번역한 것이죠.

온라인 커뮤니티 속에서는 우스갯소리로 여겨졌지만

이는 구글 번역기의 한계를 보여주는 사례라고 할 수 있습니다.​

구글 번역기에서는 사용자가 제안할 수 있는 ‘이 번역 개선하기’를 통해

사용자가 특정 문장에 대한 번역을 지정할 수 있습니다.

문제는 그 번역이 올바르지 않거나, 위의 사례에서 보시는 것처럼

정반대의 사례를 나타낼지라도 구글 번역기에서는 문제를 인식하지 못합니다.​

대한민국 사회에서 정시퇴근이 자연스러운 문화로 자리 잡고,

날로 발전하는 구글 번역기의 모습을 기대해봅니다.​

구글 번역

Чингис хаан (~1162 – 1227 оны 8 сарын 18) 1206 онд Монгол аймгуудыг нэгтгэж Их Монгол Улс буюу Монголын эзэнт гүрнийг байгуулсан Монголын хаан байв. Хиад Боржигин Есүхэйн Тэмүжин (Тэмүүжин ч гэж бичдэг) гэдэг нэртэйгээр Боржигин овогт төрсөн бөгөөд түүхэн дэх хамгийн гарамгай улс төр, цэргийн суут удирдагч юм.

→ Genghis Khan (~ 1162 – 8 May 1227, 18) In 1206, Mongolian tribes were united Mongolian Mongolian Khan established the Mongol Empire.Khiad and Borjigin Yesükhein Temujin (Temujin would say), was born in the tribe called the Borjigin the most outstanding in the history of political and military leader of genius.

→ Genghis Khan (~ 1162 – In 1206, 8 May 18, 1227), combined with Mongolian tribes of the Mongolian State or, according to the king of an empire Mongol Empire. Coat Borjigin Yesükhein Temujin (Temujin not to write), is a born leader tribe Borjigin name is the most prominent political and military genius in history. [2016.12.15. 기준]

→ Chinggis Khaan (~ 1162 – August 18, 1227) was the Mongol emperor of the Mongol Empire, which was merged with the Mongol tribes in 1206. Hiya Borjigin was born in the tribe of Borjigin, known as Temujin (Temujin), and is the most prominent political and military leader in history.[2017.9.10. 기준]

the 원리 of 구글 번역 – 신경망 번역의 원리

지금 21세기 대한민국엔

최고의 번역기가 필요합니다.

이 절체절명의 순간에

구글이 번역기를 업그레이드했군요.

신경망 번역(NMT, Neural Machine Translation)방식을

적용했다고 합니다.

하필 이 타이밍에 왜 ‘신경계 번역’이라고 번역을….

시류에 맞춰서

기존의 번역 방법과 무엇이 다르길래

이렇게 훌륭하게 번역해내는지

최대한 쉽게 얘기해볼까 합니다.

우선

기존 번역은

과감하게 단순히 말하면

통계적인 기법을 사용합니다.

문장을, 단어를 기반으로 분석한 후

그 단어를 대체할 확률이 제일 큰 단어로

교체하는 것이죠.

기존 번역기를 이용해

영문 위키에 Neural machine translation의 첫문단을

번역한 문장을 잠시 보도록 하지요.

밑줄은 제가 임의로 친겁니다.

“is trained”는 “훈련된다”로 해석되는 경우가

가장 많다는 것을 데이타 베이스를 통해 알아낸 후

그 자리를 ‘훈련된다’로 대체한 겁니다.

물론 이렇게 완전 단순하지는 않지요.

지금은 간단하게 핵심을

파악하고자 하는 것이니까

그러려니 넘어갑시다.

굳이 이 번역법을 도식화 하자면

아래 그림과 같습니다.

영어 단어가 있다고 할 때 그에 해당하는

국어 단어를 찾아내는 기능을 만드는 것이죠.

그러니까

저 화살표가

번역기인 셈입니다.

이번에는 구글이 이번에 도입한

신경망 번역에 대해 알아볼까요?

시작부터 다릅니다.

이 번역 방법은

문장을 쪼개지 않습니다.

바로 번역하죠.

이 번역기를

모양이 다른

화살표로 표현해 봅시다.

물론 기계가

사람 말을 알아들을리 없으니

기계의 언어로 바꿔줘야 겠지요?

그래서 문장을

벡터라는 숫자들의 모임으로

바꾸어 버리는 것이

이 신경망 번역의 기가막힌 점입니다.

대부분 인공지능 관련 전공자들은

이 부분이 보통사람들에게

얼마나 이상하게 느껴지는지 알지 못하죠.

기초에 기초에 기초에 해당하니까요.

그래서 별 설명을 안합니다;;;

근데 사실 황당하다면 황당한 부분입니다.

문장이 숫자라는 것도 힘든데 벡터라니….

이 부분을

간단하게나마

이해해야 합니다.

그래야 핵심을 어느 정도

파악할 수 있어요.

일단 그림으로 나타내봅시다.

이 간단화된 그림을 직역하면….

a1이 문장 첫번째 자리에 들어갈

단어를 나타내는 숫자 인 셈이죠.

즉 a1에 ‘neural’에 해당하는 숫자를 넣으면 됩니다.

neural에 해당하는 숫자가 얼마인지는

기술자가 정하면 됩니다.

기계는 내 말을 들으니까요.

같은 방법으로 하나하나

문장의 구성요소를 숫자로 바꿔나가면

문장을 나타나는 숫자의 집합이 되고

이를 우리는 벡터로 만들 수 있습니다.

그러면 이제

번역기가 해야하는 일이

숫자로서 표현되지요.

번역기는 b1에

‘신경’ 이란 단어에

해당하는 숫자를

출력할 수 있도록

해주는 겁니다.

화살표는,

그러니까 신경망 번역 기술은

다음 그림처럼 이 일을 해냅니다.

아주아주아주아주아주……

단순화한 인공 신경망입니다.

이 신경망은

기계어로 재조합된 빨강문장을

아직 기계어인 초록문장으로 번역하는

능력을 갖고 있습니다.

각각의 파랑 원들은

모든 빨강 원들에게서 숫자를 받아서

“적당한 원칙1″에 따라 자신의 숫자를 정합니다.

각각의 초록 원들은

모든 파랑 원들에게서 숫자를 받아서

“적당한 원칙2″에 따라 사진의 숫자를 정합니다.

결국 저 회색 선들이

‘원칙’이 되는 셈이죠.

회색 선들이 어떤 ‘원칙’을 가졌는지에 따라

초록 원에 어떤 숫자가 적힐지 정해지는 것입니다.

‘원칙’이 잘 정해져서

훌륭한 번역이 이루어지면

양쪽의 문장이 완벽해지겠지요.

이론상으로는

각 사전에 나온 각 언어별

수만 개의 단어에

전부 번호를 부여하고

그 언어들로 만들어지는

문장들을 싹 다 분석하여

‘원칙’을 밝혀내면

번역기는 완벽해집니다!

때로는 한국말도 번역해야만 하는데

저딴 게 쉽게 가능할리 없지요.

하물며 사람이 직접

저 ‘원칙’들을 알아낼 수 있을리가요.

그래서

신경망 번역 기술을 만드는 사람들은

번역기 스스로 저 값을 찾아내도록 했습니다.

‘옳게 번역된 다른 언어로 된 두 문장을 제시하고’

번역기 스스로 오차를 줄여나가며

‘원칙’을 찾도록 한 것이지요.

번역기에게 학습을 시킨 셈입니다.

번역기에게 문장은 이제 숫자니까

계산을 통해 오차를 줄여 나갈 수 있습니다.

그리고 이 과정을

대단히 많은 ‘잘 번역된’ 문장들을

이용하여 반복합니다

그리하여 최종적으로 ‘제시된 번역’을

모두 완수할 수 있는 ‘원칙’이 정해지면

이제 번역기는 미지의 문장을

번역할 수 있는 능력을 가질 것이라고

기대하는 것이죠.

그리고 놀랍게도

번역기는 기대에 부응했습니다.

번역은 너무나 훌륭합니다.

반론의 여지가 없습니다.

왜냐하면….

구글 번역 덕에

적지 않은 영문 웹페이지를

예전보다 쉽고 빠르게 읽어서

지금 이 포스트를 쓸 수 있었거든요.

이 포스트 자체가 산 증인 (?)인 셈입니다.

NMT 번역이 왜 매번 다른지는

미스테리지만 말입니다.

어쨌든

번역이라는 인문학적 영역에

이공계식 해법이 이렇게나 효과적이라는 사실이

대단히 흥미롭습니다.

실제로 구글에는

언어학자가 단 한명도 없다더군요.

인문학적 소양이 많은 사람은 사실

번역기를 개발하고 원리를 궁금해하기 보다

번역기를 가지고 어떻게 놀까

고민하는 사람일지도 모른다는

생각도 해봅니다.

이렇게요…

끝으로 몇가지 사실을 정리하며

글을 마무리 하겠습니다.

무엇이든 쉽고 간단히 정보가 전달되면

모자라거나 부족한 점이

생기기 쉽기 때문입니다.

1. 지금까지 글은 ‘인공신경망’이라는

기계학습(machine learning)에 대해서

다룬 글입니다.

기계 학습에는 여러 방법이 있어서

그 중에 ‘인공신경망’도 있고

‘딥러닝(deep learning)’도 있고

또 다른 여러 방법도 있는 그런 것이죠.

놀랍게도 ‘인공신경망’은

1943년에 개발되었답니다.

2. 딥러닝은 여러 층으로 된 아주 많은 파란 원과

데이타를 다루는 몇몇 알고리즘 이 핵심을 이룹니다.

따라서 딥러닝에 대해서 온전히 이해하려면

알고리즘에대해 이해해야 되는 것입니다.

안타깝게도 지금 이 글을 통해서

딥러닝에 대해 알았다고 하기에는

무리가 있습니다.

그러나 기본적으로 딥러닝도

인공으로 만든 신경망을 이용하는 것이어서

보통 단어는 섞여서 잘 쓰입니다.

<예가 되는 기사>

3. 각 번역기가 문장을 어떻게 벡터화 하는지

정확히 아는 사람은 개발자 뿐일겁니다.

기업 비밀일 수도 있구요.

단어가 아닌 글자단위일지도 모릅니다.

설마 저~~ 위에 예로 제시된 벡터 만드는 방법이

실제 방법이라고 생각한 사람은 없겠지요?

네이버에서도 파파고라는 번역기를 만들었는데요,

개발자 인터뷰를 보면 이를 짐작할 수 있습니다.

단어를 몇차원으로 분석하느냐에 따라

(아마도 프로그램의) 구조가 달라진다고도 하고

또 몇개의 문장을 사용했는지는 비밀이라고도 합니다.

4. 이 어려운 글을 다 읽고 이해하신 대단한 분들께 추천!

제가 쓴 책입니다 ㅎㅎ

링크로 가셔서 한권 꾸~~욱 부탁드려요 ㅎㅎ

-끝-

파파고, 구글 번역기는 어떻게 우리 곁에 왔을까?

인터뷰 – 국민대 소프트웨어학부 강승식 교수

기계는 단어의 의미를 이해하기 어려워

정확한 AI번역은 양질의 말뭉치 확보에 달려

2018년 영국의 시장 조사 업체인 테크나비오의 조사 결과에 따르면 세계의 자동 통번역시스템 시장규모는 2013년부터 연평균 19.1%씩 증가했다고 한다. 이처럼 기계 번역은 무서운 속도로 성장하고 있다. 기계 번역의 활성화는 실생활에서도 체감할 수 있다. 파파고, 구글 번역기와 같은 AI 번역기는 어느새 우리 삶에 자연스럽게 스며들었다. 그렇다면 기계 번역은 어떤 원리로 이뤄졌고 어떻게 발전했을까? 한국어 정보처리 기술을 연구 및 개발하고 있는 국민대 소프트웨어학부 강승식 교수에게 기계 번역의 변천사에 대해 물어봤다.

우리가 기대하는 수준에 도달하지 못했던 초기의 기계 번역

강 교수는 기계 번역이 어색하게 느껴지는 이유가 기계가 단어나 문장의 의미를 이해하지 못하기 때문이라고 밝혔다. 강 교수는 “‘밤에 밤을 먹는다’는 문장에서 사람은 문맥이나 지식을 활용해 ‘먹는 밤’과 ‘낮과 밤의 밤’을 쉽게 구별하지만 기계는 그렇지 않다”며 그에 대한 예시를 들었다. 이 문제를 해결하려 초기의 기계 번역이 선택한 방법이 RBMT(규칙 기반 기계 번역)다. RBMT는 말 그대로 ‘규칙’을 활용해 번역을 시도하는 방식이다. 이어 강 교수는 “초기에는 번역에 필요한 다양한 지식을 컴퓨터가 접근할 수 있는 형태로 조직하기 어려웠다”며 규칙을 기반으로 번역할 수밖에 없었던 배경을 설명했다.

RBMT의 규칙은 언어학적 이론을 기반으로 한다. 단어나 문장구조에 관한 언어학 이론인 의미론을 참고해 의미 규칙을 만들고 문맥을 보는 이론인 상황 의미론으로 상황 의미 규칙을 만드는 식이다. 강 교수는 “인간의 자연 언어는 규칙이 방대하고 예외 현상이 많아 모든 규칙을 코딩하기는 불가능에 가까웠다”며 RBMT를 이용한 규칙의 한계를 말했다. 이에 덧붙여 “코딩 과정에서 주어, 목적어 같은 문장 구조를 분석하는 단계도 7~80% 정도의 성능밖에 구현되지 않았다”며 기계 번역의 성능이 일정 수준 이상으로 올라가기 어려웠던 이유를 밝혔다.

번역 결과물의 정확도를 높인 말뭉치의 활용

말뭉치란 텍스트를 컴퓨터가 활용할 수 있는 형태로 모아놓은 집단을 말한다. 번역가들의 정확한 결과물이 말뭉치에 속한다. 그는 SMT(통계 기반 번역)가 이러한 말뭉치를 활용한 방식이라고 말했다. 강 교수는 “SMT는 오늘날의 NMT(인공신경망 기반 번역)처럼 충분한 양의 데이터베이스를 갖고 있는 것은 아니지만 일정량이 쌓여 있을 때 활용할 수 있는 방식”이라며 SMT가 RBMT와 NMT의 과도기에 있는 단계라고 설명했다. SMT는 갖고 있는 말뭉치를 참고해 단어가 가진 여러 의미의 사용 빈도를 분석하고 사용 빈도가 가장 높은 의미를 선택해 번역한다. 이때 통계의 대상은 단순히 한 단어가 아닌 문장 내 여러 단어의 관계성이다. 강 교수는 “‘밤’이라는 단어가 ‘낮과 밤의 밤’으로 많이 사용돼도 앞에 ‘맛있는’이라는 단어가 온다면 이들의 관계를 계산해 ‘먹는 밤’으로 번역한다”며 예시를 들었다. 이렇듯 SMT는 문장 전체를 통계의 대상으로 삼아 문장 내의 부분적인 통계를 종합적으로 고려해 번역 결과물을 생성한다. 그는 “규칙만 가지고 판별했을 때보다 자연스럽고 정확한 의미의 결과물을 도출해낼 가능성이 높다”며 말뭉치의 활용이 번역의 정확도를 높인 이유를 설명했다.

오늘날 기계 번역의 주인공 NMT

강 교수는 최근 대부분의 기계 번역이 딥러닝을 사용하는 NMT를 기반으로 한다고 밝혔다. 파파고, 구글 번역기 등이 대표적인 예다. 딥러닝은 제공받은 학습 데이터를 기반으로 기계가 스스로 학습하는 방법이다. 그는 “NMT는 번역가들이 번역한 결과물인 학습 데이터를 제공받은 후 이 데이터에서 규칙을 발견한다”며 “이후 컴퓨터가 접근할 수 있는 파일의 형태로 조직한다”고 인코딩 과정을 설명했다. 이어 강 교수는 “‘한-영 번역’의 경우 한글 문장을 입력받으면 한글 말뭉치를 파일 형태로 조직해 인공신경망에 학습시켜야 한다”고 예를 들며 “이때 컴퓨터는 어떤 입력이 들어와도 최대한 정확한 결과물을 내놓도록 문장을 컴퓨터가 접근할 수 있는 표현으로 조직한다”고 말했다. 한편 디코딩은 이와 반대로 내부적으로 표현된 내용을 영어 문장으로 생성해주는 것이다.

이처럼 ‘한-영 번역’의 경우 내부적으로 한글 말뭉치를 인코딩해서 파일을 만들고 이 파일로부터 디코딩해 타깃 문장인 영어 문장을 만드는 과정을 거쳐 이뤄진다. 이에 강 교수는 “결과적으로 NMT는 입력된 말뭉치를 번역에 활용하는 것”이라며 “좋은 품질의 말뭉치를 최대한 많이 마련하는 것이 기계 번역의 정확도를 높이는 핵심”이라고 말했다. 이에 덧붙여 “NMT는 새로운 결과물을 만드는 것이 아니라 기존의 말뭉치를 활용한다”고 설명하며 “그렇기 때문에 신조어나 새로운 고유 명사와 같이 학습 데이터에 없는 내용이 입력되면 제대로 처리를 해낼 수 없다는 한계가 있다”고 전했다.

사람과 함께해야 하는 기계 번역

기계 번역 사용에 있어 주의할 점을 묻는 질문에 강 교수는 “기본적으로 기계라는 것이 100% 완벽하지 않다는 것을 인지해야 한다”고 답했다. 강 교수는 “구글 번역기나 파파고 같은 AI 번역기는 접근성이 뛰어나지만 결과물에 대해 책임을 지지는 않는다”고 말했다. 정확한 결과물을 얻어야 하고 번역 결과물에 책임을 져야 하는 경우 기계 번역에만 의존해서는 안 된다고 조언한 것이다. 이어 그는 “기계 번역을 효율적으로 사용하기 위해서는 기계 번역의 장점은 취하고 편향성 문제가 발생할 수 있는 내용에 대해서는 최종적으로 사람의 수정을 가해야 한다”며 기계 번역에 사람의 손길이 필요하다고 말했다. 마지막으로 강 교수는 “기계 번역은 사람의 시간과 비용을 절약하기 위해 사용하는 것임을 명심해야 한다”는 당부의 말을 남겼다.

ⓒ강승식 교수 제공

저작권자 © 성대신문 무단전재 및 재배포 금지

구글 신경망 번역의 원리

http://m.blog.naver.com/kcolacup/220865620556

지금까지 구글 번역기는 통계적 방법을 기반으로 하였습니다. 단어나 숙어를 분해한 후 각각 많이 사용되는 번역을 찾아 변환한 후 다시 하나의 문장으로 연결합니다. 그렇기 때문에 전체적으로 연결이 어색한 부분이 많았습니다.

하지만 딥러닝을 이용한 번역기는 문장 전체를 통째로 입력으로 넣어 번역된 문장을 바로 뽑아냅니다. 먼저 문장을 신경망 입력에 맞게 변환을 해야 하는데 1000차원의 벡터로 나타낼 수 있다고 합니다.

보다 자세한 내용은 위 링크를 참조해주세요.

< 챗봇 개발자 모임 >

– 페이스북 그룹에 가입하시면 챗봇에 대한 최신 정보를 쉽게 받으실 수 있습니다.

– https://www.facebook.com/groups/ChatbotDevKR/

[인공신경망] (1) 어색한 번역은 그만! AI 탑재한 신경망 번역 시대 열리다

2007년 구글이 웹 기반 자동번역기를 무료로 공개했을 때, 사람들은 클릭 한번으로 여러 문장들이 순식간에 번역되는 기능을 보고 놀라움을 금치 못했었다. 하지만 예전의 번역기는 동음이의어와 다의어를 구별 못하거나 어순과 표현이 많이 어색해 마치 외래어처럼 번역되는 경우가 많았다. 이처럼 번역기는 번역 결과가 만족스럽지 않았음에도 불구하고 모든 문장을 사람이 직접 번역하는 것보다 시간을 절약할 수 있었기 때문에 지금까지 유용하게 사용돼 왔다.

그러나 최근 번역기는 딥러닝과 신경망 기술이 적용된 신경망 기계번역(GNMT, Google’s Neural Machine Translation)으로 발전되면서 변역 결과물이 눈에 띄게 향상됐다. 예전보다 번역의 오류 가능성이 대폭 감소하고, 보다 자연스러운 번역이 가능해졌다.

더 나아가 번역 기술은 텍스트 뿐 아니라 음성 번역, 이미지 번역까지 가능해지면서 음성인식 기술도 함께 급부상하고 있다. 향후 통번역 서비스는 스마트폰, 스마트워치, HMD, 가정용 음성로봇 서비스 등 다양한 디바이스에 접목돼 국제회의, 여행, 교육 등 다양한 산업에서 활용될 것으로 기대된다. 신경망 번역 기술을 지원하기 위해서는 데이터베이스의 확보와 인공지능을 지원하는 알고리즘과 플랫폼 개발 등이 뒷받침돼야 한다.

기계 번역 시장과 국내‧외 기업별 번역기술 현황, 번역기술로 인해 파생되는 산업 전망에 대해 1, 2, 3회에 걸쳐 알아보겠다.

◇ 인공신경망 번역, 어떻게 자연스러운 언어를 구사할까?

자동 통번역 시장은 아직 형성 초기단계라고 볼 수 있다. 시장조사기관 원터그린리서치에 따르면 자동 통번역과 관련된 세계시장은 2019년까지 69억 달러(약 8조 원) 규모로 성장할 것으로 전망된다. 그 중 기계번역(Machine Translation) 시장은 2022년 9억 8320만 달러 규모로 성장하고, 음성인식 관련 시장은 연간 16.2% 성장해서 2017년 1130억 달러 규모에 달할 것으로 예상된다.

그 중에서 전 세계적으로 가장 많이 사용되는 구글 번역기는 현재 전세계 103개 언어로 번역되고 있으며, 전세계 온라인 사용자 중 90% 이상의 점유율을 차지하고 있다. 구글 번역기는 매일 5억 명 이상이 1000억 회의 서비스를 이용하고 있고, 가장 많이 사용되는 언어 조합은 영어-스페인어, 영어-아랍어, 영어-러시아어, 영어-포르투갈어라고 한다.

이는 전세계 공통어인 영어를 기준으로 언어를 사용하는 인구수가 많을수록 번역기를 사용하는 비율이 높다는 것을 알 수 있다. 이에 따라 가장 많이 사용되는 언어인 영어 기반은 그동안 확보된 음성과 텍스트 DB가 다른 언어에 비해 많아 70~80%의 정확성을 기록하고 있다. 반면, 한국어를 비롯해 베트남, 태국어 등 한 국가에서만 사용되는 언어들은 이용률이 낮고 데이터 확보가 쉽지 않아 품질 향상에 어려움을 겪고 있는 실정이다.

자동번역 또는 기계번역이라고 불리는 기술은 크게 규칙기반(RBMT, Rule-Based Machine Translation)과 통계기반(SMT, Statistical Machine Translation), 이를 합한 하이브리드(RBMT+SMT) 기반으로 구분된다.

규칙기반(RBMT)은 어법을 규칙화해서 번역하는 방법으로 기존에 많이 사용된 소프트웨어 방법이다. 문법에 기반을 두고 번역하기 때문에 정확성이 높고 분야별 전문성을 갖고 있다는 장점이 있지만, 문법 규칙이 아닐 경우에는 번역 오류가 상당히 높다. 또 개발이 어렵다는 것이 단점이다. 통계기반(SMT)은 방대한양의 대역코퍼스(Bilingual corpus)를 바탕으로 통계적으로 규칙을 모델링해 번역하는 방법이다. 단어와 구(Phrase) 형식으로 각각 나눠 번역해 조합하는 방식이며, 문장이 매끄럽지 않거나 올바르게 번역되지 않는다는 것이 단점이다.

통계기반은 딥러닝과 빅데이터를 활용하기 때문에 언어 데이터베이스 확보가 중요하고, 예문이 많을 경우 비교적 개발에 용이하다. 이런 이유로 앞에 언급했듯이 많은 DB를 확보한 영어는 다른 언어에 비해 보다 정확한 번역결과를 제공하는 것이다.

해외 시장에서 규칙기반(RBMT) 기술을 사용하고 있는 기업으로는 SDL의 비글로벌(BeGlobal)이 대표적이다. SDL은 1992년 영국에서 설립된 번역 소프트웨어 기업으로, 문법과 분야별 특화 통번역 소프트웨어를 기업 대상으로 유료 제공하고 있다. 이는 단순 번역이 아닌 해외기업 진출을 위한 번역관련 현지화 서비스를 판매하는 것이다.

통계기반(SMT)으로 구축한 구글의 번역 웹 사이트, 마이크로소프트의 스카이프 트랜스레이터 등은 무료로 제공하면서 기계번역의 대중화를 이끌고 있다. 단, 구글과 마이크로소프트의 번역기는 일반 사용자들에게는 무료이지만 기업용은 유료로 제공한다. 구글은 이미지 인식, 실시간 채팅 등 다양한 플랫폼이 특징이며, MS 스카이프는 말하는 동시에 글로 표시되고, 다시 음성으로 번역되는 실시간 통역지원 기능을 앞세우고 있다.

규칙기반(RBMT)과 통계기반(SMT)을 결합한 하이브리드 기술은 기계번역 솔루션 기업 시스트란이 대표적이다.

◇ 기계번역, 구문기반에서 신경망 번역으로 진화

여러 번역 기술 종류 중에서 현재 가장 많이 사용되는 기술인 통계기반(SMT) 기계번역은 머신러닝과 신경망 기술이 개발되면서 구문 기반 기계번역(PBMT)에서 인공신경망 기계번역(NMT, Neural Machine Translation)을 사용하는 방식으로 진화되고 있다.

2007년 구글이 처음으로 번역기를 출시했을 때는 구문 기반 기계번역(PBMT) 알고리즘을 사용한 기술을 사용했었다. 구문 기반 기계번역은 문장을 단어와 구 단위로 쪼개서 하나하나 개별적으로 번역하는 방식이다. 이 기술은 자주 사용되는 단어 중심의 번역 방식이다 보니 번역된 문장이 매끄럽지 못하고, 단순히 단어를 나열하는 수준의 번역을 제공해 오류가 많다는 지적이 있어왔다. 이후 구글은 좀 더 인간의 언어와 비슷한 구조의 자연스러운 번역 서비스를 제공하기 위해 머신러닝을 도입한 인공신경망 기계번역 개발에 나섰고 2016년 9월 ‘구글 신경망 기계번역(GNMT)’ 기술을 처음으로 선보였다.

▲ 구글 번역기 ▲ 구글 번역기

신경망 기계번역 기술의 핵심인 머신러닝(Machine Learning)은 다양한 예시를 통해 기계 스스로 훈련하는 기술로, 몇가지 특정한 사건들보다 다수의 사건에 대한 경험을 기반으로 판단을 내린다는 점에서 ‘패턴인식(Pattern Recognition)’이라고도 불린다. 머신러닝의 성능은 데이터의 양과 질에 크게 의존하기 때문에 무엇보다 예측에 필요한 양질의 데이터를 수집하는 것이 무엇보다 중요하다.

신경망은 기계학습이 가능한 소프트웨어를 말한다. 신경망은 실제 뇌신경을 모방한 전산단위로 수백만 또는 수십억 개의 뉴런이 각각 입력한 정보를 다른 뉴런에게 전달해 지식을 확장시키는 방식이며, 복잡한 정보까지 학습할 수 있게 한다. 여기서 뉴런들이 입력한 각 층의 여러 정보들을 학습하는 것을 딥러닝(Deep Learning)이라고 부른다. 이 과정을 통해 각 층이 입력하는 패턴을 계속해서 습득하게 되는데, 결국 가장 높은 층의 뉴런망은 매우 추상적인 패턴을 학습하게 된다.

따라서 머신러닝, 딥러닝을 기반으로 개발된 인공신경망 기계번역 기술은 대용량의 학습 데이터와 몇 차원 벡터로 표현할 것인지의 정보, 학습에 필요한 변수 정보만 사람이 지정해주면 기계가 알아서 번역하는 법을 학습한다. 이는 기존의 기계번역 방식이 어순과 어법 등 각종 규칙(특징 정보)을 사람이 지정해주던 것과 비교하면 큰 장점인 것이다.

인공신경망 기계번역은 단어를 개별적으로 번역하는 구문 기반과 달리, 전체 문장을 하나의 번역 단위로 간주해 한꺼번에 번역한다. 이는 문장 전체의 맥락을 먼저 파악한 후 어순, 의미, 문맥별 의미 차이 등을 반영해 가장 적합한 문장으로 재배열하는 방식이다. 이로 인해 인공신경망 기계번역은 구문기반 기계번역보다 자연스러운 문장을 제공할 수 있으며, 전체 텍스트의 가독성 또한 향상됐다.

◇ 쉽게 이해하는 신경망 번역 방식의 원리

신경망 기계번역 방식을 보다 쉽게 설명하자면 다음과 같다.

입체 공간이 있다고 가정하자. 먼저 ‘먹다’라는 단어를 공간에 띄운다. 그리고 그 근처에 ‘먹었다’, ‘먹을 거다’, ‘먹고 싶다’ 등 ‘먹다’라는 단어와 관계가 있는 단어들을 유사한 공간에 둔다. 이 ‘먹다’라는 단어에는 다양한 차원이 있을 수 있다. 이 차원에 따라 또 다른 단어들과 관계를 맺을 수 있다. 예컨대 치킨, 피자, 케이크 등 ‘먹다’와 함께 쓰일 수 있는 단어들이 또 ‘먹다’와 나름의 관계를 맺고 공간상에 위치할 수 있다. 이렇게 단어나 구 등이 공간에서 관계를 맺으며 맵핑된다. 이때 가지는 벡터값을 ‘단어 표현’이라고 한다. 번역기에 사용되는 단어는 200차원의 단어 표현 값으로 변환된다.

▲ 인공 신경망 기계번역 원리(자료: 네이버) ▲ 인공 신경망 기계번역 원리(자료: 네이버)

‘나는’, ‘사과를’, ‘먹는다’, ‘I’, ‘eat’, ‘apple’은 각각 단어 표현 값으로 변환된다. 그리고 이 단어 표현들을 이어가며 번역하려는 문장에서 결과 문장으로 이어주는 최적의 가중치(Weight parameter)들을 찾아 행렬 곱으로 이어가 벡터를 구해가는 방식이다.

여기서 번역하려는 문장과 결과 문장을 컴퓨터에 주고, 결과 문장이 나오게 하는 값을 찾아내는 최적의 가중치(WP)를 반복적인 기계학습을 통해 자동으로 컴퓨터가 학습한다. 번역은 EOS(문장의 끝, End Of Sentence)값이 가장 높아지면 끝난다. 번역 언어가 달라질 때마다 가중치 값이 바뀐다. 이처럼 인공신경망 기계번역은 입력 문장과 출력 문장을 하나의 쌍으로 두고, 최적의 답을 찾는 중간 값을 학습한다.

인공신경망 기계번역 방식은 통계적 기계번역보다 번역 시스템이 단순하다는 장점을 가진다. 입력 문장과 출력 문장만 있으면 알아서 학습하게끔 유도하기 때문에 구조 자체가 그렇게 어렵지 않기 때문이다.

인공신경망 기계번역은 확장하기 쉽고 다양한 구조를 채택할 수 있다는 것도 장점이다. 다만 학습 시간이 다소 오래 걸릴 수는 있다. 이 문제를 해결하기 위해 병렬처리 등의 방식을 사용한다. 그러나 인공신경망 기계번역은 아직 초창기이기 때문에 많은 문제점과 가능성이 병존하고 있다.

키워드에 대한 정보 구글 번역기 원리

다음은 Bing에서 구글 번역기 원리 주제에 대한 검색 결과입니다. 필요한 경우 더 읽을 수 있습니다.

이 기사는 인터넷의 다양한 출처에서 편집되었습니다. 이 기사가 유용했기를 바랍니다. 이 기사가 유용하다고 생각되면 공유하십시오. 매우 감사합니다!

사람들이 주제에 대해 자주 검색하는 키워드 인공지능 구글 번역기는 어떻게 번역할까?

  • 닷페이스
  • 페이스
  • face
  • dotface
  • 인공지능
  • 번역기
  • 구글
  • 번역
  • AI
  • SMT
  • NMT
  • google
  • translate
  • translator
  • 영어
  • 한국어
  • 인공
  • 지능
  • 신경망
  • 기계학습
  • 머신러닝
  • machine learning

인공지능 #구글 #번역기는 #어떻게 #번역할까?


YouTube에서 구글 번역기 원리 주제의 다른 동영상 보기

주제에 대한 기사를 시청해 주셔서 감사합니다 인공지능 구글 번역기는 어떻게 번역할까? | 구글 번역기 원리, 이 기사가 유용하다고 생각되면 공유하십시오, 매우 감사합니다.

See also  실시간 위성 영상 | 🌎 Nasa Live Stream - Earth From Space : Live Views From The Iss 상위 247개 답변

Leave a Comment