Representation Learning (표현학습)

Mirrored feeds : http://hugman.re.kr/blog/repr_learning/

오늘은 Mordern AI 에서 가장 중요한 개념이자 향후 ICT 산업계의 변화를 이끌어 갈 Representation Learning(표현학습) 에 대해 다뤄보겠습니다.

(ICT 산업의 관점에서의 향후 변화에 대한 글!

표현학습의 '학습' 에 대해서 다루기 전에 '표현'에 대해서 먼저 고민해보겠습니다.

역사시대 이래로 인류가 쌓아온 모든 문명은 '고도화된 기호체계'에 그 근간을 두고 있습니다. 한 세대의 진보가 다음세대에게 전달되는 방법으로, 인류는 기호와 체계를 만들어 냈고, 이를 이용해 시간과 공간을 넘어 한 세대/지역의 지혜가 다른 세대/지역으로 전달되도록 하였습니다.

문명의 발전이란 이란 말그대로 문(文) 이 있기 때문에 가능한 일입니다. 우리는 우리가 발견하고 발명해낸 모든 사물과 관념들에 대해 다른이들도 같이 공유할 수 있는 기호체계를 꾸준히 발전시켜왔습니다. 수학, 과학, 건축학, 음악, 화학등등 각 학문의 발전은 고도화되고 정제된 학문의 기호체계에 기반하고 있음을 한번쯤 생각해보아야 합니다. ( 우리 세대는 심지어 원자구조나 유전자 구조조차도 기호로 표현할 수 있습니다!)

우리는 우리의 기호체계에 대해서 어렸을때부터 자연스럽게 습득하기 때문에, 기호체계 그 자체에 대한 고민은 많이 해보지 않습니다. 너무도 당연하지만 기호체계는 다음의 가정하에 이루어집니다.

기호를 통한 정보의 작성자는 사람이다.
기호를 통해 정보를 수신하는 것도 사람이다.
위의 가정은 너무도 당연해서, 사실 새삼스럽지도 않습니다. 우리는 1) 우리를 위해 기호를 만들었고, 2) 그 기호가 우리가 다룰 수 있는 주요 정보전달 방식이었고, 3) 기호에 기반한 정보 및 사고방식 기술이 성공을 거두어왔기 때문에 위의 가정에 대한 진지한 고찰은 이루어지지 않았습니다. 적어도 컴퓨터가 우리의 삶에 깊숙이 들어온 최근까지는 말이죠.

한 세대가 다른 세대에게 정보를 전달하는 이유가 무엇일까요? 여러가지 이유가 있겠지만, 그 중 주요한 목적의 하나는 다음세대가 '좋은 결정'을 내리게 하기 위해서 입니다. 이런 관점에서 위의논의를 확장해보면,

기호를 통한 정보의 작성자는 사람이다.
기호를 통해 정보를 수신하는 것도 사람이다.
정보를 바탕으로 의사 결정을 내리는 것도 사람이다.
와 같이 됩니다.

표현학습이 중요하게 되는 근본적인 이유는, '컴퓨터'가 우리의 삶에 깊숙히 들어온 지금(거의 모든 사람이 손에 컴퓨터(휴대폰)을 쥐고 다니는) 위의 가정이 더 이상 유효하지 않기 때문입니다.

위의 가정을 아래처럼 바꿔보지요

정보의 작성자는 기계일 수 있다.
정보의 수신자도 기계일 수 있다.
정보를 바탕으로 의사 결정을 내리는 것도 기계일 수 있다.
우리 시대는 정보를 취합하고 관리하는 주요개체가 사람이 아닙니다. 우리는 여전히 컴퓨터의 워드프로세서를 통해 정보를 작성하고 있다고 생각하지만, 그러한 Human Writable 정보이외에 수많은 정보들이 컴퓨터들에 의해서만 생성, 관리, 전파되고 있습니다. 예를 들어 지금 살고 있는 지역의 휴대폰 주파수 변경사항이라든지, 공장의 전력계라던지, 주식시장의 흐름이라던지 하는 것들은 초기의 디자인은 사람이 했을지 몰라도, 그 정보를 작성하는 것은 더이상 사람이 아닙니다. 기계가 사람이 읽을 수 있는 기호형태로 가공해주고 있는 것이지요.

이 관점에서 보게 되면, 기계가 만들어 내거나 수신하는 정보의 그릇이 꼭 '기호'일 필요가 없습니다. 사람이 읽거나, 쓸수 있어야 한다는 가정만 배제하게 되면, 기호라는 것이 필수불가결한 조건이 아니게 되는것이죠. 표현학습이라는 것은 바로 여기서 시작되게 됩니다.

현 시대처럼 데이터가 넘쳐나는 시대에서 ( 그리고 앞으로 더 많아지면 많아지지 줄어들지는 않게 될) '정보를 담을 좋은 그릇' 에 대한 고민이 필요한 시점인 것입니다. 이 그릇에 대한 논의는 우리 문명사에서 대단히 중요한 질문 중 하나이기 때문에, 다방면의 전문가들이 참여하고 논의를 해야할 일입니다만, 적어도 인공지능 분야에서는 빠르게 이 그릇에 대한 표준이 사실상 만들어지고 굳어지고 있습니다. 바로 숫자들의 덩어리(Tensor)로 모든 정보를 표현하도록 하고 있는 것이죠.

인류가 만들어낸 모든 정보들과 지금도 기계를 통해 만들어 지고 있는 데이터들로부터 사물이나 관념에 대한 숫자의 덩어리를 '학습' 하는 것 이것이 바로 표현학습이고, 이것을 현시점에서 가장 잘 할 수 있는 도구가 딥러닝입니다. 예를 들어, 기호의 방식으로 '사과'라는 사물을 기술하게 되면, 사전적 정의와 함께 특성들을 자세하게 적는 방식으로 정보를 구축하게 될 겁니다. 반면 딥러닝이 표방하는 표현학습이란, 구할 수 있는 모든 사과 이미지와 텍스트로부터 '사과를 사과라고 할 수 있는 표현' 을 숫자형태로 기술하도록 학습을 하게 되는 것입니다.

숫자의 덩어리(Tensor) 로 표현된 정보의 단점은 명확합니다. 사람이 읽을 수도 쓸 수도 없다는 것이지요. 즉 사람을 위한 그릇 형태가 아닙니다.

그러나 이를 상쇄할 만한 장점도 많습니다.

첫째, 도메인의 전문가가 없이도 쌓아놓은 데이터만 가지고도 정보를 구축할 수 있습니다.

둘째, 어떠한 유형의 데이터든 하나로 묶을 수 있습니다. 영상데이터든, 텍스트 데이터든, 공장데이터든 다 숫자로 표현되기 때문에 정보의 융합이 매우 자연스럽게 이루어집니다.

셋째, 사람의 기호로 표현하기 힘든 그 무엇 (Feeling, Sense, 거시기, You know what 의 영역) 에 대한것도 표현 할 수 있습니다. (바둑을 생각해보시면 됩니다.)

딥러닝이든 DNN 이든 복잡한 수식에 현혹될 필요가 없습니다.

결국 핵심은 어떤 학습 방식과 Network 디자인으로 세상에 존재하는 사물과 관념에 대한 '좋은 표현'을 배울까를 다루고 있는 것입니다.

Sort:  

Congratulations @hugmanskj! You have completed some achievement on Steemit and have been rewarded with new badge(s) :

You published your First Post
You got a First Vote

Click on any badge to view your own Board of Honor on SteemitBoard.
For more information about SteemitBoard, click here

If you no longer want to receive notifications, reply to this comment with the word STOP

By upvoting this notification, you can help all Steemit users. Learn how here!

Coin Marketplace

STEEM 0.15
TRX 0.23
JST 0.032
BTC 88721.82
ETH 2487.99
USDT 1.00
SBD 0.68