人文,社會科學/科學과 未來,環境

[과학의 창] 선호도 공학 시대의 트로이 목마

바람아님 2015. 12. 2. 07:06

(출처-조선일보 2015.12.02 김대식 KAIST 전기 및 전자과 교수)

인간은 무엇을 선호·선택하는지 글로벌 수준으로 압축한게 '빅데이터'
세상엔 10의 21제곱 규모 데이터 존재… 실제 계량화된 건 10% 정도
인공지능 로봇, 내 집에 있게 되면 일상의 모든 행위가 데이터로 집계돼

김대식 KAIST 전기 및 전자과 교수인간은 다양한 선호도를 가지고 있다. 
저마다 좋아하고 싫어하는 게 다르다는 것은 지극히 당연한 사실이다. 
더구나 선호하는 것에도 대부분 순서가 있다. 
제일 좋아하는 것, 둘째로 좋아하는 것, 셋째로 좋아하는 것…. 
그래서 우리는 가능하기만 하다면 가장 좋아하는 것을 제일 먼저 실천하고, 
그다음 선택을 통해 둘째로 선호하는 것을 실천한다. 
인간의 선호도가 본질적으로 자유의지, 사회적 트렌드 또는 진화적 착시 현상을 통해 만들어지는지는 
아무래도 상관없다. 
적어도 주관적으로 '선택은 언제나 실천된 선호도'라는 말이다.

인간은 수요와 선호도를 만족시켜주는 행위를 위해 돈을 쓴다. 
그렇다면 돈을 벌 수 있는 가장 쉬운 방법은 타인의 선호도를 파악하는 것이겠다. 하지만 여기서 문제가 생긴다. 
인간의 선호도는 직접 관찰이 불가능한 내면적 현상이기에, 간접적인 선택을 통해 선호도를 추론해내야 한다. 
선택은 선호도의 쌍둥이가 아닌 대리인일 뿐이다. 
그렇다면 단 한 번 관찰된 선택을 통해 내면적 선호도를 완벽히 알아내는 것은 불가능하다. 
반복된, 여러 번의 관찰을 통해 누적된 데이터를 얻어야 한다. 
데이터란 무엇일까? 
인간이 만들어내고 공유하는 데이터는 언제나 선택의 흔적을 포함하고 있다. 
'빅 데이터'의 진정한 의미는 인류 역사상 처음으로 수억 명 지구인의 선택을 글로벌 수준으로 압축해 보관하고 있다는 
사실이다.

현재 지구에는 '제타바이트(zettabyte· 10의 21제곱)' 규모의 데이터가 존재한다고 알려져 있다. 
그런데 흥미롭게도 그중 10% 정도만 계량화된 데이터다. 
이미 계량화되어 있기에, 기계를 통한 자동 분석이 가능하다. 
결국 우리는 '빅 데이터'가 아닌 불과 10% 정도의 '스몰 데이터' 분석을 하고 있는 것이다. 
예를 들어보자. 
지금 이 글을 읽고 있는 독자들의 옷은 대부분 스스로 원해서 아침에 선택했을 것이다. 
오늘 입은 옷, 신은 신발, 먹는 음식, 만나는 사람, 모두 우리의 선호도를 표현하는 선택의 결과물이다. 
하지만 우리가 매번 직접 계량화하고 컴퓨터에 입력하지 않는 한, 오늘의 선택은 흔적으로 남지 않는다. 
흔적으로 남는다 하더라도, 기본 데이터 분석 기술로는 옷과 신발과 음식을 정확히 구별할 수 없기에 
'계량화되지 않은'(unstructured) 데이터로만 남는다. 
지구에 누적된 데이터의 90%는 이런 계량화되지 못한 데이터인 것으로 알려져 있다.

사물과 얼굴과 인간의 선택을 인식할 수 있는 기계학습 기반의 인공지능이 등장하는 순간 모든 것이 달라진다. 
직접 계량화하지 않더라도 우리의 모든 선택 그리고 그 선택을 가능하게 한 선호도 역시 자동 분석이 가능해진다. 
그 누구에게 표현하지 않아도, 그 어느 기계에 입력하지 않아도, 우리의 일상생활 자체가 '데이터 금광'이 된다. 
그렇다면 기계학습 기술이 보편화되는 순간, 우리는 '허락된 관찰' 문제만 해결하면 된다. 
모든 행동과 선택이 공공장소에서 자동 인식되고 계량화된다면? 아마도 상당한 사회적 문제가 될 것이다. 
하지만 집은 다르다. 내가 스스로 초대한 손님이 부담스럽지 않듯, 내가 선택해 집에 들여놓은 기계는 일상생활의 
한 부분이 될 수 있다. 소프트뱅크의 '페퍼(Pepper)', 아마존 '에코(Echo)', 그리고 '지보(Jibo)'. 
최근 소개된 다양한 가정용 '컴패니언(companion)'들은 미래 우리의 새로운 가족이며 동시에 우리의 일상생활을 
계량화할 '트로이 목마들'인 것이다.