전종목 시세보기

서울경제

HOME  >  문화 · 스포츠  >  문화

[책꽂이 - 데이터 과학]빅데이터가 정답 ? 답답한 소리

■존 켈러허·브렌던 티어니 지음, 김영사 펴냄
객관적이고 합리적인 해결책
빅데이터만으론 찾을 수 없어
더 나은 의사결정 활용하려면
'옳은 데이터' 판별력 더 중요
도구로서의 데이터과학 주목

  • 연승 기자
  • 2019-10-11 12:51:16
  • 문화
[책꽂이 - 데이터 과학]빅데이터가 정답 ? 답답한 소리

사고 싶은 것을 알아서 추천해 주는 쇼핑 서비스는 이제 더 이상 낯설지 않다. 포털이나 소셜네트워크서비스(SNS)를 통해 검색한 이력이 반영돼 개인 컴퓨터(PC) 혹은 모바일 창 모서리에는 내가 사고 싶어하는 아이템들이 계속 해서 뜬다. 데이터가 판매와 마케팅 영역에 사용되는 것은 아주 기초에 불과하다. 데이터는 스포츠 경기에도 활용된다. 브래드 피트가 주연한 영화 ‘머니볼’은 오클랜드 애슬레틱스라는 야구팀이 데이터 과학을 이용해 선수 영입 방식을 향상 시킨 실화를 바탕으로 했다.

미국 정부는 정밀 의료 및 보건 분야에서 거대 데이터 과학 프로젝트를 적극적으로 도입했다. 특히 ‘올 오브 어스(All of Us) 계획’은 맞춤 의약 개발을 위해 자원자 100만 명의 환경, 라이프 스타일, 생체 데이터를 모은 데이터 베이스 구축사업으로 세계 최대 규모를 자랑한다. 지난 2016년 미국 대선 당시에는 정치 전문가들이 힐러리가 우세할 것이라는 전망을 내놓았지만, 빅데이터를 기반으로 한 인공지능(AI)은 트럼프의 당선이 높은 것으로 예측했다. 이처럼 데이터 과학은 이미 우리 생활뿐만 아니라 정치·사회·경제에 깊숙이 자리잡고 있다.

신간 ‘데이터 과학’은 데이터의 개념부터 기계학습, 딥러닝, 신경망은 무엇이며 서로 어떤 관계가 있는지를 짚어준다. 나아가 데이터 과학의 발달로 인해 발생할 윤리적 문제까지 다뤘다. 저자인 존 켈러허와 브렌던 티어니는 아일랜드 더블린공과대학에서 데이터 과학을 강의한다.

우선 데이터 과학이란 커다란 데이터 세트에서 쉽게 알 수 없으면서도 유용한 패턴을 뽑아내기 위한 일련의 규칙, 문제의 정의, 알고리즘과 처리과정 등을 아우르는 개념이다. 좀 어렵다면, 앞서 언급한 쇼핑 추천 아이템, 대선 지지자 등을 예측하기 위해 필요한 패턴을 뽑아내는 것이라 생각하면 이해가 쉬울 것이다.

사람이 만들어 낸 데이터의 양은 막대하다. 글이 탄생한 이후 지난 2003년까지 5,000년 동안 만들어진 데이터의 양은 약 5엑사바이트로 추정된다. 그런데 2013년부터는 매일 5엑사바이트 정도의 데이터가 쌓이고 있다고 한다. 이 막대한 데이터를 처리하는 데 혁명을 몰고 것이 ‘딥러닝’이다. 딥러닝은 여러 층의 단위를 잇는 네트워크로 구성된, 신경망 모델 집단을 일컫는 말이다. 딥마인드(DeepMind)의 컴퓨터 프로그램 알파고는 딥러닝 학문분야가 어떻게 바뀌고 있는지를 보여준 전형적인 예다. 알파고는 18번이나 바둑 세계 챔피언에 오른 프로 기사 이세돌을 지난 2016년 2억 명 이상 시청한 시합에서 이겨 세계를 놀라게 했다. 불과 2009년까지만 해도 세계 최고의 바둑 프로그램도 잘 두는 아마추어 그룹의 하위 수준에 불과했다는 사실을 상기하면 4년 만에 딥러닝 기술이 이룬 성과는 놀랍다.

이처럼 모든 것을 예측할 수 있을 것만 같은 데이터 과학이지만 이를 둘러싼 과장, 미신 역시 많다는 점도 지적한다. 자동화된 공정에 데이터를 맡기면 모든 답을 줄 것이라는 것이 데이터 과학에 대한 가장 큰 미신으로 꼽는다. 데이터 과학은 공정 단계마다 이를 감독할 노련한 전문가가 필요한데 아직은 그렇지 않기 때문이다.

또한 모든 데이터 과학 프로젝트는 빅데이터가 필요하며 딥러닝 기술을 써야 한다는 것도 ‘미신’이라 봤다. 더 많은 데이터를 갖고 있으면 좋겠지만 이보다는 ‘옳은 데이터’를 가지고 있는 게 더 중요하다는 것이다. ‘옳은 데이터’가 과연 무엇인지 어떻게 판단할 것인지가 과제다. 데이터 과학 도구들이 사용자들을 편하게 하지만 과학을 잘못 사용할 수도 있다. 사람들이 기술을 두려워하기 때문에 소프트웨어가 내놓은 결과는 무엇이든 믿는 경향이 바로 데이터 과학의 함정이자 위험이다.

저자들은 데이터 과학으로 인한 프라이버시 침해 등 윤리적 논쟁을 해결해야 할 과제로 꼽았다. 디지털 흔적을 남길 수 없는 방법은 없으나 데이터 활용을 규제하고 프라이버시를 보호하기 위한 법률 체계 마련은 필요하다는 것이다. 책에는 미국의 ‘공정 정보 사용 원칙’, 유럽연합의 ‘데이터 보호 지침’ 등 데이터 보호법도 다루고 있어, 아직 국내에는 미미한 관련법에 가이드로 활용해도 좋을 듯하다. 1만4,800원.
/연승기자 yeonvic@sedaily.com


<저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지> XC
이 기사를 공유하세요.

이메일 보내기

보내는 사람

수신 메일 주소

※ 여러명에게 보낼 경우 ‘,’로 구분하세요

메일 제목

전송 취소

메일이 정상적으로 발송되었습니다
이용해 주셔서 감사합니다.

닫기