#1. 저자님이 궁금합니다
Q. 책 재미있게 읽었습니다! 본격적으로 질문하기 전에 가벼운 질문 하나 드릴게요. 저자님은 ‘천생연분 데이터’를 가지고 천생연분을 만나셨나요? 아직 만나지 않으셨다면 어떻게 찾고 계신가요? 하하 ^^
A. 처음부터 가볍게 보다가는 큰일 날, 독하기 그지없는 질문 감사합니다. '첫눈에 반해서 결혼하게 되었고 지금도 행복하다'는 고전적이지만 실패하지 않는 답변으로 시작하겠습니다.
Q. 다양한 방법으로 방대한 데이터를 수집하시는 것 같은데요. 효과적으로 데이터를 수집하는 저자님만의 노하우를 알려주세요.
A. 데이터 수집 자체가 목적이 되지 않도록 항상 주의를 기울입니다. 우리에게는 당면한 문제가 있고 우리의 목표는 그 문제를 해결하는 것이며 데이터는 결국 우리의 목표를 달성하기 위함이란 것을 잊지 않으려 노력합니다.
Q. 저… 진짜 그냥 개인적으로 궁금해서 그런데요.. ^^;; 전공이 수학이신데, 웹 개발쪽으로 직업을 선택하게 된 계기가 있나요? (궁금궁금)
A. 제 기억이 정확하다면 저는 분명 수학과로 입학해서 행복한 나날을 보내고 있었습니다. 그런데 국가의 부름을 받고 군대에 다녀왔더니 수학과는 수리과학부라는 직관적이기는 하나 왠지 소울이 부족한 이름의 학부로 통합이 되어 사라진 상태였습니다. 그러한 혼란의 시기에 수리과학부의 전공필수 과목인 통계학 과목과 전산과학 과목을 순순히 추가 이수한다면 졸업을 하지 못하는 사태는 발생하지 않을 것이라는 관대한 제의를 받게 되었고...... 휴. 네. 그때부터였던 것 같아요.
#2. 책에 대해서 질문드립니다
Q. 시중에 데이터 관련된 책이 많이 출간되어 있습니다. 그 책들과는 다른 시각으로 ‘데이터 분석’에 접근한 것이 인상적입니다. 이 책의 집필 의도와 저자님의 ‘데이터 분석’ 방법을 간단하게 소개해주세요.
A. 빅 데이터, 머신 러닝, A.I.까지 데이터는 현재 가장 핫한 트렌드라고 하겠습니다. 그러다보니 데이터 관련 서적 역시 이미 많은 수가 출판 시장에 나와있습니다. 하지만 지금까지 대부분의 서적은 데이터가 중요하다는 것을 강조하기 위해 데이터 기반 선택으로 얻은 성공 사례를 중점으로 소개하였다고 생각합니다.
저는 우리가 학생들에게 항상 자신이 틀린 문제에 대한 오답 노트를 작성하여야 더 좋은 결과를 얻을 수 있을 것이라고 격려하듯 기존의 성공 사례만을 접하고 익히는 것에 더하여 데이터 기반의 선택을 시도했지만 실패한 결과 사례를 분석한다면 실제로 우리의 성공에 더 중추적인 요소를 찾아낼 수 있으리라고 봅니다. 이 책에서 좋은 선택을 하려했으나 실제로는 나쁜 선택이 되어 버린 여러 사례를 통해 합리적인 선택을 위해 필요한 것은 무엇인가에 대해 이야기하고 싶었습니다.
Q. 책을 집필하기 위해서 수많은 데이터 분석 사례를 찾아보신 것 같습니다. 가장 인상적이었던 사례는 무엇인가요? 사례에서 우리는 무엇을 배워야 할까요?
A. 뭐니뭐니해도 아래의 존 이오아니디스의 연구 사례가 아닐까 합니다. (Chapter 5. 거짓말은 아닙니다 p107)
"2005년 스탠퍼드대학교 의학 및 보건 정책 교수이자 통계학 교수인 존 이오아니디스는 한 편의 논문을 미국의학협회 저널에 발표했습니다. 그 내용은 1990년부터 2003년까지 발표된 임상 의학 논문 중 1,000회 이상 인용된 기록이 있는 49편을 선정하여 이 논문이 주장한 내용이 추후 독자적으로 진행된 후속 연구에서도 지지되었는지, 즉 동일한 결과가 나왔는지를 확인해 본 것입니다. 그랬더니 놀랍게도 그중 1/3이 예전 연구에서 주장한 효과가 발생하지 않거나 오히려 반대되는 결과가 나왔습니다."
이처럼, 인간이 하는 일이면 그 어떤 일도 - 엄밀성과 재현 가능성이 무엇보다 중요한 학술 연구에서도 인간적인 오류가 발생한다는 것을 잊지 말아야 하겠습니다.
Q. 데이터 분석의 중요성을 강조하다 보니, 잘못된 데이터 분석으로 인해 생기는 문제 또한 자주 발생합니다. 저자님은 잘못된 데이터 분석으로 생기는 문제를 어떻게 해결하시나요?
A. 데이터 분석을 하는 궁극적인 이유는 결국 미래를 예측하여 특정한 선택을 할 지 말지 여부를 결정하는 것이라 하겠습니다. 하지만 데이터 분석으로 미래를 예측한다는 것은 쉬운 일이 아닙니다. 왜냐하면 우리가 가진 데이터가 현실의 복잡다난한 여러 상황을 모두 반영했을 것이라고 기대할 수 없기 때문입니다. 따라서 부족한 부분은 우리의 상상력을 동원하여 채울 수밖에 없고 여기서 벌써 엄밀함과 태양계 절반 정도는 멀어졌다고 봐야 하겠습니다. 또한 데이터 분석은 데이터에 대하여 연구하는 것이지 미래 자체를 연구하는 것도 아닙니다.
다시 말해 데이터가 앞으로 어떤 방향으로 발생할 것이라 예측한다고 해서 그 방향의 데이터가 현실에서 어떠한 모습으로 발현될지 알게 되는 것도 아닙니다. 따라서 누군가 데이터를 분석하여 미래에 발생할 사건을 정확하게 - 아니 비슷하게라도 항상 예측할 수 있다고 주장한다면 오히려 그러한 주장을 하는 사람의 진실성에 대해 의문을 가져야 한다고 생각합니다. 그럼에도 불구하고 왜 데이터 분석을 해야 하는가에 대해서는 윈스턴 처칠의 '민주주의는 가장 덜 나쁜 제도'란 말을 조금 바꾸어
'데이터 분석은 우리가 가진 가장 덜 사이비스러운 미래 예측 수단'
이라고 말씀드리고 싶으며 데이터 분석은 우리가 틀릴 수 있다는 점을 받아들이고 지속적으로 반복함으로써 그 오차를 줄여나가는데 그 의의가 있다고 생각합니다.
Q. 다양한 현상을 통계와 확률로 수치화 한 것이 재미있습니다. 그럼에도 여전히 수치화할 수 없는 것들이 존재할 것 같은데요, 이럴 때 어떻게 정량화하여 접근하는 것이 좋을까요?
A. 15년 전 개그 프로에서 영어 문장을 엉터리로 해석하고서는 의혹을 가진 상대방에게 '잉글리시는 우리 마음에 있는 거죠' 라고 의뭉스럽게 퉁치는 코너가 기억이 납니다. (2004년 웃음을 찾는 사람들, 그때그때 달라요, 정찬우,김태균) 데이터가 뭐 별것인가요. 앞서도 말씀 드렸습니다만, 우리가 데이터를 다루는 이유는 우리의 문제를 데이터로 풀기 위함입니다.
따라서 어떠한 요소는 수치화가 불가능하다고 간주할 필요는 없다고 생각합니다. 사실 그런 요소일수록 잘 정리된 방법이 없다는 의미이고 어떻게라도 우리가 정량화를 위한 기준을 세워 측정하면 우리 나름의 수치화 된 데이터를 얻을 수 있다고 봅니다. 물론 그 수치화가 잘 되지 않았다면 적절한 해답이 나오지 않을 것이고 그렇다면 다시 기준을 바꾸어 정량화를 재차 시도하는 것이 바로 우리가 가져야 할 자세라고 생각합니다.
네, 저도 이쯤에서 '데이터는 우리 마음에 있는 것' 이라고 말씀 드리겠습니다.
Q. 같은 데이터도 분석하는 사람에 따라 다른 해석이 가능할 것 같습니다. 바른 해석을 위해 지녀야 할 가장 중요한 요소 하나를 꼽자면요?
A. 열린 마음입니다. 내가 틀릴 수 있다는 것을, 다른 사람의 의견이 맞을 수 있다는 것을 항상 마음에 소중히 품고 있어야 한다고 생각합니다. 그렇게 해야만 지금까지 수많은 시간을 통해 도출한 나의 주장을 한번에 뒤엎을지도 모르는 데이터를 기꺼이 보충하여 다시 처음부터 분석할 동인을 얻을 수 있으며 이미 결론을 내렸던 데이터의 의미를 또다시 새롭게 제로 베이스에서 다시 생각할 지치지 않는 의지를 가질수 있다고 봅니다. 결국 이러한 과정이 쌓여 진실의 한 조각에 닿을 수 있는 기회를 얻을 수 있을 것으로 봅니다.
Q. 독자님들께 하시고 싶은 말씀이 있으신가요? 마지막으로 한마디 부탁 드립니다!
이 책을 쓰면서 제가 지금껏 읽고 배운 경험의 정수를 녹여 넣으려 노력했습니다. 이제 제 손을 떠난 글을 여러분 앞에 펼쳐놓습니다. 독자 여러분들께 조금이나마 도움이 되었으면 합니다.
감사합니다.
합리적인 선택을 위한 데이터 바로 읽기▼
<좋은 선택, 나쁜선택 보러가기>
이전 글 : [인터뷰] 3D 프린터 101 안상준 저자에게 묻다
다음 글 : 데이터 분석에 대한 궁금증 여덟 가지
최신 콘텐츠