5월 16일 한빛 출판사의 리뷰어 이벤트 메일을 보고 신청한 3권의 책들 중 “데이터를 부탁해”가 도착 했습니다. 다른 두 권은 제목만을 보고 선택했지만, 이 책을 선택할 때는 목차 까지 확인해 본 후 관심이 있는 빅데이터와 데이터 마이닝을 다루고 있는 책이라 선택을 했었습니다.
표지는 심플하지만 책의 주제를 잘 표현하고 있습니다.
책을 받아 들고 보니 A5 보다 조금 큰 정도의 크기에 200페이지가 조금 넘는 책입니다. 책의 표지를 살펴보고 책의 뒷면을 살펴 보니 “데이터 분석을 인문학으로 접근한다” 라는 문장으로 책에 대한 소개를 하고 있습니다. 과연 그런지 한 번 읽어 봐야겠지요. :
이 책에서 처음다루는 데이터의 처리 방법은 거의 모든 사람이 아는 평균에 대한 설명으로 시작 합니다. 그리고 평균의 문제점, 즉 평균값이 그 대상을 대표할 수 없는 예를 들어 그 이유를 설명합니다.
그리고는 데이터가 과연 그 집단을 대표할 수 있는지, 확률이란? 그리고 중심극한의 정리와 그 특징에 대한 소개를 합니다.
...
이렇게 데이터 분석의 기법을 역사적인 흐름과 함께 설명을 하고 있으며, 최근 화두가 되고 있는 빅데이터/데이터 마이닝과 함께 네트워크 분석을 다루고 있습니다.
이를 통해서 데이터 분석에 대한 이론과 기법의 발전과정, 그리고 최신 데이터 분석 기법인 네트워크 이르기 까지 간단한 예제들과 설명을 통해서 살펴 볼 수 있었던 것은 좋았습니다. 이러한 이론과 기법의 발전으로 인해 데이터를 더욱 더 잘 활용하고 이로인해서 데이터가 더 중요해진다는 점, 그리고 어떤 기법이 있다는 것을 알아 두는 것만으로도 나중에 데이터를 더 잘이용할 수 있게 된다는 이야기니까요. 또한 몇몇 장이나 절의 끝에 나온 질문과 그 답은 이 책을 선택한 독자에게 알찬 정보를 제공해 줍니다. 예를 들어 109페이지 Q3은 데이터 분석가나 데이터 과학자라는 직업에 관심이 있는 독자에게는 도움이 될 수 있는 조언이라고 봅니다.
하지만 책을 다 읽고 나니 오히려 “인문학으로 하는 접근이 어떤 접근이지?” 라는 생각이 드는데다가 주의 깊게 읽다 보면 뭔가 설명이 부족하거나 자료가 빠져버린 경우가 종종 있습니다. 예를 들어 1장의 경우 2016년 정부에서 발표한 평균 연봉의 문제점을 설명하기 위해서 분산, 표준 분산을 몇 페이지에 걸쳐 설명했음에도 불구하고 정부가 발표한 평균 연봉의 표준 분산이 얼마인지 알려 주지 않습니다. 정부 발표 자료에서 빠져있었을까요?
목차를 살펴 볼 때 부터 눈치를 챘지만 각 장이나 절의 제목에 드라마의 제목, 책의 제목, 노래 제목, 명언 , 어디선가 들은 듯한 유행어를 많이 활용했더군요. 이것은 재미를 위해서라고 볼 수 있겠지만 책 전체에서 전반적으로 이런 유머 코드를 녹여내지 못하면서 거부감이 조금 생깁니다. 거기다가 제목을 이렇게 해 두면 목차만을 봐서는 각 장과 절에서 어떤 내용을 다루는지 모를 수도 있습니다. 또한 장과 절의 제목을 재미있게 하려던 것 처럼 데이터 분석 기법을 개발한 수학자들에 대한 이야기 중 갑자기 나오는 각색된 이야기나 허구의 이야기는 제게는 오히려 집중력을 떨어뜨리는 요소가 되더군요.
그리고 이 책은 실생활에 접할 수 있는 에피소드를 통해 설명을 하기 위해 전박봉 과장이라는 가상의 인물을 출연시켜서 이야기를 시작합니다. 하지만 이 전박봉 과장이 나오면서 난이도가 높지 않은 부분에서는 오히려 전개가 늘어지는 것 같고, 전문적인 지식에서는 전박봉 과장이 출연할 수 없어 개요만으로 넘어가는 것처럼 보입니다.
여기까지 적고 나서 보니 제가 느낀 거부감이나 아쉬운 점이 공학이나 과학, 기술과 관련된 책을 쓰는 작가들이 종종 하는 실수들이네요. 글을 쓰는 분들이 보기에는 당연하거나 평상 시에 사용하는 용어이지만 독자가 모를 수도 있다는 것을 간과하고 그냥 그 용어를 사용하는 경우가 있더군요. 그리고 쉽고 재미있게 설명하기 위해, 또는 흥미를 유도하기 위해서 과도한 은유나 심한 비약, 과장이 많은 예를 드는 경우인데 이 책에서도 종종 보입니다.
그리고 책을 보다 보면서 또 아쉬운 점이 보입니다. 수리 통계 분석 기법을 만든 사람들과 그 기법에 대한 설명한 후 마지막에 그 기법을 이용한 연구의 예로 표와 그림을 첨부했지만 그 예에 대한 설명이 없어 그 예가 별로 도움이 안되는 것이 대부분입니다. 예를 들어 59, 63, 83, 95 100, 108, 135, 등의 페이지에 첨부된 연구의 예들은 표만 덩그러니 있습니다. 최소한 연구의 예로 첨부한 표가 무엇에 대한 연구였고, 표의 값들이 어떤 의미이고 소개한 방법을 통해서 어떤 결과를 얻었다 정도의 설명이 있었다면 첨부된 자료가 의미가 더 있었을 것 같습니다.
11장과 12장은 최근에 그 중요도가 커진 빅데이터와 이 빅데이터를 다루는 데이터 마이닝에 대한 내용을 다루고 있지만 너무 간단하게 개요만 설명하고 있어 읽어봐도 별로 얻는 것이 없다는 느낌이 듭니다.
간단히 정리해 보자면 데이터 처리 기법에 대해 제일 대표적인 평균에서 시작해서 최근의 빅데이터와 네트워크 분석에까지 데이터 처리 기법의 중요한 내용들에 대한 소개를 예제와 에피소드를 중심으로 설명하고 있지만,
1) 설명과정에 있어서 어떤 경우는 불필요한 내용을 넣거나
2) 어떤 곳에서는 설명이 조금 부족하거나 없는 경우가 종종 보였으며,
3) 최근 화두라고 볼 수 있는 주제에 대해서는 개요만 설명하고 넘어간 점.
4) 가끔은 그림을 첨부해서 설명했으면 이해가 쉬웠을 나았을 텐데 라는 생각이 드는
등이 이 책에 대한 아쉬운 부분들 입니다.
마지막으로 이 책의 편집과 인쇄 상태와 편집에 대한 느낌입니다.
한빛 출판사의 realTime 시리즈는 저자가 온라인으로 책을 쓰고 e-book (web book?)으로 공개 하고, POD(print on demand)로 판매하는 방식의 책이라고 알고 있습니다.
그런데 이 ‘데이터를 부탁해’와 같이 어느 정도 전문적인 내용을 다루는 책이라면 있어야 할 색인(index)이 없다는 것이 조금 불편하군요. 나중에라도 각 용어와 그 의미를 쉽게 찾아보기 위해서는 필요한 건데 말입니다. e-book 이나 webBook 이라면 검색이 쉽겠지만 책에서는 검색이 불가능합니다. POD 소프트웨어에 이 색인 기능이 아직 구현되지 않은걸까요?
또 한 가지 이 책을 보면서 뭔가 이상함을 느꼈는데 알고보니 글자들의 인쇄 품질 때문이더군요. 기존에 보던 책들과 이 책의 인쇄 품질을 보면 레티나 디스플레이로 보던 pdf 파일을 일반 모니터로 보는 기분이랄까요? 아니면 1200dpi 레이저 출력물을 보다가 600dpi 레이저프린터로 출력한 결과물을 보았을 때의 느낌이랄까요? 거기다가 글자를 볼때 레이저 프린터로 출력한 인쇄물 특유의 번들거림 보입니다.
거기다가 이 인쇄의 문제(?)는 한글 용어 옆에 위첨자로 적어놓은 원래 용어(영어)를 회색으로 처리(추정입니다)하면서 더 심각해 집니다. 이 위첨자들이 흐리게 보여 눈에 힘이 너무 많이 들어가는 군요. 그냥 원래의 색으로 원래 용어를 표시하는 것이 좋았을 것 같습니다.
LED 조명 돋보기로 확대해서 찍은 사진입니다.
좀더 확대해 보면, 글자의 번들거림과 용어의 회색 처리(?)가 확연히 보입니다.
이만 리뷰를 마칩니다.
추신 ::
책을 보다가 찾은 틀린 부분은 다음의 3군데 입니다.
25 페이지 : “ .. 각 편차를 제곱해 원래의 편차값을 두배로 늘리면 된다.” ⇒ 제곱해서 두 배가 되는 것은 0과 2 밖에 없습니다. 모든 편차가 제곱을 한 결과가 원래 편차의 두 배가 되지 않기 때문에 설명이 틀렸습니다.
129페이지 : 유사도는 0과 1 사이의 값으로 수렴하므로…. ⇒ 수렴이라는 것은 일정한 한 값으로 수렴하는 것을 의미하는 것이 아닌가요? “0과 1 사이의 값이므로.. .” 라고 해야 할 것 같군요.
134페이지 : 표와 본문의 설명이 맞지 않습니다. 신입사원과의 유클리드 거리를 계산하고 거리가 가까웠다고 설명을 했지만, 표에서 “신입사원과의 거리” 라고 된 곳에는 유클리드 거리가 아닌 ‘유사도’ 값이 적혀 있습니다.
오타도 대략 10개를 찾았지만 이 리뷰에는 적지 않겠습니다. 저도 오타가 많은 편이거든요. :)
이만