데이터를 부탁해 : 세상을 움직이는 데이터의 힘

adayl***l2019-06-17

데이터를 부탁해 : 학문의 길을 찾아서

아주 오래전에 데이터를 무엇이라고 생각하는지 전산학개론에 배운적이 있었다.

자세하게 기억나지는 않지만 데이터라는 것은 가공하기 전에 모든 정보를 일컫는다고 배웠다.

그리고 이런 정보를 유의미한 데이터로 가공하는 과정을 거친 것이 DB라는 이야기를 했었다.

혹은 내가 서로 반대의 의미로 기억하고 있는지도 모른다.

데이터가 요즘 화두가 되고 있다고 한다.

아주 많은 쓰레기를 모아서 정보 또는 비즈니스 모델의 의사결정 수단에 도움이 되고자 하는 것이 바로 데이터의 본질 또는 목적이다.

사실 이 책은 데이터에 대한 기술에 대한 책이 아니다.

이 책은 진실로 보건데, 인문학적인 책이라고 할 수 있다.

오래전부터 수리학 또는 통계학이라고 불리어진 학문의 체계가 어떻게 만들어져 왔는지에 대한 기술이라고 할 수 있다.

다만 오래전부터 생겨난 학문이라고는 어렵지만 그 가운데 우리가 어떻게 삶 속에서 통계 즉 데이터를 산출하는 것에 도움을 받아왔는지, 그들은 학문의 길속에서 무엇을 보았는지에 대한 기술이다.

학문이라는 것을 생각해보면, 처음 그런 종류의 사고체계가 없었을 테니, 그런 것을 만들어 가는 사람 어떤 사람은 그런 사람들을 선각자라고도 한다.

내가 공부하는 블록체인에서도 튜링 완전성을 생각해낸 또는 증명한 사람이 있듯, 이 학문에서도 그런 사람들이 있어서, 데이터 사이언스라는 학문이 비로소 가치를 드러내는 것은 아닐까 하고 생각해본다.

onedayi***l2019-06-09

'데이터를 부탁해'를 읽고

<한빛미디어의 '나는 리뷰어다'에 당첨되어 '데이터를 부탁해'를 받고 쓰는 리뷰입니다.>

1.

간단히 후기를 말하면 통계 및 데이터 분석에 대해서 쉽게 풀이하여 쓴 책이라고 할 수 있다.

데이터 분석의 역사로부터 시작하여 여러가지 가장 중요하면서도 기본적인 개념에 대해서 설명을 하는 책이다.

개인적으로 이러한 책을 읽을 때에는 내용의 순서를 자연스럽게 이끌어 갈 수 있는지를 중요하게 생각한다.

이론을 설명하는 책이어도 앞과 뒤의 인과관계가 있어야 읽는 사람이 잘 이해하고 기억할 수 있기 때문이다.

2.

처음은 '평균'으로 시작한다.

일상 생활에서 가장 많이 쓰이면서, 많이들 알고 있는 개념이다. 평균이 나오고 나서 자연스럽게 편자, 분산, 표준편차 등에 대한 개념을 설명한다. 이렇게 평균 > 편차 > 분산 > 표준편차 라는 개념을 자연스럽게 연결하여 설명을 잘 하고 있다.

그리고 나서 다음은 자연스럽게 확률로 넘어간다.

분포와 중심극한정리 등에 대해서 어떻게 시작이 되었고 어떠한 식으로 사용이 되는지 쉽게 설명이 되어 있다.

귀무가설을 설명할 때에는 최근 '기생충'으로 큰 상을 받은 봉준호 감독의 '살인의 추억' 영화의 예를 들어 귀무가설을 설명한다.

이렇듯 작가는 책의 초반(1부, 2부)을 일반인들이 많이 접할 수 있는 개념으로부터 시작하여, 누구나 쉽게 책을 읽을 수 있게 하며, 많이 알려진 예를 들어서 사용자들이 쉽게 공감할 수 있게 책을 썼다.

책의 중반(3부, 4부)은 분류와 군집, 회귀분석 등에 대한 내용이 나온다. 요새 흔히들 말하는 머신러닝에서 사용되는 개념을 다룬다.

마찬가지로 여러 가지 예를 들어 가면서 설명을 한다.

책의 마지막(5부, 6부)은 빅데이터에 대한 내용을 다룬다. 텍스트 마이닝에 대한 내용도 나오고 네트워크 분석에 대한 내용도 다룬다.

연예인의 관계를 들어가며 설명을 한다.

3.

책을 읽고 난 뒤 솔직히 느낀 점을 얘기하자면,

이 책의 저자는 데이터, 통계, 분석 등에 대한 내용을 쉽게 풀어 쓰고자 했던 것은 칭찬하고 싶다. 책에서 설명하고자 하는 내용을 적절한 순서와 인과관계를 이용하여 나열하였기에 처음부터 끝까지 주욱 읽어 나가기에는 좋았다.

다만, 너무 많은 내용은 200여 페이지 정도의 책으로 축약?하여 설명하다보니, 조금 더 자세한 설명이 필요했으면 하는 부분들도 많았다.

이는 책의 목적이 데이터 분석에 이용되는 여러 가지 이론들을 간단한 예를 들어 쉽게 설명하고자 하는 것이기에 그럴 수 밖에 없는 것이라 생각된다.

(확률, 통계 및 데이터 분석에 대해서 자세히 공부하고자 하면 뭐 한도 끝도 없으니...)

결과적으로 아래와 같은 사람에게 추천한다.

기본적으로 확률, 통계에 대한 공부를 했던 사람으로터 데이터 분석에 대해서 전반적인 내용을 간단히 훓어보고자 하는 사람에게 추천한다.

ser***l2019-06-09

'데이터를 부탁해': 데이터 과학을 알고 싶다면 가볍고 빠르게 읽어보자.

새로 일을 하게 된 직무에서 일하며 데이터에 대해 이해하고 좀 더 적극적으로 활용할 줄 알아야겠다고 느끼던 요즘, '나는 리뷰어다'를 통해 가볍게 읽어볼 수 있는 도서를 만날 수 있었습니다.

데이터를부탁해.jpg

인물을 통해 읽는 데이터 분석과 데이터 과학 통계라는 설명과 함께 데이터도 인문학적으로 접근해보자는 프롤로그에 따라 그런 취지를 이해하고 읽기 시작했습니다.

독서 후기에 대해 먼저 간략히 말씀드리면, '데이터를 부탁해'는 다양한 일화와 평범한 곳에서 찾을 수 있는 예시를 바탕으로 데이터와 관련된 기본적인 지식을 풀어놓은 도서입니다. 데이터 과학을 위해 기초적으로 알아두어야 할 개념과 사용할 수 있는 기법, 그 발전과정, 나아가 최신 데이터 기술까지 골치 아프게 고민하지 않고 가볍게 읽을 수 있었습니다. 데이터 과학의 중요성을 체감하지 못하는 분이나 데이터 과학을 공부하고 싶지만 전혀 기반 지식이 없는 분에게 도움이 많이 될 것이라 생각되었어요.

다만, 처음 말씀드렸던 인물을 통해 읽는 데이터 분석과 데이터 과학 통계 및 인문학적으로 접근하자는 시선에 대해서는 과연 알맞게 풀이된 것인가 고민되었습니다. 여러 학자들을 통해 살펴볼 수 있는 데이터 이야기가 메인이라고 생각되지 않았고, 실생활에서 접할 수 있는 다양한 예제들을 인문학적 접근이라고 생각해야 하는지 갸웃 고민하게 되는 지점이 있었습니다. 또한 가상의 인물을 내세우지 않고도 충분히 실생활 예시 혹은 실제 통계 자료를 통해 설명할 수 있는 내용들이라고 생각되어서 가상 인물은 책을 읽는데 이입이 되는 부분은 아니었습니다.

도서에 대한 설명만 조금 수정된다면 전반적인 내용은 충분히 초보자에게 추천하기 좋은 기본 지식서적이 될 것이라 생각이 되었습니다. 데이터에 대해서, 혹은 통계학에 대해서 관심있지만 전혀 지식이 없는 지인이 있다면 추천드리고 싶은 책입니다. 용어는 실제 데이터 분야에서 쓰이는 용어를 그대로 사용하기 때문에 설명을 봐도 머리에 잘 들어오지 않고 어려운 감이 있습니다. 그러나 이 도서는 용어 자체를 공부하는 목적보다 데이터 분야의 초보자에게 '데이터 과학 분야에서는 이런 걸 중점적으로 다루고, 이런 기술들을 사용합니다.'라는 개요를 파악하게 해주는 책이므로 용어는 꼼꼼하게 짚지 않아도 충분하다 생각합니다. 물론 데이터 분야에 더 관심 있는 분들이라면 2-3번 읽으시며 용어를 파악하시는 것이 좋을 것이라 생각됩니다.

alfe***l2019-06-09

데이터를 부탁해를 읽고..

5월 16일 한빛 출판사의 리뷰어 이벤트 메일을 보고 신청한 3권의 책들 중 “데이터를 부탁해”가 도착 했습니다. 다른 두 권은 제목만을 보고 선택했지만, 이 책을 선택할 때는 목차 까지 확인해 본 후 관심이 있는 빅데이터와 데이터 마이닝을 다루고 있는 책이라 선택을 했었습니다.

표지는 심플하지만 책의 주제를 잘 표현하고 있습니다.

책을 받아 들고 보니 A5 보다 조금 큰 정도의 크기에 200페이지가 조금 넘는 책입니다. 책의 표지를 살펴보고 책의 뒷면을 살펴 보니 “데이터 분석을 인문학으로 접근한다” 라는 문장으로 책에 대한 소개를 하고 있습니다. 과연 그런지 한 번 읽어 봐야겠지요. :

이 책에서 처음다루는 데이터의 처리 방법은 거의 모든 사람이 아는 평균에 대한 설명으로 시작 합니다. 그리고 평균의 문제점, 즉 평균값이 그 대상을 대표할 수 없는 예를 들어 그 이유를 설명합니다.

그리고는 데이터가 과연 그 집단을 대표할 수 있는지, 확률이란? 그리고 중심극한의 정리와 그 특징에 대한 소개를 합니다.

...

이렇게 데이터 분석의 기법을 역사적인 흐름과 함께 설명을 하고 있으며, 최근 화두가 되고 있는 빅데이터/데이터 마이닝과 함께 네트워크 분석을 다루고 있습니다.

이를 통해서 데이터 분석에 대한 이론과 기법의 발전과정, 그리고 최신 데이터 분석 기법인 네트워크 이르기 까지 간단한 예제들과 설명을 통해서 살펴 볼 수 있었던 것은 좋았습니다. 이러한 이론과 기법의 발전으로 인해 데이터를 더욱 더 잘 활용하고 이로인해서 데이터가 더 중요해진다는 점, 그리고 어떤 기법이 있다는 것을 알아 두는 것만으로도 나중에 데이터를 더 잘이용할 수 있게 된다는 이야기니까요. 또한 몇몇 장이나 절의 끝에 나온 질문과 그 답은 이 책을 선택한 독자에게 알찬 정보를 제공해 줍니다. 예를 들어 109페이지 Q3은 데이터 분석가나 데이터 과학자라는 직업에 관심이 있는 독자에게는 도움이 될 수 있는 조언이라고 봅니다.

하지만 책을 다 읽고 나니 오히려 “인문학으로 하는 접근이 어떤 접근이지?” 라는 생각이 드는데다가 주의 깊게 읽다 보면 뭔가 설명이 부족하거나 자료가 빠져버린 경우가 종종 있습니다. 예를 들어 1장의 경우 2016년 정부에서 발표한 평균 연봉의 문제점을 설명하기 위해서 분산, 표준 분산을 몇 페이지에 걸쳐 설명했음에도 불구하고 정부가 발표한 평균 연봉의 표준 분산이 얼마인지 알려 주지 않습니다. 정부 발표 자료에서 빠져있었을까요?

목차를 살펴 볼 때 부터 눈치를 챘지만 각 장이나 절의 제목에 드라마의 제목, 책의 제목, 노래 제목, 명언 , 어디선가 들은 듯한 유행어를 많이 활용했더군요. 이것은 재미를 위해서라고 볼 수 있겠지만 책 전체에서 전반적으로 이런 유머 코드를 녹여내지 못하면서 거부감이 조금 생깁니다. 거기다가 제목을 이렇게 해 두면 목차만을 봐서는 각 장과 절에서 어떤 내용을 다루는지 모를 수도 있습니다. 또한 장과 절의 제목을 재미있게 하려던 것 처럼 데이터 분석 기법을 개발한 수학자들에 대한 이야기 중 갑자기 나오는 각색된 이야기나 허구의 이야기는 제게는 오히려 집중력을 떨어뜨리는 요소가 되더군요.

그리고 이 책은 실생활에 접할 수 있는 에피소드를 통해 설명을 하기 위해 전박봉 과장이라는 가상의 인물을 출연시켜서 이야기를 시작합니다. 하지만 이 전박봉 과장이 나오면서 난이도가 높지 않은 부분에서는 오히려 전개가 늘어지는 것 같고, 전문적인 지식에서는 전박봉 과장이 출연할 수 없어 개요만으로 넘어가는 것처럼 보입니다.

여기까지 적고 나서 보니 제가 느낀 거부감이나 아쉬운 점이 공학이나 과학, 기술과 관련된 책을 쓰는 작가들이 종종 하는 실수들이네요. 글을 쓰는 분들이 보기에는 당연하거나 평상 시에 사용하는 용어이지만 독자가 모를 수도 있다는 것을 간과하고 그냥 그 용어를 사용하는 경우가 있더군요. 그리고 쉽고 재미있게 설명하기 위해, 또는 흥미를 유도하기 위해서 과도한 은유나 심한 비약, 과장이 많은 예를 드는 경우인데 이 책에서도 종종 보입니다.

그리고 책을 보다 보면서 또 아쉬운 점이 보입니다. 수리 통계 분석 기법을 만든 사람들과 그 기법에 대한 설명한 후 마지막에 그 기법을 이용한 연구의 예로 표와 그림을 첨부했지만 그 예에 대한 설명이 없어 그 예가 별로 도움이 안되는 것이 대부분입니다. 예를 들어 59, 63, 83, 95 100, 108, 135, 등의 페이지에 첨부된 연구의 예들은 표만 덩그러니 있습니다. 최소한 연구의 예로 첨부한 표가 무엇에 대한 연구였고, 표의 값들이 어떤 의미이고 소개한 방법을 통해서 어떤 결과를 얻었다 정도의 설명이 있었다면 첨부된 자료가 의미가 더 있었을 것 같습니다.

11장과 12장은 최근에 그 중요도가 커진 빅데이터와 이 빅데이터를 다루는 데이터 마이닝에 대한 내용을 다루고 있지만 너무 간단하게 개요만 설명하고 있어 읽어봐도 별로 얻는 것이 없다는 느낌이 듭니다.

간단히 정리해 보자면 데이터 처리 기법에 대해 제일 대표적인 평균에서 시작해서 최근의 빅데이터와 네트워크 분석에까지 데이터 처리 기법의 중요한 내용들에 대한 소개를 예제와 에피소드를 중심으로 설명하고 있지만,

1) 설명과정에 있어서 어떤 경우는 불필요한 내용을 넣거나

2) 어떤 곳에서는 설명이 조금 부족하거나 없는 경우가 종종 보였으며,

3) 최근 화두라고 볼 수 있는 주제에 대해서는 개요만 설명하고 넘어간 점.

4) 가끔은 그림을 첨부해서 설명했으면 이해가 쉬웠을 나았을 텐데 라는 생각이 드는

등이 이 책에 대한 아쉬운 부분들 입니다.

마지막으로 이 책의 편집과 인쇄 상태와 편집에 대한 느낌입니다.

한빛 출판사의 realTime 시리즈는 저자가 온라인으로 책을 쓰고 e-book (web book?)으로 공개 하고, POD(print on demand)로 판매하는 방식의 책이라고 알고 있습니다.

그런데 이 ‘데이터를 부탁해’와 같이 어느 정도 전문적인 내용을 다루는 책이라면 있어야 할 색인(index)이 없다는 것이 조금 불편하군요. 나중에라도 각 용어와 그 의미를 쉽게 찾아보기 위해서는 필요한 건데 말입니다. e-book 이나 webBook 이라면 검색이 쉽겠지만 책에서는 검색이 불가능합니다. POD 소프트웨어에 이 색인 기능이 아직 구현되지 않은걸까요?

또 한 가지 이 책을 보면서 뭔가 이상함을 느꼈는데 알고보니 글자들의 인쇄 품질 때문이더군요. 기존에 보던 책들과 이 책의 인쇄 품질을 보면 레티나 디스플레이로 보던 pdf 파일을 일반 모니터로 보는 기분이랄까요? 아니면 1200dpi 레이저 출력물을 보다가 600dpi 레이저프린터로 출력한 결과물을 보았을 때의 느낌이랄까요? 거기다가 글자를 볼때 레이저 프린터로 출력한 인쇄물 특유의 번들거림 보입니다.

거기다가 이 인쇄의 문제(?)는 한글 용어 옆에 위첨자로 적어놓은 원래 용어(영어)를 회색으로 처리(추정입니다)하면서 더 심각해 집니다. 이 위첨자들이 흐리게 보여 눈에 힘이 너무 많이 들어가는 군요. 그냥 원래의 색으로 원래 용어를 표시하는 것이 좋았을 것 같습니다.

LED 조명 돋보기로 확대해서 찍은 사진입니다.

좀더 확대해 보면, 글자의 번들거림과 용어의 회색 처리(?)가 확연히 보입니다.

이만 리뷰를 마칩니다.

추신 ::

책을 보다가 찾은 틀린 부분은 다음의 3군데 입니다.

25 페이지 : “ .. 각 편차를 제곱해 원래의 편차값을 두배로 늘리면 된다.” ⇒ 제곱해서 두 배가 되는 것은 0과 2 밖에 없습니다. 모든 편차가 제곱을 한 결과가 원래 편차의 두 배가 되지 않기 때문에 설명이 틀렸습니다.

129페이지 : 유사도는 0과 1 사이의 값으로 수렴하므로…. ⇒ 수렴이라는 것은 일정한 한 값으로 수렴하는 것을 의미하는 것이 아닌가요? “0과 1 사이의 값이므로.. .” 라고 해야 할 것 같군요.

134페이지 : 표와 본문의 설명이 맞지 않습니다. 신입사원과의 유클리드 거리를 계산하고 거리가 가까웠다고 설명을 했지만, 표에서 “신입사원과의 거리” 라고 된 곳에는 유클리드 거리가 아닌 ‘유사도’ 값이 적혀 있습니다.

오타도 대략 10개를 찾았지만 이 리뷰에는 적지 않겠습니다. 저도 오타가 많은 편이거든요. :)

이만

aim***l2019-06-09

[데이터를 부탁해] 리뷰

데이터를 부탁해

저자 전익진

출판 한빛미디어

발매 2019.04.08.

이번에는 기술서가 아닌 교양(?) 서적을 리뷰하기로했다. 여행 일정이 잡혀서 비행기랑 기차 등 이동하는 틈틈히 열심히 읽었다. 분량이 많지 않고 챕터가 적당한 길이라 좋았다.

최근 회사에서도 업무관련된 데이터를 수집하고 활용해보자는 이야기가 나오고 빅데이터나 머신러닝도 언급이되고 있어서 기대가 컸다.

처음에는 평균과 분산, 표준편차 등 기본적인 통계에 관한 이야기가나온다. 알고는 있지만 별로 사용할 일이 없어서 구석에 박혀있던 기억을 되살리기에 괜찮았다. 그런데 분산을 계산하는 식과 예제가 있는데 아무리 생각해봐도 틀린게 아닌가 하는 부분이 있었다. 내용은 점점 발전해서 회귀분석, 상관 분석 등에 대해 설명한다. 여기서부터 조금씩 이해하는데 어려움을 느꼈다. 점점 기초지식이 부족해서 이해하기가 아려웠다. 이제는 친해진것같은 느낌조차 드는 전박봉과장의 업무로 예를 자주 들어주는데, 겉으로는 이해가 되었지만 이것을 실무에는 어떻게 써야할지감은 잘 오지 않았다.

책 구성은 참 괜찮은 것 같다. 기초적인 내용과 과거의 자료를 잘 골라내고 정리하여 분석하는 방법을, 그리고 그 자료들로 미래를 예측하는 방법을 순서대로 설명하고 있다. 요즘 옆 팀에서 진행중인 작업이 유사도 분석인데 약간 아는척할 수 있을정도의 지식은 생긴것같다.

데이터를 다루는 법도 중요하지만, 일을 하다보면 무엇을 필요로하는지 정확히 정의하는 것과 어떤 데이터로부터 어떻게 중요한 데이터를 뽑아낼 것인지에대해 고민하려면 아주 많은 경험과 지식이 필요하다는 생각이든다. 똑같은 주제를 가진 책이 아니고서야 이런 내용은 부딪쳐볼수밖에 없겠지만 매번 아쉽긴하다.

상세히 기술에 대해 설명해주는 책은 아니고 여러가지 분석 방법에대해 골고루 소개해주는 책이라고보면 될 것 같다. 이런 지식을 가지고 있으면 나중에업무에서 데이터를 분석 할 필요가 있을 때 하나하나 기억이 난다면 많은 도움이 될 것 같다.

k13***l2019-06-06

앞으로는 데이터를 수학을 아는자가 주도하지 않을까요?

데이터의 시대가 오고 있다. 어쩌면 이미 왔다고 볼 수 있다.

최근에 딥러닝 관련 된 책과 스터디 몇번 하고 나서, 개인적으로 드는 생각은 이제는 개발자의 로직을 한땀 한땀 구성하는것보다는 데이터를 가지고 학습으로 예측값에 갭을 줄여가는 것이였다. 딥러닝 엔진들 코어 기술들은 계속 발전할 것이고, 제공되는 API, 함수들로 충분한 시대가 올 것이다. 그래서, 어쩌면 수학식을 수학 공식을 원리를 얼마나 컴퓨터가 처리하게 쉽게 만드냐가 관건 일 것이다.

수학공식의 시대가 올 것이라는 것이다. 그리고, 그 근간은 데이터일 것이다.

그런면에서 데이터에 대한 재 정립이 필요하다. 수학이라고 통계라고 말 할 수도 있다.

어디서 부터 시작할까? 고민이 있었는데, 데이터 분석을 인문학적으로 접근한 책이 바로 이 "데이터를 부탁해" 이다.

책의 마지막 페이지를 보면,

"데이터 분석 과정은 복잡하다. 그러나 이 책은 분석 결과를 효과적으로 활용하는 방법을 간결하고 쉽게 설명한다. 이러한 접근을 통해 결과를 전달하는 사람도, 보고 받는 사람도 분석의 이유와 가치를 쉽게 이해하고, 어렵기만 한 데이터 분석에 한걸음 더 다가갈 수 있을 것이다."

다시 말해서 대상이 개발자들만이 아닌 것 같다. 데이터분석에 관심을 가지 모든 사람들이다. 쉽게 풀어서 썼다는 것이다.

한빛1.jpg

책을 접하고 있었는데, 미리보기 서비스가 있었다.

책소개 내용 중에 미리보기를 클릭하면, 대략적인 정보가 나온다.

자신에게 맞는지 필요한 내용인지, 어려운지 너무 쉬운지 판단 할 수 있을 것 같다.

링크에 걸려있는 내용만 숙지해도 나쁘지 않을 것 같다.

나 같은 경우는 아직 책을 선호하는 편이라, 무조건 보유하는 것을 답으로 생각하는 부류이기도 하다.

데이터1.png

http://preview2.hanbit.co.kr/books/kwsf/#p=15

데이터2.png

장장 43페이지 내용이 공유되어 있다.

한빛5.png

총 책의 내용은 216페이지까지 있다.

한빛6.png

한빛2.jpg

한빛3.jpg

책의 뒷면 날개이다.

근대 수리 통계학의 아버지 칼 피어슨,

수리 통계학의 창시자 로널드 피셔 등

인물로 읽는 데이터 분석과 데이터 과학 통계

한빛4.jpg

부담없이 내용별로 뽑아 볼 수 있는 책이기도 하다.

데이터 분석에 관심있는 입문자에게 적합한 책이기도 하다.

shb2***l2019-06-03

데이터를 부탁해 : 너무나도 쉽고 재미있는 데이터 이야기

감사하게도 한빛미디어의 나는리뷰어다 이벤트에 당첨되었다. 심지어 택배비까지 공짜였다. 제목만 보고 끌려서 신청한 책 '데이터를 부탁해' 를 수령했다. 책을 몇장 들춰보고 깨달았다.

망.했.다

나는 학창시절에 단 한번도 통계나 확률을 좋아해본 일이 없었다. 심지어 싫어했다. 이 책을 어떻게 읽을지조차도 암담했다. 하지만 놀랍게도 이 책을 읽는데는 하루정도면 충분했다. 형관펜 하나 들고 약간 헷갈리는 내용들만 체크하면서 읽었고 앞장으로 다시 돌아가지도 않았지만 그렇게 어렵지도 않았다. 책 내용이 쉽냐고 묻는다면

그것은 절대로 아닙니다...... 다 처음 보는 단어들입니다.....

독립변수, 종속변수를 일상생활에서 볼 일은 절대로 없다. 하지만 이 책은 그 어려운 단어를 여러가지 일화와 예제를 통해서 간단하게 설명해준다. 책을 크게 3개의 파트로 나눈다면 배경 / 진화 / 변이 3가지 파트이다. 저자가 굉장히 신경써서 파트를 나눴다는 점을 알 수 있는데 앞에서 여러가지 일화와 배경을 통해서 데이터의 분석기법들을 물흐르듯이 설명하고 진화로 넘어간다. 하지만 난 진화로 넘어왔다는 점을 딱히 신경쓰지 않아도 되었다. 왜냐면 앞에서 나온 개념들이 어려웠지만 재미있었기 때문이다.

내가 얻고자 하는 상황을 설정한 것은 대립가설, 이와 반대되는 상황인 얻고자 하는 진실과는 반대의 상황을 설정한 귀무가설이다. 대립가설이든 귀무가설이든 해당 가설이 맞고 틀린지는 누구나 공감할 수 있어야 한다.

회귀분석은 두 요인 간의 인과관계를 파악해 미래를 예측하고 설명하는 대표적인 데이터 분석 기법이다. 여기서 두 요인이란 독립변수와 종속변수를 의미하는데 예를 들자면 독립변수는 [내 연봉이 상승하면 나는 쇼핑을 전보다 더 많이 할까?] 에서 내 연봉이 상승하면을 담당하고 있다. 종속변수는 당연히 나는 쇼핑을 전보다 더 많이 할까에 해당한다. 이 독립변수와 종속변수에는 대칭관계가 있으며 그 대칭관계를 상관이라고 부른다.

상관분석은 위에 예로 든 내 연봉과 내 쇼핑의 양의 관계를 이야기한다. 상관분석은 저 두가지 변수의 관계를 설명하지 인간관계는 설명하지 않는다.

통계는 확률이다. 평균과 분산은 연속 확률 분포이며, 정규 분포를 대표하는 값이다. 평균과 분산을 모수라고 부른다. 정규분포가 아니며 데이터의 표본 수가 적거나 부족하고 데이터가 독립적인 통계의 개념은 비모수이다. 모수는 추출한 표본 간의 평균 차이를 중심으로 분석한다. 비모수는 평균이 아닌 서열 또는 특정 기준을 중심으로 분석한다.

이 내용들을 남들에게 손쉽게 설명할 수 있냐고 질문한다면 아니오다. 책을 펼쳐서 뒤적이면서 설명해야 할 것 같다. 하지만 책 한번 읽고 이 내용들을 대강이라도 이해할 수 있었냐고 묻는다면 대답은 절대적으로 네 이다. 정말 재미있고 쉬운 예제들이었으니까..

나는 항상 이야기하지만 통계가 싫다. 그리고 모르겠다. 하지만 이 책을 읽으면서 DMBS안의 데이터를 활용해서 여러가지 개발을 하면서 내가 과연 정말 제대로 된 통계적 기획 하에서 개발을 하고 있는게 맞는지에 대한 약간의 의문이 생겼다. 이 책의 최우선 장점은 통계알못이라도 술술 읽히는 책이라는 점이다. 수많은 예제와 학자들에 대한 배경 설명을 통해서 저자가 얼마나 많은 자료 조사를 했는지 알 수 있었다. 200장에 지나지 않는 얇은 책 내용속에 깔끔하면서 함축적으로 정리하는 것 조차도 대단하다는 생각이 든다.