요즘 다양한 분야에서 컴퓨터공학과 통계를 접목시켜 재미난 연구결과를 만들어내고 있습니다. 특히 생명공학쪽에서 이러한 부분이 크게 진전되고 있다고 하네요. 통계를 처음 접하려는 분 보다는 이미 통계학과 파이선 지식이 있는 분이라면 좀 더 재밌게 책을 읽을 수 있지 않을까 싶습니다. 이론과 코딩 부분이 조금 더 분리되었더라면 조금 더 매끄럽게 책을 읽을 수 있지 않을까하는 아쉬움도 좀 있네요.
데이터를 분석하려면 통계 개념을 알아야 한다!
몇 년 전부터, 여러 곳에서 미래의 유망 직종으로 '데이터 사이언티스트'라는 신종 직업을 언급하고 있다. 데이터 사이언티스트란 분석과 개발이 명확히 구분되던 과거와 달리, 데이터 분석과 개발을 동시에 할 수 있는 고급 인력을 뜻한다. 특히 요즘처럼 빅데이터가 주목받는 시대에는 빅데이터를 자유자재로 다루는 것은 물론, 그 데이터를 분석하여 데이터 속의 숨은 가치를 찾아 주는 데이터 사이언티스트의 수요가 늘어날 수밖에 없다. 하지만 기존 분석가들에게는 개발이라는 장벽이, 기존 개발자들에게는 통계학이라는 장벽이 존재한다. 개발 회사 및 연구소에 근무하면서 통계학이라는 장벽을 넘지 못하여 좌절하는 개발자가 종종 있다.
데이터를 분석하려면 통계 개념을 잘 알고 있어야 한다. 또한, 데이터 분석 도구의 개념도 잘 알아야 한다. 이 책은 데이터를 수집하거나 패턴 및 테스트 가설을 세우는 일 등의 사례를 배우면서 데이터 분석 프로세스와 데이터 분석 방법의 이해를 하는 데 도움이 될 것이다.
대상 독자
데이터 사이언티스트를 꿈꾸는 프로그래머를 위한 통계 및 확률 입문서
이 책은 통계와 확률을 학습하는 데 어려움을 겪고 있는 개발자들에게 데이터를 분석하는 데 필요한 통계적 이론을 개발자의 관점에서 쉽게 설명해 준다. 과거, 통계학 입문 서적은 복잡한 수식을 통한 이론 설명에 집중하여 개발자가 쉽게 접근할 수 없었다. 이에 반해, 이 책은 복잡한 수식을 배제하고 파이썬 코드를 이용해 개발자적인 관점에서 이론 부분을 설명함으로써, 개발자들도 복잡한 통계 이론을 쉽게 이해할 수 있도록 돕는다. 물론 통계 전문 용어를 그대로 사용하기 때문에, 초반에는 개발자들이 조금 어렵고 낯설게 느낄 수도 있다. 하지만 매 장 부록마다 해당 장에서 다룬 통계 전문 용어를 설명해 주고 있어서, 큰 문제가 되지는 않을 것이라 확신한다.
이 책은 확률과 통계 입문 수업을 위한 새로운 종류의 교과서로, 크기가 큰 데이터 세트를 분석하는 데 통계를 어떻게 사용하는지에 초점을 맞췄다. 이 책은 또한 컴퓨터를 이용한 접근 방식을 취하는데, 여기에는 다음과 같은 장점이 있다.
1. 프로그래머를 위한 통계적 사고
1.1 첫아이는 예정일보다 늦게 태어날까?
1.2 통계적 접근
1.3 전미 가족 성장 조사
1.4 테이블과 레코드
1.5 유의성
1.6 용어 정리
2. 기술 통계
2.1 평균값과 평균
2.2 분산
2.3 분포
2.4 히스토그램으로 표현하기
2.5 히스토그램 그리기
2.6 PMF 표현하기
2.7 PMF 그리기
2.8 극단값
2.9 그 외의 시각화 방법
2.10 상대 위험도
2.11 조건부 확률
2.12 결과 해석하기
2.13 용어 정리
3. 누적 분포 함수
3.1 학생 대 교수 비율의 역설
3.2 PMF의 한계
3.3 백분위수
3.4 누적 분포 함수
3.5 CDF 표현하기
3.6 다시 설문 조사 데이터 살펴보기
3.7 조건부 분포
3.8 난수
3.9 요약 통계 다시 짚어 보기
3.10 용어 정리
4. 연속 분포
4.1 지수 분포
4.2 파레토 분포
4.3 정규 분포
4.4 정규 확률 그림
4.5 로그 정규 분포
4.6 왜 모델링을 해야 하는가?
4.7 난수 생성하기
4.8 용어 정리
5. 확률
5.1 확률 법칙
5.2 몬티 홀
5.3 푸앵카레
5.4 그 외의 확률 법칙
5.5 이항 분포
5.6 스트리크와 핫스팟
5.7 베이즈 정리
5.8 용어 정리
6. 분포에 대한 연산
6.1 왜도
6.2 확률변수
6.3 확률밀도함수, PDF
6.4 합성곱
6.5 왜 정규 분포인가?
6.6 중심극한 정리
6.7 분포 프레임워크
6.8 용어 정리
7. 가설 검정(검증)
7.1 평균차 검정하기
7.2 분계점 선택
7.3 효과에 대한 정의
7.4 결과에 대한 해석
7.5 교차입증
7.6 베이즈주의 확률에 대한 보고
7.7 카이 제곱 검정
7.8 효율적 재표본추출(재표집)
7.9 검정력
7.10 용어 정리
8. 추정
8.1 추정 게임
8.2 분산 추정
8.3 오차 이해하기
8.4 지수 분포
8.5 신뢰 구간
8.6 베이지안 추정
8.7 베이지안 추정 구현하기
8.8 중도절단 자료
8.9 기관차 문제
8.10 용어 정리
9. 상관
9.1 표준 점수
9.2 공분산
9.3 상관
9.4 pyplot으로 산포도 그리기
9.5 스피어먼 순위 상관
9.6 최소제곱법
9.7 적합도
9.8 상관관계와 인과관계
9.9 용어 정리
리얼타임 eBook 안내
PDF 형식으로 제공되며, 다운로드한 eBook은 PDF 포맷을 지원하는 디바이스 또는 프로그램에서 제한없이 열람할 수 있습니다. 또한 eBook 내의 텍스트 검색 및 인쇄도 가능합니다.