1장. 빅데이터 분석하기
__1.1 데이터 과학의 어려움
__1.2 아파치 스파크란
__1.3 이 책에 관하여
2장. 스칼라와 스파크를 활용한 데이터 분석
__2.1 데이터 과학자를 위한 스칼라
__2.2 스파크 프로그래밍 모델
__2.3 레코드 링크
__2.4 스파크 셸과 SparkContext 시작하기
__2.5 클러스터에서 클라이언트로 데이터 가져오기
__2.6 클라이언트에서 클러스터로 코드 가져가기
__2.7 튜플을 사용한 데이터 구조화와 케이스 클래스
__2.8 집계
__2.9 히스토그램 만들기
__2.10 연속 변수에 대한 요약 통계량
__2.11 요약 통계량을 계산하는 재사용 가능한 코드 만들기
__2.12 간단한 변수 선택과 점수 매기기
__2.13 한 걸음 더 나아가기
3장. 오디오스크로블러 데이터셋으로 음악 추천하기
__3.1 데이터셋
__3.2 교차 최소 제곱 추천 알고리즘
__3.3 데이터 준비하기
__3.4 첫 번째 모델 만들기
__3.5 추천 결과의 추출 검사하기
__3.6 추천 품질 평가하기
__3.7 AUC 계산하기
__3.8 하이퍼파라미터 선택하기
__3.9 추천 결과 만들기
__3.10 한 걸음 더 나아가기
4장. 의사 결정 나무로 산림 식생 분포 예측하기
__4.1 회귀로 돌아와서
__4.2 벡터와 특징
__4.3 학습 예제
__4.4 의사 결정 나무와 랜덤 포레스트
__4.5 Covtype 데이터셋
__4.6 데이터 준비하기
__4.7 첫 번째 의사 결정 나무
__4.8 의사 결정 나무 하이퍼파라미터
__4.9 의사 결정 나무 튜닝하기
__4.10 범주형 특징 다시 살펴보기
__4.11 랜덤 포레스트
__4.12 예측하기
__4.13 한 걸음 더 나아가기
5장. K-평균 군집화로 네트워크 이상 감지하기
__5.1 이상 감지
__5.2 K-평균 군집화
__5.3 네트워크 침입
__5.4 KDD 컵 1999 데이터셋
__5.5 첫 번째 군집화하기
__5.6 k 선정하기
__5.7 R에서 시각화
__5.8 특징 정규화
__5.9 범주형 변수
__5.10 엔트로피와 함께 레이블 활용하기
__5.11 군집화하기
__5.12 한 걸음 더 나아가기
6장. 숨은 의미 분석으로 위키백과 이해하기
__6.1 단어-문서 행렬
__6.2 데이터 구하기
__6.3 파싱하여 데이터 준비하기
__6.4 표제어 추출
__6.5 단어빈도-역문서빈도(TF-IDF) 계산하기
__6.6 특이값 분해
__6.7 중요한 의미 찾기
__6.8 낮은 차원 표현에 대한 의문과 고찰
__6.9 단어와 단어 사이의 연관도
__6.10 문서와 문서 사이의 연관도
__6.11 단어와 문서 사이의 연관도
__6.12 여러 개의 단어로 질의하기
__6.13 한 걸음 더 나아가기
7장. 그래프엑스로 동시발생 네트워크 분석하기
__7.1 네트워크 분석 사례: MEDLINE의 인용 색인
__7.2 데이터 구하기
__7.3 스칼라 XML 라이브러리로 XML 문서 파싱하기
__7.4 MeSH 주요 주제와 주제들의 동시발생 분석하기
__7.5 그래프엑스로 동시발생 네트워크 구성하기
__7.6 네트워크의 구조 이해하기
__7.7 관련성 낮은 관계 필터링하기
__7.8 작은 세상 네트워크
__7.9 한 걸음 더 나아가기
8장. 뉴욕 택시 운행 데이터로 위치 및 시간 데이터 분석하기
__8.1 데이터 얻기
__8.2 스파크에서 시간과 지리 데이터 다루기
__8.3 JodaTime과 NScalaTime을 이용한 시간 데이터
__8.4 Esri Geometry API와 Spray를 사용한 지리 데이터
__8.5 뉴욕 택시 운행 데이터 준비하기
__8.6 스파크에서 세션화하기
__8.7 한 걸음 더 나아가기
9장. 몬테카를로 시뮬레이션으로 금융 리스크 추정하기
__9.1 금융 분야 전문 용어
__9.2 VaR 계산 방법
__9.3 우리의 모델
__9.4 데이터 구하기
__9.5 전처리하기
__9.6 요인 가중치 결정하기
__9.7 표본추출하기
__9.8 다변량 정규분포
__9.9 실험 실행하기
__9.10 수익 분포 시각화하기
__9.11 결과 평가하기
__9.12 한 걸음 더 나아가기
10장. BDG 프로젝트와 유전체학 데이터 분석하기
__10.1 모델링과 저장소를 분리하기
__10.2 ADAM CLI를 이용한 유전체학 데이터 처리
__10.3 ENCODE 데이터로부터 전사인자 결합 부위 예측하기
__10.4 1000 게놈 프로젝트에서 유전자형 질의하기
__10.5 한 걸음 더 나아가기
11장. 파이스파크와 썬더로 신경 영상 데이터 분석하기
__11.1 파이스파크 소개
__11.2 썬더 라이브러리 개요와 설치
__11.3 썬더로 데이터 읽어 들이기
__11.4 썬더를 이용해서 신경 세포 유형 분류하기
__11.5 한 걸음 더 나아가기
부록 A 스파크 더 깊숙히
__A.1 직렬화
__A.2 어큐뮬레이터
__A.3 스파크와 데이터 과학자의 작업흐름
__A.4 파일 형식
__A.5 스파크의 하위 프로젝트들
부록 B MLlib 파이프라인 API
__B.1 단순한 모델링을 넘어서
__B.2 파이프라인 API
__B.3 문서 분류 예제 검토