AI/ML 쪽 공부하신 분들은 다 고개를 끄덕거리실 오라일리 도서를 번역한 책이라 당연히 신뢰가 갔고,
저번 달 출시된 아주 따끈따끈한 도서입니다!
python 3, Numpy, Matplotlib, DeZero(또는 PyTorch), OpenAI Gym을 사용합니다.
참고로 DeZero는 밑바닥부터 시작하는 딥러닝 3에서 직접 구현한 framework라고 합니다.
본 책에서 다루는 내용은 다음과 같습니다.
1. 밴디트 문제
2. 마르코프 결정 과정
3. 벨만 방정식
4. 동적 프로그래밍
5. 몬테카를로법
6. TD법
7. 신경망과 Q 러닝
8. DQN
9. 정책 경사법
10. 한 걸음 더(심화 학습 및 사례 연구, 풀어야 할 숙제 등)
저는 당장 다음주가 대학원 개강이고
인공지능을 위한 수학 과목을 수강할 목숨이기 때문에..
벼락치기로 공부하기 딱 좋은 경험이 되었습니다.
아직 읽어보지는 않았지만, 본 밑바닥부터 시작하는 딥러닝 시리즈는 1~3편에서 딥러닝 자체에 대한 원리의 설명과 코드 구현이 위주이고
본 4편에서는 강화학습의 원리 설명과 코드 구현을 중심으로 다루고 있습니다.
5편도 출간 예정인데, 따끈따끈한 딥러닝 생성 모델을 위주로 곧 세상에 나올 예정이라고 합니다!
다양한 강화 학습 모델을 학습하면서,
이 책의 장점을 몇 가지 뽑아보았습니다.
1. 본문에 대한 충분한 부가 설명
그리고 길지 않은 양이지만, 이해가 쉬운 간결함
밑바닥부터 시작하는 딥러닝 시리즈는 본문 사이사이 NOTE_ 를 통해 내용과 관련한 팁과 부가 설명을 얻을 수 있습니다.
수식에 대한 설명 이해를 본문이 도와주고, 본문의 이해를 NOTE_가 도와주는 셈이죠.
대부분이 제가 모르는 내용이라 책을 이해하며 읽는 게 오래 걸렸는데,
제가 아는 내용 - 예를 들면 졸업 작품에서 다룬 CNN 에대한 내용을 읽어보니
단 몇 줄 만으로 CNN의 정의와 사용법을 깔끔하게 설명한 놀라운 책이었습니다.
CNN의 신경망을 그림과 단 몇 줄의 줄글로 이해하기 매우 어려웠는데 말이죠..
2. 추상적이고 이해가 어려운 수식과 구조에 대한 충분한 도식과 이미지
왼쪽의 그림은 두 칸 짜리 그리드 월드에
벨만 최적 방정식을 적용한 백업 다이어그램입니다.
최적 정책을 구하기 위해서는 연립 방정식에 대한 이해가 선행되어야 하는데,
위의 백업 다이어그램을 충분히 이해해야 두 칸짜리 그리드 월드의 최적 정책을 찾을 수 있습니다.
어떤 책에서는 A에 대한 개념만 정의하고 B에서 바로 응용으로 넘어가 적용이 안 되는 경우가 많은데
밑바닥부터 시작하는 딥러닝 4는 처음 알게 된 개념이라도 응용 과정을 다양한 도식화로 이해를 도와줍니다.
3. 수식과 코드의 직관적 연결
7장의 Q러닝 관련 코드를 예로 들어보겠습니다.
우측의 Q 함수 식을 바탕으로 Q 러닝을 수행하는 agent를 작성한 코드가 좌측의 코드입니다.
클래스의 초기화 단계계부터 메서드에 행동을 선택하는 이유와 과정을 코드와 함께 설명함으로써
수식과 코드를 상호보완적으로 표현합니다.
도서 전반적으로 이렇게 모델에 대한 이해를 수식과 코드로 병행하여 학습한 후,
각 모델에 맞는 시각화를 통해 직관적으로 구현을 하는 방식으로 약 10개의 딥러닝 강화학습 알고리즘을 학습할 수 있습니다.
머리 박치기로 수식을 통해 알고리즘을 이해하는 것은 머신러닝의 학습에서는 가능할 수 있지만
더 복잡한 수식의 딥러닝을 접하게 되면 생각보다 이해가 매우 어렵습니다.
딥러닝, 그 중에서도 강화학습의 기본 알고리즘에서 고급, 최신 알고리즘을 수식과 코드로 기본기를 다지고 싶으시다면
사이토 고키의 밑바닥부터 시작하는 딥러닝 4 도서를 추천드립니다.