메뉴 바로가기 검색 및 카테고리 바로가기 본문 바로가기

한빛출판네트워크

시맨틱 데이터 모형화

데이터의 유용성과 가치를 높이는 방법

한빛미디어

번역서

판매중

  • 저자 : 파노스 알렉소풀로스
  • 번역 : 박진수
  • 출간 : 2022-03-15
  • 페이지 : 364 쪽
  • ISBN : 9791162245361
  • 물류코드 :10536
  • 초급 초중급 중급 중고급 고급
4.6점 (17명)
좋아요 : 11

함정과 딜레마를 극복하는 올바른 시맨틱 가이드

 

빅데이터와 인공지능 열풍 시대에 데이터는 금광으로 여겨진다. 그리고 수많은 데이터 실무자와 거대 기업은 그 속에서 가치를 얻으려 노력한다. 하지만 데이터는 있지만 금이 없을 때도 있고 기업에서 사용할 만한 양의 금이 들어 있지 않을 때도 있다. 데이터와 금이 모두 있지만 정작 금 추출에 필요한 설비나 기술이 아직 사용 할 만큼 충분히 발달하지 않은 때도 있다.

 

이 책은 시맨틱 데이터 모형화를 통해 데이터를 유용하게 다루고 그 속에서 가치를 높이는 방법을 제시한다. 또한 모형화 과정에서 직면할 ‘함정’과 ‘딜레마’를 통해 데이터 실무자가 알아야 할 데이터 모형화의 ‘좋은 사례’와 ‘나쁜 사례’를 학습한다. 저자의 실제 사례를 바탕으로 한 경험을 간접적으로 익히며 데이터를 보고 이해하는 시야를 넓혀보자.

 

파노스 알렉소풀로스 저자

파노스 알렉소풀로스

2006년부터 데이터, 시맨틱, 소프트웨어가 교차하는 분야에서 일해 왔으며 업무와 사회에 가치를 제공하는 지능형 시스템을 구축하는 데 이바지했다. 그리스 아테네에서 태어나고 자랐으며, 현재 네덜란드 암스테르담에 있는 텍스트커널 BV에서 온톨로지 책임자로 일하며 인적자원관리와 채용 분야에서 쓸 대규모 다국어 지식 그래프를 개발하고 제공하는 데이터 전문가 팀을 이끈다. 아테네 국립 공과 대학에서 지식 공학 및 관리 박사 학위를 받았으며 저널과 서적 외에도 국제 콘퍼런스에서 여러 연구 논문을 발표했다. 학계와 산업계 모두에서 정규 연사 겸 강사로 활동하며 학계와 산업계 간의 격차를 해소하여 서로 혜택을 받을 수 있도록 노력하고 있다.

박진수 역자

박진수

정보기술(IT)과 관련하여 다양한 개발·저술·번역·기술편집·기술교정·자문·발표·기고를해 왔다. 1인 기업을 세웠다가 닫았다. 최근에는 주로 인공지능과 관련한 번역·자문·강의를 한다. 저술하고 번역한 책이 많아서 좁은 지면에 모두나열하기 어렵다. 이 책들을 온라인 서점에서 역자의 이름으로 쉽게 검색해서 찾아볼 수 있다(다만 검색된다고 해서 다 역자의 책인 것은 아니다).저술하고 번역한 책 중에는 정보기술과 무관한 것들도 있다.

[PART I 기초]


CHAPTER 1 시맨틱 격차에 유념하기

_1.1 시맨틱 데이터 모형화의 의미

_1.2 시맨틱 데이터 모형을 개발해서 사용하는 이유

_1.3 잘못된 시맨틱 모형화

_1.4 함정 피하기

_1.5 딜레마 깨기

 

CHAPTER 2 시맨틱 모형화 요소

_2.1 일반 요소

_2.2 공통 요소와 표준화된 요소

_2.3 요약

 

CHAPTER 3 시맨틱 현상과 언어적 현상

_3.1 모호성

_3.2 불확실성

_3.3 애매성

_3.4 경직성, 동일성, 단일성, 의존성

_3.5 대칭성, 반전성, 전이성

_3.6 닫힌 세계 가정과 열린 세계 가정

_3.7 의미 변화

_3.8 요약

 

CHAPTER 4 시맨틱 모형 품질

_4.1 의미 정확성

_4.2 완비성

_4.3 무모순성

_4.4 간결성

_4.5 시의성

_4.6 관련성

_4.7 이해성

_4.8 신뢰성

_4.9 가용성, 융통성, 성능

_4.10 요약

 

CHAPTER 5 시맨틱 모형 개발

_5.1 개발 활동

_5.2 어휘, 패턴, 모범 모형

_5.3 시맨틱 모형 마이닝

_5.4 요약

 

 

[PART II 함정]

 

CHAPTER 6 나쁜 설명

_6.1 나쁜 이름 부여

_6.2 정의를 생략하거나 나쁜 정의를 부여하기

_6.3 애매성 무시

_6.4 편견과 가정을 문서화하지 않음

_6.5 요약

 

CHAPTER 7 잘못된 의미

_7.1 나쁜 동일성

_7.2 나쁜 하위 클래스

_7.3 나쁜 공리와 나쁜 규칙

_7.4 요약

 

CHAPTER 8 잘못된 모형 규격 및 지식 습득

_8.1 잘못된 것을 구축하는 일

_8.2 나쁜 지식 습득

_8.3 규격 및 지식 습득 이야기

_8.4 요약


CHAPTER 9 나쁜 품질 관리

_9.1 품질을 상반 관계로 취급하지 않음

_9.2 품질을 위험과 이익에 연결하지 않음

_9.3 올바른 지표를 사용하지 않음

_9.4 요약


CHAPTER 10 잘못된 애플리케이션

_10.1 잘못된 엔터티 해소

_10.2 잘못된 시맨틱 관련성

_10.3 요약


CHAPTER 11 나쁜 전략과 나쁜 조직

_11.1 나쁜 전략

_11.2 나쁜 조직

_11.3 요약

 

 

[PART III 딜레마]


CHAPTER 12 표현성 딜레마

_12.1 클래스인가 아니면 인디비주얼인가?

_12.2 하위 클래스로 하느냐, 아니면 마느냐?

_12.3 속성이냐, 아니면 관계냐?

_12.4 퍼지화하느냐, 아니면 마느냐?

_12.5 요약

 

CHAPTER 13 표현성과 내용 간의 딜레마

_13.1 어떤 어휘화가 있어야 하는가?

_13.2 얼마나 세분화될까?

_13.3 얼마나 일반적이어야 하는가?

_13.4 얼마나 부정적이어야 하는가?

_13.5 얼마나 많은 진리를 처리해야 하는가?

_13.6 어떻게 연결되어야 하는가?

_13.7 요약

 

CHAPTER 14 진화와 거버넌스 딜레마

_14.1 모형 진화

_14.2 모형 거버넌스

_14.3 요약

 

CHAPTER 15 미래 전망

_15.1 지도는 영토가 아니다

_15.2 낙천주의자로 살면서도 순진해빠지지 않기

_15.3 좁은 시야에서 벗어나기

_15.4 산만한 토론 피하기

_15.5 해를 끼치지 않기

_15.6 시맨틱 격차 해소

시맨틱 데이터 모형을 사용하는 이유

 

구글은 2012년에 <우리가 만든 지식 그래프로 문자열뿐만 아니라 사물도 검색할 수 있었다>고 발표했고, 가트너는 2018년에 신흥 기술의 하이프 사이클에 지식 그래프를 포함했다고 발표했다. 현재는 구글 외에도 아마존, 링크드인, 톰슨 로이터, BBC, IBM 등 다양한 조직이 시맨틱 데이터 모형을 개발해 자신들의 제품이나 서비스에 접목하고 있다.

 

이런 회사들이 시맨틱 데이터 모형에 투자하려는 한 가지 이유는 인공지능의 기능, 데이터 과학 애플리케이션의 기능, 서비스의 기능을 높이기 위해서다. 이처럼 시맨틱 응용 기능들 또한 머신러닝 기술과 통계 기술에 기반을 두기는 하지만, 몇 가지 작업을 더 거쳐야 명료한 기호적 지식에 접근할 수 있게 되고 유익해진다.

 

예를 들어, 인기 퀴즈 쇼인 <제퍼디!>에서 경연을 펼친 왓슨은 질문의 답을 찾을 때 정형화되지 않은 정보에 의존해서 대부분의 증거 분석 작업을 했지만, 일부 구성 부분에서는 지식 기반 방법과 온톨로지 방식을 사용해 특정 지식과 추론 문제를 해결했다. 이렇듯 시맨틱 모형은 일반적으로 이종 데이터나 사일로 데이터의 의미를 표준화하거나 정렬하는 일, 컨텍스트(상황, 맥락,장면적 컨텍스트)를 제공하는 일, 분석 등의 용도로 더 잘 검색할 수 있게 하는 일, 상호운용이 되도록 하는 일, 활용할 수 있게 만드는 일 등을 처리한다.

 

  • 1부에서는 시맨틱 데이터 모형화와 관련된 기본 개념, 현상, 프로세스를 논의하고, 책의 나머지 부분에 관한 분위기를 전반적으로 형성하면서, 책을 읽는 데 참고할 만한 공통적인 기반 사항과 용어를 정리한다.
  • 2부에서는 시맨틱 데이터 모형을 개발해 적용할 때 흔히 빠지기 쉬운 함정을 자세히 살펴보고 이를 효과적으로 피하는 방법과 기술을 구체적으로 거론한다.
  • 3부에서는 논의의 초점을 시맨틱 모형화 함정에서 시맨틱 모형화와 관련된 딜레마로 바꾼 후에, 고유한 장단점이 있는 여러 대안 행동 과정 중에서 어느 하나를 선택해야 하는 상황을 효과적으로 푸는 방법을 검토한다.

최근에 데이터 과학 일에 관심이 생겼는데 우연히 이 책을 읽어보게 되었습니다. 흔히 '시맨틱 데이터 모델링' 이라고 부르는 '의미 기반 데이터 모형화' 는 자연어 처리, 데이터 과학, 검색, 인공지능, 데이터베이스 등 다양한 분야에 필요한 기술이고 그 필요성이 나날이 늘어날 것으로 전망 된다고 합니다.

 

 

데이터로부터 가치를 이끌어내려면 실제로 이 데이터가 깨끗하고 일관적이며 상호연결되고 명확한 의미를 지녀야 한다고 합니다. 이를 통해 데이터 과학자와 업무 분석가는 자신이 가장 잘하는 일, 즉 유용한 통찰력을 추출하는 데 집중할 수 있다고 합니다.

 

 

인공지능 애플리케이션 개발자와 공급업체는 자신들에게 필요한 지능형 동작을 머신러닝 기술이나 통게적 추론 기술만으로 구축하기에는 늘 충분하지 않다는 사실을 점점 알아차리고 있고 상징적 지식을 명시하는 식으로 그러한 기술을 보완하는 게 필요하고 유익할 수 있다고 합니다.

 

시맨틱 모형(의미 모형)을 구축하는 일에는 서로 다른 커뮤니티에서 제공되고 서로 다른 모형 관점(예: 포현, 추론, 저장, 쿼리 등)에 중점을 둔 여러 언어, 방법론, 플랫폼, 도구를 사용할 수 있다고 합니다.

 

 

시맨틱 모형을 지정하고 개발하고 사용하고 발전하게 하는 작업 전체는 생각만큼 단순하지 않다고 하는데 특히 모형의 범위와 규모가 커질수록 더욱더 그렇다고 합니다. 그 이유는 인간의 언어와 사고가 모호성으로 가득 차 있기 때문이라고 읽을 수 있었습니다.

 

이 책을 통해 시맨틱 모델링, 의미 체계 모형화의 원칙을 알 수 있고 이를 특정 컨텍스트(장면적 컨텍스트, 문맥)에 적용하는 방법을 알 수 있습니다.

 

 

이 책을 읽으면 좋으신 분들은 데이터의 의미 표현을 개발하거나 사용하는 일을 일상적인 업무로 삼아 처리해야 하는 데이터 실무자(지식 공학자, 정보 설계자, 데이터 공학자, 데이터 과학자 등)를 위한 책이며, 그런 의미에서 볼 때 데이터의 의미에 대한 명시성, 정확성, 공통 이해성은 이러한 일을 처리할 때 중요한 지표가 될 수 있다고 합니다.

 

이 글은 한빛미디어로 부터 책을 증정받아 작성되었습니다.

한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

 

- 데이터의 유용성과 가치를 높이는 방법 => 데이터 모형화 => 시맨틱 데이터 모형화



한빛미디어 <나는 리뷰어다> 로 3달 동안 데이터 관련 책을 읽어보게 되었습니다.

데이터 관련 책 3권 다 정말 다양한 방식으로 업무에 많은 도움이 된 것 같습니다.

 

이번에 "시맨틱 데이터 모형화"를 읽었는데 "시맨틱 데이터 모형화" 책은 데이터의 유용성과 가치를 높이는 방법을 주제로 여러 내용을 설명하고 있는 책이었습니다.

 

 

먼저 "시맨틱 데이터 모형화" 책은 좀 읽기에 난이도가 있다고 생각합니다.

전체적으로 "시맨틱 데이터 모형화"는 모델링 이론에 관한 내용이 주로 쓰여있고 조금 이해하기 어려운 내용을 담고 있다고 생각합니다.

 

 

전체적으로 데이터 모델링 객체 모델링 같은 내용을 확실한 개념과 그림 및 주의할 점이 나타내는 점은 이 "시맨틱 데이터 모형화" 을 읽는 최대의 장점이라고 생각합니다. 

책 곳곳에 주의할 점 및 해결방법들을 자세히 설명하고 있으며 해당 내용들을 업무에 확실히 적용한다면 데이터 모델링에 많은 성과를 이룰 수 있다고 생각합니다.

 

 

각 챕터 내용에 깊이가 있으며 어떻게 시맥틱 사고를 하는지 그리고 애매하거나 불확실한 것을 어떻게 해결할 수 있는지 방법등을 그림과 표등등 많은 설명이 있어서 반복해서 바이블처럼 읽으며 업무에 적용한다면 좋은 결과 (데이터 모델링) 를 얻을 수 있다고 생각합니다.

 

 

"시맨틱 데이터 모형화" 책은 총 3개의 PART로 구성되어 있고 15 Chapter로 구성되어 있습니다.

1번째 PART에는 시맨틱 모형의 기본 개념에 대한 설명을 중심으로

2번째 PART에는 데이터 모형을 개발할때 함정 및 해결하는 방법을 중심으로

3번째 PART에는 여러 딜레마를 통한 해결 방법을 중심으로

 

설명하고 있습니다.

 

각 PART 별로 각 중심 핵심을 자세히 설명하고 해결방법을 제시하는 좋은 구성으로 쓰여 있습니다.

 

 

데이터를 중심으로 업무를 수행하는 분들은 한번 읽어보면 좋을 것 같습니다. 

난이도는 있지만 데이터 설계 및 모형화를 할때 생각해볼 여러 내용을 학습할 수 있습니다. 추천합니다.

 



스크린샷 2022-10-30 오후 9.22.03.png

데이터에서 의미를 찾는다는 것은 좀더 효과적인 딥러닝에서 필요하다고 생각했습니다.

그래서 이 책을 읽기 시작했습니다.

 

이 책은 기본적이고 지속적으로 사용가능한 시맨틱 모형화에 대한 원칙을 설명하고 있고

이 원칙을 적용하는 방법에 대해 설명을 하고 있습니다.

 

이 책에서 초점을 맞추고 있는 것은 시맨틱 사고, 제대로 작동하지 않는 것과 왜 작동하지 않는지, 애매하거나 불확실한 것을 해결하는 방법,

컨텍스트에서의 결정 그리고 조직과 전략적인 측면에 초점을 맞추고 있습니다.

 

이 책은 3부분으로 구성되어 있는데, 1분에서는 시맨틱 데이터 모형화와 관련된 기본 개념, 현상, 프로세스를 논합니다. 

2부에서는 데이터 모형을 개발하고 적용할 때 흔히 빠지기 쉬운 함정을 살펴보고 피하는 방법에 대해 설명을 하고 있습니다.

3부에서는 효과적인 여러 해결책에 대해 설명을 하고 있습니다.

 

 

데이터를 좀 더 고찰하고 데이터 내에 잠재되어 있는 시맨틱 즉, 의미를 아는 것이 도움이 되고자 이 책을 집었지만,

시맨틱 모형화에 대해 익숙하지 않은 저에게는 읽기에 다소 어려움이 있었습니다.

 

하지만, 데이터가 쓰레기가 되지 않도록 데이터 산더미에서 의미를 찾는 일은 계속 할 예정입니다.

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다." 

함정, 딜레마를 중심으로 시맨틱 모델링을 학습하는 접근법은 일반적인 학습 방법 대비 재미와 능률에 있어 큰 도움이 되는 구성이라 생각한다. 시맨틱과 관련된 조각과 파편을 한 군데 모은 가치도 크다.

시맨틱 모델링이 그러하듯 구현된 시스템이 담고 있는 기본 속성이 그러하듯 시맨틱은 정의부터도 까다롭다.

굳이 정의하자면 의미론이라는 거창한 뜻을 니면서도 사람들이 세상이라는 환경에서 상호작용하는 데 있어 사용하는 기호, 단어, 부호 등(책에서는 기표라고 표현한다)과 존재, 컨셉, 아이디어(책에서는 사물이라 표현한다)등 과의 관계나 의미를 연구하는 분야이다.

너무 추상적인 설명이기에 시맨틱 모델링이 활용되는 분야의 한 예를 책을 빌려 설명하자면 저자가 몸담고 있는 회사에서 만든 ESCO 시스템을 예로 들 수 있을듯 하다.

인사담당자가 데이터과학자를 채용하고자 하는데 해당 직군에 필요한 스킬이 무엇인지 파악하고 싶을 때 시맨틱 모델링이 좋은 해결책이 될 수 있다.ESCO

사전에 일자리 컬럼에 해당하는 의미들이 필수 기술이라는 컬럼과 관계를 맺는 그래프를 모델링 해왔다면 쉽게 인사담당자의 질의에 도움을 줄 수 있는 시스템으로 활용할 수 있을 것이다.

시맨틱은 언어, IT, 나아가 철학을 연구하는 사람들은 좋든 싫든 간에 한번은 숙명적으로 접해온 지식 분야이기도 하다. 나 같은 경우에는 NLP, 검색엔진, 분류 시스템 등에 관심이 많고 그 분야를 다루면서 늘 꼬리표처럼 따라 다니던 연구 분야이자 주제이기도 하다.

이런 점을 토대로 책의 첫번째 장점을 추릴 수 있는데 시맨틱에 관련된 조각난 파편들을 한 번에 모아볼 수 있다는 점이 바로 그러한 장점이라 표현할 수 있겠다.

여기서 찔끔 저기서 찔끔 나타나 도대체 뭐지 하고 제대로 공부하려들면 쉬운 레퍼런스 하나 찾기가 어렵고 정의부터 애매성이 가득한 이 분야를 언젠가 기회가 되면 제대로 정리해보고 싶은 욕구가 들곤 하였는데 마침 적절한 시기에 그런 책이 등장한 셈이다.

또한 시맨틱과 관련된 책은 별로 흔하지 않을 뿐더러 대부분 원론적 개념의 수준이 언어학이나 철학을 전공해야 이해가능할 정도로 그 깊이에 끝이 없고 그 이해의 과정에서 지루함과 반복됨 그리고 방향을 잃은 듯 학습과정에 지쳐 나가떨어지기 일쑤이다.

또한 학습에 투자한 시간 대비 얻는 것이 매우 미약할 뿐만 아니라 그마저도 IT 수단으로 가시화된 구현에 이르기는 또 다른 상당량의 지식을 요하기에 거의 불가능에 가깝다. 그렇게 세월이 흐르며 애쓴 과정은 다시 물거품처럼 사라진다.

이런 측면에서 책의 두번째 장점을 찾을 수 있었다. 굳이 표현하자면 블랙리스트적 접근방식이라고 해야할까?

확실히 이 분야는 화이트리스트 정공법식 학습보다는 블랙리스트 성격의 접근방식으로 학습하는 것이 유리한 분야이다.

“어떻게 해야해?”라는 주제로 나아가기 보다는 “이렇게 하면 왜 안돼?”, “애써봤는데 이건 왜 안되는거야?” 등 거꾸로 접근하는 방식이 이 분야의 주제를 빠르게 이해하고 습득하는데 의미있는 이정표 역할을 하는 듯 하다.

영화속의 주인공처럼 스승의 어깨너머로 지루한 인내와 맹목적인 신념을 가지고 이유도 모르고 배우고 익히고 따라하다 영화 끝날 때 즈음 내가 하던 일이 우주에서나 보일듯한 거대한 코끼리 석상을 조각하는 일이었다는 것을 깨닫게 되는 것도 의미있겠지만 처음부터 방향과 목표를 분명히 알고 출발했다면 주인공의 따분함과 괴로움을 해소하는데 큰 도움이 되지 않을까?

물론 이러한 방식의 구성은 스승, 즉, 경험이 풍부한 마스터만이 시전할 수 있는 구성법이다. 덕분에 이 책은 활용할 수 없는 좋은 예제로만 구성된 시맨틱 모델링 책과는 다른 차별점이 있으며 목표를 향해 나아가는데 덜 지치게 만들고 덜 심심하게 만들어주는 효과가 있는 듯 하다.

시맨틱 분야를 알면 알수록 인간의 사고는 확실히 언어적인 요소에 상당부분 지배된다는 것을 깨닫게 된다. 보다 철학적인 분야로 올라가면 플라톤의 이데아나 아리스토텔레스의 에이도스라는 개념에 이르를 것이다.

이 책은 이러한 시맨틱현상, 언어적 현상으로도 불리는 모델링을 어렵게 만드는 요소를 단계적으로 살펴본다. 1부에서는 일반적인 언어적 현상을 2부에서는 그로인해 발생하는 함정을 3부에서는 선택의 단계에 맞닥드리게 되는 딜레마를 다룬다.

앞서 시맨틱의 정의를 내리기가 쉽지 않음을 언급했는데 모델링을 위한 시작부터 이미 순조롭지 않다. 유사 분야의 온톨로지, 지식 그래프 등의 용어와 혼용되어 사용되는 것을 시작으로 데이터베이스 개발자, 온톨로지 공학자, 언어학 전공자가 바다로 향해 나아가는 삼각주에서 만난다.

같은 주제나 현상을 두고 데이터베이스 진영은 테이블, 필드, 기본키, 외래키 등의 용어로 표현하고, 온톨로지 진영은 객체, 클래스, 데이터 형식 속성 등의 단어를, 언어학 전공자는 유의어, 표제어, 동의어, 하위어라는 표현을 사용할 것이다.

시작부터 쉽지 않은 항해이다. 앞서 이데아, 에이도스에 비유하던 개념은 아래 그림처럼 구상, 추상 엔터티로 나뉠 수 있다. 사람이라는 추상은 홍길동, 김개똥,..등의 구상으로 변할 수 있다.추상

어떤 두 엔터티가 같은 것인지 판단하는 절차조차 쉽지 않다. 수학적 연산에 있어 가장 쉽다고 말할 수 있는 비교연산자조차 이 세계에서 활용되기는 쉽지 않다.동의어

N원 관게 패턴의 복잡함은 각 엔터티가 가질 수 있는 함정과 딜레마의 첫 출발선이기도 하다.N원 관게 패턴

시맨틱 현상으로는 대표적으로 모호성, 불확실성, 애매성 등을 들 수 있다.

모호성은 두가지 이상의 그럴듯한 해석이 가능한 상황이다. 예를 들어 “내가 트리폴리에서 태어났다”고 할 때 그 지역이 리비아, 레바논, 그리스 아르카디아 지방을 말하는 것으로 각기 해석될 수 있다.

불확실성은 진실을 결정할 수 없는 상태이다. 예를 들어 “지금 비가 올 것 같다.”는 잘 모르겠다는 의미를 내포한다.

애매성은 애매한 경계사례가 대표적인 예이다. “큰 키만 입장 가능”이라는 표지판에서 그 큰 키가 180cm를 말하는 것인지 200cm를 말하는 것인지 등의 문제이다.

나아가 잘못 정의되거나 잘못된 의미를 부여한 일의 여파, 규격이나 지식 측면에서 잘못된 모형을 구축하는 일 등의 함정 등을 고려해야 하고, 0 ~ 1사이의 실수로 피지화할지 하위 클래스로 보낼지의 여부, 세분화와 일반화의 정도 등 시맨틱 모델링이 가지는 딜레마에 이르기까지 저자의 경험을 기반으로 한 뛰어난 모델링을 위한 저자의 경험이 아낌없이 전개된다.

이 책은 또 하나의 이슈에서도 흥미로운 주제이기도 하다. 페드로 도밍고스가 저술한 “마스터 알고리즘”의 책에 등장하는 머신러닝의 다섯 종족 기호주의자, 연결주의자, 진화주의자, 베이즈주의자, 유추주의자에 관한 이야기의 연속이다.

시맨틱 진영만 놓고 본다면 기호주의자 대 나머지 머신러닝 진영의 대립으로 보여지기도 한다. 기호주의자의 의미론, 분류, 추론, 의미 연결 등의 아이디어는 시맨틱 진영에 고스란히 녹아있다.

반면 다른 머신러닝 진영은 알파고가 보여준 무한에 가까운 표현력에 가능성을 건다. 확실한 것은 무엇이 더 뛰어난가의 질문은 우매한 질문이다.

개인적으로는 시맨틱 진영의 해석가능함과 머신러닝 진영의 무한의 표현력이 만나게 되는 날이 인간이 진정으로 원하는 AI를 얻게 되는 날이 아닐까 싶다.

추가로 시맨틱의 전반적인 시스템 인프라 구축과 관련된 지식을 얻길 원하는 독자라면 이 책에서 관련 지식을 얻기는 힘들다. 대신 저자가 본문에서 추천하는 책을 참고하면 된다.

시맨틱 모델링의 전반적인 구성과정과 일반적 지식 역시 방대하게 다루진 않는다. 다만, 5장이 전체 설계에 있어 큰 그림을 그릴 수 있는 수준의 도움은 준다.DOLCE
BFO

끝으로 이 책의 내용은 가벼운 언어학적 상식으로 접근하자면 어렵지 않고 흥미롭게 읽을 수 있는가 하면 반대로 시맨틱 모델링에 대한 본격적인 접근을 위해서는 다소 난이도가 있는 책이기도 하디.

후자라면 NLP, 언어학에 어느 정도의 경험고 지식이 있는 독자여야 내용을 무리없이 파악하는데 도움이 될 것이다. 물론 시맨틱 진영이나 NLP 머신러닝 진영의 꿈을 가진 일반 독자라 할지라도 언어의 특성 등을 개념적으로 파악하고 나아갈 긴 여정의 지도를 그리는데 큰 도움이 될 수 있을듯하다.


 

사실 이번 책은 1장을 다 읽을 쯤 까지 데이터 시각화를 다룬다고 생가했습니다. 책의 정체를 알고 다시 제목을 보니 제가 왜 그런 말도 안되는 착각을 했는지 잘 모르겠지만 이 책은 시각화에 도움이 될 수는 있지만 큰 관련이 없는 책이었습니다.

 

제목 그래도 의미론적인 데이터 모형화를 다루고 있는 책입니다. `Semantic 의미론적`인 시각으로 데이터에 접근해 데이터를 만지고 모형화하는 방법을 다루고 있습니다. 우리 인간의 언어는 불완전하고 모호한데다가 애매하기도 합니다. 이런 특성들은 모델의 정확도를 낮추는 원인이 되기도 합니다. 그래서 모델들에서 이런 요소를 배제하고, 기계와 사람 모두 오해없이 이해 할 수 있는 모델을 만들고, 이 모델을 평가하는 법 등을 다루고 있습니다.

 

지금까지 쉽게 접하지 못했던 분야의 책을 읽는건 좋은 경험이었지만 중간중간 너무 많은 용어의 병기는 책의 흐름을 다소 방해하는 요소였습니다. 철학, 언어학, 온톨로지 등 다양한 분야의 용어와 한국어로 명확히 번역되지 않는 단어들 때문에 분명 필요는 했습니다. 하지만 같은 페이지에서 같은 용어가 같은 단어로 번역이 되었는데 두 번 다 병기를 하고, 협의/관계/링크드 오픈 데이터/지식 습득 등 같은 용어들까지 병기의 필요가 있었냐는 의문이 남습니다. 너무 잦은 병기로 글자 간격이 벌어지다보니 읽는 흐름이 끊기고, 반/비는 한자로 그 다음 용어는 또 영어로 병기가 되는 경우도 있어 집중력을 많이 갉아 먹히는 기분이었습니다. 언어적 모호성을 다루면서 예제 문장의 조사 오탈자로 대소집합 관계가 아예 틀어져버린 문장이 재사용 되어 좀 아쉬웠습니다.

 

읽은면서 병기된 용어들이 대부분 설명이 필요로 하거나 추가적으로 찾아 볼만한 것들이 많아 원문에서 어떻게 쓰였는지 알려주는 것은 좋았지만, 조금 과한 면이 있었다고 생각됩니다. 최대한 오해를 줄이고, 명확한 설명을 위했다는 것은 확실히 느낄 수 있었습니다.

 

데이터 모델링에서 한 단계 더 도약을 해보고 싶다면 읽어볼 만한 가치는 충분히 있습니다. 언어학적 배경 지식 등에 따라서 난이도가 다르게 느껴질 것 입니다. 쉬운 책은 아니지만 충분히 도전해 볼 만한 데이터 서적이었습니다.

 

---

 

한빛미디어 `2022 도서 서평단 "나는 리뷰어다"`의 일원으로 도서를 제공받아 작성한 리뷰입니다.

 

# 시맨틱 데이터 모형화

 

- 인공지능 기술을 활용한 데이터 분석과 활용이 발전함에 따라 데이터에 대한 중요성이 나날이 커지고 있습니다.

- 하지만 때때로 데이터를 무작정 많이 보유하고 있으면, 데이터 속에서 정말 필요하고 유의미한 의미를 찾을 수 있을거라 생각하는 경우가 있습니다.

- [시맨틱 데이터 모형화]는 데이터 속에서 가치를 찾아내려 하는 실무자를 위한 책입니다.

 

## 함정으로 배우는 전략

 

- 어떤 것이 잘 되는 이유는 단 한 가지이지만, 잘 안되는 이유는 수만가지이다. 라는 말처럼 어떤 기술을 학습하는 과정에서 '잘 하고 있는 것인가?' 라는 질문에 대한 답이 좀처럼 쉽지 않습니다. 좋은 경우보다 결과가 좋지 못한 경우를 자주 경험하기 때문이기도 하고, 정확히 무엇이 문제인지 파악하기 힘들기 때문이죠.

- 이 책은 3가지 파트로 구분합니다.

  - PART 1 기초 : `시맨틱 데이터 모형화와 관련된 기본 개념, 현상, 프로세스를 논의하고, 책의 나머지 부분에 관한 분위기를 전반적으로 형성하면서, 책을 읽는 데 참고할 만한 공통적인 기반 사항과 용어를 정리한다.`

  - PART 2 함정 : `시맨틱 데이터 모형을 개발해 적용할 때 흔히 빠지기 쉬운 함정을 자세히 살펴보고 이를 효과적으로 피하는 방법과 기술을 구체적으로 거론한다.`

  - PART 3 딜레마 : `논의의 초점을 시맨틱 모형화 함정에서 시맨틱 모형화와 관련된 딜레마로 바꾼 후에, 고유한 장단점이 있는 여러 대안 행동 과정 중에서 어느 하나를 선택해야 하는 상황을 효과적으로 푸는 방법을 검토한다.`

- 저자의 경험을 바탕으로 시맨틱 모델링에 있어 '이렇게 하면 안됩니다~'하고 실패 사례를 소개하고 그 이유를 설명하는 구조입니다. 그렇다보니 '잘 만들어진 가이드'를 따라 한걸음씩 나아가는 초심자에게는 다소 어려운 구성을 가지고 있습니다.

 

## 누구를 위한 책일까?

 

- 책에서 소개하는 시맨틱 데이터 모형화란  **명료하고 정확하며 일반적으로 이해되는** 방식으로 데이터를 설명하고 표현을 개발하는 일이라 표현합니다. 현실이 명료하지 못하고 부정확하기도 하고, 일반적으로 이해되지 않기 떄문에 이런 책이 나온거라 생각합니다. 그만큼 어렵고 복잡한 내용을 다루기도 한다는 뜻으로 생각합니다.

- 어떤 특정한 기술에 대한 지식을 배우는 책이 아닌, 실제로 업무를 진행하며 발생할 수 있는 다양한 이슈와 충돌, 사고들을 소개하고 그 해결 방법 또는 조언이 주를 이루기 때문에, 적어도 관련 업계에서 업무를 진행하고 있는 사람이 읽기에 좋을것 같습니다.

 

> 한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

시멘틱 데이터 모형화 (한빛미디어)

 

결론부터 이야기하자면, 오랜만에 읽은 좋은 전공 서적이었다. 또 서평 활동을 신청할 당시 내가 읽으리라고 기대했던 그런 류의 서적이었다. 시간이 조금만 지나면 의미가 없어지는 기술책이나 코드를 따라 쳐보면서 공부하는 기술 입문서가 아닌, 머릿속 한 구석에 숨어있다가 어느순간 탁 떠올라 연구에 인사이트를 제공해줄 그런 책.

시멘틱 데이터 모형화 (한빛미디어)

 

지금은 데이터의 양만큼이나 질 또한 매우 중요한 시대가 되었다. 따라서 딥러닝을 배우는 입문자들은 데이터 전처리(pre-processing)을 통해 데이터를 최대한 쓸모있도록 만드는 법을 배운다. 또, 연구자가 데이터셋을 얼마나 이해하느냐가 모델 퍼포먼스를 좌지우지할 때도 있다. 그래서 연구나 대회를 시작하기에 앞서 EDA (Exploratory Data Analysis)를 수행하여 데이터의 특징을 파악하는 것이 중요하게 여겨지기도 한다. 즉 같은 데이터여도 사용자의 이해능력과 경험치에 따라 활용도가 상이해지는 것이다. 이 책은 데이터를 비판적인 시각으로 바라볼 수 있는 능력을 길러준다. 시멘틱 데이터를 다양한 시각에서 깊이있게 이해하고 시멘틱 모형을 만들때 필요로하는 비판적인 사고능력을 길러줄 것이다. 따라서, NLP를 공부하는 대학원생이나 NLP 엔지니어 및 연구자들이 한번쯤 읽어보길 추천한다. :)



Statement: 한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

 

 

시맨틱 데이터 모형화 - 한빛미디어

 

1.jpg

 

이책을 선택한 이유는 검색엔진이나 빅데이터 혹은 인공지능 관련 책일거라는 예상을 하고 선택하게 되었다.

하지만 이책은 단순히 위의 내용뿐만 아니라 객체를 모델링 하는 방법에 대한 얘기들이 많이 나와 있다.

그중 자연어를 분석하고 모델링 하는데 우리가 일반적으로 자주 실수하는 오류 등에 대해서 잘 정리되어 있다.

 

44페이지의 예시 처럼 클래스가 뭐고 인스턴스가 뭔지에 대한 정의가 명확히 나와 있고,

 

 

2.jpg

66페이지의 경우는  우리가 문장을 읽으면서 쉽게 놓칠 수 있는 모호성에 대해서 설명을 하고

 

 

3.jpg

파트 2 함정 부분에서는 이러한 모형화(모델링)에 대해서 잘못된 예와 해결방법등을 잘 설명하고 있다.

 

 

4.jpg

파트3의 딜레마에서는 모형화의 기준등을 설명하고, 상속을 받아야 하는지 혹은 별도 클래스를 만들어야 하는지

아니면 인스턴스로 생성해야 하는지에 대한 개념을 설명해 주고 있다.

5.jpg

개인적으로 이 책은 객체모델링방법이란 타이틀이 더 어울리지 않을까? 생각한다.

객체지향 언어를 사용해서 개발하는 모든 개발자들이 한번이상 정독을 해야 하는 필독서라고 생각한다.

 

오래간만에 재밌는 책을 보게 되서 너무 기뻤고, 리뷰때문에도 조금 빨리 읽은 감이 없지 않아 있는데,

조만간 시간을 내서 다시한번 정독을 해야겠다.

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

이 책은 "그걸 하려면 시스템을 새로 구축해야 합니다." 라는 최악의 상황을 막기 위해 현실에 최대한 가깝게 모형(model)을 설계하려는 이에게 유용합니다. 이때 모형은 각종 데이터베이스, 객체지향개발의 클래스, 통계와 머신러닝 기반 예측/최적화 모형을 말합니다.

 

단, 초심자는 나중에 읽는 게 좋겠습니다. 세상을 MECE(Mutually Exclusive Collectively Exhaustive, 상호배제와 전체포괄)적인 관점을 준수하여 IT로 구현하지 못한다는 깨달음을 머리가 아니라 손발과 가슴으로 절감한 후에야 이 책을 읽을 만합니다. ERD(Entity Relationship Diagram)를 그리며 테이블을 그렸다 지웠다 해보고, 클래스 상속을 고민해본 경험이 없으면 이 책을 끝까지 읽을 의욕을 유지하지 못하지 않을까 합니다.

 

시맨틱 데이터 모델 semantic data model: 1980년대 중반 이후 관계 데이터 모형의 한계를 극복하여 현실 세계의 정보를 풍부하게 컴퓨터에 표현할 수 있도록 제안된 여러 가지 데이터 모형을 통틀어 이르는 말. 1980년대 후반 이후 객체 지향 데이터 모형으로 흡수ㆍ통합되었다.
(출처: https://wordrow.kr/의미/시맨틱%20데이터%20모델/

 

책 두께는 얇은 편인데 읽기는 쉽지 않았습니다. '시맨틱 데이터 모형'과 자신이 겪었던 어려움 간 관계를 잊지 않아야만 시종일관 시맨틱 데이터 모형을 설계하기 어려운 이유와 대안을 이야기하는 와중에 길을 잃지 않을 수 있습니다. 

 

  • [PART I 기초]
    • CHAPTER 1 시맨틱 격차에 유념하기
    • CHAPTER 2 시맨틱 모형화 요소
    • CHAPTER 3 시맨틱 현상과 언어적 현상
    • CHAPTER 4 시맨틱 모형 품질
    • CHAPTER 5 시맨틱 모형 개발
  • [PART II 함정]
    • CHAPTER 6 나쁜 설명
    • CHAPTER 7 잘못된 의미
    • CHAPTER 8 잘못된 모형 규격 및 지식 습득
    • CHAPTER 9 나쁜 품질 관리
    • CHAPTER 10 잘못된 애플리케이션
    • CHAPTER 11 나쁜 전략과 나쁜 조직
  • [PART III 딜레마]
    • CHAPTER 12 표현성 딜레마
    • CHAPTER 13 표현성과 내용 간의 딜레마
    • CHAPTER 14 진화와 거버넌스 딜레마
    • CHAPTER 15 미래 전망

저자가 절절하게 겪은 경험을 기반으로 한 조언이 1장부터 15장까지 빼곡합니다. 비슷한 분량의 다른 책에 비해 읽다 지친다 싶을 정도로 조언이 많습니다. 주제가 주제이다 보니 어쩔 수 없겠습니다. 퍼지 같은 부분은 맥락만 이해해도 좋겠습니다. 시맨틱 데이터 모형 운영을 자동화하기에는 현실적으로 부족한 점이 있지만, 자동화를 배제하지 말고 수작업을 병행하라는 충고는 몇 차례 나옵니다. 어플리케이션 개발자 입장에서는 생소하게 느껴질 수도 있겠습니다. 그래야만 시맨틱 데이터 모형 관리가 지속가능 하겠기에 그런가 보다 했습니다.

 

 

시맨틱 데이터 모형을 관리해야 하는 취지를 내외부 고객에게 이해하게 하는 일은 보통 어려운 일이 아닐 겁니다. 업무실적으로 인정받기 위해서 기술적인 이해보다는 신뢰관계를 바탕으로 할 수밖에 없을지도 모릅니다. 더구나 위 표를 보면 각종 편향에 휩쓸리지 않을 정도로 성숙해야 할 주제인가 싶기도 합니다. IT 업계에서 시니어로 성장하면서 필연적으로 극복해야 할 사안을 나열한 셈입니다. 저자는 이 끝이 없어 보이는 여행에 나서라고 독자를 격려하며 책을 끝맺습니다. IT 일을 하며 꺼림칙한 기분이 들 때에 이 책을 다시 펼쳐 보아도 좋겠습니다.

 
 
 

한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.


파노스 알렉소풀로스 지음 / 박진수 옮김

 의미론(Semantics)는 언어학 및 논리학의 기본 분야 중 하나로 말이나 글의 의미, 뜻을 연구하는 분야입니다. 그래서 이 책에서는 의미론적으로 데이터 모형화하는 것에 대한 이야기를 다루고 있습니다. 최근에는 수많은 데이터가 쏟아져 나오고 있는데, 그 속에서 데이터 전문가들은 원하는 것들을 항상 찾을 수 있을까? 꼭 그렇지는 않습니다. 데이터가 많이 있지만 실제로는 필요한 알맹이가 없는 경우도 있습니다. 이러한 문제는 주로 시맨틱 격차로 인해 발생하고 있습니다. 여기서 말하는 시맨틱 격차는 데이터 공급자와 데이터 수요자의 격차를 의미합니다. 하지만, 이 책은 시맨틱 데이터 모형을 구축하는 기초 단계, 특정 언어와 프레임워크를 깊게 다루지는 않습니다. 이 책은 주로 시맨틱 데이터 모형화하는 과정 속에서 주의를 기울여야 하는 부분에 대해 중점적으로 다룹니다. 만약 시맨틱 데이터 모형을 구축하는 기초 단계에 대한 내용이 필요하시다면 다른 책을 통해 채우시는 것을 추천드립니다.

 

1. 대상 독자 및 목차 소개

 우선, 이 책에서는 데이터 실무자들에게 적합한 책이라고 설명하고 있습니다. 저의 경우에는 다른 팀에서 만든 데이터 모형을 가지고 ML을 돌리거나 특정 가설을 세우고 통계 검정을 진행할 때가 많이 있습니다. 그럴 때마다 해당 feature가 의미하는 바가 어떤 것인지 애매할 때가 종종 있습니다. 그럴 때마다 해당 팀의 사람들과 이야기를 통해 의미를 확실히 하는 과정이 필요하게 됩니다. 특히, 데이터의 품질과 유용성과 가치를 높이기 위해 '시맨틱에 관해 대화'하는 방법을 배우고 싶어하는 데이터 전문가들을 위한 책입니다.

 책에서는 앞서 말했듯이 시맨틱 데이터 모형을 구축하는 기초 단계나 프레임워크를 깊게 다루지 않습니다.
먼저, 1부에서는 시맨틱 데이터 모형화에 대한 기본 개념, 책을 읽을 때 필요한 용어 등을 정리합니다.

  • 시맨틱 격차에 유념하기
  • 시맨틱 모형화 요소
  • 시맨틱 현상과 언어적 현상
  • 시맨틱 모형 품질
    의미 정확성, 완비성, 무모순성, 간결성, 시의성 등 시맨틱 모형의 품질을 판단할 때 지표
  • 시맨틱 모형 개발

2부에서는 시맨틱 데이터 모형을 개발해서 적용할 때 흔히 빠지기 쉬운 함정을 살펴보고 이를 효과적으로 피하는 방법과 기술을 소개합니다. 블랙독이란 드라마에서 "영희는 바나나와 수박을 2개 구매했다."라는 문장이 등장했었는데, 여기서 바나나를 사람 이름으로 보고 영희와 바나나가 수박을 2개 구매를 했다고 볼 수도 있고 영희가 과일 바나나 2개, 수박 2개로 볼 수도 있다는 점에서 애매모호한 문장이라고 볼 수 있습니다. 책에서는 데이터 모형화 과정에서 이러한 문제들을 어떻게 피할 수 있는 지 사례를 바탕으로 설명해줍니다.

마지막으로 3부에서는 시맨틱 모형화와 관련된 딜레마를 소개하고 모든 경우에 대한 장단점과 효과적으로 선정하는 방법을 소개합니다. 쉽게 생각하면 데이터 모형화를 진행할 때, 어디까지 세분화할 것인가부터 어떻게 연결해야 하는가 등 다양한 부분에 대해 결정했을 때에 발생할 수 있는 장단점 등을 설명해줍니다.

 

2. 이 책의 특징

 아무래도 내용을 이해하기에 난해한 용어들이 생각보다 많습니다. 마치 국어 문법 시간을 보는 듯한 부분이 종종 보이는데, 그럴 때마다 예시를 들어서 해당 내용을 최대한 이해할 수 있도록 돕고 있습니다. 

클래스, 인스턴스 설명

위의 사진처럼 클래스와 인스턴스를 설명할 때 이해를 돕기 위한 그림을 포함하여 설명하고 있습니다. 또한, 2부에서는 다양한 사례를 들어 어떻게 문제들이 발생하고 있고, 어떤 함정이 존재하는 지 등을 설명하고 있습니다. 저의 경우에는 신입이기에 실제 어떤식으로 발생하는지 예상하지 못하는데, 발생할 수 있는 문제들을 가늠해볼 수 있다는 점에서 좋았습니다. 이러한 부분들은 독자로 하여금 내용을 좀 더 쉽게 이해할 수 있을 것이라 생각합니다. 

3. 총평

 다양한 사례들을 기반으로 시맨틱 데이터 모형화에서 발생할 수 있는 문제들을 해결하고자 하는 사람에게 도움이 될 책입니다. 제가 읽기에는 쉽게 읽히는 책은 아니였습니다. 생각보다 난해한 용어들이 많이 있다보니, 아마 이쪽 분야의 용어 자체가 어려운 편인 것 같습니다. 그래도 읽으시면서 접해보기 어려웠을 만한 내용들은 부록 B에서 따로 모아서 설명하고 있으니, 그 부분을 참고하면서 보신다면 그나마 읽는데 도움이 되실 것 같습니다. 그리고 이 책은 시맨틱 데이터 모형화에 대해 어느정도 기본지식이 있고, 구성 해보신 분에게 더 좋은 책일 것 같습니다.

시맨틱 데이터 모델링이란

데이터는 그냥 쌓아둔다고 좋은 것이 아니다. 데이터는 사용이 가능하도록 분류하는 과정을 거쳐 저장되어야 적절히 사용할 수 있다. 지극히 당연한 이야기지만, 데이터를 분류할 때 어떠한 의미를 부여할 것인지에 대해 생각해보자면, 막막할 때가 많다.

그렇기에 시멘틱 데이터 모형화 방법론을 적용하여 데이터에 의미를 부여하는 것이 하나의 방법이 될 수 있다.

시맨틱 데이터 모형화란 인간과 컴퓨터 시스템에서 모두 명료하고 정확하며 일반적으로 이해되는 방식으로 데이터 표현을 개발하는 일이라고 정의할 수 있다.

이러한 방식으로 데이터를 표현하게 되었을 때 우리는 전산에서 데이터를 활용하며, 동시에 데이터를 공통된 의미로 정의하여 다른 사람들도 이해할 수 있어 효율적이고 관리가 용이하다.

따라서 시멘틱 데이터 모형화 기술은 우리가 흔히 접할 수 있는 E-R 모형(entity-relationship model)이나 메타데이터 뿐만 아니라, 어떠한 분야의 지식 체계를 정리하는 온톨로지(ontology), 택소노미(taxonomy) 등에도 모두 적용된다.

시맨틱 모형과 온톨로지? 텍소노미?

온톨로지와 텍소노미, 분류체계라는 정의는 매우 생소하다. 사전적 정의를 참고하자면 다음과 같다.

온톨로지?

온톨로지(Ontology)란 사람들이 세상에 대하여 보고 듣고 느끼고 생각하는 것에 대하여 서로 간의 토론을 통하여 합의를 이룬 바를, 개념적이고 컴퓨터에서 다룰 수 있는 형태로 표현한 모델로, 개념의 타입이나 사용상의 제약조건들을 명시적으로 정의한 기술이다. 온톨로지는 일종의 지식표현(knowledge representation)으로, 컴퓨터는 온톨로지로 표현된 개념을 이해하고 지식처리를 할 수 있게 된다. 프로그램과 인간이 지식을 공유하는데 도움을 주기 위한 온톨로지는, 정보시스템의 대상이 되는 자원의 개념을 명확하게 정의하고 상세하게 기술하여 보다 정확한 정보를 찾을 수 있도록 하는데 목적이 있다. [위키피디아]

택소노미?

가나다, … ABC, …와 같이 표준화되고 체계적으로 분류된 전통적인 분류학 기반의 분류 체계. 트리형의 위계적 구조로서 이미 결정된 체계를 가지고 있다는 특징이 있다. 그리스어로 ‘분류하다’라는 ‘tassein’과 ‘법, 과학’이라는 ‘nomos’의 합성어로 사람들에 의해 이해되는 관계를 기준으로 분류되는 폭소노미(folksonomy)에 대비되는 용어이다. [네이버 지식백과]

온톨로지는 어떠한 개념이나 타입 등의 지식에 의미를 부여하여 정보시스템에서도 유용하게 활용할 수 있도록 의미를 명확하고 상세하게 부여하는 기법이라면, 택소노미는 표준화된 분류체계이다. 즉, 이러한 기술들의 공통된 점은 데이터의 의미를 명시하는 것이다.

택소노미의 예시

2022년 2월 3일 유럽연합은 “그린 택소노미(Green Taxonomy)”의 최종안을 발표했다. 그린 택소노미는 ‘환경적으로 지속가능한 경제 활동’의 범위를 정한 분류체계로, 어떠한 산업, 어떠한 경제활동이 탄소중립에 기여하고 환경적으로 지속가능한 것인지를 명시한다. 산업과 경제활동이란 것이 매우 광범위 하기 때문에, 이를 아주 세세하고 또 어떠한 편법과 잘못된 해석이 발생하지 않도록 치밀하게 정의 및 분류된 것을 알 수 있다.

시멘틱 데이터 모형화 과정에서 유의해야 할 점

분류체계를 작성하는 일은 우리가 상상하는 것보다 훨씬 더 전문적인 접근 방법이 존재한다. 그저 한 개인이 자신의 배경지식과 경력을 가지고 만들어 나갈 수 있는 것이 아니다. 또한 잘못된 분류체계와 의미는, 시간이 지나면서 오류가 발각되고 지속적인 수정이 필요하게 되기 때문에, 초기 개발과 구축 과정 신중함을 요구한다.

함정

이 책에서 제시하는 시맨틱 모형 개발 과정에서의 함정에는 어떤 유형이 있을까?

  • 나쁜 설명 - 잘못된 이름과 의미 부여, 또는 정의 생략
  • 잘못된 규격과 잘못된 지식 공급원, 획득방법, 지식
  • 나쁜 품질 관리
  • 잘못된 활용
  • 나쁜 전략과 나쁜 조직 …

딜레마

실무에서 어떠한 지식 체계를 정리할 때 자주 발생할 수 있는 딜레마에 대한 내용도 다루고 있다.

  • 표현의 딜레마
  • 표현과 내용 간의 관계에 대한 딜레마
  • 모형 개선 방향, 모형 관리에 대한 딜레마

마무리하며

시멘틱 데이터 모형화 는 데이터를 분류하는 방법론에 있어 생각보다 훨씬 전문적인이고 상세하게 내용을 다루고 있다. 입문서는 아니라고 생각되며, 실제로 데이터의 체계를 잡아가는 일을 하시는 분들이라면, 지침서로 삼기 아주 좋은 책이다.


한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

역자는 이 의미 기반의 데이터 모형화가 자연어 처리, 데이터 과학, 검색, 인공지능, 데이터베이스 등 다양한 분야에 필요한 기술이고, 그 필요성이 날이 갈수록 늘어날 것이라고 합니다.

 

 

저자는 시맨틱 데이터를 여러 언어, 방법론, 플랫폼 도구를 사용할 수 있지만 모형의 범위와 규모가 커질수록 복잡해지기 때문에 시맨틱 데이터 모형화를 구현거나 사용하는 입장에서 직면할 수 있는 문제들에 대해 알려주고, 위험을 피하고 딜레마를 극복하는 구체적인 방법을 제공해 주는 책이라고 말하고 있습니다. 

 

 

솔직히 저같은 데린이에게는 쉽지 않은 내용입니다. 저는 데이터 공급자의 입장 보다는 데이터 이용자의 입장에 더 많이 있었습니다. 저자는 공급자 측의 데이터 모형을 이용자 측에서 오해하거나 오용할 때, 혹은 이용자 측의 데이터 요구사항을 공급자 측에서 오해할 때 생기는 상황을 '시맨틱 격차'라고 부르며, 공급자와 이용자 간의 이 격차를 줄이기 위해서는 양쪽 모두에게 이 책이 필요하다고 말하고 있습니다.

 

'시맨틱 모형'은 지식과 추론 형태의 기호 표현으로 구성되고, 이산적인 사실들을 포착하고 이런 사실들이 서로 같은지를 정밀하게 파악하는데 뛰어나기 때문에 모호한 잠재표현으로 구성된 '머신러닝 모형'과 구별합니다. 먼저 이렇게 말해주고 시작하니 뭔가가 실제로 손에 잡히는 것 같습니다.

 

1부 2장에서 용어에 대한 정의를 명확하게 해주는 부분도 마음에 듭니다. 비슷한 분야에서 비슷한 내용을 다루는 사람들이라도 사용하는 용어가 다를 수 있기 때문입니다.

 

사례를 들어 모형화의 딜레마를 친절하게 설명해주는 부분도 좋았고, 

주의해야 할 점, 실패하는 이유에 대해서도 조목조목 나열해 놓은 것이 도움이 되었습니다.

 

저는 완독은 하지 못했습니다. 저같은 사람을 대상으로 쓴 책은 아닌 것 같습니다.^^ 그리고 실제로 이런 모형을 설계하고 구축할 기회를 얻지 못할 수도 있습니다. 하지만 프로그램 개발자로서 프로그램 소스 코드를 다루는 데에도 체계와 관리가 필요했던 것과 비추어 가며 읽어보니 재미는 있었습니다. 특히 사례로 제시해 준 MUC(메시지 이해 회의) 데이터셋과 같은 데이터셋들은 실제로 유용하게 사용할 수 있을 것 같습니다.

 

- 한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공 받아 작성된 서평입니다. -



* 한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다. *

 

IMG_4655.jpg

 

 

우선, 개발 경험이 최소 1년 이상 있고, 기획쪽과 협업을 하면서 '설계'에 대한 고민을 느껴본 이들이라면 이 책은 읽을만한 가치가 있다. 최근, 챗봇 개발을 하면서 데이터 설계에 대한 고민을 하고 있다. 챗봇 설계도 고민이지만, 이후 데이터 구조를 어떻게 만들어나갈지도 계속 생각 중이다.많은 회사들이 머신러닝과 딥러닝을 이용해서 서비스를 만들려고 하고 있는데, 이 때 데이터 구조를 어떻게 가져갈지 고민을 많이 할 것이다. 특히, 챗봇과 같은 자연어처리를 이용한 서비스는 여러 가지로 쉽지 않다. 온톨로지나 지식 그래프를 이용한 시도는 해보려 하는데 설계 자체가 어렵다. 

 

이 책은 이러한 고민을 하는 주니어 개발자 또는 이런 고민을 하는 IT 종사자 모두에게 유용하다. 사실, 테크니컬한 방법들은 계속 많은 책과 유튜브 등등에 나오지만 이런 본질적인 것들을 다루는 책은 많지 않다. 기본서는 많지만, 중고급서가 적은 이유는 그만큼 책을 살만한 사람들이 없기 때문인 것 같다. 

 

 

 

IMG_4657.jpg

 

 

 

 

이 책은 정말 좋은 책이다. 회사에서 도서 지원이 된다면 무조건 구비해두고, 설계를 잘해야하는 상황에 놓인 누군가라면 이 책은 꼭 볼 필요가 있다. 이 책은 이론에 대한 책이지, 실습은 하지 않는다. 하지만 챕터마다 다루는 내용들이 나름 무게가 있다. 백발의 개발자가 되고 싶다면 이런 책을 많이 보는 것이 좋다고 생각한다. 객체지향의 본질을 공부하는 것도 좋지만, 회사에서 필요한 개발자가 되려면 이런 책도 거기에 버금갈정도로 중요하다고 생각한다. 

 

간만에 정말 좋은 책이 나왔고, 이런 책에 대한 서평이나 후기가 적을 것이다. 그만큼 이 책을 보는 사람은 소수일 것이고, 그 소수 안에 들어간다면 본인은 더 뛰어난 개발자가 될 수 있다고 생각한다.

결론부터 말하자면, 이 책은 참 좋은 책이다.

 

하지만, 이 책을 누군가에 추천해야 한다면, 글쎄.. 선뜻 추천할 수는 없는 그런책이었다. 


보통, <좋은데, 추천하지 못한다> 라고 하는 것은, 그 추천 대상이 취향을 타는 것이라서, 이 좋음을 알아볼 수 있는 사람이 적다는 것을 의미한다. 

 

그러면 도대체 왜 이 책의 멋짐을 좋음을 알 수 있는 안목을 갖고 있는 사람이 적다고 생각하는 까닭은 뭘까?

 

그 이유는 다음과 같다. 


첫째, 이 책은 초심자를 위한 책이 아니다. 


이 책은 초심자를 위한 책이 아니었다.

 

소위 고인물을 위한 책으로, 최소한 온톨로지를 이용해서, 의미 구조를 만들어보고, RDF/OWL을 사용해보고, DL과 FOPC의 차이를 알고, DL의 표현력의 범위가 왜 다르고, 그 달라짐에 의해서 무엇이 영향을 받게 되는지를 아는 사람을 위한 책이다. 

 

둘째, 시멘틱 모델링에 대한 경험이 있다고 해도, 중급자 이상을 위한 책이었다. 


관련 분야에 대한 입문 과정을 거친 사람이라고 해도, 이 책의 대상은 아니었다.

 

왜냐하면, 이 책은 어떤 방법을 알려주는 것이 아니라, "이렇게 하면 안된다" 라는 것, 즉 작가의 실패의 경험을 통해 얻게 된 사례를 얘기해주는 책이기 때문이다.

 

무슨 스텍오버플로우 사이트에서 버그를 고치기 위한 방법을 찾는 것이 아니라, "프리젠테이션 젠" 같은 책처럼, 시멘틱 모델링을 잘 하기 위해, 피해야 하는 문제들을 높은 추상화 수준에서 이야기하고 있는 책이다. 

 

요컨데, 이 책은 시멘틱 모델링에 대한 입문서가 아니라, 시멘틱 모델링의 유경험자들이, 더 좋은 모델링을 하기 위해서, 어떤 것들을 피해야 하는지에 대한 이야기를 하는 책이었다. 


단순히 어떤 기능이 돌아가게 만드는 방법이 아니라, 그 기능을 만들어본 사람들을 대상으로 새로운 구현 방법들과 각 방법들의 장/단점, 그리고 어떻게 하면 이후에 발생할 수 있는 모호함의 오류를 피할 수 있는지에 대한 이야기를 하는 책이었다. 

 

마치, 고인물들이 프로젝트가 끝난 다음에 회식자리에서 술 적당히 마시고, 담배피러 나와서, "아, 그때 그건 좀 이렇게 했었더라면 더 낫지 않았을까?" "그치, 근데 그렇게 하면 이런 상황에서는 대응할 수 없으니까, 요렇게 해 봐야 할거 같아", "그거 괜찮네. 아 잠깐, 근데 만약 그렇게 했을 때, 이런 경우에는 어떻게 되지?" 라는 얘기하는 것과 같았다. 

 

이런 얘기에 끼어들어서 같이 농담하면서, 말을 섞기 위한 수준에 올라온 독자라면, 이 책은 정말 도움이 되는 소중한 책일 것이지만, 그렇지 못한 사람이라면, 그냥 빨리 술자리가 끝나서 집에 가기만을 바라고 있게 되는 것과 같은 책이었다. 

 

이런 말을 하고 있는 본인 역시, 이 책을 읽는 것이 너무 힘들었다.

 

그리고 다 이해했다고 할 수도 없다.

 

다만 예전에 모델링을 하면서, 접했던 문제들, 당시에는 해결책을 몰라서, 대충 뭉개고, "그런 경우는 거의 없을테니까, 대충 이정도로 마무리해도 괜찮겠지" 하고 덮고 넘어갔던 문제들에 대해, 왜 그 방법이 잘못되었고, 어떤 식으로 풀어나갔어야 했는지에 대한 이야기들을 보면서, "아.. 이 책을 그때 읽었더라면..." 하는 생각을 하게 되었기 때문에, 좋은 책이라고 말 할 수 있는 것이었다. 

 

그리고, 아직도 이해가 안되는 것들, 고민하지 않았던 것들("이게 왜 중요하다고 하는 거지?" 라는 이슈들)에 대한 이야기를 할 때는, 그 문제점에 대한 제기 자체를 이해할 수 없기 때문에, 책의 진도를 빼기 힘들었다. 

 

그리고 마지막으로 이 책의 문장이, 원래의 문장이 그런 것인지 아니면 번역의 문제인지 모르겠지만, 장황한 면이 많았다. 당장 다음의 예를 보자. 

 

"우리가 함께 앉아 11장에서 설명한 모든 작업을 수행하며 여러분의 시멘틱 모형과 컨텍스트에 맞는 맞춤형 전략을 만들지 않는 한, 여러분이 다른 것을 대신하는 한 가지 모형화 언어를 사용하거나 다른 것을 희생하면서 품질 차원을 최적화 해야 한다는 식으로 내가 여러분하게 말한다면, 이는 비효율적일 뿐만 아니라 무책이만 말이다. 그렇게 하는 대신에 나는 여러분의 상황이 어떤 잠재적인 위험을 포함할 수 있는지, 그러한 위험을 피하는 방법은 무엇인지, 그리고 특정 선택과 결정을 내리고 그것을 완화하는 벙법이 무엇인지를 제시함으로써 여러분이 감내할 만한 위험을 알려주기로 마음 먹었다. 그렇게 하면 여러분이 자신만의 길을 개척하고 효과적으로 탐사할 수 있다."

 

이게 3문장이다.

 

그나마 내용이 어려울 것이 없어서, 이해하는데 어려움이 없는 문장이지만, 위에서 언급했던, 독자가 경험하지 못했던 문제의 중요성과 그 문제를 해결하기 위해 고려해야 하는 다른 이슈들을 이런식의 길고 장황한 문장으로 표현되어 있기 때문에, 정신을 잠깐이라도 놓으면, 문장 속에서 순식간에 길을 잃게 된다. 

 

모르는 사람에게는 한없이 무의미한 책이지만, 그 가치를 알 수 있는 사람들에게는 한없이 훌륭한 책이었다. 

 

다만, 오늘날, 인공지능 하면 기계학습, 기계학습하면 딥러닝이 대세인 환경에서, 심볼릭 기반의 인공지능을 하는 사람들이 적기 때문에, 과연 이 책이 유효한 사람들이 얼마나 될 것인지는 모르겠다.  

 

----------
"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."
----------

세세한 내용 보다는 큰 그림 보실 분들에게 적합하겠습니다. 

한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

 

 

서비스 내 로그 수집을 위해 Taxonomy 구조를 고민하며 업무를 하던 터라 관련해서 도움이 될 내용이 있을지 기대하며 책을 읽었다. 결론부터 말하면 아니었다. 보다 많은 내용이 들어있었고 내게 적합한 책은 아니었다.

책의 주 내용은 머신러닝을 진행할 때 결과를 더 잘 낼 수 있도록 데이터 간 관계를 의미있게 가져가야 하고, 그 과정에서 필요한 이론과 개념들을 설명해주는 것이었다.

머신러닝, 빅데이터, AI 이런 단어들을 IT나 데이터 업계 종사자가 아니어도 쉽게 접할 수 있는 시대다.

책 제목에 혹해 교양이나 기초 지식을 쌓기에 적합해보여 골랐으나, 한빛미디어의 대부분의 책들이 그렇듯 경력 실무자를 위한 지침서였다.

짧은 식견으로 추정해보건대 NLP(자연어처리) 관련 업무를 하는 분들, 검색엔진에서 입력된 검색어의 의미를 구분하는 모델을 개발하는 분들에게 적합한 책이라 생각된다.

처음에 시맨틱 데이터 모형화에 대해 아무것도 모르는 상태에서 이 책을 선정해서 읽는 다는 게 맞는 건가라는 의문을 가지고 있었다. 

 

해당 교재가 아닌 구글에 시맨틱 데이터 모형을 검색해보면 아래와 같은 정의를 확인할 수 있다.

 

"시맨틱 데이터 모델은 특정 논리적 인 방식으로 데이터를 나타 내기 위해 데이터를 구조화하는 방법입니다."

 

이론은 알겠지만 정확히 어떻게 구축되며 어떻게 사용되는 지 하나도 감이 잡히지 않는 정의였다.

 

그렇게 해당 책을 선택하여 읽기 시작했다.

 

 

목차는 크게 3가지로 기초 / 함정 / 딜레마로 나뉘었고 각각의 여러 개의 챕터로 나뉘어 책은 구성되어 있다.

 

1. 기초

 - chapter 1. 시맨틱 격차에 유념하기

 - chapter 2. 시맨틱 모형화 요소

 - chapter 3. 시맨틱 현상과 언어적 현상

 - chapter 4. 시맨틱 모형 품질

 - chapter 5. 시맨틱 모형 개발

 

2. 함정

 - chapter 6. 나쁜 설명

 - chapter 7. 잘못된 의미

 - chapter 8. 잘못된 모형 규격 및 지식 습득

 - chapter 9. 나쁜 품질 관리

 - chapter 10. 잘못된 어플리케이션

 - chapter 11. 나쁜 전략과 나쁜 조직

 

3. 딜레마

 - chapter 12. 표현성 딜레마

 - chapter 13. 표현성과 내용 간의 딜레마

 - chapter 14. 진화와 거버넌스 딜레마

 - chapter 15. 미래 전망

 

 

기초 장에서 시맨틱 모형화에 대한 기초적인 설명들이 구성되어 있다. 시맨틱이란 무엇이며, 시맨틱 모형화를 어떻게 시작하는 지 모형은 어떻게 구성되어 있는 지 등에 대한 설명들이 기재되어 있다.

 

'가장 와 닿은 첫 개념은 데이터 공급자와 이용자간의 시맨틱 격차를 줄이기 위해 시맨틱 모형화를 진행한다.'

 

1차원적으로는 인간과 컴퓨터 시스템 모두가 명료하고 정확하게 이해할 수 있는 방식으로 데이터를 설명하고 데이터 표현을 개발하는 방법이라고 말할 수 있다.

 

컴퓨터 시스템뿐만 아니라 인간과 인간, 위에서 말한 공급자와 이용자간의 이해도 포함된다.

 

이렇게 컴퓨터 시스템과 인간 모두 명확하게 데이터를 설명하는 방식은 온톨로지, 택소노미, E-R모형 등 다양한 방법론이 존재한다. 해당 책에서 온톨로지에 대한 언급이 자주 나와 온톨로지를 직접 유튜브와 구글링을 통해 알아본 결과

 

온톨로지란, 해당 단어를 컴퓨터가 알아들을 수 있게 정의하는 방법이다.

예를 들면, 식사라는 단어를 컴퓨터가 이해할 수 있게 정의를 하는 것은 '밥을 먹는 것' 으로 정의할 수 있다.

'밥을 먹지 않는 것'은 식사라고 부를 수 없다. 이런식으로 이분법 적으로 해당 단어를 정의 하는 방식을 온톨로지라고 한다. (정확한 설명이 아닐 수도 있으니 온톨로지에 대해 찾아보시기를 바랍니다.)

 

위에 정의를 보면 알겠지만 시맨틱 모형화에서 제일 중요한건 모호하거나 애매한 부분을 명확히하고 불확실성을 제거하는 부분에 있다. 

 

이후 방법론적인 부분에서 요소 별로 정의하고 불확실성을 제거하는 방법에 대해 나온다.

 

가장 중요한 포인트는 미래 전망 부분에서 볼 수 있었다. 바로 시맨틱 모형은 모든 것을 포함하고 반영하기에는 현실적인 문제들이 많다는 것이다. 새로운 타입의 이용자가 추가될 때 해당 이용자의 시맨틱 격차를 해소하기 위해 기존에 운영하던 시맨틱 모형을 수정하고 반영하는 지속적인 업데이트 작업이 이루어져야 한다는 것이다.

결제하기
• 문화비 소득공제 가능
• 배송료 : 2,000원배송료란?

배송료 안내

  • 20,000원 이상 구매시 도서 배송 무료
  • 브론즈, 실버, 골드회원이 주문하신 경우 무료배송

무료배송 상품을 포함하여 주문하신 경우에는 구매금액에 관계없이 무료로 배송해 드립니다.

닫기

리뷰쓰기

닫기
* 도서명 :
시맨틱 데이터 모형화
* 제목 :
* 별점평가
* 내용 :

* 리뷰 작성시 유의사항

글이나 이미지/사진 저작권 등 다른 사람의 권리를 침해하거나 명예를 훼손하는 게시물은 이용약관 및 관련법률에 의해 제재를 받을 수 있습니다.

1. 특히 뉴스/언론사 기사를 전문 또는 부분적으로 '허락없이' 갖고 와서는 안됩니다 (출처를 밝히는 경우에도 안됨).
2. 저작권자의 허락을 받지 않은 콘텐츠의 무단 사용은 저작권자의 권리를 침해하는 행위로, 이에 대한 법적 책임을 지게 될 수 있습니다.

오탈자 등록

닫기
* 도서명 :
시맨틱 데이터 모형화
* 구분 :
* 상품 버전
종이책 PDF ePub
* 페이지 :
* 위치정보 :
* 내용 :

도서 인증

닫기
도서명*
시맨틱 데이터 모형화
구입처*
구입일*
부가기호*
부가기호 안내

* 온라인 또는 오프라인 서점에서 구입한 도서를 인증하면 마일리지 500점을 드립니다.

* 도서인증은 일 3권, 월 10권, 년 50권으로 제한되며 절판도서, eBook 등 일부 도서는 인증이 제한됩니다.

* 구입하지 않고, 허위로 도서 인증을 한 것으로 판단되면 웹사이트 이용이 제한될 수 있습니다.

닫기

해당 상품을 장바구니에 담았습니다.이미 장바구니에 추가된 상품입니다.
장바구니로 이동하시겠습니까?

자료실

최근 본 책0