book

[BOOK] 파이썬 라이브러리를 활용한 텍스트 분석

[BOOK] 파이썬 라이브러리를 활용한 텍스트 분석 – 젠스 알브레히트, 싯다르트 라마찬드란, 크리스티안 윙클러 지음 / 심상진 옮김

[BOOK] Blueprints for Text Analytics Using Python
[BOOK] Blueprints for Text Analytics Using Python

부제: “텍스트에서 통찰을 이끌어내는 98가지 자연어 처리 전략”

데이터의 시대입니다. 유의미한 데이터를 쌓고, 그 데이터를 잘 활용하는 것이 중요하죠.
디지털 시대의 데이터는 자동화된 처리를 할 수 있도록 특정 포멧으로 저장하고 활용합니다.
잘 정리된 데이터를 활용하면 쉽고 빠르게 정보를 얻을 수 있습니다.
약속, 규칙에 따라 정리되지 않은 데이터는 한 번 정리하는 전처리 과정을 거쳐야 합니다.
전처리 과정을 통해 데이터를 정리하고, 여기서 정보를 얻습니다.
데이터에서 정보를 얻는 방법은 다양한데 요즘 많이 활용되는 것은 머신러닝입니다.

세상에는 다양한 데이터들이 있지만 인류가 가장 오랜기간 쌓아온 데이터가 있습니다.
문자, 글. 바로 텍스트입니다.
텍스트를 분석하는 것은 컴퓨터가 잘 할까요? 사람이 잘 할까요?
아마 사람이 더 잘 할 겁니다. (모국어로 작성된 글에 한정해서?)
단어의 의미, 문법이 정리되어 있지만 텍스트 속에서 변화가 심합니다.
이런 변화를 컴퓨터는 쉽게 알 수 없기 때문에 텍스트를 분석하는 것을 잘 못합니다.
컴퓨터를 활용해서 텍스트를 분석하는 것을 ‘자연어 처리(Natural Language Processing)’라고 합니다.
NLP는 인공지능의 한 분야로 머신러닝을 적용하여 텍스트를 처리하고 해석합니다.

서두가 길었습니다. 이 책은 파이썬 라이브러리를 활용해서 자연어 처리를 하는 방법에 대한 내용을 담고 있습니다.
원서의 제목이 ‘Blueprints for Text Analytics using Python’인데 책을 읽어보면 ‘blueprints’라고 쓴 이유를 알 수 있습니다.
번역서의 표지에 ’98가지 자연어 처리 전략’이라는 표현이 있습니다. (원서에서는 ‘전략’이 ‘blueprint’로 작성되어 있습니다.)

청사진(靑寫眞) 또는 블루프린트(blueprint)는 아키텍처 또는 공학 설계를 문서화한 기술 도면을 인화로 복사하거나 복사한 도면을 말한다. 은유적으로 “청사진”이라는 용어는 어떠한 자세한 계획을 일컫는 데에 쓰인다. WIKIPEDIA

각 장마다 텍스트 분석에 필요한 내용을 다루면서 간단한 설명과 활용 할 수 있는 전략을 소개합니다.
전략의 내용은 실제 업무에서 활용가능한 것들이라 수정해서 재활용이 가능한 것들입니다.
이런 전략(blueprint)들을 소개하는 책입니다.
전략마다 다루는 라이브러리들이 다양해서 깊이있게 파고들면서 공부하려면 시간과 노력을 많이 들여야 할 것 같네요.
파이썬으로 텍스트를 가볍게(?) 다루는 책을 찾는다면 이 책은 살며시 덮으시고, 파이썬으로 자연어 처리를 하는 방법이 궁금하다면 시간을 투자하시기 바랍니다.
이론에 대한 설명이 많지 않아서 활용 위주의 사용법을 배우기에 좋은 책입니다.

“한빛미디어 [나는 리뷰어다] 활동을 위해서 책을 제공받아 작성된 서평입니다.”

BOOKSTORE : YES24, 알라딘

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s

This site uses Akismet to reduce spam. Learn how your comment data is processed.

%d bloggers like this: