The Stanford Natural Language Processing Group Lecture Note

최근 공부하고 있는 data extraction 분야에 대해
오랫만에 글을 씁니다. 

Opinion Mining 을 진행하기 위해서는, 
먼저 자연어(Natural Language)를 분석할 수 있는 무엇인가가 있어야 합니다. 

이중 대표적인 것이 NLP(Natural language Processor) 입니다.
이 NLP 는 자연어를 분석하여, 문장의 단어 하나하나가 어떠한 품사인지를 분석해 냅니다.

예를들어 
"This is a sample text"

이 문장을 NLP 로 분석하면, 

아래와 같이 된다. 
==> This/DT is/VBZ a/DT sample/NN sentence/NN

위에 NN, DT 등을 POS(Part of Speech) Tag 라고 합니다. 
 
이렇게 구조화되어 있지 않은 자연어를 위와 같이 전환할 수 있는 것은 매우 중요한 의미를 가집니다.
왜냐하면 이는 비정형(Unstructured) 데이터를 정형(Structured) 데이터로 바꾸는 작업이기 때문입니다.

이에 대해 대표적으로 연구되고 있는 대학이 스탠포드 인데, 여기에서 이 분석을 위한 툴을 오픈 소스로 제공하고 있습니다.
이 그룹 이름이 The Stanford Natural Language Processing Group 이고, 아래가 그 링크입니다. 

영어로 된 자연어를 분석해야 할 작업이 있으시다면, 한번 써보시죠.


핑백

덧글

댓글 입력 영역