본문 바로가기

etc

한글 형태소 분석

반응형
음악 가사 성향 분석
가사A-기쁨 69.5%, 슬픔 10%, 노여움 0%
가사B-기쁨 0.5%, 슬픔 80.5%, 노여움 0%

데이터를 정보로 바꾼다.
1. Bi-Gram
"음악가사 분석" 이라는 텍스트에서 "음악, 악가, 가사, 분석' 의 단어를 2글자씩 묶는 방법
2. 형태소 분석 
단어를 보고 형태소 단위로 분리해 내는 과정을 말한다. (문자열 분리의 과정)
수작업으로 하기도 했으나 컴퓨터의 발달로 점차 자동화돼 정확도가 높아지고 있다.
형태 분석은 자연어 처리의 가장 기초적인 절차로 이후 구문 분석이나 의미 분석으로 나아가기 위해 먼저 이뤄져야 하는 과정으로 볼 수 있다.

언어학에서 형태소는 일정한 의미가 있는 가장 작은 말의 단위로 발화체 내에서 따로 떼어낼 수 있는 것을 말한다. 즉, 더 분석하면 뜻이 없어지는 말의 단위다.
"철수는 남자이다" = 철수 + 는 + 남자 + 이다
사람이 일반적으로 사고하는 과정을 컴퓨터가 처리할 수 있게 규칙화 한 것.

과정
1. 음악가사 수집
2. 음악가사의 성향 설정
3. 명사 추출
4. 단어 빈도수(Term Frequency)로 정렬
5. 일반단어 제거
6. 휴리스틱으로 검증

참고 문헌
 -한국어 형태소 분석과 정보검색 - 강승식
-구문 분석 말뭉치 구축을 위한 분석의 원칙, 방법, 문제 (고려대 김의수)
-구문 분석을 위한 명사구 인식 (충북대 컴공)
-내포문의 단문 분할을 이용한 한국어 구문 분석 (이현영, 이용석)
-기계 학습을 이용한 내용 기반의 음악 장르 분류 (서울대 대학원 컴퓨터 공학과 박상준)
-한국어 문법관계에 대한 부분구문 분석
-지배가능 경로 문맥을 이용한 의존 구문 분석의 수식 거리 모델
-구문 분석에서의 중의성 해소를 위한 일반회된 어휘정보의 자동 구출 및 적용
-명사의 의미 정보를 이용한 복합명사 분석의 중의성 해소

n루씬
http://dev.naver.com/projects/nlucene/

루씬 한글 분석기 오픈 프로젝트
http://cafe.naver.com/korlucene
http://lucene.apache.org/solr

한글 분석기 개발자 - 이수명님

형태소 분석기 다운로드
 http://cafe.naver.com/korlucene/233/koreanalyzer-20100525.jar
http://koreananalyzer-20100525.jar 를  java classpath에 추가

테스트 코드 작성

반응형

'etc' 카테고리의 다른 글

desktop ip  (0) 2011.01.03
share kit  (0) 2011.01.03
고도원의 아침편지 - 소명의 발견  (0) 2011.01.01
Lucene  (0) 2010.12.30
me2day 글감  (0) 2010.12.29