본문 바로가기

etc

NLP

반응형

김한준 교수 - 서울 시립대


자동 분류- 명사 (고유명사) 인식.

free text 로 부터 structured information 추출

Entity-ER 스키마 추출




1. 문맥 syntax를 파악한다.

-> 통계기반


카테고리를 계층정 구조로 만든다.

dmoz.org 분류체계


2. seed를 미리 정의해놓고, distance를 측정하여 학습 데이터 키우기

Seed Pattern

사전을 자동분류

품사 태깅



3. Model update가 중요

Category별로 또는 Cluster 별로 TEST 수행

template 만들기

기존 학습 데이터를 통하여

Automated classification 

- Unknown data

- Training data


Taxonomy, 인식에 있어,

자료구조 treebased

Concept을 뽑는지 안뽑는지.


대상 article의 category에 따라 추출 항목 및 추출 방식의 선택


추출 항목의 integration 문제

search engine.

Personalization service 연계


4.

Token. chunking 말뭉치

Entity pair 에 대한 관계 추출

Relationship 에 대한 entity나 pair 추출

dependency-analyzer로 entity 간 관계 추출


5. Bayesian Network

확률기반.

오토마타..


Markov 성질. Lebelyi는 직전 단계Label Yi-1에만 영향을 받음



6. Stat. based IE?

token -level Models

class를 모르는 데이터를 넣어서 타입인식, 시퀀스 기반 패턴 마이닝. 

그 다음 통계적 기법 사용


7. Automata. 한글.

CRF model 

고정된 룰을 쓰면 위험하다

Markov probabiliy 직접인식 (단어 종류) 품사


boundary 의 특수 한글자

인접한 token으로 예측 (통계)


8. 

1) Sequential Pattern mining

시간적 속성


2) association 마이닝 

시간적 속성 X


3) CRF

Contion Random field

시간적 속성을 고려한 데이터 순서

인접한 Label 찾기


9. Text mining 

DM..

Curse of dimentionality

NLP

Feature selection


Zip's Law

document frequency 


Statistical mutual info.



10.

Information Extraction

Text summarization

IE로..

Abstraction

template 이 있어야함


ML로 중요문장 N개 뽑기. 학습 데이터 기반.


11.

Word clustering

1) Corpus - based approach

2) Taxonomy-based approach

시소러스 구축

내부 검색엔진 구축

Clusty.com

Vivisimo incorp.



12. K-means clustering

n차원. 각도를 달리하여 거리함수로 측정하여 크러스터 발견(생성)

- Association (Rule) mining

A-priori-algorithm


13. K-nn

Training data, Unknown data

자기 주변 클래스가 무엇인지. 인접 클래스에 귀속

그럼 centroid 를 두고..x가 아닌

->예측 class를 만들어 두고






반응형

'etc' 카테고리의 다른 글

Cloud service  (0) 2014.05.06
App  (0) 2014.05.06
idea 1  (0) 2014.05.04
evernote archive 서비스  (0) 2014.05.04
그렇게  (0) 2014.05.04