김한준 교수 - 서울 시립대
자동 분류- 명사 (고유명사) 인식.
free text 로 부터 structured information 추출
Entity-ER 스키마 추출
1. 문맥 syntax를 파악한다.
-> 통계기반
카테고리를 계층정 구조로 만든다.
dmoz.org 분류체계
2. seed를 미리 정의해놓고, distance를 측정하여 학습 데이터 키우기
Seed Pattern
사전을 자동분류
품사 태깅
3. Model update가 중요
Category별로 또는 Cluster 별로 TEST 수행
template 만들기
기존 학습 데이터를 통하여
Automated classification
- Unknown data
- Training data
Taxonomy, 인식에 있어,
자료구조 treebased
Concept을 뽑는지 안뽑는지.
대상 article의 category에 따라 추출 항목 및 추출 방식의 선택
추출 항목의 integration 문제
search engine.
Personalization service 연계
4.
Token. chunking 말뭉치
Entity pair 에 대한 관계 추출
Relationship 에 대한 entity나 pair 추출
dependency-analyzer로 entity 간 관계 추출
5. Bayesian Network
확률기반.
오토마타..
Markov 성질. Lebelyi는 직전 단계Label Yi-1에만 영향을 받음
6. Stat. based IE?
token -level Models
class를 모르는 데이터를 넣어서 타입인식, 시퀀스 기반 패턴 마이닝.
그 다음 통계적 기법 사용
7. Automata. 한글.
CRF model
고정된 룰을 쓰면 위험하다
Markov probabiliy 직접인식 (단어 종류) 품사
boundary 의 특수 한글자
인접한 token으로 예측 (통계)
8.
1) Sequential Pattern mining
시간적 속성
2) association 마이닝
시간적 속성 X
3) CRF
Contion Random field
시간적 속성을 고려한 데이터 순서
인접한 Label 찾기
9. Text mining
DM..
Curse of dimentionality
NLP
Feature selection
Zip's Law
document frequency
Statistical mutual info.
10.
Information Extraction
Text summarization
IE로..
Abstraction
template 이 있어야함
ML로 중요문장 N개 뽑기. 학습 데이터 기반.
11.
Word clustering
1) Corpus - based approach
2) Taxonomy-based approach
시소러스 구축
내부 검색엔진 구축
Clusty.com
Vivisimo incorp.
12. K-means clustering
n차원. 각도를 달리하여 거리함수로 측정하여 크러스터 발견(생성)
- Association (Rule) mining
A-priori-algorithm
13. K-nn
Training data, Unknown data
자기 주변 클래스가 무엇인지. 인접 클래스에 귀속
그럼 centroid 를 두고..x가 아닌
->예측 class를 만들어 두고
'etc' 카테고리의 다른 글
Cloud service (0) | 2014.05.06 |
---|---|
App (0) | 2014.05.06 |
idea 1 (0) | 2014.05.04 |
evernote archive 서비스 (0) | 2014.05.04 |
그렇게 (0) | 2014.05.04 |