의미 연결망 분석

(Semantic Network Analysis)

# 1. 의미 연결망 분석(Semantic Network Analysis)
- 사회 연결망 분석(Social Network Analysis)는 분석 대상 및 분석 대상들간의 관계를
연결망 구조로 표현하고 이를 계량적으로 제시하는 분석 기법
- 사회 연결망 분석은 사람, 장소, 물품 등의 객체 간의 관계를 분석하는데 효과적이며, 주로 친구 관계, 전력 공급 등을 분석하는데 사용
- 사회 연결망 분석 기법을 텍스트 내 단어의 관계에 적용한 것이 바로 의미 연결망 분석
- 의 미 연결망 분석에서는 일정한 범위 내에서 어휘가 동시에 등장하면 서로 연결된 것으로 간주, 이 연결 관계들을 분석

from nltk import word_tokenize, bigrams

sentence = 'I love data science and deep learning'
tokens = word_tokenize(sentence)

bgram = bigrams(tokens)
bgram_list = [x for x in bgram]
print(bgram_list)

[('I', 'love'), ('love', 'data'), ('data', 'science'), ('science', 'and'), ('and', 'deep'), ('deep', 'learning')]

from nltk.util import ngrams

tgram = ngrams(tokens, 3)
qgram = ngrams(tokens, 4)

tgram_list = [x for x in tgram]
qgram_list = [x for x in qgram]

print(tgram_list)
print(qgram_list)

[('I', 'love', 'data'), ('love', 'data', 'science'), ('data', 'science', 'and'), ('science', 'and', 'deep'), ('and', 'deep', 'learning')]
[('I', 'love', 'data', 'science'), ('love', 'data', 'science', 'and'), ('data', 'science', 'and', 'deep'), ('science', 'and', 'deep', 'learning')]

# 어휘 동시 출현 빈도의 계수화
- 동시 출현(Co-occurrence)란 두 개 이상의 어휘가 일정한 범위나 거리 내에서 함께 출현하는 것을 의미
- 단어간의 동시 출현 관계를 분석하면 문서나 문장으로부터 두 단어가 유사한 의미를 가졌는지 등의 추상화된 정보를 얻을 수 있음
- 동시 출현 빈도는 Window  라는 지정 범위 내에서 동시 등장한 어휘를 확률 등으로 계수화 가능
- 예를 들어, 단어 뒤 잘못된 단어가 온다면, 이를 동시 출현 빈도가 높은 단어로 교정 가능
- 어휘 동시 출현 빈도 행렬은 하나하나 측정할 수도 있지만, 바이그램 개수를 정리하면 편리하게 만들어 볼 수 있음
- nltk 에서 제공하는 ConditionalFreqDist 함수를 이용하면 문맥별 단어 빈도를 쉽게 측정 가능

논문 제목 : [NLP] Stanford POS Tagger vs. NLTK 성능 비교, 논문 ; Reference : WIPS, 광운대 최남우

■ 테스트 상황

- 테스트 셋 : ti 40개, ab 40개

- 원본 단어수 : 평균 122 개

- 원본 사이즈 : 평균 800 byte

■ MOP 처리

- 처리 순서 : tokenize -> POS Tagging -> Lemmatize

- 추가 함수 : nvarFilter

■ 분석 결과

- 추출 단어수 : 평균 46개

- 분석 시간 : NLTK(0.09), STFD(1.75)

■ 비교 결과
- 분석속도 : NLTK >>>> STFD (170배의 수치적 차이)
- 추출 단어수 : NLTK > STFD (1문서당 평균 0.5개 차이. 문서 길이가 늘어날수록 늘어남)

- 품사 태깅    : NLTK <= STFD (STFD의 품사정보가 좀 더 정확해 보이나 문서당 1~2개 차이)
- 기타 차이점 : 'ti'에서는 분석 결과가 약 99% 일치(평균 1개의 단어에 대해서 품사가 틀린 경우가 존재)
                     'ab'에서는 동일한 단어에 대해서 품사가 다르게 측정되거나 형태소 출현여부 차이 발생(평균 3.5개)
                     STFD에서는 ')','(' 등의 문자가 추출되서 비교시 제외함
                     문장이 길어질수록 형태소별 품사 정보 판단이 틀린 경우가 발생

* 1문서당 평균 122단어, 800byte 기준

-- 풀이 :
1. 둘다 학습에 사용한 소스 데이터는 wsj penn treebank로 같음. ( wsj : wall street journal )
2. 그러나 내부적으로, nltk는 가중치 평균 방식, stanford는 maximum entropy 방식을 사용해 품사 선정
3. wsj에서 정답셋을 추출해 정확도를 비교하면, 둘다 정확도는 97%로 비슷
4. stanford가 더 느린 이유는, python에서 java 프로그램을 돌려야 하기 때문.

-- 결론 :

속도는 170배나 빠르고, 정확도또한 우수한 nltk를 쓰는 것이 좋다

키워드 :
nlp

mop

stanford

core

nlp

core

nltk

스탠포드

maxenttagger

stanford

pos

tagger
corenlp

nltk

tag

stanford 자연어 처리 품사 형태소 분석 자연어처리 형태소분석

저작자표시

'🗝️소프트웨어 > 💻python' 카테고리의 다른 글

딥러닝 감성분석 해보기(비지도학습) (0)	2021.12.07
파이썬 정규표현식 re.sub (0)	2021.12.07
python matplotlib 한글 깨짐 (0)	2021.12.05
한국어 NLP 수행하기전 과정 (0)	2021.12.04
If using all scalar values, you must pass an index 에러, 해결 (0)	2021.12.04

nltk 라이브러리

의미 연결망 분석

(Semantic Network Analysis)

'🗝️소프트웨어 > 💻python' 카테고리의 다른 글

티스토리툴바