Codong's Development Diary RSS 태그 관리 글쓰기 방명록
자연어처리 (3)
2021-04-13 21:11:45

개요


오늘도 딥 러닝을 이용한 자연어 처리 입문 교재를 가지고 공부를 한다.
텍스트 전처리 다음으로 두번째로 공부할 내용은 언어모델이다. 언제 20 챕터까지...

느려도 좋으니 끝까지 할 수 있었으면 좋겠다.. 😂


1. 언어모델


언어 모델(Languagel Model)이란 단어 시퀀스(문장)에 확률을 할당하는 모델을 말한다. 어떤 문장들이 있을 때, 적절한지 사람처럼 판단할 수 있다면, 기계가 자연어 처리를 정말 잘 한다고 볼 수 있다. 이게 바로 언어 모델이 하는 일이다.


1.1 주어진 이전 단어들로부터 다음 단어 예측하기

확률을 할당하게 하기 위해서 가장 보편적으로 사용되는 방법은 언어 모델이 이전 단어들이 주어졌을 때 다음 단어를 예측하도록 하는 것이다.

1.1.1 단어 시퀀스의 확률

하나의 단어를 w, 단어 시퀀스을 대문자 W라고 한다면, n개의 단어가 등장하는 단어 시퀀스 W의 확률은 다음과 같다. P는 확률

$P(W)=P(w_1,w_2,w_3,w_4,w_5,...,w_n)$

1.1.2 다음 단어 등장 확률

n-1개의 단어가 나열된 상태에서 n번째 단어의 확률은 다음과 같다.

$P(w_n|w_1,...,w_{n−1})$

|의 기호는 조건부 확률(conditional probability)을 의미한다. * 참고 : $P(B|A) = \frac{P(A\cap B)}{P(A)}$

전체 단어 시퀀스 W의 확률은 모든 단어가 예측되고 나서야 알 수 있으므로 단어 시퀀스의 확률은 다음과 같다.

$P(W)=P(w_1,w_2,w_3,w_4,w_5,...w_n)=\prod_{i=1}^n P(w_n|w_1,...,w_{n−1})$

$\prod_{i=1}^n$ 는 곱기호로 요소들을 전부 곱한다는 뜻이다.

1.2 언어 모델 직관적으로 이해해보기

비행기를 타려고 공항에 갔는데 지각을 하는 바람에 비행기를 [ ] 라는 문장이 있다. 빈 괄호 안에 올 단어가 사람은 쉽게 '놓쳤다'라고 예상할 수 있다. 우리 지식에 기반하여 나올 수 있는 여러 단어들을 후보에 놓고 놓쳤다는 단어가 나올 확률이 가장 높다고 판단하였기 때문이다.

그렇다면 기계에게 위 문장을 주고, '비행기를' 다음에 나올 단어를 예측해보라고 한다면 과연 어떻게 최대한 정확히 예측할 수 있을까? 기계도 비슷하다. 앞에 어떤 단어들이 나왔는지 고려하여 후보가 될 수 있는 여러 단어들에 대해서 등장 확률을 추정하고 가장 높은 확률을 가진 단어를 선택한다.

ex. 검색엔진 같은경우 검색시 다음 단어를 예측해서 추천해준다.


2. 통계적 언어 모델(Statistical Language Model, SLM)


언어 모델의 전통적인 접근 방법인 통계적 언어 모델이다.

2.1 문장에 대한 확률

위에서 잠깐 언급 됐던, 조건부 확률의 연쇄 법칙을 이용해 문장의 확률을 구해보자.

➕ 연쇄 법칙(chain rule)

$P(x_1,x_2,x_3...x_n)=P(x_1)P(x_2|x_1)P(x_3|x_1,x_2)...P(x_n|x_1...x_{n−1})$

이 조건부확률을 이용하여 '안녕하세요 저는 딥러닝을 공부하고 있습니다.' 라는 문장의 확률을 구해보자.

이것을 수식으로 표현 한다면 다음과 같다.

P(안녕하세요 저는 딥러닝을 공부하고 있습니다.) = P(안녕하세요) x P(저는|안녕하세요) x
P(딥러닝을|안녕하세요 저는) x ... x P(있습니다.|안녕하세요 저는 딥러닝을 공부하고)

말로 풀어본다면, 해당 문장의 확률은
'안녕하세요'가 나올 확률 X
'안녕하세요'가 나오고 '저는'이 나올 확률 X
'안녕하세요 저는'이 나오고 '딥러닝을'이 나올확률 X ... X
'안녕하세요 저는 딥러닝을 공부하고 있습니다.'가 나오고 '있습니다'가 나올 확률 이다.

결론은 문장의 확률을 구하기 위해서 각 단어에 대한 예측 확률들을 곱한다.

2.2 카운트 기반의 접근

문장의 확률을 구하기 위해 각 단어에 대한 예측 확률을 모두 곱한다는 것은 알겠지만 이전 단어로부터 다음 단어에 대한 확률은 어떻게 구할까? 그것은 바로, 카운트에 기반하여 확률을 계산한다.

'안녕하세요 저는 딥러닝을 공부하고'가 나왔을 때 '있습니다'가 나올 확률을 구해보자

$P(있습니다|안녕하세요 저는 딥러닝을 공부하고) = \frac{count(안녕하세요 저는 딥러닝을 공부하고 있습니다)}{count(안녕하세요 저는 딥러닝을 공부하고)}$

단순히 학습한 코퍼스 데이터에서 '안녕하세요 저는 딥러닝을 공부하고'가 100번 등장하고, 그 다음에 '있습니다'가 등장한 경우가 30번이라고 한다면 $P(있습니다|안녕하세요 저는 딥러닝을 공부하고)$ 는 30%가 된다.

➕ 카운터 기반의 한계 - 희소 문제(Sparsity Problem)

기계에게 많은 코퍼스를 훈련시켜서 언어 모델을 통해 현실에서의 확률 분포를 근사하는 것이 언어 모델의 목표이다. 하지만, 카운트 기반으로 접근하려고 한다면 갖고있는 코퍼스(corpus). 즉, 다시 말해 기계가 훈련하는 데이터는 정말 방대한 양이 필요하다.

위의 카운트 기반 조건부 확률을 구하는 공식에서 분모에 해당하는 카운트 수가 0이면 확률이 정의될 수가 없다. 쉽게 말해 학습 데이터를 통해 카운트가 한 번도 되지 않거나 아주 적게 되는 경우 언어를 정확히 모델링하지 못하는 문제가 생긴다.

이러한 문제를 완화하기 위해 n-gram이나 스무딩 백오프와 같은 여러가지 일반화(generalization) 기법이 존재한다. 하지만 근본적 해결책은 되지 못하기에, 통계적 언어 모델에서 인공 신경망 언어 모델로 트렌드가 바뀌었다.


3. N-gram 언어 모델(N-gram Language Model)


n-gram 또한 카운트 기반 통계적 접근 언어 모델이므로 SLM의 일종이다. 하지만 모든 단어를 고려하는 것이 아니고, 일부 단어만 고려하는 접근 방법을 사용한다. 이 때 일부 단어를 몇 개 보느냐를 결정하는데 이것이 N-gram의 n 을 의미한다.

3.1 코퍼스에서 카운트하지 못하는 경우를 감소

SLM의 한계는 훈련 코퍼스에 확률을 계산하고 싶은 문장이나 단어가 없을 수 있다는 점이다. 또한 문장이 길어질수록 갖고있는 코퍼스에서 그 문장이 존재하지 않을(카운트할 수 없을) 가능성이 높다. 그런데 다음과 같이 참고하는 단어들을 줄이면 카운트를 할 수 있을 가능성이 높일 수 있다.

가령, An adorable little boy가 나왔을 때 is가 나올 확률을 그냥 boy가 나왔을 때 is가 나올 확률로 생각해보는 건 어떨까? 갖고있는 코퍼스에 An adorable little boy is가 있을 가능성 보다는 boy is라는 더 짧은 단어 시퀀스가 존재할 가능성이 더 높다.

즉, 앞에서는 An adorable little boy가 나왔을 때 is가 나올 확률을 구하기 위해서는 An adorable little boy가 나온 횟수와 An adorable little boy is가 나온 횟수를 카운트해야만 했지만, 이제는 단어의 확률을 구하고자 기준 단어의 앞 단어를 전부 포함해서 카운트하는 것이 아니라, 앞 단어 중 임의의 개수만 포함해서 카운트하여 근사하자는 것이다. 이렇게 하면 갖고 있는 코퍼스에서 해당 단어의 시퀀스를 카운트할 확률이 높아집니다.

3.2 N-gram

예를 들어 '안녕하세요 저는 딥러닝을 공부하고 있습니다.' 라는 문장에 대해 n-gram을 전부 구해보면 아래와 같다.

unigrams : 안녕하세요 / 저는 / 딥러닝을 / 공부하고 / 있습니다.
bigrams : 안녕하세요 저는 / 저는 딥러닝을 / 딥러닝을 공부하고 / 공부하고 있습니다.
trigrams : 안녕하세요 저는 딥러닝을 / 저는 딥러닝을 공부하고 / 딥러닝을 공부하고 있습니다.
4-grams : 안녕하세요 저는 딥러닝을 공부하고 / 저는 딥러닝을 공부하고 있습니다.

n-gram을 통한 언어 모델에서는 다음에 나올 단어의 예측은 오직 n-1개의 단어에만 의존한다. 예를 들어 '안녕하세요 저는 딥러닝을 공부하고' 다음에 나올 단어를 예측하고 싶다고 할 때, n=3 라고 한 3-gram을 이용한 언어 모델을 사용한다고 합시다. 이 경우, 공부하고 다음에 올 단어를 예측하는 것은 다른 부분은 제외한 n-1에 해당되는 앞의 2개의 단어(예제에서 '딥러닝을 공부하고')만을 고려합니다.

3.3 N-gram의 한계

예를 들어서 '골목에서 담배를 피던 소녀가 나를 쳐다봐서 [ ].' 라는 문장의 마지막에 들어갈 단어를 정하는데, 4-gram 이라 가정한다면 소녀가 나를 쳐다봐서 '설레였다' 라는 문장이 카운트가 많이 되서 결정 될 수 있다는 점이다. 근처 단어 몇 개만 고려하니, 문장 앞쪽의 '골목에서 담배를 피던'이란 수식어가 반영이 되지 않아 '무서웠다'와 같이 의도하고 싶은 대로 문장을 끝맺음하지 못하는 경우가 생긴다는 점이다. 뿐만아니라 여전히 카운트를 기반으로 하기때문에 희소 문제가 존재한다.

➕ n 을 선택하는 것은 trade-off 문제

trade-off 란, 질과 량 가운데 어느 한편을 늘리면 다른 한편은 그 만큼 줄어드는 것을 이르는 말이다.
혹시나 나처럼 trade-off의 뜻을 모르는 분들을 위해 적어둔다.

n을 크게하면 실제 훈련 코퍼스에서 해당 n-gram을 카운트할 수 있는 확률은 적어지므로 희소 문제는 점점 심각해지고, 모델 사이즈가 커진다는 문제점도 있다. 기본적으로 코퍼스의 모든 n-gram에 대해서 카운트를 해야 하기 때문이다.

n을 작게 선택하면 훈련 코퍼스에서 카운트는 잘 되겠지만 근사의 정확도는 현실의 확률분포와 멀어진다. 그렇기 때문에 적절한 n을 선택해야 합니다. 앞서 언급한 trade-off 문제로 인해 정확도를 높이려면 n은 최대 5를 넘게 잡아서는 안 된다고 권장되고 있다.

그래도 n을 1보다는 2로 선택하는 것은 거의 대부분의 경우에서 언어 모델의 성능을 높일 수 있다.


4. 한국어에서의 언어 모델


영어나 기타 언어에 비해 한국어는 정말 까다롭다. 대표적인 이유를 살펴보자.

4.1 한국어는 어순이 중요하지 않다.

ex) 떡볶이 진짜 맛있지 않냐? = 진짜 맛있지 않냐 떡볶이?
어순이 중요하지 않다는 것은, 어떤 단어든 나타나도 된다는 의미이다. 언어 모델이 얼마나 헷갈릴까..

4.2 한국어는 교착어다.

한국어는 조사와 같은 것이 있어 발생가능한 단어 수를 굉장히 늘린다.
ex) '그녀' => 그녀가, 그녀를, 그녀의, 그녀로, 그녀에게, 그녀처럼 등 다양한 경우 존재.

그래서 한국어에서는 토큰화를 통해 접사나 조사 등을 분리하는 것이 중요한 작업이 되기도 한다.

4.3 한국어는 띄어쓰기가 제대로 지켜지지 않는다.

한국어는 띄어쓰기를 제대로 하지 않아도 의미가 전달되며, 띄어쓰기 규칙 또한 상대적으로 까다로운 언어이기 때문에 한국어 코퍼스는 띄어쓰기가 제대로 지켜지지 않는 경우가 많다. 토큰이 제대로 분리 되지 않는채 훈련 데이터로 사용된다면 언어 모델은 제대로 동작하지 않습니다.


5. 펄플렉서티(Perplexity)


두 개의 모델 A, B가 있을 때 이 모델의 성능은 어떻게 비교할 수 있을까? 일일히 모델들에 대해서 실제 작업을 시켜보고 정확도를 비교하는 작업은 공수가 너무 많이 드는 작업이다.

이러한 평가를 외부 평가(extrinsic evaluation)라고 하는데, 이러한 평가보다는 어쩌면 조금은 부정확할 수는 있어도 테스트 데이터에 대해서 빠르게 식으로 계산되는 더 간단한 평가 방법이 있다. 바로 모델 내에서 자신의 성능을 수치화하여 결과를 내놓는 내부 평가(Intrinsic evaluation)에 해당되는 펄플렉서티(perplexity)이다.

5.1 언어 모델의 평가 방법(Evaluation metric) : PPL

펄플렉서티(perplexity)는 언어 모델을 평가하기 위한 내부 평가 지표이고, 보통 줄여서 PPL이 라고 표현한다. 'perplexed'라는 '헷갈리는'과 유사한 의미가져서 그런가 PPL은 수치가 높으면 좋은 성능을 의미하는 것이 아니라, '낮을수록' 언어 모델의 성능이 좋다는 것을 의미한다.

PPL은 단어의 수로 정규화(normalization) 된 테스트 데이터에 대한 확률의 역수이다.PPL을 최소화한다는 것은 문장의 확률을 최대화하는 것과 같다. 문장 W의 길이가 N이라고 할 때 다음과 같다.

$PPL(W) = P(w_1,w_2,w_3, ... ,w_N)^{-\frac{1}{N}} = \sqrt[N]{\frac{1}{P(w_1,w_2,w_3, ... ,w_N)}}$

문장의 확률에 연쇄 법칙을 적용 하면,

$PPL(W) = \sqrt[N]{\frac{1}{P(w_1,w_2,w_3, ... ,w_N)}} = \sqrt[N]{\frac{1}{\prod_{i=1}^N P(w_i|w_1,...,w_{i−1})}}$

n-gram까지 적용이 되면, ex. bigram

$PPL(W) = \sqrt[N]{\frac{1}{\prod_{i=1}^N P(w_i|w_{i−1})}}$

5.2 분기 계수 (Branching factor)

PPL은 선택할 수 있는 가능한 경우의 수를 의미하는 분기계수(branching factor)이다. PPL은 이 언어 모델이 특정 시점에서 평균적으로 몇 개의 선택지를 가지고 고민하고 있는지를 의미한다. 어떤 테스트 데이터을 주고 측정했더니 PPL이 10이 나왔다고 해보자.

$PPL(W) = P(w_1,w_2,w_3, ... ,w_N)^{-\frac{1}{N}} = (\frac{1}{10}^{N})^{-\frac{1}{N}} = \frac{1}{10}^{-1} = 10$

같은 테스트 데이터에 대해서 두 언어 모델의 PPL을 각각 계산 후에 PPL의 값을 비교하면, 두 언어 모델 중 어떤 것이 성능이 좋은지도 판단이 가능합니다.

주의할 점은 PPL의 값이 낮다는 것은 테스트 데이터 상에서 높은 정확도를 보인다는 것이지, 사람이 직접 느끼기에 좋은 언어 모델이라는 것을 반드시 의미하진 않는다는 점이다. 또한 언어 모델의 PPL은 테스트 데이터에 의존하므로 두 개 이상의 언어 모델을 비교할 때는 정량적으로 양이 많고, 또한 도메인에 알맞은 동일한 테스트 데이터를 사용해야 신뢰도가 높다는 것이다.

2021-04-11 14:59:16

개요


살다보니 생각보다 자연어처리가 재밌기도 하고, 실제로도 많이 이용하게 되는 것 같아서 지대로 공부를 해보고 싶어졌다. 너무 수박 겉핥기 식으로만 알고 있었던 것 같아서 하나씩 정리하면서 차근차근 공부해보자! 원래는 종이 책을 하나 뗄까도 싶었지만, 페이지 넘기는 것도 귀찮기에 갓키독스(wikidocs)에 있는 갓(유)원준님의 딥러닝을 이용한 자연어 처리 입문으로 정했다! 예제도 잘 되어있어서 정말 좋다!

그럼 하나씩 정독하면서 중요한 부분을 정리하면서 내 생각과 이해한 것을 적어보도록 하자~~😆


시작하기에 앞서, 전처리란?!

자연어 처리에서 크롤링 등으로 얻어낸 코퍼스 데이터를 필요에 맞게 사용하기 위해서는 전처리를 진행해야 한다. 요리로 비유를 하자면, 재료를 날 것 그대로 사용한다면 맛을 보장할 수 없을 것이다. 우리는 성능을 보장할 수 없지 않겠는가? 그렇다면 어떻게 해야할까. 데이터를 용도에 맞게 사용하고자 토큰화, 정제, 정규화를 진행해야 한다.


1. 토큰화(Tokenization)


첫번째 토큰화는 주어진 코퍼스(corpus)에서 토큰(token)이라 불리는 단위로 나누는 작업을 토큰화라고 한다. 이 토큰의 단위는 상황에 따라 다르지만, 보통 의미있는 단위로 토큰을 정의한다.


* 토큰화에서 고려해야할 사항

토큰화 작업을 단순하게 코퍼스에서 구두점을 제외하고 공백 기준으로 잘라내는 작업이라고 간주할 수는 없다. 그 이유에 대해 살펴보자.

  1. 구두점이나 특수 문자를 단순 제외할 때
    • ex. 21/02/06 -> 날짜 , $100,000 -> 돈을 나타낼 때
  2. 줄임말과 단어 내 띄어쓰기
    • ex. we're -> we are 의 줄임말./ rock n roll -> 하나의 단어지만 띄어쓰기가 존재.
  3. 문장 토큰화 : 단순 마침표를 기준으로 자를 수 없음.
    • ex. IP 192.168.56.31 서버에 들어가서 로그 파일 저장해서 ukairia777@gmail.com로 결과 좀 보내줘. 그러고나서 점심 먹으러 가자.

* 한국어 토큰화의 어려움

영어는 New York과 같은 합성어나 he's 와 같이 줄임말에 대한 예외처리만 한다면, 띄어쓰기(whitespace)를 기준으로 하는 띄어쓰기 토큰화를 수행해도 단어 토큰화가 잘 작동한다.

  • 영어와는 달리 한국어에는 조사라는 것이 존재
    • ex. '그가', '그에게', '그를', '그와', '그는'과 같이 다양한 조사가 붙음. 같은 단어임에도 서로 다른 조사가 붙어서 다른 단어로 인식이
  • 한국어는 띄어쓰기가 영어보다 잘 지켜지지 않는다.
    • ex. 띄어쓰기를안해도사람들은이해를합니다.

🤔 그럼 어쩌란거지?

한국어 토큰화에서는 형태소(morpheme)란 뜻을 가진 가장 작은 말의 단위인 이 개념을 반드시 이해해야 한다. 이 형태소에는 두 가지 형태소가 있는데 자립 형태소와 의존 형태소가 존재 한다.

  1. 자립 형태소 : 접사, 어미, 조사와 상관없이 자립하여 사용할 수 있는 형태소. 그 자체로 단어가 된다. 체언(명사, 대명사, 수사), 수식언(관형사, 부사), 감탄사 등이 있다.
  2. 의존 형태소 : 다른 형태소와 결합하여 사용되는 형태소. 접사, 어미, 조사, 어간를 말한다.
  • ex. 문장 : 에디가 딥러닝책을 읽었다.
    1. 자립 형태소 : 에디, 딥러닝책
    2. 의존 형태소 : -가, -을, 읽-, -었, -다

한국어 토큰화를 도와주는 형태소 분석기

konlpy의 Kkma, Okt, mecab 또는 Pykomoran 등이 있다. 형태소 분석기 마다 성능이 다르기에 결과가 다르다.

  • 대표적 형태소 분석기의 기능
    1) morphs : 형태소 추출
    2) pos : 품사 태깅(Part-of-speech tagging)
    3) nouns : 명사 추출

3가지 분석기의 형태소 추출(morphs)를 실행했는데 시간도 다르고 결과도 다른 것을 알 수 있다. 그렇기에 필요 용도에 따라 적절한 분석기를 사용하면 된다. 예시에는 없지만 속도가 중요하다면 mecab을 이용할 수 있다.


2. 정제(Cleaning)와 정규화(Normalization)


토큰화 작업 전, 후에는 텍스트 데이터를 용도에 맞게 정제 및 정규화하는 일이 항상 함꼐한다. 목적은 다음과 같다.

  1. 정제 : 갖고 있는 코퍼스로부터 노이즈 데이터를 제거한다.
  2. 정규화 : 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만들어준다.

2.1 정제(Cleaning)


2.1.1 정규 표현식(Regular Expression)

  • 얻어낸 코퍼스에서 노이즈 데이터의 특징 및 패턴을 잡아낼 수 있다면, 정규 표현식을 통해서 이를 제거할 수 있는 경우가 많다. 코퍼스 내에 계속해서 등장하는 글자들을 규칙에 기반하여 한 번에 제거하는 방식으로서 사용 가능.
    ex. 뉴스 기사를 크롤링 -> 기사 게재 시간 등

2.1.2 불필요한 단어 제거 (Removing Unnecessary Words)

자연어가 아니면서 아무 의미도 갖지 않는 글자들(특수 문자 등) 뿐만아니라 분석하고자 하는 목적에 맞지 않는 불필요 단어들을 노이즈 데이터라고 하기도 한다.

  1. 등장 빈도가 적은 단어
    • ex. 100,000개의 메일 데이터에서 총 합 5번 밖에 등장하지 않은 단어의 경우 직관적으로 분류에 거의 도움이 되지 않을 것
  2. 길이가 짧은 단어(Removing words with very a short length)
    영어는 길이가 2~3 이하인 단어를 제거하는 것만으로도 크게 의미를 갖지 못하는 단어를 줄이는 효과를 갖고 있지만, 한국어 단어는 한자어가 많고, 한 글자만으로도 이미 의미를 가진 경우가 많다
    • ex. 영어 : 2~3 글자 이하 it, at, to, on, in, by 불용어 제거 가능.
      한국어 : 용(龍) 한국어로는 한 글자 영어에서는 d, r, a, g, o, n 6글자.

➕ 한국어에서 불용어 제거하기

간단하게는 토큰화 후에 조사, 접속사 등을 제거하기. 조사나 접속사와 같은 단어들뿐만 아니라 명사, 형용사와 같은 단어들 중에서 불용어로서 제거하고 싶은 단어들이 생기기도 한다. 결국에는 사용자가 직접 불용어 사전을 만들게 되는 경우가 많다.

  • 예를 들어 문장에서 의도를 파악하는 것을 하려고 할 때
from konlpy.tag import Okt, Kkma, Komoran
okt=Okt()

text='시원한 콜라, 그리고 맛있는 햄버거 포장해 주세요.'
stop_words=['시원한', '맛있는', '그리고', '해', '주세요', ',', '.']

word_token = okt.morphs(text)
print(word_token)
# ['시원한', '콜라', ',', '그리고', '맛있는', '햄버거', '포장', '해', '주세요', '.']

result=[]
for word in word_token:
    if word not in stop_words:
        result.append(word)

print(result)
# ['콜라', '햄버거', '포장']

2.2 정규화(Normalization)

규칙에 기반한 표기가 다른 단어들의 통합을 생각해 볼 수 있다. 종류에는 어간 추출(stemming)과 표제어 추출(lemmatizaiton) 등이 있다. 자연어 처리에서 전처리, 더 정확히는 정규화의 지향점은 언제나 갖고 있는 코퍼스로부터 복잡성을 줄이는 일이다.

➕ 형태소의 두 가지 종류 : 어간(stem)과 접사(affix)

1) 어간(stem) : 단어의 의미를 담고 있는 단어의 핵심 부분.
2) 접사(affix) : 단어에 추가적인 의미를 주는 부분. ex. cat(어간)와 -s(접사)


2.2.1 표제어 추출(Lemmatization)

한글로는 '표제어' 또는 '기본 사전형 단어' 정도의 의미

  • ex. am, are, is는 서로 다른 스펠링이지만 그 뿌리 단어인 be는 이 단어들의 표제어라고 할 수 있다.

2.2.2 어간 추출(Stemming)

어간 추출은 형태학적 분석을 단순화한 버전, 정해진 규칙만으로 단어의 어미를 자르는 어림짐작의 작업이라고 볼 수도 있다.

  • ex. formalize → formal / allowance → allow / electricical → electric 이와 같이 단순 어미 자름.

한국어에서의 어간 추출 : 용언에 해당되는 '동사'와 '형용사'는 어간(stem)과 어미(ending)의 결합으로 구성

품사
체언 명사, 대명사, 수사
수식언 관형사, 부사
관계언 조사
독립언 감탄사
용언 동사, 형용사

➕ 활용(conjugation) : 용언의 어간(stem)이 어미(ending)를 가지는 일을 말한다.

  1. 규칙활용 : 어간의 모습이 일정.
    ex. 잡/어간 + 다/어미
  2. 불규칙활용 : 어간이나 어미의 모습이 변함. 단순한 분리만으로 어간 추출이 되지 않고 좀 더 복잡한 규칙을 필요로 함.
    ex. ‘듣-, 돕-, 곱-, 잇-, 오르-, 노랗-’ 등이 ‘듣/들-, 돕/도우-, 곱/고우-, 잇/이-, 올/올-, 노랗/노라-’와 같이 어간의 형식이 달라지는 일이 있거나 ‘오르+ 아/어→올라, 하+아/어→하여, 이르+아/어→이르러, 푸르+아/어→푸르러’와 같이 일반적인 어미가 아닌 특수한 어미를 취하는 경우

➕ 한국어 자연어처리 파이썬 라이브러리 soynlp의 normalization

from soynlp.normalizer import *

emoticon_normalize('ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ쿠ㅜㅜㅜㅜㅜㅜ', num_repeats=3)
# 'ㅋㅋㅋㅜㅜㅜ'

repeat_normalize('와하하하하하하하하하핫', num_repeats=2)
# '와하하핫'

only_hangle('가나다ㅏㅑㅓㅋㅋ쿠ㅜㅜㅜabcd123!!아핫')
# '가나다ㅏㅑㅓㅋㅋ쿠ㅜㅜㅜ 아핫'

only_hangle_number('가나다ㅏㅑㅓㅋㅋ쿠ㅜㅜㅜabcd123!!아핫')
# '가나다ㅏㅑㅓㅋㅋ쿠ㅜㅜㅜ 123 아핫'

only_text('가나다ㅏㅑㅓㅋㅋ쿠ㅜㅜㅜabcd123!!아핫')
# '가나다ㅏㅑㅓㅋㅋ쿠ㅜㅜㅜabcd123!!아핫'

3. 정수 인코딩(Integer Encoding)


컴퓨터는 텍스트보다는 숫자를 더 잘 처리 할 수 있다. 이를 위해 텍스트를 숫자로 바꾸는 여러가지 기법들이 있다. 그 전에 첫 단계로 각 단어를 고유한 정수에 맵핑(mapping)시키는 전처리 작업이 필요할 때가 있다. 인덱스를 부여하는 방법랜덤으로 부여하기도 하지만, 보통은 전처리 또는 단어 빈도수를 기준으로 정렬한 뒤에 부여한다.
ex. 텍스트에 단어가 5,000개 존재시 각각 1번부터 5,000번까지 단어와 맵핑되는 고유한 정수, 다른 표현으로는 인덱스를 부여. 가령, book은 150번, dog는 171번과 같이 숫자가 부여

결론 : 컴퓨터가 알아먹기 쉽게 바꿔주는 것!


➕ 실습해보기

단어에 정수를 부여하는 방법 중 하나로 단어를 빈도수 순으로 정렬한 단어 집합(vocabulary)을 만들고, 빈도수가 높은 순서대로 차례로 낮은 숫자부터 정수를 부여하는 방법이 있다. 구현하는 방법은 다양하다.

  1. dictionary 사용하기
  2. 내장 모듈 Counter 사용하기
  3. 내장 함수 enumerate 사용하기
  4. Keras Tokenizer 사용하기

>> 예제 코드 보러가기


4. 패딩(Padding)


자연어 처리를 하다보면 문장(또는 문서)의 길이가 서로 다를 수 있다. 그런데 기계는 길이가 전부 동일한 문서들에 대해서는 하나의 행렬로 보고, 한꺼번에 묶어서 처리할 수 있다. 다시 말해 병렬 연산을 위해서 여러 문장의 길이를 임의로 동일하게 맞춰주는 작업이 필요할 때가 있다.

쉽게 말해 병렬 연산을 위해 문장(또는 문서)의 길이를 동일하게 맞춰 주는 작업이다. 길면 자르고, 짧으면 특정 값으로 채워준다.


➕ 실습해보기

패딩을 할 때 가장 긴 길이를 가진 문서의 길이를 기준으로 패딩을 한다고 능사는 아니다. 가령, 모든 문서의 평균 길이가 20인데 문서 1개의 길이가 5,000이라고 해서 굳이 모든 문서의 길이를 5,000으로 패딩할 필요는 없을 수 있다. 반대로 너무 짧게 잡으면 잘려나가는 데이터들이 많이 존재하므로, 문서 길이의 분포를 보고 결정하는 것이 좋다.

  1. Numpy로 패딩
  2. Keras 전처리 도구로 패딩

>> 예제 코드 보러가기


5. 원-핫 인코딩(One-Hot Encoding)


단어 집합의 크기를 벡터의 차원으로 하고, 표현하고 싶은 단어의 인덱스에 1의 값을 부여하고, 다른 인덱스에는 0을 부여하는 단어의 벡터 표현 방식입니다. 두 가지 과정으로 정리 할 수 있다. 1) 정수 인코딩 2) 해당 단어 1부여, 나머지 0부여

➕ 예제

label = ['한식', '중식', '일식', '양식']
word2index={}
for idx, word in enumerate(label):
    word2index[word]=idx

print(word2index)
# {'한식' : 0, '중식' : 1, '일식' : 2, '양식' : 3}

정수 인코딩을 진행한 후,

# 원-핫 인코딩 함수 정의
def one_hot_encoding(word, word2index):
    one_hot_vector = [0]*(len(word2index))
    index=word2index[word]
    one_hot_vector[index]=1
    return one_hot_vector

vec=one_hot_encoding("한식",word2index)
print(vec)
# [1,0,0,0]

또는 Keras 의 to_categorical을 이용해서 정수 인코딩 된 리스트를 인풋으로 넣으면 쉽게 얻을 수 있다.

from tensorflow.keras.utils import to_categorical

# 아까 한식중식 정수 인코딩 된 것.
encoded=[0,1,2,3]
one_hot = to_categorical(encoded)
print(one_hot)
#[[1, 0, 0, 0] #인덱스 0의 원-핫 벡터
#[0, 1, 0, 0] #인덱스 1의 원-핫 벡터
#[0, 0, 1, 0] #인덱스 2의 원-핫 벡터
#[0, 0, 0, 1]] #인덱스 3의 원-핫 벡터

원-핫 인코딩의 한계

  1. 단어의 개수가 늘어날 수록, 벡터를 저장하기 위해 필요한 공간이 계속 늘어난다는 단점
    • ex. 단어 1000개일 경우 1의 값을 가지는 1개 빼곤 999개의 값은 0을 가짐.
  2. 단어 유사도 표현 못함.

이를 보완하기 위한 벡터화 기법

  1. 카운트 기반의 벡터화 방법 : LSA, HAL 등
  2. 예측 기반으로 벡터화 방법 : NNLM, RNNLM, Word2Vec, FastText 등
  3. 두 가지 방법을 모두 사용 : GloVe

⚖️ 데이터의 분리 (Splitting Data)


이 파트는 머신 러닝(딥 러닝) 모델에 데이터를 훈련시키기 위해 데이터를 분리하는 작업은 꼭 필요하기에 남겨두었다. 기본적이지만 모르면 안되는 부분이기에 혹시나 유용히 쓰이는 것이 있을 수 있다.


1️⃣ X,Y 분리하기

  1. zip 함수 이용
sequences=[['a', 1], ['b', 2], ['c', 3]] # 리스트의 리스트 또는 행렬 또는 2D 텐서.
X,y = zip(*sequences)
# 또는 (위 아래 결과 똑같음)
X,y = zip(['a', 1], ['b', 2], ['c', 3])

print(X) # ('a', 'b', 'c')
print(y) # (1, 2, 3)
  1. pandas 데이터프레임 이용
import pandas as pd

values = [['당신에게 드리는 마지막 혜택!', 1],
['내일 뵐 수 있을지 확인 부탁드...', 0],
['도연씨. 잘 지내시죠? 오랜만입...', 0],
['(광고) AI로 주가를 예측할 수 있다!', 1]]
columns = ['메일 본문', '스팸 메일 유무']

df = pd.DataFrame(values, columns=columns)
X=df['메일 본문']
Y=df['스팸 메일 유무']
print(X) # ['당신에게 드리는 마지막 혜택!', '내일 뵐 수 있을지 확인 부탁드...', ...]
print(Y) # [1, 0, 0, 1]
  1. numpy 이용
import numpy as np
ar = np.arange(0,16).reshape((4,4))
print(ar)
# [[ 0  1  2  3]
# [ 4  5  6  7]
# [ 8  9 10 11]
# [12 13 14 15]]

X=ar[:, :3]
y=ar[:,3]
print(X) # [[ 0  1  2], [ 4  5  6], [ 8  9 10], [12 13 14]]
print(y) # [3 7 11 15]

2️⃣ 테스트 데이터 분리하기

이건 정말 필요하다. 이미 분리된 X,y 셋에서 어느정도 비율을 가지고 훈련 셋과 테스트 셋을 분리할 떄 유용하다.

  1. scikit-learn 이용하기
# test_size에 테스트 셋을 몇 퍼센트 넣을 것인지 지정해준다. ex) 0.2 => 8:2 비율로 나누겠다.
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size= 0.2, random_state=1234)
  1. 직접 분리하기
import numpy as np
X, y = np.arange(0,24).reshape((12,2)), range(12)
# 실습을 위해 임의로 X와 y가 이미 분리 된 데이터를 생성

# 몇개까지 자를 건지 지정
n_of_train = int(len(X) * 0.8) # 데이터의 전체 길이의 80%에 해당하는 길이값을 구한다.
n_of_test = int(len(X) - n_of_train) # 전체 길이에서 80%에 해당하는 길이를 뺀다.
print(n_of_train) # 9
print(n_of_test) # 3

# 위의 값 기준으로 자르기.
X_test = X[n_of_train:] #전체 데이터 중에서 20%만큼 뒤의 데이터 저장
y_test = y[n_of_train:] #전체 데이터 중에서 20%만큼 뒤의 데이터 저장
X_train = X[:n_of_train] #전체 데이터 중에서 80%만큼 앞의 데이터 저장
y_train = y[:n_of_train] #전체 데이터 중에서 80%만큼 앞의 데이터 저장

reference

2021-03-11 21:34:31

👋 개요


한글 자연어처리 라이브러리로 konlpy나 mecab을 사용하여 형태소 분석이나, 명사추출을 할 때, 신조어나 복합명사들이 제대로 추출되지 않는 경우가 있다. 그런 경우 따로 분석기에 사용자 사전을 추가해서 그러한 문제를 보완할 수 있다.

하지만 매번 사람이 일일이 다 찾아서 작성할 순 없는 노릇이다. 그러면 어떻게 하면 좋을까? 🤔

 

👍 soynlp


한국어 분석을 위한 한국어 자연어처리 라이브러리다. 학습데이터를 이용하지 않으면서 데이터에 존재하는 단어를 찾거나, 문장을 단어열로 분해, 혹은 1품사 판별을 할 수 있는 비지도학습 접근법을 지향한다. 여러가지 버전의 명사 추출기를 제공하고 있다.

from soynlp.noun import NewsNounExtractor

noun_extractor_news = NewsNounExtractor(
    max_left_length=10, 
    max_right_length=7,
    predictor_fnames=None,
    verbose=True
)
nouns_news = noun_extractor_news.train_extract(sentences)

# 출력
used default noun predictor; Sejong corpus based logistic predictor
/Users/dong/opt/anaconda3/envs/cow_word/lib/python3.7/site-packages/soynlp
local variable 'f' referenced before assignment
local variable 'f' referenced before assignment
scan vocabulary ... 
done (Lset, Rset, Eojeol) = (518797, 290268, 289869)
predicting noun score was done                                        
before postprocessing 138637
_noun_scores_ 30616
checking hardrules ... done0 / 30616+(이)), NVsubE (사기(당)+했다) ... done
after postprocessing 21026
extracted 985 compounds from eojeolss ... 45000 / 45737

 

그 중에서 나는 많은 기능을 포함하고 있는 NewsNounExtractor 를 사용했다. 왜냐하면 뉴스 데이터를 사용하기도 하고, 여러가지 속성들을 가지고 있기 때문이다.

아직 감이 안오니 어서 출력해보자. score를 기준으로 내림차순 정렬을 해서 200개만 출력해봤다.

 

sort_nouns_news = sorted(nouns_news.items(), key=lambda x:-x[1].score)[:200]
print(tmp_)

# 출력
[('기초수급자',
  NewsNounScore(score=1.0, frequency=16, feature_proportion=0.25, eojeol_proportion=0.5, n_positive_feature=1, unique_positive_feature_proportion=1.0)),
 ...]

 

출력결과를 보면 7개 가량의 속성이 있음을 알 수 있다. 그 중에서 나는 score, frequency, feature_proportion 이 세 가지에 집중해봤다.

 

1️⃣ score : 명사 가능성을 점수로 표현했으며, 튜토리얼 문서에 따르면 한국어는 L + [R] 구조이며, 명사 뒤에 나오는 R set을 모아 명사 가능 점수를 학습 시켜놨다. R set에 '있게'는 1.0점, '있는'은 0.3 점이라 등록되었다 가정하고, '재미 + 있게' 3번, '재미 + 있는' 2번 등장하였다면 재미의 명사 가능 점수는 (3 x 1.0 + 2 x 0.33) / 5 = 0.732점 이라고 한다.
2️⃣ frequency : 딱 보면 느낌오겠지만, 그 단어가 나온 빈도수이다.
3️⃣ feature_proportion : 이것에 대해 제대로 나오진 않았지만, 번역기 돌려보면 특성이 있는지(?) 정도로 추측이 된다.

 

🤩 아이디어


soynlp를 활용하여 미등록단어 문제를 해결할 수 있지 않을까? 라는 생각을 해보았다.

그래서 떠오른 아이디어는 뉴스데이터를 크롤링하여 soynlp의 명사추출기로 추출된 명사를 10개씩 ' '(공백)으로 이어 붙여 형태소 분석기(사용한 것은 mecab)을 통해 명사 분석한다. mecab을 통해 나온 output을 input으로 넣었던 명사와 비교하여 분석되지 않은 명사가 어떤 것인지 살펴보는 것이다!

글로 적으니까 햇갈리니 허접하지만 직관적인 플로우 차트를 그려봤다.

아무튼 느낌은 왔으니 실제로 해봐야 알 것 아닌가??

 

🤔 진행과정


데이터는 우선 네이버 뉴스데이터에서 크롤링을 했고, soynlp로 추출된 명사는 score * frequency * feature_proportion 계산을 하여 높은 순서대로 상위 200개를 사용했다.(➕ 글자수가 2개 이하인 것들은 제외했다.)

nouns_news_tmp = {key: value for key, value in nouns_news.items() if len(key) > 2} 
top_news = sorted(nouns_news_tmp.items(), 
    key=lambda x:-x[1].frequency * x[1].score * x[1].feature_proportion)[:200]
for i, (word, score) in enumerate(top_news):
    if i % 4 == 0:
        print()
    print('%6s (%.2f)' % (word, score.score), end='')

# 출력
오마이뉴스 (0.99)   이재명 (0.96) 코로나19 (0.95)  페이스북 (0.89)
   상대적 (1.00)   시민들 (0.82)최고위원회의 (0.97)   간담회 (0.88)
   김현정 (1.00)   그동안 (0.82)  세금으로 (1.00) 정책협의회 (0.99)
   마스크 (0.96)  제3지대 (0.94)수원컨벤션센터 (1.00)  CCTV (0.84)
  거리두기 (0.82)  민주주의 (0.87)   바람직 (0.99)   공동체 (0.95)
   대체재 (0.98)  장례식장 (0.96)  포퓰리즘 (0.80)   일자리 (0.80)
   여배우 (0.99)   취재진 (0.98)   불가능 (0.90) 글래드호텔 (1.00)
   있었기 (1.00)한국사회여론연구소 (1.00)   아이들 (0.72)  경기지사 (0.73)
   더불어민주당 (0.61)   재보선 (0.80)   부적절 (1.00)연합뉴스TV (1.00)
   ...

 

이렇게 추출된 명사들을 10개씩 문장으로 만들어서 mecab에 넣어서 비교를 해봤다. 정확도는 전체 개수 중 맞춘 개수이다.

 

# 추출된 명사를 단어만 뽑아 리스트화 시킨후
word_list=[i[0] for i in top_news]

str_dic={}
# 10개씩 나눠서 끝에 마침표를 찍어 딕셔너리에 담는다.
for n in range(0,len(word_list),10):
        word_dic[n]=word_list[n:n+10]
        tmp_str=' '.join(word_dic[n])
        str_dic[n]=tmp_str+'.'

...

# 출력
입력텍스트(soy_nlp 명사) : ['아이들 경기지사 단일화 어떠한 리얼미터 실시간 더불어민주당 재보선 부적절 연합뉴스TV.']
출력텍스트(mecab 통과) : ['실시간', '리얼미터', '경기지사', '단일', '아이', '연합', '부적', '보선', '뉴스', '민주당']
정확도 : 0.3
맞춘명사 : ['실시간', '리얼미터', '경기지사']
없는명사 : ['아이들', '단일화', '어떠한', '더불어민주당', '재보선', '부적절', '연합뉴스TV']

 

코드가 좀 더럽고 길어서 다 올리긴 좀 그래서 초반부만 올렸다.. 생각보다 결과는 처참했다..

 

😳 결과


  • 첫번째 문제점은 추출된 명사를 공백으로 이어 붙여서 완전한 문장이 아니라 그냥 명사로만 이루어진 문장이라 그런지 mecab이 제대로 인식하지 못하는 경우가 많았다. 이 부분은 mecab의 명사 추출 과정을 이해하지 못했기에 신경쓰지 못했다.
  • 그리고 추출된 명사도 200개를 뽑았을 때 더불어민주당, 거리두기, 재보선과 같이 복합명사나 신조어(줄임말 등)가 보이긴 하지만, 있었기, 세금으로와 같이 이상한 결과들도 많다..

 

🙌 마무리


그래도 나름 하면서 재밌다고 생각했던 시도였다. 다만 생각보다 결과가 좋지 않아서 문제다... 저것만 사용해서 미등록단어를 자동으로 등록하게 한다면 결과가 좋지 않을게 뻔하다... 다음엔 우선적으로 내가 사용하는 모델의 원리에 대한 이해하는 과정을 충분히 거친 뒤, 이러한 작업을 시도하면 더 좋은 결과를 낼 수 있지 않을까 싶다. 앞으로 더 분발하자 ~~ 🔥

 

reference