python/자연어처리/ [자연어 처리 입문] 1. 텍스트 전처리.txt

2021-04-11 14:59:16

개요

살다보니 생각보다 자연어처리가 재밌기도 하고, 실제로도 많이 이용하게 되는 것 같아서 지대로 공부를 해보고 싶어졌다. 너무 수박 겉핥기 식으로만 알고 있었던 것 같아서 하나씩 정리하면서 차근차근 공부해보자! 원래는 종이 책을 하나 뗄까도 싶었지만, 페이지 넘기는 것도 귀찮기에 갓키독스(wikidocs)에 있는 갓(유)원준님의 딥러닝을 이용한 자연어 처리 입문으로 정했다! 예제도 잘 되어있어서 정말 좋다!

그럼 하나씩 정독하면서 중요한 부분을 정리하면서 내 생각과 이해한 것을 적어보도록 하자~~😆

시작하기에 앞서, 전처리란?!

자연어 처리에서 크롤링 등으로 얻어낸 코퍼스 데이터를 필요에 맞게 사용하기 위해서는 전처리를 진행해야 한다. 요리로 비유를 하자면, 재료를 날 것 그대로 사용한다면 맛을 보장할 수 없을 것이다. 우리는 성능을 보장할 수 없지 않겠는가? 그렇다면 어떻게 해야할까. 데이터를 용도에 맞게 사용하고자 토큰화, 정제, 정규화를 진행해야 한다.

1. 토큰화(Tokenization)

첫번째 토큰화는 주어진 코퍼스(corpus)에서 토큰(token)이라 불리는 단위로 나누는 작업을 토큰화라고 한다. 이 토큰의 단위는 상황에 따라 다르지만, 보통 의미있는 단위로 토큰을 정의한다.

* 토큰화에서 고려해야할 사항

토큰화 작업을 단순하게 코퍼스에서 구두점을 제외하고 공백 기준으로 잘라내는 작업이라고 간주할 수는 없다. 그 이유에 대해 살펴보자.

구두점이나 특수 문자를 단순 제외할 때
- ex. 21/02/06 -> 날짜 , $100,000 -> 돈을 나타낼 때
줄임말과 단어 내 띄어쓰기
- ex. we're -> we are 의 줄임말./ rock n roll -> 하나의 단어지만 띄어쓰기가 존재.
문장 토큰화 : 단순 마침표를 기준으로 자를 수 없음.
- ex. IP 192.168.56.31 서버에 들어가서 로그 파일 저장해서 ukairia777@gmail.com로 결과 좀 보내줘. 그러고나서 점심 먹으러 가자.

* 한국어 토큰화의 어려움

영어는 New York과 같은 합성어나 he's 와 같이 줄임말에 대한 예외처리만 한다면, 띄어쓰기(whitespace)를 기준으로 하는 띄어쓰기 토큰화를 수행해도 단어 토큰화가 잘 작동한다.

영어와는 달리 한국어에는 조사라는 것이 존재
- ex. '그가', '그에게', '그를', '그와', '그는'과 같이 다양한 조사가 붙음. 같은 단어임에도 서로 다른 조사가 붙어서 다른 단어로 인식이
한국어는 띄어쓰기가 영어보다 잘 지켜지지 않는다.
- ex. 띄어쓰기를안해도사람들은이해를합니다.

🤔 그럼 어쩌란거지?

한국어 토큰화에서는 형태소(morpheme)란 뜻을 가진 가장 작은 말의 단위인 이 개념을 반드시 이해해야 한다. 이 형태소에는 두 가지 형태소가 있는데 자립 형태소와 의존 형태소가 존재 한다.

자립 형태소 : 접사, 어미, 조사와 상관없이 자립하여 사용할 수 있는 형태소. 그 자체로 단어가 된다. 체언(명사, 대명사, 수사), 수식언(관형사, 부사), 감탄사 등이 있다.
의존 형태소 : 다른 형태소와 결합하여 사용되는 형태소. 접사, 어미, 조사, 어간를 말한다.

ex. 문장 : 에디가 딥러닝책을 읽었다.
1. 자립 형태소 : 에디, 딥러닝책
2. 의존 형태소 : -가, -을, 읽-, -었, -다

한국어 토큰화를 도와주는 형태소 분석기

konlpy의 Kkma, Okt, mecab 또는 Pykomoran 등이 있다. 형태소 분석기 마다 성능이 다르기에 결과가 다르다.

대표적 형태소 분석기의 기능
1) morphs : 형태소 추출
2) pos : 품사 태깅(Part-of-speech tagging)
3) nouns : 명사 추출

3가지 분석기의 형태소 추출(morphs)를 실행했는데 시간도 다르고 결과도 다른 것을 알 수 있다. 그렇기에 필요 용도에 따라 적절한 분석기를 사용하면 된다. 예시에는 없지만 속도가 중요하다면 mecab을 이용할 수 있다.

2. 정제(Cleaning)와 정규화(Normalization)

토큰화 작업 전, 후에는 텍스트 데이터를 용도에 맞게 정제 및 정규화하는 일이 항상 함꼐한다. 목적은 다음과 같다.

정제 : 갖고 있는 코퍼스로부터 노이즈 데이터를 제거한다.
정규화 : 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만들어준다.

2.1 정제(Cleaning)

2.1.1 정규 표현식(Regular Expression)

얻어낸 코퍼스에서 노이즈 데이터의 특징 및 패턴을 잡아낼 수 있다면, 정규 표현식을 통해서 이를 제거할 수 있는 경우가 많다. 코퍼스 내에 계속해서 등장하는 글자들을 규칙에 기반하여 한 번에 제거하는 방식으로서 사용 가능.
ex. 뉴스 기사를 크롤링 -> 기사 게재 시간 등

2.1.2 불필요한 단어 제거 (Removing Unnecessary Words)

자연어가 아니면서 아무 의미도 갖지 않는 글자들(특수 문자 등) 뿐만아니라 분석하고자 하는 목적에 맞지 않는 불필요 단어들을 노이즈 데이터라고 하기도 한다.

등장 빈도가 적은 단어
- ex. 100,000개의 메일 데이터에서 총 합 5번 밖에 등장하지 않은 단어의 경우 직관적으로 분류에 거의 도움이 되지 않을 것
길이가 짧은 단어(Removing words with very a short length)
영어는 길이가 2~3 이하인 단어를 제거하는 것만으로도 크게 의미를 갖지 못하는 단어를 줄이는 효과를 갖고 있지만, 한국어 단어는 한자어가 많고, 한 글자만으로도 이미 의미를 가진 경우가 많다
- ex. 영어 : 2~3 글자 이하 it, at, to, on, in, by 불용어 제거 가능.
  한국어 : 용(龍) 한국어로는 한 글자 영어에서는 d, r, a, g, o, n 6글자.

➕ 한국어에서 불용어 제거하기

간단하게는 토큰화 후에 조사, 접속사 등을 제거하기. 조사나 접속사와 같은 단어들뿐만 아니라 명사, 형용사와 같은 단어들 중에서 불용어로서 제거하고 싶은 단어들이 생기기도 한다. 결국에는 사용자가 직접 불용어 사전을 만들게 되는 경우가 많다.

예를 들어 문장에서 의도를 파악하는 것을 하려고 할 때

from konlpy.tag import Okt, Kkma, Komoran
okt=Okt()

text='시원한 콜라, 그리고 맛있는 햄버거 포장해 주세요.'
stop_words=['시원한', '맛있는', '그리고', '해', '주세요', ',', '.']

word_token = okt.morphs(text)
print(word_token)
# ['시원한', '콜라', ',', '그리고', '맛있는', '햄버거', '포장', '해', '주세요', '.']

result=[]
for word in word_token:
    if word not in stop_words:
        result.append(word)

print(result)
# ['콜라', '햄버거', '포장']

2.2 정규화(Normalization)

규칙에 기반한 표기가 다른 단어들의 통합을 생각해 볼 수 있다. 종류에는 어간 추출(stemming)과 표제어 추출(lemmatizaiton) 등이 있다. 자연어 처리에서 전처리, 더 정확히는 정규화의 지향점은 언제나 갖고 있는 코퍼스로부터 복잡성을 줄이는 일이다.

➕ 형태소의 두 가지 종류 : 어간(stem)과 접사(affix)

1) 어간(stem) : 단어의 의미를 담고 있는 단어의 핵심 부분.
2) 접사(affix) : 단어에 추가적인 의미를 주는 부분. ex. cat(어간)와 -s(접사)

2.2.1 표제어 추출(Lemmatization)

한글로는 '표제어' 또는 '기본 사전형 단어' 정도의 의미

ex. am, are, is는 서로 다른 스펠링이지만 그 뿌리 단어인 be는 이 단어들의 표제어라고 할 수 있다.

2.2.2 어간 추출(Stemming)

어간 추출은 형태학적 분석을 단순화한 버전, 정해진 규칙만으로 단어의 어미를 자르는 어림짐작의 작업이라고 볼 수도 있다.

ex. formalize → formal / allowance → allow / electricical → electric 이와 같이 단순 어미 자름.

한국어에서의 어간 추출 : 용언에 해당되는 '동사'와 '형용사'는 어간(stem)과 어미(ending)의 결합으로 구성

언	품사
체언	명사, 대명사, 수사
수식언	관형사, 부사
관계언	조사
독립언	감탄사
용언	동사, 형용사

➕ 활용(conjugation) : 용언의 어간(stem)이 어미(ending)를 가지는 일을 말한다.

규칙활용 : 어간의 모습이 일정.
ex. 잡/어간 + 다/어미
불규칙활용 : 어간이나 어미의 모습이 변함. 단순한 분리만으로 어간 추출이 되지 않고 좀 더 복잡한 규칙을 필요로 함.
ex. ‘듣-, 돕-, 곱-, 잇-, 오르-, 노랗-’ 등이 ‘듣/들-, 돕/도우-, 곱/고우-, 잇/이-, 올/올-, 노랗/노라-’와 같이 어간의 형식이 달라지는 일이 있거나 ‘오르+ 아/어→올라, 하+아/어→하여, 이르+아/어→이르러, 푸르+아/어→푸르러’와 같이 일반적인 어미가 아닌 특수한 어미를 취하는 경우

➕ 한국어 자연어처리 파이썬 라이브러리 soynlp의 normalization

from soynlp.normalizer import *

emoticon_normalize('ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ쿠ㅜㅜㅜㅜㅜㅜ', num_repeats=3)
# 'ㅋㅋㅋㅜㅜㅜ'

repeat_normalize('와하하하하하하하하하핫', num_repeats=2)
# '와하하핫'

only_hangle('가나다ㅏㅑㅓㅋㅋ쿠ㅜㅜㅜabcd123!!아핫')
# '가나다ㅏㅑㅓㅋㅋ쿠ㅜㅜㅜ 아핫'

only_hangle_number('가나다ㅏㅑㅓㅋㅋ쿠ㅜㅜㅜabcd123!!아핫')
# '가나다ㅏㅑㅓㅋㅋ쿠ㅜㅜㅜ 123 아핫'

only_text('가나다ㅏㅑㅓㅋㅋ쿠ㅜㅜㅜabcd123!!아핫')
# '가나다ㅏㅑㅓㅋㅋ쿠ㅜㅜㅜabcd123!!아핫'

3. 정수 인코딩(Integer Encoding)

컴퓨터는 텍스트보다는 숫자를 더 잘 처리 할 수 있다. 이를 위해 텍스트를 숫자로 바꾸는 여러가지 기법들이 있다. 그 전에 첫 단계로 각 단어를 고유한 정수에 맵핑(mapping)시키는 전처리 작업이 필요할 때가 있다. 인덱스를 부여하는 방법은 랜덤으로 부여하기도 하지만, 보통은 전처리 또는 단어 빈도수를 기준으로 정렬한 뒤에 부여한다.
ex. 텍스트에 단어가 5,000개 존재시 각각 1번부터 5,000번까지 단어와 맵핑되는 고유한 정수, 다른 표현으로는 인덱스를 부여. 가령, book은 150번, dog는 171번과 같이 숫자가 부여

결론 : 컴퓨터가 알아먹기 쉽게 바꿔주는 것!

➕ 실습해보기

단어에 정수를 부여하는 방법 중 하나로 단어를 빈도수 순으로 정렬한 단어 집합(vocabulary)을 만들고, 빈도수가 높은 순서대로 차례로 낮은 숫자부터 정수를 부여하는 방법이 있다. 구현하는 방법은 다양하다.

dictionary 사용하기
내장 모듈 Counter 사용하기
내장 함수 enumerate 사용하기
Keras Tokenizer 사용하기

>> 예제 코드 보러가기

4. 패딩(Padding)

자연어 처리를 하다보면 문장(또는 문서)의 길이가 서로 다를 수 있다. 그런데 기계는 길이가 전부 동일한 문서들에 대해서는 하나의 행렬로 보고, 한꺼번에 묶어서 처리할 수 있다. 다시 말해 병렬 연산을 위해서 여러 문장의 길이를 임의로 동일하게 맞춰주는 작업이 필요할 때가 있다.

쉽게 말해 병렬 연산을 위해 문장(또는 문서)의 길이를 동일하게 맞춰 주는 작업이다. 길면 자르고, 짧으면 특정 값으로 채워준다.

➕ 실습해보기

패딩을 할 때 가장 긴 길이를 가진 문서의 길이를 기준으로 패딩을 한다고 능사는 아니다. 가령, 모든 문서의 평균 길이가 20인데 문서 1개의 길이가 5,000이라고 해서 굳이 모든 문서의 길이를 5,000으로 패딩할 필요는 없을 수 있다. 반대로 너무 짧게 잡으면 잘려나가는 데이터들이 많이 존재하므로, 문서 길이의 분포를 보고 결정하는 것이 좋다.

Numpy로 패딩
Keras 전처리 도구로 패딩

>> 예제 코드 보러가기

5. 원-핫 인코딩(One-Hot Encoding)

단어 집합의 크기를 벡터의 차원으로 하고, 표현하고 싶은 단어의 인덱스에 1의 값을 부여하고, 다른 인덱스에는 0을 부여하는 단어의 벡터 표현 방식입니다. 두 가지 과정으로 정리 할 수 있다. 1) 정수 인코딩 2) 해당 단어 1부여, 나머지 0부여

➕ 예제

label = ['한식', '중식', '일식', '양식']
word2index={}
for idx, word in enumerate(label):
    word2index[word]=idx

print(word2index)
# {'한식' : 0, '중식' : 1, '일식' : 2, '양식' : 3}

정수 인코딩을 진행한 후,

# 원-핫 인코딩 함수 정의
def one_hot_encoding(word, word2index):
    one_hot_vector = [0]*(len(word2index))
    index=word2index[word]
    one_hot_vector[index]=1
    return one_hot_vector

vec=one_hot_encoding("한식",word2index)
print(vec)
# [1,0,0,0]

또는 Keras 의 to_categorical을 이용해서 정수 인코딩 된 리스트를 인풋으로 넣으면 쉽게 얻을 수 있다.

from tensorflow.keras.utils import to_categorical

# 아까 한식중식 정수 인코딩 된 것.
encoded=[0,1,2,3]
one_hot = to_categorical(encoded)
print(one_hot)
#[[1, 0, 0, 0] #인덱스 0의 원-핫 벡터
#[0, 1, 0, 0] #인덱스 1의 원-핫 벡터
#[0, 0, 1, 0] #인덱스 2의 원-핫 벡터
#[0, 0, 0, 1]] #인덱스 3의 원-핫 벡터

원-핫 인코딩의 한계

단어의 개수가 늘어날 수록, 벡터를 저장하기 위해 필요한 공간이 계속 늘어난다는 단점
- ex. 단어 1000개일 경우 1의 값을 가지는 1개 빼곤 999개의 값은 0을 가짐.
단어 유사도 표현 못함.

이를 보완하기 위한 벡터화 기법

카운트 기반의 벡터화 방법 : LSA, HAL 등
예측 기반으로 벡터화 방법 : NNLM, RNNLM, Word2Vec, FastText 등
두 가지 방법을 모두 사용 : GloVe

⚖️ 데이터의 분리 (Splitting Data)

이 파트는 머신 러닝(딥 러닝) 모델에 데이터를 훈련시키기 위해 데이터를 분리하는 작업은 꼭 필요하기에 남겨두었다. 기본적이지만 모르면 안되는 부분이기에 혹시나 유용히 쓰이는 것이 있을 수 있다.

1️⃣ X,Y 분리하기

zip 함수 이용

sequences=[['a', 1], ['b', 2], ['c', 3]] # 리스트의 리스트 또는 행렬 또는 2D 텐서.
X,y = zip(*sequences)
# 또는 (위 아래 결과 똑같음)
X,y = zip(['a', 1], ['b', 2], ['c', 3])

print(X) # ('a', 'b', 'c')
print(y) # (1, 2, 3)

pandas 데이터프레임 이용

import pandas as pd

values = [['당신에게 드리는 마지막 혜택!', 1],
['내일 뵐 수 있을지 확인 부탁드...', 0],
['도연씨. 잘 지내시죠? 오랜만입...', 0],
['(광고) AI로 주가를 예측할 수 있다!', 1]]
columns = ['메일 본문', '스팸 메일 유무']

df = pd.DataFrame(values, columns=columns)
X=df['메일 본문']
Y=df['스팸 메일 유무']
print(X) # ['당신에게 드리는 마지막 혜택!', '내일 뵐 수 있을지 확인 부탁드...', ...]
print(Y) # [1, 0, 0, 1]

numpy 이용

import numpy as np
ar = np.arange(0,16).reshape((4,4))
print(ar)
# [[ 0  1  2  3]
# [ 4  5  6  7]
# [ 8  9 10 11]
# [12 13 14 15]]

X=ar[:, :3]
y=ar[:,3]
print(X) # [[ 0  1  2], [ 4  5  6], [ 8  9 10], [12 13 14]]
print(y) # [3 7 11 15]

2️⃣ 테스트 데이터 분리하기

이건 정말 필요하다. 이미 분리된 X,y 셋에서 어느정도 비율을 가지고 훈련 셋과 테스트 셋을 분리할 떄 유용하다.

scikit-learn 이용하기

# test_size에 테스트 셋을 몇 퍼센트 넣을 것인지 지정해준다. ex) 0.2 => 8:2 비율로 나누겠다.
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size= 0.2, random_state=1234)

직접 분리하기

import numpy as np
X, y = np.arange(0,24).reshape((12,2)), range(12)
# 실습을 위해 임의로 X와 y가 이미 분리 된 데이터를 생성

# 몇개까지 자를 건지 지정
n_of_train = int(len(X) * 0.8) # 데이터의 전체 길이의 80%에 해당하는 길이값을 구한다.
n_of_test = int(len(X) - n_of_train) # 전체 길이에서 80%에 해당하는 길이를 뺀다.
print(n_of_train) # 9
print(n_of_test) # 3

# 위의 값 기준으로 자르기.
X_test = X[n_of_train:] #전체 데이터 중에서 20%만큼 뒤의 데이터 저장
y_test = y[n_of_train:] #전체 데이터 중에서 20%만큼 뒤의 데이터 저장
X_train = X[:n_of_train] #전체 데이터 중에서 80%만큼 앞의 데이터 저장
y_train = y[:n_of_train] #전체 데이터 중에서 80%만큼 앞의 데이터 저장

reference

저작자표시 (새창열림)

'python > 자연어처리' 카테고리의 다른 글

[자연어처리 입문] 3. 카운트 기반의 단어 표현 (0)	2021.05.05
[자연어처리 입문] 2. 언어 모델(Language Model) (0)	2021.04.13
[Python] 한글깨짐(?)현상 정규표현식 처리 (0)	2021.03.16
[Python] Soynlp 기반 미등록단어 찾아보기 (with mecab) (0)	2021.03.11
[Python] Pandas를 이용하여 데이터를 다뤄보자. (0)	2021.03.08

개요

시작하기에 앞서, 전처리란?!

1. 토큰화(Tokenization)

* 토큰화에서 고려해야할 사항

* 한국어 토큰화의 어려움

🤔 그럼 어쩌란거지?

한국어 토큰화를 도와주는 형태소 분석기

2. 정제(Cleaning)와 정규화(Normalization)

2.1 정제(Cleaning)

2.1.1 정규 표현식(Regular Expression)

2.1.2 불필요한 단어 제거 (Removing Unnecessary Words)

➕ 한국어에서 불용어 제거하기

2.2 정규화(Normalization)

2.2.1 표제어 추출(Lemmatization)

2.2.2 어간 추출(Stemming)

3. 정수 인코딩(Integer Encoding)

➕ 실습해보기

4. 패딩(Padding)

➕ 실습해보기

5. 원-핫 인코딩(One-Hot Encoding)

➕ 예제

원-핫 인코딩의 한계

이를 보완하기 위한 벡터화 기법

⚖️ 데이터의 분리 (Splitting Data)

1️⃣ X,Y 분리하기

2️⃣ 테스트 데이터 분리하기

reference

'python > 자연어처리' 카테고리의 다른 글

티스토리툴바