[자연어처리] 한국어 토큰화 구현(KoNLPy)
텍스트 전처리 개론(Text preprocessing) 자연어 처리에 있어서 텍스트 전처리는 매우 중요하다. 왜냐하면 사용하는 목적에 따라 전처리를 다르게 해야하기 때문이다. 전처리를 위한 여러 기법에 대해 알아보자. 우선은 우리는 여러가지 방식으로 말뭉치(corpus)를 모았다고 가정해보다. 이러한 말뭉치 데이터가 전처리 되지 않았다면, 사용하고자 하는 목적에 맞게 토큰화(tokenization), 정제(cleaning), 정규화(normalization)을 거쳐 정규화가 진행이 된다. 토큰화(Tokenization) 토큰화란 말뭉치(corpus)에서 토큰(token)이라 불리는 단위로 나누는 작업이다. 토큰의 단위는 보통 의미를 가지는 단위로 선정된다. 토큰의 단위를 단어(word)로 잡으면 Word..
인공지능(Artificial Intelligence)/자연어 처리(natural language processing)
2020. 12. 1. 11:22
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- pandas
- TensorFlow
- Queue
- typescript
- NextJS
- nextjs autoFocus
- BFS
- read_csv
- logout
- mongoDB
- login
- next.config.js
- 클라우데라
- UserCreationForm
- Express
- 자연어처리
- error:0308010C:digital envelope routines::unsupported
- useState
- 자료구조
- useHistory 안됨
- Vue
- JavaScript
- react autoFocus
- react
- django
- vuejs
- Deque
- DFS
- nodejs
- Python
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
글 보관함