WordPiece Model(WPM)_tokenizing
0. 들어가면서 텍스트 데이터를 학습한 모델의 크기는 단어의 개수에 영향을 받는다. RNN에서는 단어 개수에 비례하여 계산비용이 증가하기 때문에 word embedding 벡터의 종류가 제한이 생기는 문제가 발생한다. 이러한 문제를 해결하기 위해 단어를 한정적인 유닛으로 표현하는 Word Picece Model(WPM)이 생겼다. WPM은 언어에 상관 없이 모두 적용 할 수 있어서 특정 언어의 토크나이저를 만들지 않아도 되지만, 그렇다고 모든 데이터 분석에 적합한 것은 아니다. 수백만개의 단어를 포함하는 데이터를 표현하기 위해서는 bag of words model에서는 단어 개수 만큼의 embedding vector를 학습하기 때문에 단어의 개수가 많을 수록 차원이 커지고 모델이 무거워진다. 이러한 문제..
인공지능(Artificial Intelligence)/자연어 처리(natural language processing)
2020. 10. 19. 19:27
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- mongoDB
- Deque
- DFS
- logout
- NextJS
- Queue
- Vue
- react autoFocus
- 클라우데라
- BFS
- 자연어처리
- 자료구조
- nodejs
- useState
- UserCreationForm
- Express
- typescript
- pandas
- react
- useHistory 안됨
- nextjs autoFocus
- next.config.js
- JavaScript
- Python
- read_csv
- vuejs
- TensorFlow
- django
- login
- error:0308010C:digital envelope routines::unsupported
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
글 보관함