'Okt(Open Korea Text)' 태그의 글 목록

[자연어처리] 한국어 토큰화 구현(KoNLPy)

텍스트 전처리 개론(Text preprocessing) 자연어 처리에 있어서 텍스트 전처리는 매우 중요하다. 왜냐하면 사용하는 목적에 따라 전처리를 다르게 해야하기 때문이다. 전처리를 위한 여러 기법에 대해 알아보자. 우선은 우리는 여러가지 방식으로 말뭉치(corpus)를 모았다고 가정해보다. 이러한 말뭉치 데이터가 전처리 되지 않았다면, 사용하고자 하는 목적에 맞게 토큰화(tokenization), 정제(cleaning), 정규화(normalization)을 거쳐 정규화가 진행이 된다. 토큰화(Tokenization) 토큰화란 말뭉치(corpus)에서 토큰(token)이라 불리는 단위로 나누는 작업이다. 토큰의 단위는 보통 의미를 가지는 단위로 선정된다. 토큰의 단위를 단어(word)로 잡으면 Word..

인공지능(Artificial Intelligence)/자연어 처리(natural language processing) 2020. 12. 1. 11:22

이전 1 다음

이전 다음

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

글 보관함

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

AI Platform / Web

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역