'Bow' 태그의 글 목록

[자연어 처리] 텍스트 데이터(text data)_1

0. 들어가면서 대부분 신경망이 원본을 입력르로 사용하지 못하는 것 처럼 텍스트도 텍스트 자체를 입력으로 사용할 수 없다. 딥러닝 모델은 수치형 텐서로만 다룰 수있다. 텍스트를 수치형 텐서로 변환하는 과정을 텍스트 벡터화(vectorizing text)라고 한다. 1. vectorizing text 텍스트 벡터화 하는 방법에는 크게 아래와 같이 3가지가 있다. 텍스트 => 단어 => 벡터 텍스트 => 문자 => 벡터 텍스트 => 단어나 문자의 n-그램 (연속된 단어나 문자를 하나씩 이동하면서 추출) => 벡터 위의 예를 보면 텍스트를 나누는 단위에는 단어, 문자, n-그램이 있음을 알 수 있다. 이런 단위(단어, 문자, n-그램)를 토큰이라 한다. 그리고 텍스트를 토큰으로 나누는 작업도 토큰화(token..

인공지능(Artificial Intelligence)/자연어 처리(natural language processing) 2020. 10. 28. 01:13

이전 1 다음

이전 다음

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2024/12 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

글 보관함

AI Platform / Web

티스토리툴바