텍스트 전처리 개론(Text preprocessing) 자연어 처리에 있어서 텍스트 전처리는 매우 중요하다. 왜냐하면 사용하는 목적에 따라 전처리를 다르게 해야하기 때문이다. 전처리를 위한 여러 기법에 대해 알아보자. 우선은 우리는 여러가지 방식으로 말뭉치(corpus)를 모았다고 가정해보다. 이러한 말뭉치 데이터가 전처리 되지 않았다면, 사용하고자 하는 목적에 맞게 토큰화(tokenization), 정제(cleaning), 정규화(normalization)을 거쳐 정규화가 진행이 된다. 토큰화(Tokenization) 토큰화란 말뭉치(corpus)에서 토큰(token)이라 불리는 단위로 나누는 작업이다. 토큰의 단위는 보통 의미를 가지는 단위로 선정된다. 토큰의 단위를 단어(word)로 잡으면 Word..
0. 들어가면서 기본적으로 자연어 처리에 대한 기초 기념에 대해서는 아래의 블로그를 참고하자. 지금은 one-hot encoding 구현에 중점을 주고 적어보겠다. han-py.tistory.com/281 원-핫 인코딩(one-hot encoding)은 컴퓨터가 text를 이해할 수 있도록 수치화하는 가장 기초적인 방법 중 하나이다. 단어 하나당 전부에 정수 인덱스를 부여하는 방식이다. 코드를 통해 더 좀 더 알아보자. 1. one-hot encoding 구현 우리는 총 4가지 방법으로 one-hot encoding을 구현할 것이다. 1.1. 단어를 기준으로 one-hot 인코딩하기 #word. one-hot encoding import numpy as np samples = ['나는 오늘도 어제처럼 자..
0. 들어가면서 re은 파이썬 정규 표현식(Regular Expression)의 라이브러리다. 따라서 내장 라이브러리로 별다른 설치 없이 바로 사용 가능하다. re은 문자열을 쉽게 다룰 수 있기 때문에 문자열 데이터를 다루는 자연어 처리 분야에서 많이 사용된다. 당연하게도 전처리 과정에서 많이 사용한다. 아래의 블로그는 최소한의 간단한 예를 적은 것이다. 좀 더 자세한 설명과 많은 예제를 찾기 위해서는 아래의 정규식을 눌러보자. 정규식이란(Regular Expression), 1. 정규 표현식(Regular Expression) re을 들어가기 전에 기본적으로 파이썬 정규 표현식에서 사용하는 문자나 기호에 대해 알아보자. . 줄 바꿈을 제외한 모든 문자 ^ 문자열의 시작 $ 문자열의 끝 * 앞에 있는 문..
0. 들어가면서 판다스(Pandas)는 파이썬 라이브러리 중 하나로 편리하게 데이터 구조와 데이터 분석 기능을 제공한다. 따라서 데이터를 다룬다면 반드시 알아둬야 한다. 여기서는 자연어처리(NLP)를 하기위한 최소한의 Pandas의 기초를 알아보자. 1. 설치하기 설치는 간단하다. 아래와 같은 명령어를 치면 된다. # 아나콘다 $ conda install pandas # colab $ pip install pandas import 하는 법도 간단하다. import pandas as pd 2. 판다스(Pandas) 판다스로 사용가능한 데이터 구조는 시리즈(Series), 데이터프레임(DataFrame), 패널(Panel) 이렇게 세 가지 데이터 구조를 사용할 수 있다. 이 세 가지 데이터 구조의 다장 큰 ..
0. 들어가면서 사이킷런(scikit-learn)은 파이썬용 머신러닝 라이브러리이다. 딥러닝 모델은 텐서플로 등을 이용하여 생성할 수 있는 것과 같이 머신러닝 모델은 주로 사이킷런 라이브러리를 통해 만들 수 있다. 우리는 코드를 작성하기 위한 필수적인 부분만 요약하고 선별해서 배워볼 것이다. 1. 설치 기본적으로 사이킷런을 사용하기 위해서는 넘파이(Numpy)와 사이파이(Scipy)를 필수적으로 설치해야 한다. 물론 아나콘다에서 아래와 같이 설치하면 넘파이와 사이파이가 자동으로 설치된다. $ conda install scikit-learn 만약 colab에서 한다면 아래와 같이 shell에 넣으면 된다. $ pip install sklearn 그리고 import는 아래와 같이 한다. import skle..
모델구조 이해하기 텐서플로 2.0 버전에서 케라스를 이용해 모델을 구현하는 방법을 알아보자. 전반적인 자연어처리에 대해 알려면 아래의 블로그를 참고하자' han-py.tistory.com/281 구현 순서 전처리 => 모델만들기 => 학습하기 1.단계 전처리하기 컴퓨터는 한국어를 이해할 수 없습니다. 그래서 Deep learning을 하기 위해 한국어를 컴퓨터가 이해할 수 있게 Vector로 변환하는 과정이 필요합니다. 이를 우리는 전처리라고 하고, 입력값을 임베딩된 벡터로 변형한다라고도 합니다. 활용할 구조 : 심층 신경망(Deep Neural Network) 구조 구현할 모델 : 긍정/부정을 예측하는 감정 분석(Sentiment Analysis) 시작해 볼까요? 다음의 전처리 코드를 한 줄씩 이해해 ..
[tensorflow] preprocessing(전처리) 하기 0. 들어가면서 TensorFlow로 입력값을 모델에 넣기 위해서는 딥러닝 모델이 처리 있도록 전처리라는 과정을 거쳐 숫자로 입력값을 넣어야한다. 전처리의 종류에는 여러가지가 있지만, 오늘은 tensorflow.keras에서 제공하는 text 전처리에 대해 알아 보고자 한다. 자연어 처리에 대한 전반적인 내용을 알려면 아래의 블로그를 참고하자. han-py.tistory.com/281 tf.keras.preprocessing.text 종류 tf.keras.preprocessing.text의 종류는 hashing_trick, one_hot, text_to_word_sequence, Tokenizer으로 크게 4가지가 있다. 필요한 전처리에 맞게..
tensorflow로 모델 만들기 0. 들어가면서 우리는 전 단계에서 모델을 구성하는 layers에 대해 알아 보았다. 관련 내용은 아래의 링크를 따라가 보자. han-py.tistory.com/269 [tensorflow] 자연어처리(NLP) 1. 기초다지기(layers) 0. 들어가면서 자연어처리, 즉 글자를 컴퓨터가 이해할 수 있게 만드는 것이다. CNN과 RNN의 차이도 모르고, 단 한번도 구현해 본 적이 없다면, 이곳은 오아시스 같은 해결책을 줄 수 있을 것이다. han-py.tistory.com 이제는 layer로 구성된 model을 만들어 보자. 1. tensorflow 2.0 나도 처음에 자연어처리 관련 구글링을 해서 tensorflow관련 코드를 찾아서 colab에서 진행해보면 안되는 경..
- Total
- Today
- Yesterday
- Express
- UserCreationForm
- django
- NextJS
- useState
- Vue
- error:0308010C:digital envelope routines::unsupported
- pandas
- 클라우데라
- react
- 자연어처리
- BFS
- 자료구조
- DFS
- typescript
- Deque
- TensorFlow
- vuejs
- nextjs autoFocus
- useHistory 안됨
- JavaScript
- mongoDB
- logout
- react autoFocus
- nodejs
- login
- Queue
- Python
- read_csv
- next.config.js
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |