0. 들어가면서 Beautiful Soup은 주로 웹 크롤링(web crawling)에 사용되는 라이브러리로 HTML 문서나 XML 문서에서 데이터를 불러오는 데 사용된다. 자연어 처리에서는 원하는 웹페이지를 가지고 온 후에, HTML 태그를 제거하기 위해 사용된다. 1. 설치하기 설치는 아래와 같이 하면 된다. # conda $ conda install -c anaconda beautifulsoup4 # colab (python) $ pip install beautifulsoup4 불러오려면 아래와 같이 import를 하면 된다. from bs4 import BeautifulSoup beautifulsoup에는 기본적으로 파이썬 표준라이브러리인 html 파서를 지원하지만, lxml이라는 모듈이 더 빠르..
0. 들어가면서 사실 자연어 처리에 관련 전반적인 초보자를 위한 글을 적기는 쉽지 않은 것 같다. 왜냐하면, 초보자 기준으로는 생각해 보겠다. 자연어 처리를 하기 위해선 기본적으로 머신러닝과 딥러닝에 대한 차이점부터 알아야 한다. 그 후에 관련 여러 모델들을 사용해 보면서 모델들의 장단점을 파악한 이후에 사용하고자 하는 목적에 맞게 선정을 할 수 있어야 한다. 그리고 모델에 input 값을 넣을 수 있도록 text data를 전 처리하는 방법도 알아야 한다. 뿐만 아니라 개념을 다 안다고 해도, tensorflow 사용법을 익히지 않는다면 사실 사용할 수가 없다. 사실 빠르게 기술 구현만 하면 되는 분들은 RNN, LSTM 같은 것들을 할 필요 없이 사전훈련모델인 bert만 알면 되는데, 어디서 부터 어..
0. 들어가면서 from tensorflow.keras.preprocessing.text import Tokenizer tensorflow를 활용하여 Tokenizer로 전처리하는 방법을 알아보자. Tokenizer로 처음부터 모델 넣기 전까지의 과정을 진행해 보자. 자연어 처리에 대해 좀 더 알아보려면 아래의 블로그를 참고하자. han-py.tistory.com/281 1. Tokenizer란 Tokenizer은 사전에 있는 단어의 순서에 맞게 단어를 turning하면서 말뭉치를 벡터화시킨다. tf.keras.preprocessing.text.Tokenizer( num_words=None, filters='!"#$%&()*+,-./:;?@[\\]^_`{|}~\t\n', lower=True, split=..
텍스트 전처리 개론(Text preprocessing) 자연어 처리에 있어서 텍스트 전처리는 매우 중요하다. 왜냐하면 사용하는 목적에 따라 전처리를 다르게 해야하기 때문이다. 전처리를 위한 여러 기법에 대해 알아보자. 우선은 우리는 여러가지 방식으로 말뭉치(corpus)를 모았다고 가정해보다. 이러한 말뭉치 데이터가 전처리 되지 않았다면, 사용하고자 하는 목적에 맞게 토큰화(tokenization), 정제(cleaning), 정규화(normalization)을 거쳐 정규화가 진행이 된다. 토큰화(Tokenization) 토큰화란 말뭉치(corpus)에서 토큰(token)이라 불리는 단위로 나누는 작업이다. 토큰의 단위는 보통 의미를 가지는 단위로 선정된다. 토큰의 단위를 단어(word)로 잡으면 Word..
0. 들어가면서 기본적으로 자연어 처리에 대한 기초 기념에 대해서는 아래의 블로그를 참고하자. 지금은 one-hot encoding 구현에 중점을 주고 적어보겠다. han-py.tistory.com/281 원-핫 인코딩(one-hot encoding)은 컴퓨터가 text를 이해할 수 있도록 수치화하는 가장 기초적인 방법 중 하나이다. 단어 하나당 전부에 정수 인덱스를 부여하는 방식이다. 코드를 통해 더 좀 더 알아보자. 1. one-hot encoding 구현 우리는 총 4가지 방법으로 one-hot encoding을 구현할 것이다. 1.1. 단어를 기준으로 one-hot 인코딩하기 #word. one-hot encoding import numpy as np samples = ['나는 오늘도 어제처럼 자..
0. 들어가면서 re은 파이썬 정규 표현식(Regular Expression)의 라이브러리다. 따라서 내장 라이브러리로 별다른 설치 없이 바로 사용 가능하다. re은 문자열을 쉽게 다룰 수 있기 때문에 문자열 데이터를 다루는 자연어 처리 분야에서 많이 사용된다. 당연하게도 전처리 과정에서 많이 사용한다. 아래의 블로그는 최소한의 간단한 예를 적은 것이다. 좀 더 자세한 설명과 많은 예제를 찾기 위해서는 아래의 정규식을 눌러보자. 정규식이란(Regular Expression), 1. 정규 표현식(Regular Expression) re을 들어가기 전에 기본적으로 파이썬 정규 표현식에서 사용하는 문자나 기호에 대해 알아보자. . 줄 바꿈을 제외한 모든 문자 ^ 문자열의 시작 $ 문자열의 끝 * 앞에 있는 문..
0. 들어가면서 판다스(Pandas)는 파이썬 라이브러리 중 하나로 편리하게 데이터 구조와 데이터 분석 기능을 제공한다. 따라서 데이터를 다룬다면 반드시 알아둬야 한다. 여기서는 자연어처리(NLP)를 하기위한 최소한의 Pandas의 기초를 알아보자. 1. 설치하기 설치는 간단하다. 아래와 같은 명령어를 치면 된다. # 아나콘다 $ conda install pandas # colab $ pip install pandas import 하는 법도 간단하다. import pandas as pd 2. 판다스(Pandas) 판다스로 사용가능한 데이터 구조는 시리즈(Series), 데이터프레임(DataFrame), 패널(Panel) 이렇게 세 가지 데이터 구조를 사용할 수 있다. 이 세 가지 데이터 구조의 다장 큰 ..
0. 들어가면서 사이킷런(scikit-learn)은 파이썬용 머신러닝 라이브러리이다. 딥러닝 모델은 텐서플로 등을 이용하여 생성할 수 있는 것과 같이 머신러닝 모델은 주로 사이킷런 라이브러리를 통해 만들 수 있다. 우리는 코드를 작성하기 위한 필수적인 부분만 요약하고 선별해서 배워볼 것이다. 1. 설치 기본적으로 사이킷런을 사용하기 위해서는 넘파이(Numpy)와 사이파이(Scipy)를 필수적으로 설치해야 한다. 물론 아나콘다에서 아래와 같이 설치하면 넘파이와 사이파이가 자동으로 설치된다. $ conda install scikit-learn 만약 colab에서 한다면 아래와 같이 shell에 넣으면 된다. $ pip install sklearn 그리고 import는 아래와 같이 한다. import skle..
- Total
- Today
- Yesterday
- vuejs
- typescript
- 자료구조
- NextJS
- 클라우데라
- BFS
- login
- django
- nextjs autoFocus
- 자연어처리
- Express
- Queue
- nodejs
- react autoFocus
- Vue
- logout
- error:0308010C:digital envelope routines::unsupported
- react
- read_csv
- pandas
- useState
- next.config.js
- DFS
- Deque
- UserCreationForm
- Python
- TensorFlow
- JavaScript
- useHistory 안됨
- mongoDB
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |