0. 들어가면서 Beautiful Soup은 주로 웹 크롤링(web crawling)에 사용되는 라이브러리로 HTML 문서나 XML 문서에서 데이터를 불러오는 데 사용된다. 자연어 처리에서는 원하는 웹페이지를 가지고 온 후에, HTML 태그를 제거하기 위해 사용된다. 1. 설치하기 설치는 아래와 같이 하면 된다. # conda $ conda install -c anaconda beautifulsoup4 # colab (python) $ pip install beautifulsoup4 불러오려면 아래와 같이 import를 하면 된다. from bs4 import BeautifulSoup beautifulsoup에는 기본적으로 파이썬 표준라이브러리인 html 파서를 지원하지만, lxml이라는 모듈이 더 빠르..
0. 들어가면서 사실 자연어 처리에 관련 전반적인 초보자를 위한 글을 적기는 쉽지 않은 것 같다. 왜냐하면, 초보자 기준으로는 생각해 보겠다. 자연어 처리를 하기 위해선 기본적으로 머신러닝과 딥러닝에 대한 차이점부터 알아야 한다. 그 후에 관련 여러 모델들을 사용해 보면서 모델들의 장단점을 파악한 이후에 사용하고자 하는 목적에 맞게 선정을 할 수 있어야 한다. 그리고 모델에 input 값을 넣을 수 있도록 text data를 전 처리하는 방법도 알아야 한다. 뿐만 아니라 개념을 다 안다고 해도, tensorflow 사용법을 익히지 않는다면 사실 사용할 수가 없다. 사실 빠르게 기술 구현만 하면 되는 분들은 RNN, LSTM 같은 것들을 할 필요 없이 사전훈련모델인 bert만 알면 되는데, 어디서 부터 어..
random은 자주 쓰이긴 하지만, 딱히 기억이 잘 나지 않는다. 그래서 따로 정리해 두려고 한다. 기본적으로 아래와 같이 numpy를 불러오자. import numpy as np 기본적으로 Random sampling을 하기위해서는 무작위로 숫자를 뽑기보단 정규분포나 균등분포에 해당하는 값을 자주 뽑아서 사용한다. 그래서 우선 정규분포와 균등분포의 랜덤값을 뽑는 방식을 사용해 보자. 균등분포(random.uniform) 균등분포란 분포가 특정 범위 내에서 균등하게 나타나 있을 경우이다. 코드는 아래와 같다. x = np.random.uniform(0, 1, 100) x.mean() # 0.4603131627939298 plt.plot(x) plt.show() 인자는 최소값, 최대값, 개수 순서로 넣어주..
( 계속 업데이트를 진행하고 있다. 외국자료를 포함하여 추가적으로 업데이트를 계속 할 예정이다. 현재 지도학습 추가중 ) 0. 들어가면서 AI(인공지능)가 무엇인가? Machine Learning(머신러닝)이 무엇인가? 그러면 둘의 차이는 무엇인가? 하나씩 알아나가 보자. 우선은 학습(Learning) 알고리즘에 대해 이해해 보자. 인터넷 검색 시, 검색을 잘하기 위해서는 보통 학습 알고리즘을 사용한다. 그리고 이메일 중에 스팸메일을 걸러주게 되는것도 학습 알고리즘을 이용해서 걸러준다. 인간의 뇌와 비슷(인공지능)하게 지능을 가진 기계를 만들기 위해서는 학습 알고리즘(지도학습, 비지도학습, 강화학습)이 사용된다. 사람들은 기계가 지능을 가져 몇몇 간단한 일들을 스스로 해내길 원했고 이런 목적으로 기계를 ..
kaggle에 대해 간단히 알아보고 kaggle에서 데이터를 받는 여러가지 방법에 대해 알아보자. 데이터를 제공해 주는 여러 사이트가 많다. 그 중 구글이 인수한 이후에 kaggle이 탄탄한 회사가 되고 있다고 말할 수 있다. www.kaggle.com/ Kaggle: Your Machine Learning and Data Science Community Kaggle is the world’s largest data science community with powerful tools and resources to help you achieve your data science goals. www.kaggle.com 위의 주소가 캐글이다. 캐글 안에서는 주어진 대회로 각자가 기획한 모델을 통해 점수를 받고 ..
사실 비전공자인 필자는 처음 CNN을 처음 배울 때, CNN이 무슨 말인지 하나도 몰랐다. 그래서 그때를 생각하며 최대한 이해가 쉽도록 글을 적어보겠다. 일단 신경망에 대한 기초는 알고 있다고 판단하고 글을 적겠다. 만약 시간이 없다면, 최소한 input_layer, hidden_layer, output_layer에 대한 개념을 알아보고 계속 글을 읽자. 기본적으로 CNN은 image를 분류하기 위한 개발된 Network이다. 따라서 image에 최적화 되어 있다는 점을 인지하자. 그리고 image는 픽셀로 되어 있다. 픽셀의 색을 컴퓨터가 이해할 수 있도록 숫자로 변경을 한 후에 신경망을 통해 계산을 하는 것이다. 그렇다면, 딥러닝인 CNN이전의 머신러닝 시절에는 image를 어떻게 분류를 했을까? 딥..
> 데이터를 모델에 집어넣기 전에 데이터 사이즈를 맞춰줘야 한다. 기본적으로 tensorflow에서 제공하는 MNIST 예제를 통해 데이터 size를 변경하는 법을 알아보자. 1. 데이터 불러오기 데이터 사이즈 변경을 위한 블로그이기 때문에 코드만 간단히 적어보겠다. import tensorflow as tf from tensorflow.keras import datasets mnist = datasets.mnist (train_x, train_y), (test_x, test_y) = mnist.load_data() print(train_x.shape) ''' (6000, 28, 28) ''' train_x.shape 로 결과 값을 보면, 6000개의 데이터가 (28, 28)로 가로 픽셀이 지정되어 있는..
로지스틱 회귀에 대한 개념과 코드, 발생하는 오류까지 전부를 정리하겠다. 기초 개념 로지스틱 회귀(Logistic Regression)는 회귀를 사용하여 데이터가 어떤 범주에 속할 확률을 0에서 1 사이의 값으로 예측하고 그 확률에 따라 가능성이 더 높은 범주에 속하는 것으로 분류해주는 지도 학습 알고리즘이다. 주의해야할 점은 로지스틱 회귀에 회귀가 들어간다고 회귀문제가 아니다. 단지 회귀(Regression)원리를 사용하여 분류(classification)을 하기 때문에 이름에 회귀가 포함된 것이다. 즉, 로지스틱 회귀는 분류라고 할 수 있다. 먼저 로지스틱 회귀와 선형회귀는 다르다. 선형회귀는 공부시간과 성적의 관계를 직선으로 나타내서 예측하는 것이다. 로지스틱 회귀는 데이터가 어떤 범주에 속할 확률..
- Total
- Today
- Yesterday
- read_csv
- login
- BFS
- TensorFlow
- react
- pandas
- 자료구조
- UserCreationForm
- 클라우데라
- error:0308010C:digital envelope routines::unsupported
- nodejs
- vuejs
- mongoDB
- NextJS
- react autoFocus
- typescript
- Deque
- DFS
- JavaScript
- logout
- Python
- useState
- useHistory 안됨
- Vue
- 자연어처리
- django
- next.config.js
- Express
- nextjs autoFocus
- Queue
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |