티스토리 뷰

반응형

kaggle에 대해 간단히 알아보고 kaggle에서 데이터를 받는 여러가지 방법에 대해 알아보자. 데이터를 제공해 주는 여러 사이트가 많다. 그 중 구글이 인수한 이후에 kaggle이 탄탄한 회사가 되고 있다고 말할 수 있다.

 

 

www.kaggle.com/

 

Kaggle: Your Machine Learning and Data Science Community

Kaggle is the world’s largest data science community with powerful tools and resources to help you achieve your data science goals.

www.kaggle.com

 

위의 주소가 캐글이다. 캐글 안에서는 주어진 대회로 각자가 기획한 모델을 통해 점수를 받고 다른 사람과 경쟁을 하는 구조다. 대회에서 우승을 한다면 수백만 원에서 수천만 원에 이르는 상금을 얻기도 한다. 뿐만 아니라 데이터도 제공해주기 때문에 자연어 처리문제나 여러 데이터를 가져와서 공부해 보자.

 

 

정리하면, 캐글에서 우리는 데이터를 받거나 올릴 수 있고, kernel(dataset을 다루는 방법)을 만들어서 공유할 수 있다. 그리고 어려운 문제를 도전하여 상금을 받거나, 캐글의 꽃인 competition을 통해 데이터로 머신러닝 모델을 만들어서 사람들과 성능으로 경쟁할 수 있다고 할 수 있다.

 

 

 

우선 navbar에 있는 목록들에 대해 간단히 알아보자.

  • Home : 공유한 내용과 나의 내용들을 할 수 있다.

  • Compete : 경쟁관련된 내용을 볼 수 있다.

    • active : 얼마의 상금, 참여 수라든지 여러가지가 나와있다. 끝나는 기간도 적혀있다. 현재 진행중인

  • Data

    • Public : 공개된 데이터

    • Your Datasets : 내가 올린 데이터

    • Favorites : 내가 좋아하는 데이터

  • notebook : 주피터 노트북과 비슷한 형식이다. 데이터 가져와서 competition에 제출하는 것 까지 한번에 가능하다.

  • Courses : 영어가 된다면 다양한 자료를 공부하기 좋다.

 

 

 

데이터를 코랩에서 명령어로 쉽게 받기 위한 설정을 시작하자.

 

 

kaggle API 설정하기

Home에서 오른편에 있는 프로필의 자신의 아이디를 클릭하자. 그리고 Account를 눌러 아래로 스크롤을 내려보면 API라는 것이 보인다.

 

 

Read the docs를 눌러보면 사용법이 나온다. 깃헙 파일로 넘어가서 아래의 관련 명령어나 API 사용법이 나온다. 우리는 Create New API Token을 눌러 API Token을 생성하자. `Create New API Token`를 누르면 kaggle.json이 다운받아진다. 열어보면 Json 형식으로 username과 key가 적혀있는 것을 할 수 있다. 그부분을 가져와서 API를 사용할 것이다.

 

 

우선은 코랩으로 setting를 진행해 보자.

 

 

코랩 API 세팅하기

코렙을 실행하자. 그리고 설치를 아래의 명령어로 실행하자.

 

!pip install kaggle --upgrade

 

 

아래의 방식은 파이썬에서 os를 이용해서 환경변수를 setting하는 방법이다.

 

import os

os.environ['KAGGLE_USERNAME'] = 'json에적힌username'
os.environ['KAGGLE_KEY'] = 'json에적힌key'

 

 

 

설치가 잘 됐는지 확인하기 위해 아래의 명령어를 통해 확인 가능하다.

 

!kaggle -h

 

 

데이터를 받아오자.

 

 

위의 사진과 같이 원하는 데이터의 API가 블랙처리된 글자 부분이다 저부분을 복사해서 명령어로 치자.

 

!kaggle competitions download -c hubmap-kidney-segmentation

 

 

만약 zip 파일로 묶여 있다면, 아래의 명령어로 간단히 해결가능하다.

 

!unzip '*.zip'

 

 

마지막으로 아래의 명령어로 다운로드된 데이터를 확인할 수 있다.

 

!ls

 

 

 

 


사실 colab으로 사용하는 방법이 변하여 위에 설명했지만, 다른 방식으로 사용하고 싶은 사람이 있을 수도 있어 아래의 설명을 추가한다.

 

 

bag of words meets bags of popcorn라는 문제의 데이터를 받아보자. 홈페이지를 들어가서 competition을 누른 후에 bag of words meets bags of popcorn을 검색하면 아래와 같은 페이지를 볼 수 있을 것이다. 페이지를 보면, dataset에는 데이터를 받을 수 있고, Competition에는 해결해야 할 문제들이 있는 것을 볼 수 있다.

 

 

 

 

위의 문제들을 눌러서 들어가 보자. 데이터를 받기위해서는 직접 받는 방법캐글 API를 사용해서 받는 두 가지의 방법이 있는 것을 확인 할 수 있다. 직접 받는 방법은 마우스로 다운로드를 클릭해서 받는 방법이고, 우리는 코랩이 아닌 우리 개인 노트북(주피터 노트북)에서 API 설정하는 방법도 알아보자.

 

 

1. 설치하기

# conda
$ conda install kaggle

 

설치가 된다면 계정과 연동을 해야한다. 코랩연동에서 배운것과 같이 캐글을 가입한 후에 Account 탭에 가서 'create API Token'을 선택하고 kaggle.json파일을 받는다. kaggle.json에는 본인 인증서가 있음을 참고하자. 받은 파일을 다음 위치에 저장하자.

 

# 윈도우
C:\Users\<사용자명>\.kaggle

# 리눅스
/<사용자 홈 디렉터리>/.kaggle

 

 

 

2. 다운받기

cmd를 활용해서 원하는 파일 위치로 이동하여 시작한다.

 

데이터 받기

$ kaggle competitions download -c <competition-name>

 

 

데이터 목록 확인

$ kaggle competitions submit <competition-name> -f <file-name> -m <message>

 

 

대회 목록 확인

$ kaggle competitions list

 

 

 

3. 마무리

캐글을 시작할 준비를 마쳤다고 할 수 있다. 여러 데이터를 통해 실습한 내용을 하나씩 올려보겠다.

 

 

 

반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/04   »
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30
글 보관함