0. 들어가면서 사실 자연어 처리에 관련 전반적인 초보자를 위한 글을 적기는 쉽지 않은 것 같다. 왜냐하면, 초보자 기준으로는 생각해 보겠다. 자연어 처리를 하기 위해선 기본적으로 머신러닝과 딥러닝에 대한 차이점부터 알아야 한다. 그 후에 관련 여러 모델들을 사용해 보면서 모델들의 장단점을 파악한 이후에 사용하고자 하는 목적에 맞게 선정을 할 수 있어야 한다. 그리고 모델에 input 값을 넣을 수 있도록 text data를 전 처리하는 방법도 알아야 한다. 뿐만 아니라 개념을 다 안다고 해도, tensorflow 사용법을 익히지 않는다면 사실 사용할 수가 없다. 사실 빠르게 기술 구현만 하면 되는 분들은 RNN, LSTM 같은 것들을 할 필요 없이 사전훈련모델인 bert만 알면 되는데, 어디서 부터 어..
즐겁게 하둡과 얀, 스파크를 설치하고 이제 사용을 해보려 한다. $ hadoop fs -ls /user/spark 얀은 잘 들어가지는데, 위의 명령어로 spark에 들어가려고 하면 인증 에러가 계속 발생한다. 에러를 자세히 보면, 아래와 같다. inode="/user/spark":spark:spark:drwxr-x--x 쉽게 말하면, 권한 자체가 spark만 접근이 가능한 것이다. 소유 그룹을 확인해 보면, yarn은 supergroup에 묶여있지만, spark는 spark그룹에 묶여있기 떄문이다. 아래의 명령어를 통해 쉽게 해결가능하다. $ export HADOOP_USER_NAME=spark 명령어를 치면, 이제 스파크 접근이 가능 할 것이다.
기본적으로 클라우데라를 설치하기 위한 전 과정은 여기를 눌러서 확인하자. java.lang.OutOfMemoryError: Java heap space 이러한 에러가 발생원인은 다음과 같다. OnOutOfMemoryError는 메모리 누수(Memory leak) 상황이 발생했을 때 일어난다. 자바에서는 java.lang.OutOfMemoryError 예외(Exception)이 발생한다. 자바는 개체를 힙(Heap) 공간에 생성하고 이 생성 위치에 대한 주소를 가지고 개체 참조(Object reference)하는 방식으로 사용한다. 개체를 생성하는 과정에서 힙 공간에 개체를 할당하기 위한 공간이 부족한 경우 발생한다. 그렇다면 해결책을 찾아보면 xml파일을 수정하라는 이야기가 많다. 그러나 우리는 클라우데..
기본적인 전체 클라우데라 매니저 설치과정을 확인하기 위해서는 여기를 눌러서 확인하자. Cloudera Manager Server GC cpu usage is at 5% or more of total process time 위와 같은 문제가 발생 할 수 있다. 그 원인은 swappiness의 기본 설정은 60이다. 그러나 클라우데라는 10이 max다. 따라서 변경해줘야한다. 10으로 아래와 같이 설정을 해주면된다. $ sysctl -w vm.swappiness=10 $ sysctl -w vm.swappiness=1 보통 1~10 사이의 값으로 설정을 해준다. 10으로 설정 했는데도 힘들어 한다면 1로 변경해주면 된다.
클라우데라를 설치하다 아래와 같은 에러가 발생 할 수 있다. 결론은 인증 문제가 발생한 것이다. Exhausted available authentication methods 이러한 에러는 보통 다른 서버들 간의 통신 시 자동접속이 되지 않기 때문에 발생하는 오류이다. keygen과 hostname설정까지 다 하고, 기본적으로 설치전 setting을 했다고 가정을 하면, 아래와 같은 이유로 안되는 경우가 많다. vi /etc/ssh/sshd_config 에 들어가서 PermitRootLogin부분을 찾아서 아래와 같이 바꿔주면 된다. PermitRootLogin yes 그리고 이 설정을 앞부분에 했다면 이 부분이 설정이 풀리는 경우가 있으니 다시 들어가서 확인을 하자. 그후에 ssh를 재시작하면 된다. $..
클라우데라에서는 openJDK를 사용하면 힙이 증가로 에러가 발생한다. 그래서 설치했던 OpenJDK를 제거하면서 글을 남겨 보겠다. 오라클 JDK 설치를 위해서는 여기를 눌러보자. 설치 명령어는 아래와 같다. $ sudo apt-get install openjdk-8-jdk $ java -version openjdk version "1.8.0_292" OpenJDK Runtime Environment (build 1.8.0_292-8u292-b10-0ubuntu1~18.04-b10) OpenJDK 64-Bit Server VM (build 25.292-b10, mixed mode) 제거 명령어는 아래와 같다. $ sudo apt-get remove openjdk* $ sudo apt-get autore..
Installation CDH(Cloudera's Distribution for Hadoop) CDH는 hadoop, hbase, zookeeper 등의 프레임워크를 자동 설치해주고 편리한 인터페이스로 관리하게 해주는 cloudera manager이다. 하둡에코시스템. 하둡, 주키퍼, 스파크, 제플린 설치까지는 괜찮다. 그러나 플럼, 카프카, 스쿱 등 다양한 에코시스템을 설치하다 보면 설치가 굉장히 까다롭고 복잡해진다. 그래서 CDH를 설치해 보자 기본적으로 우분투 환경에서 설치하였다. cloudera 공식문서 설치전 Configure Network Names(네트워크 이름 구성) 시작 전에 루트 계정으로 진행을 해주자. // root 계정으로 진행 $ sudo -i 1. Set the hostname ..
사실 openJDK로 설치를 하면 설치가 쉽게 가능하다. 그러나 서버별로 충돌이 일어날 수 있기 때문에 가능하면 아래의 방식으로 파일을 다운 받은 후에 설치를 진행하자. 자세한 open JDK 설명을 위해서는 여기를 통해 확인하자. ''' 간단히 자사를 설치하려면 사실 java --version 이라고 치면 추천 명령어가 나온다. 그것을 그대로 명령어로 치면 된다. ''' 만약 클라우데라를 통해 하둡, HDFS 등을 설치한다면, 반드시 openJDK가 아닌 Oracle JDK를 설치해야한다. 우리가 받을 자바파일은 v1.8이다. 우선 다운로드를 해야한다. www.oracle.com/java/technologies/javase/javase-jdk8-downloads.html 위의 홈페이지에 들어가서 자신의..
- Total
- Today
- Yesterday
- 자연어처리
- read_csv
- NextJS
- mongoDB
- next.config.js
- TensorFlow
- Queue
- Deque
- 자료구조
- login
- Vue
- typescript
- react
- error:0308010C:digital envelope routines::unsupported
- Express
- vuejs
- logout
- BFS
- django
- useHistory 안됨
- nextjs autoFocus
- JavaScript
- DFS
- useState
- pandas
- UserCreationForm
- react autoFocus
- 클라우데라
- Python
- nodejs
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |