즐겁게 하둡과 얀, 스파크를 설치하고 이제 사용을 해보려 한다. $ hadoop fs -ls /user/spark 얀은 잘 들어가지는데, 위의 명령어로 spark에 들어가려고 하면 인증 에러가 계속 발생한다. 에러를 자세히 보면, 아래와 같다. inode="/user/spark":spark:spark:drwxr-x--x 쉽게 말하면, 권한 자체가 spark만 접근이 가능한 것이다. 소유 그룹을 확인해 보면, yarn은 supergroup에 묶여있지만, spark는 spark그룹에 묶여있기 떄문이다. 아래의 명령어를 통해 쉽게 해결가능하다. $ export HADOOP_USER_NAME=spark 명령어를 치면, 이제 스파크 접근이 가능 할 것이다.
기본적으로 클라우데라를 설치하기 위한 전 과정은 여기를 눌러서 확인하자. java.lang.OutOfMemoryError: Java heap space 이러한 에러가 발생원인은 다음과 같다. OnOutOfMemoryError는 메모리 누수(Memory leak) 상황이 발생했을 때 일어난다. 자바에서는 java.lang.OutOfMemoryError 예외(Exception)이 발생한다. 자바는 개체를 힙(Heap) 공간에 생성하고 이 생성 위치에 대한 주소를 가지고 개체 참조(Object reference)하는 방식으로 사용한다. 개체를 생성하는 과정에서 힙 공간에 개체를 할당하기 위한 공간이 부족한 경우 발생한다. 그렇다면 해결책을 찾아보면 xml파일을 수정하라는 이야기가 많다. 그러나 우리는 클라우데..
기본적인 전체 클라우데라 매니저 설치과정을 확인하기 위해서는 여기를 눌러서 확인하자. Cloudera Manager Server GC cpu usage is at 5% or more of total process time 위와 같은 문제가 발생 할 수 있다. 그 원인은 swappiness의 기본 설정은 60이다. 그러나 클라우데라는 10이 max다. 따라서 변경해줘야한다. 10으로 아래와 같이 설정을 해주면된다. $ sysctl -w vm.swappiness=10 $ sysctl -w vm.swappiness=1 보통 1~10 사이의 값으로 설정을 해준다. 10으로 설정 했는데도 힘들어 한다면 1로 변경해주면 된다.
클라우데라를 설치하다 아래와 같은 에러가 발생 할 수 있다. 결론은 인증 문제가 발생한 것이다. Exhausted available authentication methods 이러한 에러는 보통 다른 서버들 간의 통신 시 자동접속이 되지 않기 때문에 발생하는 오류이다. keygen과 hostname설정까지 다 하고, 기본적으로 설치전 setting을 했다고 가정을 하면, 아래와 같은 이유로 안되는 경우가 많다. vi /etc/ssh/sshd_config 에 들어가서 PermitRootLogin부분을 찾아서 아래와 같이 바꿔주면 된다. PermitRootLogin yes 그리고 이 설정을 앞부분에 했다면 이 부분이 설정이 풀리는 경우가 있으니 다시 들어가서 확인을 하자. 그후에 ssh를 재시작하면 된다. $..
클라우데라에서는 openJDK를 사용하면 힙이 증가로 에러가 발생한다. 그래서 설치했던 OpenJDK를 제거하면서 글을 남겨 보겠다. 오라클 JDK 설치를 위해서는 여기를 눌러보자. 설치 명령어는 아래와 같다. $ sudo apt-get install openjdk-8-jdk $ java -version openjdk version "1.8.0_292" OpenJDK Runtime Environment (build 1.8.0_292-8u292-b10-0ubuntu1~18.04-b10) OpenJDK 64-Bit Server VM (build 25.292-b10, mixed mode) 제거 명령어는 아래와 같다. $ sudo apt-get remove openjdk* $ sudo apt-get autore..
Installation CDH(Cloudera's Distribution for Hadoop) CDH는 hadoop, hbase, zookeeper 등의 프레임워크를 자동 설치해주고 편리한 인터페이스로 관리하게 해주는 cloudera manager이다. 하둡에코시스템. 하둡, 주키퍼, 스파크, 제플린 설치까지는 괜찮다. 그러나 플럼, 카프카, 스쿱 등 다양한 에코시스템을 설치하다 보면 설치가 굉장히 까다롭고 복잡해진다. 그래서 CDH를 설치해 보자 기본적으로 우분투 환경에서 설치하였다. cloudera 공식문서 설치전 Configure Network Names(네트워크 이름 구성) 시작 전에 루트 계정으로 진행을 해주자. // root 계정으로 진행 $ sudo -i 1. Set the hostname ..
현재 개발되고 있는 환경은 윈도우에서 설치한 linux환경을 기준으로 설명을 하겠다. 리눅스 서버에 flume을 설치해보자. 기본적으로 자바 JDK가 설치가 되어 있어야 한다. $ cd /usr/local/ $ mkdir applications $ cd applications user은 어플리케이션이나 라이브러리를 설치할 수 있는 디렉토리이다. 디렉토리에 들어가서 폴더를 하나 만들자. 여기에 apache flume을 설치할 것이다. 이제 홈페이지를 들어가자. flume.apache.org/download.html Download — Apache Flume flume.apache.org 위의 url에 들어가면 아래의 그림이 보일 것이다. binary에서 첫번째부분을 눌러준다. binary는 압축을 풀면, ..
하둡에 대해 알아보기 전에 큰 흐름에서의 하둡에 대해 이해를 해보자. 하둡은 기본적으로 빅데이터를 처리하는 과정 속에서 사용되어진다. 빅데이터를 처리하는 흐름으로는 우선 데이터를 수집한 후에, 저장하고 처리한다. 그 결과를 바탕으로 분석하고 결과를 표현하게 된다. 이러한 단계 중에 빅데이터를 어떻게 저장하고, 저장된 정보를 어떻게 잘 처리하는지에 대한 부분이 하둡이 담당하는 역할이라고 할 수 있다. Hadoop (High-Availability Distributed Object-Oriented Platform) 자바 소프트웨어 프레임워크로 대량의 자료(빅데이터)의 분산 저장과 분석을 위한 분산 컴퓨팅 솔루션이다. 일반적으로 하둡파일시스템(HDFS)과 맵리듀스(MapReduce)프레임워크로 시작되었으나, ..
- Total
- Today
- Yesterday
- logout
- NextJS
- nodejs
- JavaScript
- login
- react
- django
- typescript
- UserCreationForm
- Queue
- useState
- Python
- Express
- TensorFlow
- useHistory 안됨
- mongoDB
- 자료구조
- pandas
- 자연어처리
- Vue
- error:0308010C:digital envelope routines::unsupported
- Deque
- next.config.js
- react autoFocus
- read_csv
- nextjs autoFocus
- 클라우데라
- BFS
- vuejs
- DFS
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |