Blog Content

  • Hadoop wordCount example

    Category Programming/Data Engineering on 2018. 4. 25. 12:33

    Hadoop Hadoop = HDFS + MapReduce Mode 3가지 HDFS 설치방법 Stand alone : 분산저장 안함, 코딩은 가능 가상분산모드 : 프로세스 3개. 맵리듀스 : 맵 상속 받음, 리듀스 상속받음. 어떻게 데이터 처리하는지 익히기. 순서 VirtualBox 설치 // 여기까지만 Windows 환경에서 진행합니다. Ubuntu 14.04.2 설치 // 이후에는 VirtualBox 내의 Ubuntu 에서 진행 JDK 설치 하둡 다운로드 하둡 Stand-alone 모드 구성 하둡 가상 분산 모드 구성 이클립스 다운로드, 설정 WordCount 예제 코딩 테스트 Ubuntu에 JDK 8 설치 $ sudo add-apt-repository ppa:webupd8team/java $ sud..

    Read more
  • HDFS의 기본 구조(HDFS Architecture)

    Category Programming/Data Engineering on 2018. 4. 25. 12:27

    HDFS Architecture HDFS Architecture 파일 저장, 읽기 : 어플리케이션에서 클라이언트로 파일 저장 또는 읽기 요청 Client : application 요청에 의해 client가 NameNode에 데이터 블록의 위치를 조회 NameNode에게 받은 Data block 위치를 통해 Client가 데이터를 직접 조회 Heart beat : DataNode가 상태를 주기적으로 보고(일종의 출석체크). Secondary NameNode NameNode가 망가지면 데이터가 어디에 저장되어 있는지 알 수 없기때문에 읽어들일 수 없으므로, NameNode를 백업해 두었다가 NameNode가 망가지면 다시 복구해 주는 역할 ​ HDFS와 MapReduce는 둘다 Master/Slave 구조 ..

    Read more
  • [Hadoop] Hadoop 완전분산모드 설치

    Category Programming/Data Engineering on 2018. 4. 14. 21:35

    "[Hadoop] Hadoop 완전분산모드 설치" VirtualBox 에 4개의 Ubuntu 를 만든다. 설치 시 사용자명은 hadoop 으로 한다. 4개를 따로 설치하거나 1개를 만들어서 3개를 복제한다. 각각 아래처럼 이름과 IP 주소를 사용할 예정. IP 주소는 각 VirtualBox에서 자동으로 생성되고 뒤에 2자리만 순서대로 변경해서 넣어주면된다. 192.168.30.101 hadoop01 192.168.30.102 hadoop02 192.168.30.103 hadoop03 192.168.30.104 hadoop04 복제 전에 할 일 hadoop01에 아래와 같이 먼저 설치한 후 복제해서 hadoop02 ~ hadoop04를 만든다. // vim 설치 $ sudo apt-get install v..

    Read more