Blog Content

  • [Python] Python에서 CSV 파일을 읽어들이는 여러가지 방법

    Category Programming/Python on 2018. 4. 25. 12:47

    방법1. 기본 내장함수 사용 1. csv.reader import csv dat = open('file.csv') reader = csv.reader(dat) lines = list(reader) 2. 한 줄씩 읽어들여서 리스트로 만들기 import csv dat1_list = [] dat2_list = [] with open('file.csv', 'r') as raw: reader = csv.reader(raw) for lines in reader: print(lines) dat1_list.append(lines) start = len(dat2_list) dat2_list[start:start] = lines 3. from_csv dat.from_csv(&#3..

    Read more
  • Hadoop wordCount example

    Category Programming/Data Engineering on 2018. 4. 25. 12:33

    Hadoop Hadoop = HDFS + MapReduce Mode 3가지 HDFS 설치방법 Stand alone : 분산저장 안함, 코딩은 가능 가상분산모드 : 프로세스 3개. 맵리듀스 : 맵 상속 받음, 리듀스 상속받음. 어떻게 데이터 처리하는지 익히기. 순서 VirtualBox 설치 // 여기까지만 Windows 환경에서 진행합니다. Ubuntu 14.04.2 설치 // 이후에는 VirtualBox 내의 Ubuntu 에서 진행 JDK 설치 하둡 다운로드 하둡 Stand-alone 모드 구성 하둡 가상 분산 모드 구성 이클립스 다운로드, 설정 WordCount 예제 코딩 테스트 Ubuntu에 JDK 8 설치 $ sudo add-apt-repository ppa:webupd8team/java $ sud..

    Read more
  • HDFS의 기본 구조(HDFS Architecture)

    Category Programming/Data Engineering on 2018. 4. 25. 12:27

    HDFS Architecture HDFS Architecture 파일 저장, 읽기 : 어플리케이션에서 클라이언트로 파일 저장 또는 읽기 요청 Client : application 요청에 의해 client가 NameNode에 데이터 블록의 위치를 조회 NameNode에게 받은 Data block 위치를 통해 Client가 데이터를 직접 조회 Heart beat : DataNode가 상태를 주기적으로 보고(일종의 출석체크). Secondary NameNode NameNode가 망가지면 데이터가 어디에 저장되어 있는지 알 수 없기때문에 읽어들일 수 없으므로, NameNode를 백업해 두었다가 NameNode가 망가지면 다시 복구해 주는 역할 ​ HDFS와 MapReduce는 둘다 Master/Slave 구조 ..

    Read more
  • R Data Structure 데이터 구조

    Category Statistics/R on 2018. 4. 25. 12:25

    R의 Data structure 데이터 구조 종류 Scalar : element가 1개인 vector이다. # scalar 만들기 a mylist[[3]] [1] "010-1234-1234" "010-2345-5678" "010-9876-5673" > mylist$info[1] [1] "Tom" ​

    Read more
  • PYTHON & DJANGO 온라인 강의 수업노트 DAY20

    Category Programming/Django on 2018. 4. 25. 12:20

    Python Django - Day20.md Day 20. Django 프로젝트 파일 구조, MTV Django 프로젝트 만들기 $ python3 -m venv django-venv $ source django-venv/bin/activate $ pip install django $ django-admin startproject firstproject 아래 구조의 프로젝트가 생성된다. Django 프로젝트 디렉토리 형태 manage.py 다양한 명령어를 수행시켜주는 매개체 역할을 한다. __init__.py 파이썬 모듈로써 동작을 할 수 있다. settings.py 여러 설정들을 기억해 두는 파일. wigs.py 웹서버에 배포를 할때 설정파일들을 연결시켜주는 파이썬 파일. Django 앱 추가해보기 so..

    Read more