1. Selenium을 사용하는 이유
Selenium은 GET이나 POST로 가져오기 힘든 경우 사용하면 편리하다. 예를 들어 클릭해서 로그인 후 내용을 크롤링 한다든지, 검색어를 입력해서 크롤링 하는 경우, 웹표준을 지키지 않아서 크롤링이 어려운 경우 등에 사용하면 편리하다.
2. R을 이용하여 Selenium 실행하기
*** Selenium을 사용하려면 사전에 JAVA가 설치 되어 있어야 한다.
1) 파일을 아래 링크를 통해 다운받는다. 저장은 아래 이미지와 같이 같은 폴더를 생성하여 저장한다.
selenium standalone server gecko driver chrome driver |
http://selenium-release.storage.googleapis.com/index.html |
<- 다운 받은 후 같은 폴더에 저장
2) cmd를 관리자 권한 실행한다.
검색 > 검색어 cmd 입력 > 마우스 오른쪽 버튼 클릭 > 관리자권한 실행
3) 윈도우 탐색기에서 다운받은 파일 저장폴더로 간다. 사진과 같은 위치에 오른쪽 버튼을 누른 후 경로를 복사한다.
4) cmd 창에 아래와 같이 입력한다.
cd <복사한 주소 경로> (ex) cd C:\selenium
5) 아래의 명령어를 입력한다.
java -Dwebdriver.gecko.driver="geckodriver.exe" -jar selenium-server-standalone-x.x.x.jar -port 4445
x.x.x.jar의 x.x.x는 다운받은 selenium의 버전을 입력해주면 된다.
(ex) java -Dwebdriver.gecko.driver="geckodriver.exe" -jar selenium-server-standalone-3.5.3.jar -port 4445
아래와 비슷하게 뜨면 성공한 것.
6) 이제 위 창은 유지해둔 채로 R studio를 실행시키고 아래의 코드를 입력한다.
install.packages(‘RSelenium’)
library(RSelenium)
remDr <- remoteDriver(remoteServerAddr = "localhost" ,
port = 4445L, # port 번호 입력
browserName = "chrome")
# browserName : 실행 브라우저 입력
remDr$open()
# 브라우저가 실행되면 성공
# 접속할 사이트 입력
remDr$navigate("https://www.google.com") # google로 연결 됨
'Statistics > R' 카테고리의 다른 글
[R] 결측값 데이터 다루기 (0) | 2018.04.25 |
---|---|
R Data Structure 데이터 구조 (0) | 2018.04.25 |