Blog Content

    티스토리 뷰

    R을 이용한 Selenium 실행 (Windows 10 기준)

    1. Selenium을 사용하는 이유

     SeleniumGET이나 POST로 가져오기 힘든 경우 사용하면 편리하다. 예를 들어 클릭해서 로그인 후 내용을 크롤링 한다든지, 검색어를 입력해서 크롤링 하는 경우, 웹표준을 지키지 않아서 크롤링이 어려운 경우 등에 사용하면 편리하다.


    2. R을 이용하여 Selenium 실행하기

    *** Selenium을 사용하려면 사전에 JAVA가 설치 되어 있어야 한다.

     

    1) 파일을 아래 링크를 통해 다운받는다. 저장은 아래 이미지와 같이 같은 폴더를 생성하여 저장한다. 


    selenium standalone server

    gecko driver

    chrome driver

     http://selenium-release.storage.googleapis.com/index.html 

     https://github.com/mozilla/geckodriver/releases/tag/v0.17.0

     https://sites.google.com/a/chromium.org/chromedriver/

     <- 다운 받은 후 같은 폴더에 저장

     

    2) cmd를 관리자 권한 실행한다.

    검색 > 검색어 cmd 입력 > 마우스 오른쪽 버튼 클릭 > 관리자권한 실행

     

    3) 윈도우 탐색기에서 다운받은 파일 저장폴더로 간다. 사진과 같은 위치에 오른쪽 버튼을 누른 후 경로를 복사한다.

     


     

     

     

     

     

    4) cmd 창에 아래와 같이 입력한다.

    cd <복사한 주소 경로>   (ex) cd C:\selenium

     

     


     

     

     

     

     

    5) 아래의 명령어를 입력한다.

    java -Dwebdriver.gecko.driver="geckodriver.exe" -jar selenium-server-standalone-x.x.x.jar -port 4445

    x.x.x.jar의 x.x.x는 다운받은 selenium의 버전을 입력해주면 된다.

    (ex)  java -Dwebdriver.gecko.driver="geckodriver.exe" -jar selenium-server-standalone-3.5.3.jar -port 4445

    아래와 비슷하게 뜨면 성공한 것.

     

    6) 이제 위 창은 유지해둔 채로 R studio를 실행시키고 아래의 코드를 입력한다.

    install.packages(‘RSelenium’)

    library(RSelenium)

     

     remDr <- remoteDriver(remoteServerAddr = "localhost" ,

                                                port = 4445L,   # port 번호 입력

                                                browserName = "chrome")  

                                                                # browserName : 실행 브라우저 입력

      remDr$open()

     

    # 브라우저가 실행되면 성공

       # 접속할 사이트 입력

        remDr$navigate("https://www.google.com")     # google 연결 됨

     

     

     

     

     

     


    'Statistics > R' 카테고리의 다른 글

    [R] 결측값 데이터 다루기  (0) 2018.04.25
    R Data Structure 데이터 구조  (0) 2018.04.25

    Comments