Octoparse 소개
Octoparse는 최신 시각적 웹 데이터 추출 소프트웨어입니다. 숙련된 사용자든 초보 사용자든 Octoparse를 사용하면 웹사이트에서 대량의 정보를 쉽게 추출할 수 있습니다. 대부분의 스크래핑 작업에는 코딩이 필요하지 않습니다.
Octoparse는 Windows XP, 7, 8, 10을 지원합니다. 정적 웹사이트는 물론 Ajax를 사용하는 동적 웹사이트에도 잘 작동합니다. 데이터 내보내기는 CSV, Excel, HTML, TXT 등 다양한 형식과 데이터베이스(MySQL, SQL Server, Oracle API)를 선택할 수 있습니다. Octoparse는 웹 페이지와의 상호 작용을 위해 사람의 동작을 시뮬레이션합니다.
양식 작성, 텍스트 입력창에 검색어 입력 등과 같은 뛰어난 기능 덕분에 웹 데이터 추출이 간편해집니다. 추출 프로젝트는 로컬 컴퓨터( 로컬 추출 ) 또는 클라우드( 클라우드 추출 )에서 실행할 수 있습니다.
저희 고객 중 일부는 대규모 데이터 추출 요구 사항을 충족하기 위해 대량의 데이터를 추출하고 저장할 수 있는 Octoparse의 클라우드 서비스를 이용하고 있습니다.
Octoparse 무료 버전과 유료 버전은 몇 가지 기능을 공유합니다. 유료 버전을 사용하면 Octoparse 클라우드 서비스를 통해 연중무휴 24시간 언제든지 방대한 양의 데이터를 추출할 수 있습니다. 각 요금제의 가격은 여기에서 확인할 수 있습니다 .
워크플로우
Octoparse는 매우 사용자 친화적이고 직관적인 시각적 작업 창을 제공합니다. 웹 페이지를 열고, 계정에 로그인하고, 텍스트를 입력하고, 웹 요소를 가리키는 등 사람의 웹 브라우징 행동을 시뮬레이션합니다. 내장 브라우저에서 웹사이트의 정보를 클릭하고 추출을 시작하면 필요한 구조화된 데이터를 얻을 수 있습니다.
Octoparse에는 두 가지 추출 모드( 작업 템플릿 모드 와 사용자 지정 모드) 가 있습니다 . Octoparse를 시작하는 데는 30분 정도면 충분하며, 프로그래밍 경험이 있는 사람은 그보다 더 짧은 시간에 익숙해질 수 있습니다.
클라우드 추출
Octoparse의 가장 강력한 기능은 분산 컴퓨팅 기반의 대규모 웹 스크래핑 동시 처리입니다. 스크래핑 프로젝트를 클라우드에 업로드한 후, 여러 클라우드 서버를 활용하여 동시에 데이터 추출을 진행할 수 있습니다. 단시간 내에 10,000개의 웹 페이지를 스크래핑해야 하는 경우 Octoparse 클라우드 서비스가 가장 적합합니다. 스탠다드 플랜을 구독하시면 최대 10개의 클라우드 서버를 사용하여 데이터 추출 속도를 크게 향상시킬 수 있습니다. 정기적인 데이터 추출을 위한 시간 스케줄을 설정할 수도 있습니다.
사용자 지정 모드
사용자 지정 모드에서는 다양한 도구를 사용할 수 있습니다. 이러한 도구에는 다음이 포함됩니다.
# 정규 표현식 도구 #
# XPath 도구 #
# API #
…
사용자 경험을 개선하기 위해 Octoparse는 내장된 정규 표현식 생성기를 제공합니다. 스크래핑된 필드를 정제하는 과정에서 정규 표현식을 적용해야 할 수 있으므로, 이 기능은 정규 표현식 생성 및 검증 모두에 매우 유용합니다.
API
Octoparse API를 사용하면 시스템을 다양한 데이터에 실시간으로 쉽게 연결할 수 있습니다. Octoparse 데이터를 자체 데이터베이스로 가져오거나, API를 사용하여 계정 데이터에 대한 접근 권한을 설정할 수 있습니다. 작업에 필요한 규칙을 구성하기만 하면 Octoparse 클라우드 서버가 나머지를 처리합니다. 데이터는 XML 형식으로 반환됩니다.
Octoparse 표준 API를 사용하려면 최소 하나 이상의 실행 가능한 작업이 설정된 Standard 또는 Professional 구독 계정이 필요합니다.
프록시
자주 웹사이트를 스크래핑하다 보면 IP 주소가 차단되어 접속할 수 없게 되는 경우가 있는데, 이런 상황은 정말 짜증 나지 않으세요? 특히 봇 방지 조치가 엄격한 비즈니스 디렉토리에서 데이터를 추출할 때 이런 문제가 자주 발생합니다. Octoparse는 익명 HTTP 프록시 서버를 순환시켜 이러한 웹사이트에서도 안전하게 스크래핑할 수 있도록 지원합니다. 클라우드 추출 모드에서는 Octoparse가 다양한 타사 프록시 서버를 자동으로 활용하여 IP 주소를 순환시켜 줍니다. 로컬 추출 모드에서는 외부 프록시 주소 목록을 수동으로 추가하고 자동 순환 설정을 구성할 수 있습니다.
IP 주소는 사용자가 설정한 특정 시간 간격으로 순환됩니다. 따라서 IP 주소 차단 위험 없이 웹사이트에서 데이터를 추출할 수 있습니다.



