구글 시트로 웹 스크래핑을 할 수 있을까? 구글 시트가 가장 인기 있는 클라우드 기반 도구로 되면서 많은 사람들이 이와 같은 생각을 할 수 있습니다.
구글 시트는 기본적인 웹 스크래퍼로 간주할 수 있습니다. 특별한 공식을 사용하여 웹 사이트에서 데이터를 추출하고 데이터를 Google 시트로 직접 가져와 동료와 공유할 수 있습니다.
이 글에서는 구글 시트로 웹 사이트에서 데이터를 추출하는 쉬운 방법과 코딩 기술 없이 웹 데이터를 추출하는 가장 좋은 대안을 배울 수 있습니다.
구글 시트 웹 스크래핑 3가지 방법
방법 1: Google 스프레드시트에서 ImportXML 사용하기
ImportXML은 구글 스프레드시트의 기능으로 웹의 XML 및 HTML 문서에서 데이터를 가져올 수 있습니다. ImportXML을 사용하면 XPath 쿼리를 지정하여 웹 페이지에서 특정 데이터를 추출하여 원하는 데이터를 찾을 수 있습니다. 간단한 단계는 다음과 같습니다.
1단계: 새 구글 시트를 연 다음 Google Chrome을 사용하여 스크랩할 웹 사이트로 이동합니다. 웹 페이지를 마우스 오른쪽 버튼을 클릭하고 “Inspect“를 선택하여 Selector 도구를 활성화합니다.
2단계: 웹 페이지의 URL을 복사하여 구글 시트에 붙여 넣습니다. 스크랩된 데이터를 표시할 셀에 “=IMPORTXML(URL, XPath expression)” 공식을 입력하고 “URL”은 웹 페이지의 URL로, “XPath expression”은 스크랩할 요소의 XPath로 입력해 주면 됩니다.
3단계: 공식 입력 후 웹 페이지의 선택된 요소에서 얻은 데이터가 자동으로 Google 시트의 해당 셀에 추출됩니다.
방법 2: ImportXML 수식으로 가격 데이터 추출하기
이 방법을 사용하여 웹 페이지의 단일 요소에서 가격 데이터를 추출할 수 있습니다.
1단계: 웹 페이지에서 가격 요소를 선택하고 마우스 오른쪽 버튼을 클릭하면 드롭다운 메뉴가 나타납니다. 그런 다음 “복사“를 선택하고 “XPath 복사“를 선택하여 요소의 XPath를 복사합니다.
2단계: 구글 시트에 “=IMPORTXML(URL, XPath expression)” 공식을 입력합니다. “XPath expression”은 방금 크롬에서 복사한 XPath입니다. XPath expression 내의 “ 를 ‘ 로 바꿉니다.
3단계: 공식을 입력한 후 가격 데이터가 자동으로 스크랩되어 Google 시트에 표시됩니다.
방법 3: 다른 공식으로 구글 시트로 데이터를 추출하는 방법
우리가 사용할 수 있는 또 다른 공식이 있습니다. 이 방법으로 웹 페이지에서 전체 테이블을 추출하여 Google 시트로 직접 가져올 수 있습니다.
구체적인 방법은 HTML 기능에서 구글 시트에 “=IMPORTML(URL, QURI, Index)” 공식을 입력하고 “URL”은 웹 페이지의 URL로, “QUERY”는 추출하려는 테이블 쿼리로, “Index”는 웹 페이지의 테이블 인덱스로 입력해 줍니다.
이 공식을 입력하면 전체 테이블이 자동으로 스크랩되어 Google 시트의 해당 셀에 표시됩니다.
구글 시트 대안: 코딩 리스 데이터 스크래핑
이제 최고의 웹 스크래핑 도구 Octoparse를 사용하여 동일한 스크래핑 작업을 쉽게 수행할 수 있는 방법을 살펴보겠습니다. 웹 사이트에서 구글 시트보다 더 많은 데이터를 추출할 수 있으며 자동 인식 모드로 코딩 없이 데이터를 가져올 수 있습니다. Octoparse는 Windows 및 Mac 디바이스에서 모두 작동하며 다운로드한 후 다음 단계를 따라 이용할 수 있습니다.
Octoparse 웹 스크래핑 소개 유튜브
구글 시트 웹 스크래핑 대안을 사용하여 웹 데이터를 추출하는 방법
1단계: Octoparse 클라이언트 다운로드 및 설치 후 Octoparse를 열고 사이드바의 “+신규”에서 “사용자 지정 작업”을 선택하여 새 작업을 만듭니다.
2단계: 작업 그룹을 선택합니다. 그런 다음 대상 웹 사이트 URL을 입력하고 “URL 저장”을 클릭합니다. 예시로 데모용 웹 사이트 https://steamspy.com/을 사용하겠습니다.
3단계: 데모용 웹 사이트가 Octoparse 내장 브라우저에 표시됩니다. Octoparse가 데이터 목록을 추출할 수 있도록 루프 목록을 만들어야 합니다.
- 테이블 행 하나를 클릭합니다(테이블 내의 임의의 파일일 수 있음). Octoparse는 유사한 항목을 자동 인식하고 빨간색으로 강조 표시합니다.
- 행 단위로 추출해야 하므로 “TR”(Table Row)을 선택합니다.
- 하나의 행을 선택한 후 팁 패널에서 “전체 세부 요소 선택” 명령을 선택합니다. 테이블에서 모든 행을 선택하려면 “전체 선택” 명령을 선택합니다.
4단계: 데이터를 추출하려면 “실행” 버튼을 클릭합니다.
데이터를 Excel, CSV, TXT 또는 기타 원하는 형식으로 내보낼 수 있습니다. Octoparse는 복사하여 붙여넣기 노가다 프로세스를 자동화합니다. 또한 Octoparse는 AJAX 또는 reCaptcha 솔루션으로 동적 웹 사이트에 대해 더 다양한 컨트롤을 할 수 있습니다.
웹 사이트 데이터를 스크랩하는 것에 대해 더 많은 것을 알고 싶다면 Octoparse 도움말 센터에서 알아보십시오. 프로젝트에 필요한 데이터 서비스를 찾고 있다면 Octoparse 데이터 서비스도 추천드립 니다. 당사는 귀하의 데이터 요구 사항을 이해하고 귀하가 원하는 데이터 서비스를 제공할 수 있도록 귀하와 긴밀히 협력합니다. Octoparse 데이터 전문가와 연락하여 당신의 비즈니스에 도움이 되는 최적의 웹 스크래핑 서비스를 문의하십시오.