logo
languageKRdown
menu

웹 스크래핑 101: 페이지 넘기기 방식 정리편

5 분 열독

페이지네이션은 웹 디자인에서 널리 사용되는 기술로, 콘텐츠를 여러 페이지로 나누어 웹 방문자가 웹 페이지 구조를 훨씬 더 쉽게 이해할 수 있는 방식으로 대량의 웹 데이터 좀 더 정연하게 보여줍니다. 

웹 사이트에서 흔히 사용하는 페이지네이션 방법에는 “다음” 버튼이 있는 페이지네이션, “다음” 버튼이 없는 단순 숫자 페이지네이션, 무한 스크롤링, “더 보기” 버튼 클릭하기 등이 있습니다. 페이지네이션은 일반 웹 사이트에서는 간편하게 사용할 수 있지만 웹 스크래핑 작업을 진행할 때는 장애물로 작용할 수도 있습니다. 

웹사이트에서 데이터를 스크래핑하려고 하는데 페이지 넘기기 절차를 어떻게 처리할지에 대한 딜레마에 직면해 있다면, 저희가 해결해 드리겠습니다.  자동 웹 스크래핑 도구인 Octoparse는 다양한 페이지 구조의 웹사이트를 처리하는 것을 지원합니다. 이제 Octoparse로 다양한 종류의 페이지네이션을 처리하는 방법에 대해 설명하겠습니다.

1. “다음” 버튼이 있는 페이지네이션

다음 버튼을 클릭하여 다음 페이지로 넘어가는 것은 아마도 가장 일반적으로 사용되는 페이지 넘기기 방법 중 하나이며, 방문자가 웹사이트의 페이지를 쉽게 탐색할 수 있게 해줍니다. Octoparse에서 웹 스크래핑을 위한 이런 종류의 페이지 나누기를 처리하는 것은 매우 간단합니다.

*만약 “다음”버튼을 클릭할때 1개 페이지가 아닌 여러개 페이지를 건너뛰는 경우라면 다음으로 소개하는 두번째 페이지네이션 방법을 적용하세요.

단어 형태로 표시된 다음 버튼인 “다음”이든 “Next”이든 “>”이든 상관없이 현재 페이지에서 스크래핑이 완료된 후 버튼을 계속 클릭하기 위해 페이지 넘기기 루프를 빌드하기만 하면 됩니다. ( 자세한 튜토리얼은 여기에서  확인하세요)

2. “다음” 버튼이 없는 단순 숫자 페이지네이션

이 특정 종류의 페이지네이션 접근 방식은 다음 버튼과 매우 유사합니다. 페이지 루프를 구축하려면 줄 아래에서 다음 페이지 번호를 계속 클릭합니다. 그러나 이 경우 정적 요소를 클릭하지 않으므로 상대적 수식으로 다음 페이지 번호를 정확하게 찾는 것이 중요합니다.( 자세한 튜토리얼은 여기에서  확인하세요)

Octoparse는 XPath(XML Path Language)를 사용하여 모든 요소를 ​​찾습니다. 따라서 여기서 핵심은 페이지 넘기기 루프의 XPath를 수정하여 현재 페이지가 완전히 스크래핑되자마자 다음 페이지 번호를 빠르고 정확하게 찾을 수 있도록 하는 것입니다.

3. 무한 스크롤

무한 스크롤, 또는 “무한 스크롤링”이라고도 알려진 이 기술은 JavaScript 또는 AJAX를 사용하는 웹사이트에서 사용자가 웹페이지 하단으로 스크롤할 때 추가 콘텐츠를 동적으로 로드하는 데 가장 자주 사용되는 기술입니다. “이전/다음” 페이지네이션 버튼을 사용하는 대신 많은 웹사이트에서 무한 스크롤링으로 전환하여 사람들이 버튼을 계속 클릭하지 않아도 됩니다. 무한 스크롤링은 일반적으로 Facebook 및 Twitter와 같은 소셜 미디어 플랫폼과 같이 표시할 데이터가 엄청 많은 웹사이트에서 자주 사용됩니다. 

Octoparse는 스크롤 동작을 모방하여 무한 스크롤을 처리합니다. 로딩하려는 콘텐츠의 양에 따라 적절한 스크롤 시간과 스크롤 방법을 설정하기만 하면 페이지가 자동으로 스크롤됩니다(  여기에서 예를 확인하세요 )

4. “더 보기” 버튼

더 많은 버튼을 로드하는 탐색 방식은 무한 스크롤링에 대한 또 다른 인기 있는 대안입니다. 이 경우, 페이지 하단에 도달하면 AJAX로 콘텐츠 로딩을 트리거하는 “더 보기”와 같은 특정 버튼이 있습니다. 

Octoparse는 “더 보기” 버튼을 페이징 루프로 처리하는데, 이는 하나의 버튼을 반복적으로 클릭하는 “다음” 버튼을 처리하는 방식과 동일합니다. 그러나 “더 보기” 버튼의 경우 다음 단계로 진행하기 전에 로드 버튼이 사라질 때까지 페이징 루프를 실행해야 한다는 점이 다릅니다. 원하는 모든 콘텐츠가 로드되면 스크래핑 프로세스는 단일 페이지를 스크래핑하는 것만큼 쉽습니다(자세한 내용은  여기에서 확인하세요 )

마무리

페이지네이션을 제대로 처리하지 못하면 일부 데이터가 누락되거나 중복되는 등 귀찮고 복잡한 문제가 발생합니다. Octoparse와 같은 웹 스크래핑 도구를 잘 활용하면 웹 스크래핑을 좀 더 간단하게 해결할 수 있습니다!

몇 번의 클릭으로 웹 데이터 추출하기
코딩 없이 대부분 웹 사이트에서 쉽게 데이터를 추출할 수 있습니다.
무료 다운로드

핫 포스트

토픽 보러가기

지금부터 Octoparse 시작하세요.

다운로드

연관 글