Octoparse로 링크드인 직업 포스팅 가져오기

2024-05-07T01:00:00+00:00

6 분 열독

요즘같이 취업난 구인난이 고조된 인사 채용 시장에서 구인구직 웹사이트는 구직자나 채용자나 적합한 대상을 찾는 데 꼭 필요한 데이터 소스가 되었습니다. 이런 웹 사이트는 정교한 검색 필터 옵션과 업그레이드된 알고리즘을 바탕으로 구직자들에게는 적합한 직업 포스팅을 채용자에게는 값진 인사이트를 제공합니다. LinkedIn 채용 공고를 스크래핑함으로써 더 적합한 구직자와 더 좋은 회사를 효율적으로 이어줄 수 있습니다.

링크드인에서 채용 공고 내용을 수집하는 중요성

링크드인 구인 포스팅을 스크래핑하는 것은 구직자, 인사 채용 담당자 및 기타 연구원 모두에게 여러 가지 이점을 제공합니다. 데이터 수집을 자동화하여 시간과 노력을 절약할 수 있을 뿐만 아니라 작업 세부 정보를 수동으로 검색하고 복사하는 단순 노가다 형 업무를 웹 스크래핑으로 대체하여 여러 작업 포스팅 정보를 한 번에 수집할 수 있습니다.

링크드인 구인 공고를 수집하고 분석하면 현재 고용 시장에 대한 비교적 전면적인 면모를 제공받을 수 있습니다. 수집된 데이터를 빠르게 필터링하고 선별하여 기준에 따라 적절한 빈 일자리를 효과적으로 식별할 수 있습니다. 인사 채용 담당자는 이 데이터를 활용하여 업계 동향, 경쟁 분석 및 임금 통계에 대해 알 수 있습니다.

링크드인 데이터 스크래핑을 위한 합법성 고려 사항

웹 스크래핑을 시작하기 전에 각 사이트의 각 데이터를 추출하는 것이 합법적인지 이해하는 것이 중요합니다. 다른 웹사이트와 마찬가지로 크롤링 전에 LinkedIn 이용약관을 확인한 후 합법적인 선에서 데이터를 추출해야 합니다. 스크래핑은 행위 그 자체로 합법적이지만 웹 사이트의 서비스 약관을 위반하면서 금지된 데이터를 추출하는 것은 타당하지 못한 행위입니다.

LinkedIn의 서비스 이용약관과 준수사항을 읽고 준수하는 것이 중요합니다. 예를 들면:

문명한 웹 스크래핑: 당신의 웹 스크래핑 행위가 LinkedIn 정상 운영과 회사의 위상에 손상을 입히지 말아야 합니다.
출처 성명: 공개 목적으로 데이터를 사용하려면 데이터 출처가 LinkedIn임을 항상 성명해야 합니다.
개인 정보 보호: 일반 대중이 접근할 수 없는 식별성 있는 개인 정보를 수집하는 것을 금지하여 사용자의 개인 정보를 존중합니다.

Python으로 구인 공고 스크래핑하기

가장 강력한 프로그래밍 언어 중 하나인 Python은 웹 스크래핑에 사용되는 인기 있는 선택입니다. 다음은 LinkedIn에서 채용 공고를 추출하기 위한 Python 샘플 코드입니다:

from bs4 import BeautifulSoup

from selenium import webdriver

from selenium.webdriver.common.by import By

import pandas as pd

Initialize webdriver

driver = webdriver.Chrome('/path/to/chromedriver')

Search linkedin jobs

url = 'https://www.linkedin.com/jobs/search/?f_AL=true&keywords=data%20scientist&location=India'

driver.get(url)

posts = []

Get pages

for page in range(1,4):

Parse with BeautifulSoup

soup = BeautifulSoup(driver.page_source, 'html.parser')

Extract all job post divs

job_divs = soup.find_all('div', class_='job-card-container')

Loop through job post divs

for div in job_divs:

# Extract fields

title = div.find('h3', class_='base-search-card__title').text

company = div.find('h4', class_='base-search-card__company-name').text

location = div.find('span', class_='job-card-container__location').text

# Append to list

posts.append({'title':title, 'company':company, 'location':location})

Next page

if page < 3:

driver.find_element(By.XPATH, '//a[text()="Next"]').click

Convert to DataFrame

df = pd.DataFrame(posts)

print(df)

Octoparse로 LinkedIn 채용 공고를 추출하는 4단계

Python 외에도 업무 프로세스를 자동화할 수 있는 여러 웹 스크래핑 도구가 있습니다. 그러한 도구 중 하나가 Octoparse인데, 이는 LinkedIn 구인 공고를 스크랩하기 위한 사용자 친화적인 인터페이스를 제공합니다. 다음은 Octoparse로 LinkedIn 채용 공고를 스크랩하는 방법입니다.

1단계: Octoparse 다운로드 및 설치

컴퓨터에 Octoparse가 아직 설치되어 있지 않은 경우 디바이스에 Octoparse 클라이언트 소프트웨어를 무료로 다운로드하여 설치할 수 있습니다. 소프트웨어를 처음 시작할 때 회원가입으로 새 계정을 만들어야 합니다. 회원가입이 번거로우시면 Microsoft나 Google 계정을 사용하여 간편 로그인할 수 있습니다.

2단계: LinkedIn 구인 공고 스크래핑을 위한 새 작업 생성

LinkedIn 작업 포스팅을 가져올 웹 페이지의 URL을 복사하여 Octoparse의 검색창에 입력합니다. 다음으로 “시작”을 선택하여 새 작업을 시작합니다.

3단계: 링크드인 채용 공고 자동 인식

새 작업이 제작된 후 내장된 브라우저를 통하여 대상 웹 페이지로 이동합니다. 로딩이 완료되면 팁 패널에서 “웹 페이지 데이터 자동 인식하기”을 클릭합니다. Octoparse는 웹사이트를 스캔하고 원하는 데이터를 “추측”한 다음 브라우저에서 찾은 데이터를 강조 표시합니다. Octoparse의 “추측”이 적절한지 확인하려면 아래에 있는 “데이터 미리보기” 구역에서 추출 가능한 전체 데이터 필드를 확인할 수 있습니다.

4단계: 워크플로우 생성 및 수정

필요한 데이터를 모두 선택했으면 “워크플로우 생성”을 클릭합니다. 모든 스크래핑 작업을 보여주는 작업 흐름 마인드맵 – 워크플로우가 오른쪽에 나타납니다. 웹 페이지와 상호 작용하고 추출 규칙을 설정할 수 있는 시각적 차트입니다. 예를 들어, 각 작업을 클릭하여 스크래퍼가 잘 작동하는지 확인하고, 불필요한 작업을 제거하고, 워크플로우를 변경할 새 작업을 추가할 수 있습니다.

5단계: 작업 실행

스크래핑 워크플로우를 제작하고 테스트한 후 “실행”을 클릭합니다. 다음으로 작업을 실행할 옵션을 선택합니다. 작은 프로젝트나 간단한 작업을 수행하는 경우 로컬 디바이스를 사용하는 것이 가장 좋은 해결책입니다. Octoparse 클라우드 서버는 24시간 내내 작업할 수 있고 실시간으로 데이터를 추출할 수 있기 때문에 대규모 데이터 추출 장기간 운영을 위한 이상적인 솔루션이 될 수 있습니다.

스크래핑 과정이 끝나면 추출한 데이터를 엑셀, CSV, JSON과 같은 로컬 파일이나 구글 시트와 같은 데이터베이스에 저장하여 나중에 분석합니다.

시장 조사를 위한 LinkedIn 구인구직 포스팅 내용 추출

LinkedIn 에서 추출한 데이터는 고용 시장 조사 및 분석에 필요한 인사이트를 제공할 수 있습니다. 다음은 데이터를 활용할 수 있는 몇 가지 방법입니다.

산업 동향: 추출된 데이터에 언급된 직함, 기술 및 자격을 분석하여 해당 산업의 새로운 동향을 파악합니다. 이런 정보의 지속적인 수집으로 경쟁 업계에서 필요한 인력을 먼저 찾고 구인구직 활동을 조정하는 데 도움이 될 수 있습니다.
경쟁사 분석: 다양한 회사의 채용 공고를 비교하여 채용 전략에 대한 인사이트를 얻습니다. 경쟁사를 더 잘 이해하기 위해 그들이 우선시하는 기술과 자격을 지속적으로 수집하고 분석합니다.
급여 정보: 수집된 데이터에서 급여 정보를 추출하여 다양한 직무에 대한 급여 범위를 파악할 수 있습니다. 이렇게 하면 채용 과정에서 더 나은 급여 협상을 할 수 있습니다.

마무리

링크드인 채용 공고를 추출할 때 올바른 도구와 기술을 사용하면 데이터 수집 업무 프로세스를 자동화하고 중요한 인사이트를 얻을 수 있습니다. Python을 사용하든 Octoparse와 같은 웹 스크래핑 도구를 사용하든 관련 정보를 효율적으로 추출하는 것이 핵심입니다. 추출된 데이터를 우선 확보하면 고용 시장 조사 및 업계 분석에 활용하여 경쟁에서 한 발 더 앞서 나갈 수 있습니다.

몇 번의 클릭으로 웹 데이터 추출하기

코딩 없이 대부분 웹 사이트에서 쉽게 데이터를 추출할 수 있습니다.

무료 다운로드

핫 포스트

네이버 부동산 매물정보 크롤링하는 쉬운 방법

크롤링 과정에서 캡차(CAPTCHA)뚫는 효과적인 방법

네이버 지도에서 가게 정보 데이터 가져오는 가장 쉬운 방법

안 써보면 후회할 무료 이미지 URL 추출 도구

크롤러 템플릿으로 알리 익스프레스 상품 목록 데이터 추출하는 방법

토픽 보러가기

지금부터 Octoparse 시작하세요.

다운로드

연관 글

웹 스크래핑
야후 파이낸스 크롤링 가이드
Nicole Kim
야후 파이낸스에서 주식, 지수 펀드, 환율, 채권, 상품 등 다양한 금융 상품에 대한 실시간 및 과거 데이터 쉽고 빠르게 추출할 수 있는 훌륭한 야후 파이낸스 스크래퍼를 소개합니다.
2024-06-06T01:00:00+00:00 · 5 분 열독
웹 스크래핑
쉽고 빠른 웹 크롤링 도구 20개 추천
Nicole Kim
웹 스크래핑은 인터넷에서 데이터를 수집하고 분석하는 프로세스입니다. 웹 스크래핑을 수행하는 데 도움이 되는 다양한 도구가 있습니다. 이 글에서는 20가지 추천 웹 스크래핑 도구에 대해 살펴보겠습니다.
2024-04-22T12:00:00+00:00 · 5 분 열독
웹 스크래핑
웹 페이지나 웹 사이트에서 이미지를 다운받는 6가지 방법
Nicole Kim
노코딩 크롤링 업무 초보자부터 배테랑 프로그래머/개발자까지 웹 크롤링에 관심있는 모든 분들이 웹 페이지나 웹 사이트에서 이미지를 다운로드 받는 6가지 추천 도구에 대해 소개하였습니다.
2024-03-24T12:00:00+00:00 · 5 분 열독
웹 스크래핑
웹 스크래핑 과정에서 캡차 해결하기
Nicole Kim
안티 크롤링 봇 기술이 발전하면서 많은 인기 웹 사이트에서 다양한 캡차를 적용하고 있습니다. 이 글에서는 자주 보는 캡차의 종류와 캡차를 우회하거나 뚫는 여러가지 방법에 대해 소개해 드립니다.
2024-01-30T02:10:03+00:00 · 7 분 열독