오늘날 투자 회사들은 주식 거래를 위한 정교한 알고리즘을 개발하는 경쟁에 뛰어들었습니다. 주가 예측, 주식 시장 감정 분석 또는 주식 연구에 관한 것이든, 그들은 방대한 양의 정확한 데이터가 필요합니다. 큰 기업의 경우 데이터 개발팀을 꾸려 직접 필요한 데이터를 크롤링하는 방법도 있지만 그럴 여건이 부족한 일부 중소기업이나 스타트업에서는 효과적인 데이터 크롤링 도구를 사용하여 손쉽게 대규모 데이터를 얻을 수 있는 저예산 방법이 있습니다.
이 글에서는 코딩 없이 주식 데이터를 스크래핑하는 방법에 대한 단계별 가이드를 소개해 드리겠습니다.
주식 데이터 스크래퍼
이 방법은 전문적인 코딩 지식 없이도 주식 시장 웹사이트에서 필요한 정보를 추출할 수 있습니다. Octoparse 는 Yahoo, CNN Markets, The Economist 등을 포함한 모든 웹사이트에서 데이터를 추출하는 데 도움이 되는 웹 스크래핑 도구입니다. 주식 t시장 데이터를 Excel, CSV 또는 원하는 다른 형식으로 내보낼 수 있습니다.
활용 사례: Yahoo Finance 주식 데이터 스크래핑
https://youtube.com/watch?v=z3FF_J85p0Y%3Ffeature%3Doembed
주식 데이터 스크래핑 단계
예를 들어 Yahoo! Finance에서 Bank of America 주식의 대차대조표를 스크래핑해 보겠습니다 . 대차대조표를 손에 넣으면 과거 주가로 데이터베이스를 모두 구축할 수 있습니다. 이 데이터를 사용하면 숫자와 주가를 연관시키는 알고리즘/머신 러닝을 추가로 구축할 수 있습니다. 주식 수를 늘리면 AI 모델을 훈련할 수 있는 파이프가 더 커집니다.
우리에게 필요한 URL은 https://finance.yahoo.com/quote/BAC/balance-sheet?p=BAC 입니다.
1단계: 새 작업 만들기
사용자 지정 모드에서 ” + 작업 “을 클릭합니다. 상자에 URL을 입력하고 ” URL 저장 “을 클릭합니다. 이렇게 하면 Octoparse 내장 브라우저에서 Bank of America 주식 시장 페이지로 이동합니다.
데이터는 테이블 셀 형태로 제공됩니다. 결과적으로 봇은 테이블 행별로 스크래핑해야 합니다. 제가 말하는 바를 명확히 하기 위해 Chrome 개발자 도구를 열고 웹사이트 소스를 검사할 수 있습니다. 전체 테이블은 <tr> 로 구성되고 , <tr> 은 행의 데이터를 나타내는 여러 개의 <td> 로 구성됩니다 . 추출하려는 데이터는 각 <td> 내부에 저장됩니다 . 봇이 소스 코드의 논리를 따르고 행별로 정보를 추출하는 것은 당연합니다.
2단계: 스크래핑하려는 주식 데이터를 선택하기
다음으로, 봇에게 어떤 데이터를 얻고 싶은지 알려줘야 합니다. 테이블 셀에서 아무 숫자나 클릭합니다. 봇은 같은 열에서 다른 숫자를 발견합니다. 앞서 언급했듯이, 소스 코드의 논리를 따라 행별로 추출해야 합니다. 이 경우, 액션 패널 하단에서 ” TR “을 클릭합니다. 이제 Octoparse가 첫 번째 행을 찾습니다. 대단합니다! ” 모든 하위 요소 선택 “을 선택한 다음, ” 모두 선택 “을 선택하여 진행합니다.
3단계: 선택 확인하기
이제 모든 요소가 성공적으로 선택되었습니다. 계속하려면 ” 루프에서 데이터 추출 ” 명령을 선택하세요.
4단계: 주식 데이터 스크래핑 시작하기
이제 크롤러 제작을 마쳤습니다! ” 추출 시작 “을 클릭하고 ” 로컬 추출 “을 선택하여 작업을 실행합니다. ” 로컬 추출 “은 자신의 컴퓨터에서 크롤러 작업을 실행하는 것입니다. 여러 병렬 추출이 다른 서버에 분산된 클라우드 추출과 달리 로컬 추출은 로컬 리소스에만 부담을 주고 실행 속도는 사용 중인 인터넷과 하드웨어의 영향을 받습니다. 동시에 실행되는 작업이 있는 경우 실행 속도에 과부하가 발생할 가능성이 높습니다. 따라서 대규모 추출에는 클라우드 추출이 더 적합합니다.
5단계: 시장 분석을 위해 스크랩된 주식 데이터 내보내기
스크래핑한 데이터는 Excel 또는 CSV 파일로 내보낼 수 있습니다. 원하는 형식을 선택하여 로컬 디바이스에 데이터를 다운로드하여 내보낼 수 있습니다.
마무리
대차대조표는 한 회사의 자산, 부채, 수익에 대한 재무제표이기 때문에 대차대조표를 검토하여 한 회사의 실적을 분석하는 것이 기본적인 단계입니다. 유동자산이 부채보다 크면 회사가 단기 부채를 충당할 수 있고 유리한 위치를 유지할 가능성이 높습니다. 한 회사가 수년에 걸쳐 꾸준한 속도로 성장하면 투자 리스크가 적을 가능성이 더 큽니다. 그러나 은행의 대차대조표는 일반 회사의 대차대조표보다 훨씬 더 복잡합니다. 은행 투자는 위험하지만 수익성이 높은 경향이 있습니다. 포괄적인 의사 결정을 위해 은행의 재무 실적을 주시하는 것이 합리적입니다.