트위터는 가장 유명한 소셜 플랫폼 중 하나인 회원들끼리 휴대폰이나 컴퓨터를 이용해 간단한 메시지를 주고받을 수 있는 마이크로블로그(micro-blog, 미니블로그) 서비스입니다. 이 글에서는 트윗, 댓글, 해시태그, 이미지 등을 포함한 트위터 데이터를 추출하는 방법에 대해 알려드리려 합니다. API, 트위피, 파이썬을 사용하거나 직접 코딩하는 수고 없이 5분 이내에 스크래핑 작업을 끝낼 수 있는 매우 쉬운 방법입니다.
트위터를 스크래핑하는 것이 합법인가요?
일반적으로 공개된 데이터를 스크래핑하는 것은 합법입니다. 그러나 항상 저작권 보호 정책과 개인 데이터 규정을 준수해야 합니다. 스크래핑한 데이터의 사용은 귀하 본인의 책임이므로 사용 시 현지 법률을 준수해야 합니다. 합법성이나 규정 준수에 대해 여전히 위험을 느낀다면 트위터 API를 사용해 볼 수 있습니다.
Twitter API는 프로그래밍에 대해 익숙한 고급 사용자에게 Twitter에 대한 액세스를 제공합니다. 트윗, 다이렉트 메시지, 스페이스, 리스트, 사용자 등 정보를 얻을 수 있습니다.
트위터가 X로 바뀐 후, 사람들이 말하는 것
2023년 7월 24일 트위터는 상징적인 파랑새 로고에서 X 로고를 변경했습니다. 이제 Twitter.com 를 방문하면 새로운 X 로고를 볼 수 있으며, 새로운 도메인 x.com 은 이제 기존의 twitter.com 을 대체합니다. 트위터에서 논의되는 #Xeet 및 #Twitter “X”와 같은 유행하는 주제가 많이 있습니다.
그렇다면 트위터를 X로 리브랜딩하는 것에 대해 다른 사람들은 어떻게 생각할까요? 최고의 웹 스크래핑 도구인 옥토파스로 최신 뉴스를 추출하는 팁 3가지를 소개합니다.
팁 1: 일론 머스크의 트윗에 달린 댓글 가져오기
일론 머스크의 최근 트윗에는 “Our headquarters tonight”라고 쓰여 있고, 현재 거의 4만 개의 댓글이 달렸습니다. 그리고 그가 트위터에 올린 새로운 로고에 대한 이전 영상에는 이미 47.5만 개의 댓글이 달렸습니다. 사람들이 변화에 대해 어떻게 말하는지 알 수 있는 중요한 장소입니다.
Octoparse는 트위터에서 댓글을 추출하는 두 가지 방법을 제공합니다. 하나는 트위터 URL을 통해 모든 댓글과 답변을 수동으로 스크랩하는 것이고, 다른 하나는 미리 설정된 스크랩 템플릿을 사용하는 것입니다.
https://www.octoparse.kr/template/tweets-&-comments-scraper-by-search-result-url
팁 2: 계정 URL로 트윗 수집하기
특정 계정의 트위터 게시물을 분석해야 할 때 Octoparse에서 제공하는 사전 설정 템플릿: 트위터 스크래퍼 (by 계정 URL)를 사용할 수 있습니다. 이를 통해 트윗 URL, 작성자 이름 및 계정, 게시 시간, 이미지 또는 비디오 콘텐츠, 좋아요 등을 포함한 데이터를 얻을 수 있습니다. 또는 워크플로우를 설정하여 트윗을 수동으로 추출할 수 있습니다.
https://www.octoparse.kr/template/twitter-scraper-by-account-url
팁 3: 키워드로 트위터 검색 결과 보기
위의 팁들이 당신의 니즈를 충족시키지 못할 경우 직접 키워드를 검색하여 검색 결과를 다운로드할 수 있습니다. 마찬가지로 Octoparse에서 제공하는 사전 설정 템플릿: 트위터 스크래퍼(by 키워드)를 사용할 수 있습니다. 또는 다음 단계를 따라 직접 트윗을 추출할 수 있습니다.
https://www.octoparse.kr/template/twitter-scraper-by-keywords
트위터 스크래핑 도구: 노코딩 절차
코딩 없이 트위터에서 데이터를 추출하려면 Octoparse를 사용하면 됩니다. Octoparse는 웹 페이지와 사람의 상호 작용을 시뮬레이션하는 웹 스크래퍼입니다. 트위터를 포함한 모든 웹사이트에서 볼 수 있는 모든 정보를 추출할 수 있습니다. 직관적인 포인트 앤 클릭 인터페이스를 통해 맞춤형 크롤러를 쉽게 구축하고 계정의 트윗, 특정 해시태그가 포함된 트윗 또는 특정 시간 내 게시물 등을 추출할 수 있습니다. 그런 다음 추출된 데이터를 Excel 시트, CSV, HTML 및 SQL로 내보내거나 Octoparse API를 통해 실시간으로, 데이터베이스로 스트리밍할 수 있습니다.
1단계: URL 입력 및 페이지 설정
시작하기 전에 Octoparse를 다운로드하여 컴퓨터에 설치할 수 있습니다. 이 경우 Octoparse 공식 트위터 계정을 스크랩할 수 있습니다. 보시다시피 웹사이트는 내장 브라우저에 로딩됩니다. 일반적으로 많은 웹 사이트에는 Octoparse가 클릭하고 각 페이지로 이동하여 더 많은 정보를 얻을 수 있는 “다음 페이지” 버튼이 있습니다. 그러나 이 경우 트위터는 “무한 스크롤” 방식을 적용하는데, 이는 트위터가 몇 개의 트윗을 더 로드하도록 페이지를 아래로 스크롤한 다음 화면에 표시된 데이터를 추출해야 한다는 것을 의미합니다. 따라서 최종 추출 프로세스는 다음과 같이 작동합니다. Octoparse는 페이지를 약간 아래로 스크롤하고 트윗을 추출하고 다시 약간 아래로 스크롤하고 추출하는 방식으로 작업을 수행합니다.
2단계: 루프 아이템 구축
크롤러에서 페이지를 반복적으로 아래로 스크롤 하도록 지시하려면 빈 영역을 클릭하고 팁 패널에서 “단일 요소 루프 클릭”을 클릭하여 페이지 루프를 구축할 수 있습니다. 여기에서 볼 수 있듯이 워크플로우 영역에 페이지 네이션이 표시되어 있습니다. 이는 페이지 넘기기가 성공적으로 설정됐음을 의미합니다.
이제 트윗을 추출해 보겠습니다. 핸들러, 게시 시간, 텍스트 내용, 댓글 수, 리트윗 및 좋아요 데이터를 추출하고 싶다고 가정해 보겠습니다. 먼저 트윗을 하나씩 얻기 위한 추출 루프를 구축하겠습니다. 첫 번째 트윗의 모서리에 커서를 대고 클릭하면 됩니다. 전체 트윗이 녹색으로 강조 표시되면 선택되었음을 의미합니다. 두 번째 트윗에서 이 작업을 반복합니다. 보시다시피 Octoparse는 지능형 봇이며 다음 트윗을 모두 자동으로 선택합니다. “선택한 요소의 텍스트 추출”을 클릭하면 추출 루프가 워크플로우에 구축되어 있음을 확인할 수 있습니다.
그러나 서로 다른 데이터 필드를 하나의 열이 아닌 별도의 열로 추출하고 싶으면 추출 설정을 수정하여 대상 데이터를 수동으로 선택해야 합니다. “데이터 추출” 단계의 “액션 설정”에 들어가야 합니다. 핸들러를 클릭하고 “선택한 요소의 텍스트 추출”을 클릭합니다. 원하는 모든 데이터 필드를 가져오려면 이 작업을 반복합니다. 작업이 완료되면 필요 없는 첫 번째 데이터 열을 삭제하고 크롤러를 저장합니다. 이제 마지막 단계가 기다리고 있습니다.
3단계: 페이지 설정 수정 및 트위터 크롤러 실행
이전에 페이지네이션 루프를 구축했지만 워크플로우 설정에 대한 약간의 수정이 필요합니다. 봇이 콘텐츠를 추출하기 전에 Twitter가 콘텐츠를 완전히 로딩되기를 기다려야 하므로 AJAX 타임아웃을 5초로 설정하여 각 스크롤 후에 Twitter를 로딩할 수 있는 시간을 5초로 설정합니다. 그러면 스크롤 반복과 대기 시간을 모두 2로 설정하여 트위터에서 콘텐츠를 성공적으로 로딩할 수 있게 하겠습니다. 이제 각 스크롤에 대해 Octoparse는 2개의 화면에 대해 아래로 스크롤 되며 각 화면은 2초씩 걸립니다.
루프 시간을 20으로 편집하려면 루프 항목 설정으로 돌아가십시오. 이는 봇이 스크롤을 20번 반복한다는 것을 의미합니다. 이제 로컬 장치에서 크롤러를 실행하여 데이터를 가져오거나 Octoparse Cloud 서버에서 실행하여 실행을 예약하고 로컬 리소스를 저장할 수 있습니다. 열에 빈 셀이 있다는 것은 페이지에 원본 데이터가 없으므로 추출되지 않는다는 것을 의미합니다.
다 자세한 튜토리얼이 필요한 경우 계정에서 트윗을 스크랩하는 방법을 참고하십시오.
비디오 튜토리얼: 감성분석을 위한 트위터 데이터 스크래핑 방법
Python을 이용한 트위터 데이터 스크래핑
코딩을 잘한다면 파이썬을 사용하여 트위터를 스크래핑할 수 있습니다. 이 과정에서 사용해야 하는 Tweepy 또는 Twint와 같은 액세스가 있습니다. 트위터 개발자 계정을 만들고 API 액세스를 신청해야 하며 제한된 트윗만 받을 수 있습니다. Twint를 사용하면 수량 제한 없이 트윗을 스크랩할 수 있습니다.
옥토파스는 코딩을 잘하지 못해도 정말 쉽게 사용할 수 있습니다. 트위터 스크래핑 도구를 다운로드하고 상기 튜토리얼을 따라 조작하면 됩니다.