Skip to main content

Command Palette

Search for a command to run...

[Project] 날씨에 맞는 옷 추천 서비스 : 지그재그 크롤링 여정 기록 (1) ChromeDriver를 EC2에 설치하기

Updated
3 min read
[Project] 날씨에 맞는 옷 추천 서비스 : 지그재그 크롤링 여정 기록 (1) ChromeDriver를 EC2에 설치하기
S

Nice to meet u :) Im Backend Developer

✍️ 작성하게 된 이유

무신사, 29cm는 Jsoup으로 충분히 크롤링이 가능했기 때문에, ZigZag도 당연히 Jsoup으로 처리될 것이라 생각했다. 무신사, 29cm와 마찬가지로 필요한 데이터는 모두 <script> 태그 안에 들어있었다.

하지만… 예상은 보기 좋게 빗나갔다.

🧪 현상

✅ 로컬 크롤링 → 정상 작동

  • Jsoup으로 script 태그 내에서 대표 이미지와 상품명을 잘 추출

  • 로컬 환경에서는 아무 문제 없이 작동

❌ AWS EC2 배포 환경 → 실패

  • 커스텀 예외가 발생하며 크롤링 실패

  • 처음엔 User-Agent가 의심되어 명시적으로 지정했다.

    .userAgent("Mozilla/5.0 ... Chrome/137.0.0.0 ...")

    하지만 여전히 실패했다.

🔍 원인 분석: EC2에서 직접 curl 시도

curl -A "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/137.0.0.0 Mobile Safari/537.36" https://zigzag.kr/your-product-url

📸 결과: 403 Forbidden (CloudFront 에러)

  • AWS EC2의 공용 IP가 ZigZag 측 CloudFront + WAF에 의해 차단됨

  • ZigZag는 봇 탐지 또는 AWS IP 대역 제한을 통해 접근을 막고 있었던 것

🧭 해결 방법을 고민하며

일단 프록시 서버를 써야 하나? VPN을 붙여야 하나? 라는 고민이 들었다.

하지만 크롤링 관련 커뮤니티 글 중 다음과 같은 조언을 확인했다:

링크 : Ip 차단을 피하려면 어떻게 해야 하나요?

“저도 크롤링을 막는 서비스를 강제로 우회해서 뚫는 시도는 사실 하고 있지 않거든요.

selenium 을 사용하면, 거의 사용자 환경을 그대로 구현하는 것이라서 조금 나을 것은 같은데요. 그렇지 않다면, 너무 이게 해킹과 유사한 느낌이라 저도 조금 애매합니다. 우선은 selenium 으로 한번 시도해보시는 것까지는 한번 해보시면 좋을 것 같고요.”

그래서 다시 Selenium을 도입해보기로 결정했다.

🐞 SessionNotCreatedException

이전 글 내용 중, EC2에서 Selenium 사용 시 다음과 같은 오류가 있었다.

먼저, EC2에 Google Chrome이 깔려있는지 확인해보았다.

원인 : EC2 인스턴스에 Chrome이 설치되지 않아 Selenium이 내부적으로 Chrome을 실행하지 못해 발생한 에러였다.

🛠️ EC2에 Chrome + ChromeDriver 설치

현재 EC2정보이다.

1️⃣ Chrome 설치

  1. 필요한 라이브러리 설치 후 google-chrome 설치

    wget : 웹 서버로부터 콘텐츠를 가져오는 리눅스 명령어로 HTTP, FTP 등의 프로토콜 사용 가능, URL을 통해 간편하게 파일을 받을 수 있어 자주 쓰이는 명령어

  • 설치 확인: google-chrome --version (필자는 138.0.7204.168버전을 다운받았다.)

2️⃣ ChromeDriver 설치

  • 현재 Chrome버전과 맞는 chromedriver를 다운받았다.

  • 상태확인 사이트 : ChromeDriver버전 확인

  • Google은 최근부터 Chrome for Testing 전용 버전 체계를 도입하여 다운로드 경로가 변경되었다.

    chrome-for-testing-public 경로에서 맞는 버전 다운로드

  • 압축 해제 : unzip ~/Downloads/chromedriver-linux64.zip

  • 전역 경로 등록(chromedriver실행 파일을 시스템에서 인식할 수 있도록)

    sudo mv ~/Downloads/chromedriver-linux64/chromedriver /usr/local/bin/

    sudo chmod +x /usr/local/bin/chromedriver : 권한 부여

이렇게 하면 Selenium이 new ChromeDriver() 호출 시 자동으로 해당 경로의 드라이버를 사용한다.

❗ 여전히 실패: CloudFront 403

Selenium으로도 크롤링은 실패했다.
다시 curl로 요청해본 결과, 동일한 403 에러가 발생했다.

📌 원인 추정

  • 동일한 고정 IP로 지속적인 크롤링 시도 CloudFront + WAF 보호 정책으로 차단

  • CloudFront + WAF 보호 정책은 다음처럼 작동한다.

    • 반복 요청, 비정상적인 User-Agent, 쿠키 미존재 등 감지 시 자동 IP 차단

💡 이번 실패에서 배운 점

  • 무리한 크롤링은 권장하지 않는다. → 정책 준수하기

  • 로컬에서 된다고 서버에서도 된다는 보장은 없다.

  • CloudFront + WAF는 단순한 User-Agent 조작만으로 우회할 수 없다

  • 정적 HTML 구조라고 해도, 외부 요청을 차단할 수 있는 다양한 보안 장치가 존재한다.

출처

ChromeDriver버전 확인

Ip 차단을 피하려면 어떻게 해야 하나요?

https://js990317.tistory.com/16

More from this blog

[Spring] N+1문제 발생과 분석

✍️ 작성하게 된 이유 옷을 관리하는 서비스를 개발하면서 Cloth 엔티티와 그에 연관된 ClothWithAttributes, Attribute 데이터를 함께 조회하는 기능이 필요했다.그런데 연관 데이터를 조회할 때마다 쿼리가 폭발적으로 증가(N+1 문제) 하며, 성능이 급격히 저하되는 상황을 마주하게 되었다. Spring JPA의 대표적인 문제로 N+1임을 알고있었지만, 해결하는 방법은 Fetch Join밖에 몰랐다. 지연로딩되는 필드를 엔티...

Sep 17, 20256 min read
[Spring] N+1문제 발생과 분석

데이터베이스 기본 개념 정리

1️⃣ 데이터베이스(DB) & DBMS DB (Database): 일정한 규칙(스키마)에 따라 구조화되어 저장된 데이터의 집합. DBMS (Database Management System): DB를 제어/관리하는 시스템 소프트웨어. 특징: 실시간 접근 가능, 동시 공유 가능. 구조: 데이터베이스 → DBMS → 응용 프로그램 → 사용자 2️⃣ 엔티티(Entity) & 릴레이션(Relation) 엔티티: 여러 속성을 가진 "개체"...

Aug 5, 20252 min read
데이터베이스 기본 개념 정리

[Project] 날씨에 맞는 옷 추천 프로젝트: Selenium은 정말 필요한 선택이었을까? - 크롤링 삽질 기록

✍️ 작성하게 된 이유 날씨에 따라 옷을 추천해주는 서비스를 만들면서, 사용자가 입력한 구매 링크에서 옷 정보( 대표이미지, 상품명 )를 불러오는 기능이 필요했다. 처음에 해당 페이지를 동적 페이지로 판단했고, 자연스럽게 Selenium을 도입했다. 하지만 이 결정이 과연 최선이었는지는 수많은 시행착오 끝에야 알 수 있었다. 🕸️ Selenium을 선택한 이유 동적 페이지는 Jsoup으로 크롤링이 어렵다는 인식으로 처음부터 Selenium을 ...

Jul 28, 20254 min read
[Project] 날씨에 맞는 옷 추천 프로젝트: Selenium은 정말 필요한 선택이었을까? - 크롤링 삽질 기록

Soyulia's Blog

49 posts