apify/crawlee-python

Python 웹 크롤링·스크래핑 라이브러리로 HTTP와 헤드리스 브라우저를 통합 지원

개발 재료맘대로 써도 됨 · Apache-2.0데이터·크롤링난이도
9,197+114이번 주75474Python
데모·홈페이지 열기crawlee.dev
중간맛 분석

비동기 Python(Asyncio) 기반으로 높은 병렬 처리 성능을 제공합니다. BeautifulSoupCrawler(HTTP+파싱)와 PlaywrightCrawler(헤드리스 브라우저) 두 가지 크롤러를 제공하며, 타입 힌트로 IDE 자동완성을 지원합니다. 설치 후 crawlee create my-crawler로 즉시 템플릿 기반 실행이 가능하고, 데이터셋과 파일 저장소가 통합되어 있습니다.

이런 레포예요

이럴 때 쓰면 좋아요

  • 뉴스 기사, 상품 정보 등 동적 웹사이트에서 데이터 대량 수집
  • JavaScript 렌더링이 필요한 SPA 사이트의 콘텐츠 추출
  • 프록시와 세션 관리가 필요한 봇 탐지 회피 크롤링

핵심 기능

HTTP와 헤드리스 브라우저 통합 지원자동 재시도, 프록시 로테이션, 병렬 크롤링상태 지속성으로 중단 후 재개 가능

대안 대비 차별점

Scrapy와 달리 일반 Python 스크립트로 작동하여 다른 애플리케이션에 직접 통합 가능하고, 현대적 Asyncio와 완전한 타입 힌트로 더 나은 개발자 경험을 제공합니다.

준비물
  • Python 3.10+
  • pip 또는 uv 패키지 관리자
바로 시작하기
  1. 모든 기능을 포함한 Crawlee 설치
python -m pip install 'crawlee[all]'
  1. Playwright 브라우저 드라이버 설치
playwright install
  1. 설치 확인
python -c 'import crawlee; print(crawlee.__version__)'
  1. Crawlee CLI로 프로젝트 생성 (선택사항: 빠른 시작)
uvx 'crawlee[cli]' create my-crawler
  1. 또는 Python 스크립트에서 직접 사용
python your_crawler_script.py
별 추이 · 7일
9,197+114 / 7일
활용성 · 따라 만들기 좋은가
베스트 샘플샘플 점수 64/100
  • 관대한 라이선스
  • 테스트 있음
  • 예제 디렉토리
  • 최근 활동
  • AGENTS.md
  • llms.txt
  • 템플릿

🟢 최근 활동 있음 · 2024년 생성

AI가 README 기반으로 요약했습니다 · 원문 보기