apify/crawlee-python
Python 웹 크롤링·스크래핑 라이브러리로 HTTP와 헤드리스 브라우저를 통합 지원
9,197+114이번 주75474Python
데모·홈페이지 열기crawlee.dev중간맛 분석
비동기 Python(Asyncio) 기반으로 높은 병렬 처리 성능을 제공합니다. BeautifulSoupCrawler(HTTP+파싱)와 PlaywrightCrawler(헤드리스 브라우저) 두 가지 크롤러를 제공하며, 타입 힌트로 IDE 자동완성을 지원합니다. 설치 후 crawlee create my-crawler로 즉시 템플릿 기반 실행이 가능하고, 데이터셋과 파일 저장소가 통합되어 있습니다.
이런 레포예요
이럴 때 쓰면 좋아요
- 뉴스 기사, 상품 정보 등 동적 웹사이트에서 데이터 대량 수집
- JavaScript 렌더링이 필요한 SPA 사이트의 콘텐츠 추출
- 프록시와 세션 관리가 필요한 봇 탐지 회피 크롤링
핵심 기능
HTTP와 헤드리스 브라우저 통합 지원자동 재시도, 프록시 로테이션, 병렬 크롤링상태 지속성으로 중단 후 재개 가능
대안 대비 차별점
Scrapy와 달리 일반 Python 스크립트로 작동하여 다른 애플리케이션에 직접 통합 가능하고, 현대적 Asyncio와 완전한 타입 힌트로 더 나은 개발자 경험을 제공합니다.
준비물
- Python 3.10+
- pip 또는 uv 패키지 관리자
바로 시작하기
- 모든 기능을 포함한 Crawlee 설치
python -m pip install 'crawlee[all]'
- Playwright 브라우저 드라이버 설치
playwright install
- 설치 확인
python -c 'import crawlee; print(crawlee.__version__)'
- Crawlee CLI로 프로젝트 생성 (선택사항: 빠른 시작)
uvx 'crawlee[cli]' create my-crawler
- 또는 Python 스크립트에서 직접 사용
python your_crawler_script.py
별 추이 · 7일
9,197+114 / 7일
활용성 · 따라 만들기 좋은가
베스트 샘플샘플 점수 64/100
- 관대한 라이선스
- 테스트 있음
- 예제 디렉토리
- 최근 활동
- AGENTS.md
- llms.txt
- 템플릿
🟢 최근 활동 있음 · 2024년 생성
AI가 README 기반으로 요약했습니다 · 원문 보기