any4ai/AnyCrawl

웹 크롤링·스크래핑·SERP 검색을 지원하는 고성능 AI 친화적 데이터 수집 도구

설치형 도구맘대로 써도 됨 · MIT데이터·크롤링난이도
3,184+0이번 주3425MDX
데모·홈페이지 열기anycrawl.dev
중간맛 분석

Node.js + TypeScript 스택, Cheerio/Playwright/Puppeteer 엔진 지원. 멀티스레드·멀티프로세스로 고속 처리하며, 배치 작업과 캐싱을 기본 제공합니다. 자체 호스팅 또는 클라우드 API(https://api.anycrawl.dev) 형태로 즉시 사용 가능하며, Playground에서 코드 생성까지 가능합니다. Atlas Cloud 같은 LLM 프로바이더와 통합되어 있어 API 호출 한 번으로 구조화된 데이터 추출이 가능합니다.

이런 레포예요

이럴 때 쓰면 좋아요

  • AI 모델 학습을 위한 웹 데이터 대규모 수집 및 구조화
  • 경쟁사 가격·뉴스·상품 정보 모니터링을 위한 자동화된 사이트 추적
  • ChatGPT 플러그인이나 AI 에이전트의 웹 검색 백엔드

핵심 기능

LLM 기반 구조화된 데이터 추출 (JSON 스키마 정의)멀티스레드·멀티프로세스 병렬 처리로 고속 크롤링Cheerio/Playwright/Puppeteer 엔진 자동 선택 및 캐싱

대안 대비 차별점

API 중심 설계로 자체 호스팅·클라우드 모두 지원하며, LLM 기반 extraction을 기본 기능으로 포함해 RAG·AI 데이터 파이프라인에 최적화되어 있습니다.

준비물
  • Node.js
  • TypeScript (선택)
  • Docker (자체 호스팅 시)
바로 시작하기
  1. 클라우드 API 사용 시 https://api.anycrawl.dev 기준으로 진행하고, 자체 호스팅 시 API 키 생성
pnpm --filter api key:generate
  1. 특정 페이지 내용 추출
curl -X POST https://api.anycrawl.dev/v1/scrape \
  -H 'Content-Type: application/json' \
  -H 'Authorization: Bearer YOUR_ANYCRAWL_API_KEY' \
  -d '{
  "url": "https://example.com",
  "engine": "cheerio"
}'
  1. LLM 기반 구조화된 데이터 추출
curl -X POST https://api.anycrawl.dev/v1/scrape \
  -H 'Authorization: Bearer YOUR_ANYCRAWL_API_KEY' \
  -H 'Content-Type: application/json' \
  -d '{
    "url": "https://example.com",
    "json_options": {
      "schema": {
        "type": "object",
        "properties": {
          "company_mission": { "type": "string" },
          "is_open_source": { "type": "boolean" }
        },
        "required": ["company_mission"]
      }
    }
  }'
  1. 사이트 전체 크롤링
curl -X POST https://api.anycrawl.dev/v1/crawl \
  -H 'Content-Type: application/json' \
  -H 'Authorization: Bearer YOUR_ANYCRAWL_API_KEY' \
  -d '{
  "url": "https://example.com",
  "engine": "playwright",
  "max_depth": 2,
  "limit": 10,
  "strategy": "same-domain"
}'
  1. 검색 엔진 결과 수집
curl -X POST https://api.anycrawl.dev/v1/search \
  -H 'Content-Type: application/json' \
  -H 'Authorization: Bearer YOUR_ANYCRAWL_API_KEY' \
  -d '{
  "query": "AnyCrawl",
  "limit": 10,
  "engine": "google",
  "lang": "all"
}'
별 추이 · 7일
3,184+0 / 7일
활용성 · 따라 만들기 좋은가
샘플 점수 20/100
  • 관대한 라이선스
  • 테스트 있음
  • 예제 디렉토리
  • 최근 활동
  • AGENTS.md
  • llms.txt
  • 템플릿

⚪ 최근 활동 정보 없음 · 2025년 생성

AI가 README 기반으로 요약했습니다 · 원문 보기