spider-rs/spider
Rust 기반의 초고속 동시성 웹 크롤러·스크래퍼로, HTTP 우선 실행 후 필요시에만 JavaScript 렌더링합니다.
2,547+0이번 주2110Rust
데모·홈페이지 열기spider.cloud중간맛 분석
Rust 기반 라이브러리로 tokio 비동기 런타임 위에서 실행됩니다. 즉시 활용 가능하며 cargo add spider로 프로젝트에 추가할 수 있습니다. 스트리밍 아키텍처로 페이지 도착 시점에 바로 처리하고, robots.txt 존중, 속도 제한, 스텔스 모드 등이 내장되어 있습니다. 로컬 크롤링 또는 Spider Cloud API 키로 관리형 서비스 이용이 모두 가능합니다.
이런 레포예요
이럴 때 쓰면 좋아요
- LLM·RAG 파이프라인을 위해 오픈 웹 데이터를 벡터 스토어에 수집할 때
- SEO 모니터링, 가격 변동 추적 등 사이트 주기적 감시 시
- AI 에이전트가 웹 자동화 작업을 수행해야 할 때
핵심 기능
HTTP 우선 실행 후 필요시 JavaScript 렌더링페이지 도착 즉시 스트리밍 처리로컬 런칭과 Spider Cloud 관리형 서비스 간 원활한 전환
대안 대비 차별점
동시성 중심 설계와 스트리밍 아키텍처로 배치 기반이 아닌 실시간 페이지 처리를 구현하며, HTTP와 Chrome 경로 모두에서 스트리밍을 지원하여 극도로 높은 요청 볼륨을 처리할 수 있습니다.
준비물
- Rust 1.56 이상
- tokio 런타임 환경
바로 시작하기
- Cargo 프로젝트에 spider 라이브러리 추가
cargo add spider
- 기본 크롤링 코드 작성 및 실행
cargo run
위 코드 예시:
use spider::{tokio, website::Website};
#[tokio::main]
async fn main() {
let mut website = Website::new("https://example.com");
let mut rx = website.subscribe(16);
tokio::spawn(async move {
while let Ok(page) = rx.recv().await {
println!("{} {}", page.status_code, page.get_url());
}
});
website.crawl().await;
website.unsubscribe();
}
별 추이 · 7일
2,547+0 / 7일
활용성 · 따라 만들기 좋은가
따라 하기 좋음샘플 점수 50/100
- 관대한 라이선스
- 테스트 있음
- 예제 디렉토리
- 최근 활동
- AGENTS.md
- llms.txt
- 템플릿
🟢 최근 활동 있음 · 2018년 생성
AI가 README 기반으로 요약했습니다 · 원문 보기