ScrapeGraphAI/Scrapegraph-ai
LLM 기반 웹 스크래핑 라이브러리로 자연어 프롬프트만으로 웹사이트와 로컬 문서에서 데이터를 추출합니다.
27,245+371이번 주2,5690Python
데모·홈페이지 열기scrapegraphai.com중간맛 분석
Python 라이브러리로 OpenAI, Groq, Azure, Gemini 등의 API나 Ollama를 통한 로컬 모델을 지원합니다. SmartScraperGraph(단일 페이지), SearchGraph(검색결과 크롤링), SmartScraperMultiGraph(다중 페이지) 등 6가지 파이프라인으로 다양한 상황에 대응할 수 있습니다. 바로 실행 가능한 예제가 README에 있어 빠르게 시작할 수 있으며, playwright 설치 후 몇 줄의 코드로 웹 데이터 추출이 가능합니다. 공식 API와 Python/Node.js SDK도 제공합니다.
이런 레포예요
이럴 때 쓰면 좋아요
- 자연어로 웹사이트 구조 분석 없이 필요한 데이터만 추출하기
- 검색 결과에서 자동으로 여러 페이지의 정보 수집하기
- AI 에이전트나 RAG 시스템에 사용할 웹 데이터 준비하기
핵심 기능
자연어 기반 데이터 추출다양한 LLM 지원(OpenAI, Groq, 로컬 Ollama)6가지 파이프라인(단일/다중 페이지, 음성, 스크립트 생성)
대안 대비 차별점
CSS 선택자 없이 LLM과 그래프 로직으로 페이지 구조 변화에 강인하며, Langchain/Crew.ai 등 주요 LLM 프레임워크와의 네이티브 통합을 제공합니다.
준비물
- Python
- Playwright
- LLM API 키 또는 Ollama
바로 시작하기
- pip을 사용해 라이브러리를 설치합니다.
pip install scrapegraphai
- 웹 콘텐츠 페칭을 위해 playwright를 설치합니다.
playwright install
- Python 파일을 작성하고 SmartScraperGraph를 초기화합니다. Ollama를 사용할 경우:
from scrapegraphai.graphs import SmartScraperGraph
graph_config = {
"llm": {
"model": "ollama/llama3.2",
"model_tokens": 8192,
"format": "json",
},
"verbose": True,
"headless": False,
}
smart_scraper_graph = SmartScraperGraph(
prompt="Extract useful information from the webpage, including a description of what the company does, founders and social media links",
source="https://scrapegraphai.com/",
config=graph_config
)
- 파이프라인을 실행하고 결과를 출력합니다.
result = smart_scraper_graph.run()
import json
print(json.dumps(result, indent=4))
참고: OpenAI 등 다른 LLM을 사용할 경우 llm 설정만 변경합니다:
graph_config = {
"llm": {
"api_key": "YOUR_OPENAI_API_KEY",
"model": "openai/gpt-4o-mini",
},
"verbose": True,
"headless": False,
}
별 추이 · 7일
27,245+371 / 7일
활용성 · 따라 만들기 좋은가
베스트 샘플샘플 점수 68/100
- 관대한 라이선스
- 테스트 있음
- 예제 디렉토리
- 최근 활동
- AGENTS.md
- llms.txt
- 템플릿
🟢 최근 활동 있음 · 2024년 생성
AI가 README 기반으로 요약했습니다 · 원문 보기