adbar/trafilatura
웹에서 HTML을 정제된 텍스트와 메타데이터로 추출하는 Python 웹 스크래핑 라이브러리
6,126+1이번 주38288Python
데모·홈페이지 열기trafilatura.readthedocs.io중간맛 분석
Python 기반의 웹 스크래핑·텍스트 추출 라이브러리입니다. 설치 후 trafilatura로 바로 CLI나 Python 코드에서 사용 가능하며, HTML 입력(URL 또는 파일)을 받아 TXT·Markdown·JSON·XML·XML-TEI 등 다양한 형식으로 출력합니다. 사이트맵·RSS·ATOM 피드 지원으로 대규모 수집 가능하며, 제목·저자·날짜·본문·댓글까지 구조화된 메타데이터를 함께 추출합니다. 공개 벤치마크에서 동종 오픈소스 도구 중 가장 빠르고 정확합니다.
이런 레포예요
이럴 때 쓰면 좋아요
- 뉴스·학술 기사 대량 수집 후 텍스트 데이터셋 구축
- RAG·LLM 파이프라인의 웹 콘텐츠 전처리 단계
- 다국어 웹 코퍼스 구성 시 언어 감지·정제 자동화
핵심 기능
본문·메타데이터·댓글의 구조화된 추출TXT·Markdown·JSON·XML·XML-TEI 다중 출력 형식사이트맵·RSS·ATOM 피드 크롤링 및 병렬 처리
대안 대비 차별점
공개 벤치마크에서 정확도와 속도 모두 동종 오픈소스 도구를 압도하며, 학술 논문(ACL 2021) 기반 검증과 10년간의 언어학·NLP 연구 노하우를 담고 있습니다.
준비물
- Python 3.6+
바로 시작하기
git clone https://github.com/adbar/trafilatura && cd trafilatura && pip install trafilatura
Python: import trafilatura; trafilatura.extract(trafilatura.fetch_url('https://example.com'))
CLI: trafilatura -u https://example.com
별 추이 · 7일
6,126+1 / 7일
활용성 · 따라 만들기 좋은가
따라 하기 좋음샘플 점수 52/100
- 관대한 라이선스
- 테스트 있음
- 예제 디렉토리
- 최근 활동
- AGENTS.md
- llms.txt
- 템플릿
🟢 최근 활동 있음 · 2019년 생성
AI가 README 기반으로 요약했습니다 · 원문 보기