adbar/trafilatura

웹에서 HTML을 정제된 텍스트와 메타데이터로 추출하는 Python 웹 스크래핑 라이브러리

개발 재료맘대로 써도 됨 · Apache-2.0데이터·크롤링난이도
6,126+1이번 주38288Python
데모·홈페이지 열기trafilatura.readthedocs.io
중간맛 분석

Python 기반의 웹 스크래핑·텍스트 추출 라이브러리입니다. 설치 후 trafilatura로 바로 CLI나 Python 코드에서 사용 가능하며, HTML 입력(URL 또는 파일)을 받아 TXT·Markdown·JSON·XML·XML-TEI 등 다양한 형식으로 출력합니다. 사이트맵·RSS·ATOM 피드 지원으로 대규모 수집 가능하며, 제목·저자·날짜·본문·댓글까지 구조화된 메타데이터를 함께 추출합니다. 공개 벤치마크에서 동종 오픈소스 도구 중 가장 빠르고 정확합니다.

이런 레포예요

이럴 때 쓰면 좋아요

  • 뉴스·학술 기사 대량 수집 후 텍스트 데이터셋 구축
  • RAG·LLM 파이프라인의 웹 콘텐츠 전처리 단계
  • 다국어 웹 코퍼스 구성 시 언어 감지·정제 자동화

핵심 기능

본문·메타데이터·댓글의 구조화된 추출TXT·Markdown·JSON·XML·XML-TEI 다중 출력 형식사이트맵·RSS·ATOM 피드 크롤링 및 병렬 처리

대안 대비 차별점

공개 벤치마크에서 정확도와 속도 모두 동종 오픈소스 도구를 압도하며, 학술 논문(ACL 2021) 기반 검증과 10년간의 언어학·NLP 연구 노하우를 담고 있습니다.

준비물
  • Python 3.6+
바로 시작하기

git clone https://github.com/adbar/trafilatura && cd trafilatura && pip install trafilatura

Python: import trafilatura; trafilatura.extract(trafilatura.fetch_url('https://example.com'))

CLI: trafilatura -u https://example.com

별 추이 · 7일
6,126+1 / 7일
활용성 · 따라 만들기 좋은가
따라 하기 좋음샘플 점수 52/100
  • 관대한 라이선스
  • 테스트 있음
  • 예제 디렉토리
  • 최근 활동
  • AGENTS.md
  • llms.txt
  • 템플릿

🟢 최근 활동 있음 · 2019년 생성

AI가 README 기반으로 요약했습니다 · 원문 보기