adbar/trafilatura

웹에서 HTML을 정제된 텍스트와 메타데이터로 추출하는 Python 웹 스크래핑 라이브러리

개발 재료맘대로 써도 됨 · Apache-2.0데이터·크롤링Python난이도

6,372+42이번 주0 찜

399포크60이슈

중간맛 분석

Python 기반의 웹 스크래핑·텍스트 추출 라이브러리입니다. 설치 후 trafilatura로 바로 나 Python 코드에서 사용 가능하며, HTML 입력(URL 또는 파일)을 받아 TXT·Markdown·JSON·XML·XML-TEI 등 다양한 형식으로 출력합니다. 사이트맵·RSS·ATOM 피드 지원으로 대규모 수집 가능하며, 제목·저자·날짜·본문·댓글까지 구조화된 메타데이터를 함께 추출합니다. 공개 벤치마크에서 동종 오픈소스 도구 중 가장 빠르고 정확합니다.

이런 레포예요

이럴 때 쓰면 좋아요

뉴스·학술 기사 대량 수집 후 텍스트 데이터셋 구축
RAG·LLM 파이프라인의 웹 콘텐츠 전처리 단계
다국어 웹 코퍼스 구성 시 언어 감지·정제 자동화

핵심 기능

본문·메타데이터·댓글의 구조화된 추출TXT·Markdown·JSON·XML·XML-TEI 다중 출력 형식사이트맵·RSS·ATOM 피드 크롤링 및 병렬 처리

대안 대비 차별점

공개 벤치마크에서 정확도와 속도 모두 동종 오픈소스 도구를 압도하며, 학술 논문(ACL 2021) 기반 검증과 10년간의 언어학·NLP 연구 노하우를 담고 있습니다.

먹어본 사람들

실제로 차려 먹어본 손님들의 흔적이에요 — 한마디와 완주 인증 모두 검수 후 공개돼요.

시식평 · 먹어본 사람 한마디

아직 시식평이 없어요. 먹어보셨다면 첫 한마디를 남겨주세요.

다른 레포 시식평 구경하기 →

이 레포로 만든 것들

🖋 완주 인증하기

아직 이 레포로 만든 완주 인증이 없어요. 첫 밥도장을 찍어보세요!

이 레포, 해먹는 법

처음 오셨어요? 어렵지 않아요 — 위에서 아래로 따라 하면 내 컴퓨터에 이 레포를 차려서 바로 맛볼 수 있어요.

준비물

Python 3.6+

바로 차려먹기Python (uv)

깃밥이 레포 구조를 확인하고 만든 실행 명령이에요. 터미널에 붙여넣으면 받기부터 실행까지 한 번에 진행돼요.

git clone --depth 1 https://github.com/adbar/trafilatura.git &&
cd trafilatura &&
uv sync

uv가 없다면: brew install uv · 실행 명령은 README를 확인하세요.

코드는 내 컴퓨터에서 실행돼요 — 처음 보는 레포라면 내용을 한번 훑어보고 실행하는 습관을 추천해요.

README가 안내하는 자세한 단계 보기

Trafilatura 설치

pip install trafilatura

Python 스크립트로 URL에서 텍스트 추출

python -c "from trafilatura import fetch_url, extract; downloaded = fetch_url('https://example.com'); result = extract(downloaded); print(result)"

또는 CLI로 단일 URL 처리

trafilatura https://example.com

파일에서 HTML 처리

trafilatura -i input.html -o output.txt

깃밥트라이로 맛보기

받아보기 귀찮고 살짝 불안했다면 — 안전 스캔부터 설치까지 터미널 한 줄로 끝나요.

터미널에 붙여넣으면 깃밥 안전 스캔 → 격리 폴더 clone → 설치 → 실행법 안내까지 자동이에요. 처음이어도 괜찮아요 — 이 한 줄이 전부예요.

npx gitbap-try adbar/trafilatura

Node.js만 있으면 설치 없이 실행돼요 · 깃밥트라이가 뭐예요? →

별 추이 · 7일

6,372+42 / 7일

활용성 · 따라 만들기 좋은가

따라 하기 좋음샘플 점수 52/100

관대한 라이선스
테스트 있음
예제 디렉토리
최근 활동
AGENTS.md
llms.txt
템플릿

🟢 최근 활동 있음 · 2019년 생성

「데이터·크롤링」 이런 레포, 매주 받아보실래요?

매주 월요일 아침, 골라 담은 밥상만. 광고 없이 · 언제든 해지.

내 레포인가요? README에 깃밥 배지 달기

[![깃밥](https://www.gitbap.com/badge/adbar/trafilatura.svg)](https://www.gitbap.com/r/adbar/trafilatura)

🔌 클로드에서 바로 써보기 — 깃밥 연결하는 법

깃밥을 클로드에 연결하면 이런 레포를 클로드·커서·Codex에서 바로 찾고 체험할 수 있어요.

방법 ① 커넥터 URL

클로드 설정 → 커넥터에 이 주소를 붙여넣기.

https://www.gitbap.com/api/mcp

방법 ② 플러그인 (체험까지)

플러그인을 설치하면 /gitbap-trending·/gitbap-try 슬래시 커맨드로 레포를 그 자리에서 체험. Claude Code에서 아래 두 줄을 차례로 실행하세요.

/plugin marketplace add jakeparkcolde/gitbap-cowork

/plugin install gitbap-cowork@gitbap

연결 방법 자세히 →

AI가 README 기반으로 요약했습니다 · 원문 보기