IBM Research Zurich의 AI for knowledge 팀에서 개발한 Docling은 PDF, DOCX, PPTX, XLSX, HTML, WAV, MP3, 이미지 파일 등 다양한 문서 형식을 파싱하고 처리할 수 있습니다.
주요 특징:
제조업에서 Docling이 유용한 영역:
좋은 점:
간단한 설치 및 사용이 가능합니다:
pip install docling
### Command Line Power Users
# 단일 문서 처리
docling https://arxiv.org/pdf/2206.01062
docling c/user/data/mypdf.pdf6
# 특정 출력 형식으로 처리
docling --to markdown research_paper.pdf
# 디렉토리에 있는 모든 PDF를 일괄 처리
docling --output ./processed/ ./documents/*.pdf
# 실험적 시각 언어 모델 사용
docling --pipeline vlm --vlm-model smoldocling research_paper.pdf
from docling.document_converter import
DocumentConverter
source = "https://arxiv.org/pdf/2408.09869"
converter = DocumentConverter()
result = converter.convert(source)5print(result.document.export_to_markdown())
파이썬 API (UI):
입력 PDF:
결과(markdown format)
Code
(코드가 필요하신 분은 연락주세요~)
기업 홍보를 위한 확실한 방법
협회 홈페이지에 회사정보를 보강해 보세요.