본문 바로가기
Structuring the Unstructured - Cedric Clyburn, Red Hat

Structuring the Unstructured - Cedric Clyburn, Red Hat

AIAI Engineer· 2026-06-28

본 영상은 Red Hat의 Cedric Clyburn이 Docling이라는 오픈 소스 도구를 사용하여 PDF, 스캔 문서 등 비정형 데이터를 구조화된 형식(Markdown, JSON, Pydantic)으로 변환하는 방법을 시연합니다. 이를 통해 AI 애플리케이션, 특히 RAG(Retrieval Augmented Generation) 및 에이전트 시스템의 정확성과 효율성을 높이는 방법을 다룹니다.

핵심 요약

  • 비정형 데이터(PDF, 스캔 문서, 다이어그램 등)를 LLM이 이해할 수 있는 형식으로 변환하는 것이 AI 애플리케이션의 핵심이며, Docling은 이를 위한 오픈 소스 솔루션으로 제공됩니다.
  • 기존 PDF 파서는 텍스트가 잘리거나 병합되는 등의 문제가 발생하여 테이블이나 이미지 정보를 정확하게 추출하지 못하는 경우가 많습니다.
  • Docling은 OCR 및 특정 비전 모델을 결합하여 PDF 내의 텍스트, 테이블, 이미지를 정확하게 추출하고, Markdown, JSON, Pydantic 데이터 타입 등 다양한 형식으로 변환할 수 있습니다.

전체 요약과 종목별 의견·실시간 분석을 보려면 로그인하세요.

로그인 / 회원가입