- 미국 법무부가 Epstein Files Transparency Act에 따라 공개한 PDF 문서들을 대상으로, 파일 구조와 구문을 중심으로 한 디지털 포렌식 분석이 수행됨
- 분석 결과, 공개된 EFTA 데이터세트 01–07의 PDF들은 올바르게 편집(redaction) 되어 있으며, 소셜미디어에서 제기된 “복구 가능한 편집” 주장은 사실이 아님
- 모든 PDF는 암호화·주석·JavaScript·첨부파일이 없고, 대부분 스캔 이미지 기반으로 OCR이 적용된 형태이며, 일부 파일에는 숨겨진 메타데이터(dictionary) 가 존재함
-
Bates 번호 부여, 비압축 객체 스트림, 잘못된 버전 표기, 누락된 주석 처리 등 기술적 세부사항이 발견되었으나, 파일 유효성에는 큰 영향이 없음
- 이 사례는 PDF 포렌식의 복잡성과 도구 신뢰성 한계를 보여주며, 민감 문서 공개 전 정확한 정제·편집 워크플로우의 중요성을 강조함
DoJ 공개 데이터 개요
- 법무부는 2025년 12월 19일 7개의 ZIP 아카이브(총 2.97GB)를 공개, 내부에는 4,085개의 PDF, 1개의 AVI 파일, 각 세트별 .DAT 및 .OPT 데이터 파일 포함
- PDF 파일명은 EFTA00000001.pdf부터 EFTA00009664.pdf까지 순차 구성
- 약 5,879개의 PDF가 아직 미공개 상태로 확인됨
- PDF들은 대부분 스캔 이미지 기반 문서로, OCR을 통해 일부 검색 가능한 텍스트가 포함됨
- “블랙박스” 형태의 편집이 적용되어 있으며, 이는 픽셀 기반으로 올바르게 수행된 것으로 확인됨
- “디지털 생성(born-digital)” 문서는 발견되지 않음
파일 유효성 및 버전 분석
- 여러 PDF 포렌식 도구를 활용한 유효성 검사 결과, 단 하나의 경미한 오류만 발견됨
- 109개 파일에서 FontDescriptor Descent 값이 양수로 설정되어 있었으나, 이는 사소한 폰트 매칭 오류로 전체 유효성에는 영향 없음
-
pdfinfo 도구 두 종류를 비교한 결과, PDF 버전 판독값이 상이하게 나타남
- Tool A는 1.3 버전 209개, 1.5 버전 3,875개로 보고
- Tool B는 1.3 버전 3,817개, 1.5 버전 267개로 보고
- 차이는 증분 업데이트(incremental update) 의 Version 항목 처리 방식 차이 때문으로, Tool A의 결과가 정확함
- 모든 PDF는 암호화·태그·주석·북마크·양식·JavaScript·첨부파일이 없음
- 총 페이지 수는 9,659쪽이며, 대부분 단일 페이지 문서임
증분 업데이트와 Bates 번호
- PDF는 여러 차례의 증분 업데이트를 통해 수정 내역을 누적 저장
- 첫 번째 PDF(EFTA00000001.pdf)는 2회의 증분 업데이트를 포함
- 마지막 업데이트에서 Bates 번호가 각 페이지에 추가됨
- Bates 번호 추가는 /Type /XRef 교차참조 스트림을 사용하며, 모든 샘플 PDF에서 동일한 패턴으로 확인됨
- 첫 번째 증분 업데이트에서는 PDF 버전이 1.3에서 1.5로 변경, 그러나 헤더와 불일치하는 기술적 오류 존재
- 또한 숨겨진 문서 정보 딕셔너리(Info dictionary) 가 존재하나, 최종 트레일러에 참조되지 않아 일반 PDF 뷰어에서는 보이지 않음
- 해당 딕셔너리에는 /Creator (OmniPage CSDK 21.1) 및 /Producer (Processing-CLI) 정보가 포함되어 있음
메타데이터 및 날짜 분석
-
pdfinfo 결과, 대부분의 PDF에는 명시적 메타데이터나 XMP 스트림이 없음
- 단, 일부 파일에서 orphaned Info dictionary가 존재하며, /Info 항목이 여러 번 등장
-
EFTA00003212.pdf 파일만이 Title, Author, Subject, Keywords, Creator 항목을 포함
-
/Producer 값은 “pypdf”로 표시된 215개 파일 존재
- 생성일(CreationDate)과 수정일(ModDate)은 모두 동일하며, 2025년 12월 18일~19일 사이로 확인
- 이는 DoJ의 일괄 처리(batch processing)가 약 36시간 동안 수행되었음을 시사
이미지 및 스캔 특성
- 모든 PDF에서 JPEG(DCTDecode) 이미지 부재, 대신 FLATE 압축 비트맵 사용
- 해상도는 약 96 DPI, 색상 팔레트는 256색으로 제한
- 이는 EXIF·IPTC·XMP 메타데이터 제거 목적으로 추정됨
- 일부 문서는 실제 스캔 흔적(종이 가장자리, 구멍, 낙서 등)이 있으나, 일부는 디지털 렌더링 후 스캔 시뮬레이션된 이미지로 보임
- 동일한 기울기(skew)와 노이즈 부재로 구분 가능
-
Courier 고정폭 글꼴 사용으로 인해, 편집된 문자 수를 세어 추정할 수 있는 위험 존재
OCR 품질 및 편집 정확성
- OCR 결과는 정확도가 낮고 언어 인식 기능 부재, 단순 문자 인식 수준
- 첫 번째 PDF(EFTA00000001.pdf)의 OCR 텍스트는 대부분 부정확
- “블랙박스” 편집은 이미지 픽셀 수준에서 직접 적용되어 있으며, 텍스트 객체 위 덮개(rectangle)가 아님
결론 및 시사점
- DoJ의 PDF 생성 파이프라인은 JPEG 제거, 메타데이터 최소화, 이미지 기반 렌더링, OCR 적용 등으로 구성
- 다만 불필요한 객체·빈 스트림·증분 업데이트 잔존 등으로 파일 크기와 복잡성이 증가
- 일부 PDF 주석(comment)과 고아 객체(orphaned object) 가 남아 있어 정보 누출 가능성 존재
- PDF 포렌식은 도구 간 결과 차이와 형식 복잡성으로 인해 오판 가능성이 높음
- PDF Association은 이를 위해 PDF Forensic Liaison Working Group을 운영, 업계 표준화와 교육을 추진 중