스캔 PDF를 한글로 변환하면 왜 수식이 깨지나요?

대부분의 변환기가 글자 모양만 읽는 전통적 OCR 중심이라서, 수식의 구조(분수, 루트, 첨자 등)를 문맥대로 복원하지 못하기 때문입니다. 마이일타는 비전 LLM을 통해 이 문제를 해결합니다.

마이일타는 구글 OCR이나 Tesseract와 무엇이 다른가요?

전통 OCR이 단순 글자 인식에 그친다면, 마이일타는 문제의 문맥을 고려해 수식을 복원하는 비전 LLM 기술과 LaTeX를 HWPX 수식 구조로 치환하는 전용 엔진을 사용합니다.

편집 가능한 수식이 왜 중요한가요?

수식이 이미지로 들어가면 사후 수정이 불가능합니다. 교사가 실제 수업 자료로 활용하기 위해서는 한글 프로그램 내에서 직접 수정할 수 있는 '수식 코드' 형태의 변환이 필수적입니다.

TECH

PDF 한글(HWP) 변환, 왜 수식이 깨질까? — 마이일타가 '비싼 AI'와 표기 기준을 고집하는 이유

게시일: 2026-01-28 14:39

Key Takeaways

이 글을 읽고 나면

10분

01스캔 PDF를 HWP로 변환할 때 수식이 깨지는 원인을 알 수 있습니다
02전통 OCR과 비전 LLM의 차이를 알게 됩니다
03마이일타가 LLM을 이용하여 타이핑하는 이유를 알게 됩니다.

안녕하세요. 마이일타 기술연구소입니다.

교육 현장에서 PDF를 한글(HWP,HWPX)로 변환하는 일은 굉장히 많습니다. 학교 시험지를 시작으로 다양한 참고 서적들을 강사 혹은 학원만의 교재와 문제집으로 제작하기 위해서는 "한글" 파일이 필요하기 때문이죠.

강사가 직접 타이핑하는 경우도 있지만 보통은 조교나 타이핑 아르바이트를 따로 채용해서 하는 일이었습니다. 기술이 발전함에 따라 이를 자동화시켜주는 사이트나 툴들이 종종 나오는 것 같습니다.

그러나 시장에 나와있는 다양한 툴들은 고질적인 문제들이 해결되지 않은 상태가 많습니다:

문제	상세
HWP 수식 깨짐	분수/루트/행렬/괄호 정렬이 무너짐
기호 변환 오류	θ가 o로, μ가 u로, ‖가 □로 변경됨
단위 표기 엉킴	m/s², N·m 같은 표기가 흐트러짐
타이핑 규칙 미준수	수학에서 점 A를 이태릭체로 나타내거나 물리에서 단위를 이태릭체로 표기
결국 사람이 다시 타이핑해야 함	재작업 시간 발생

마이일타는 이 "재타이핑 시간"을 줄이기 위해, 전통 OCR 대신 비전 기반 AI(이미지를 이해하는 모델)를 사용하고, 변환 결과를 표기 기준(단위/기호/서체)에 맞춰 정리합니다.

1) PDF 한글 변환이 어려운 진짜 이유: '인식'이 아니라 '맥락'이 필요합니다#

많이 쓰는 변환 방식은 크게 2가지입니다:

방식	설명
전통 OCR	글자 모양을 읽는 방식
비전 LLM	이미지 전체를 보고 맥락을 추론하는 방식

구글 비전 OCR이나 Tesseract 같은 전통 OCR은 대체로 모양 기반 패턴 매칭에 강합니다. 하지만 수학/물리 문제집 PDF는 "모양"만 읽으면 바로 오류가 납니다.

예를 들어:

x²(제곱)이 x2로 바뀌면 → 식의 의미가 달라집니다
θ(세타)가 o로 바뀌면 → 물리에서 각도/변수 해석이 무너집니다
‖v‖(벡터의 크기)이 깨지면 → 풀이 흐름이 끊깁니다

💡 핵심 인사이트
PDF 문제집을 HWP로 변환할 때 핵심은 "글자를 읽는 것"이 아니라 수식과 기호를 문맥대로 해석하는 것입니다.

2) 마이일타가 전통 OCR 대신 '비전 LLM'을 쓰는 이유#

마이일타는 비전 LLM(Vision Language Model)을 활용해, 문제 이미지 전체를 보며 다음을 함께 판단합니다:

이 문항이 어떤 과목/단원인지 (역학/전자기/화학식/함수 등)
해당 기호가 어떤 의미를 가질 가능성이 높은지 (θ는 각도, μ는 마찰계수 등)
수식 구조(분수/루트/첨자/행렬)가 어떤 형태로 유지되어야 하는지

예시: "이건 역학 문항이니까 θ가 각도일 가능성이 높다"처럼 맥락 기반 추론을 합니다.

✅ 왜 더 비싼 모델을 쓰냐?#

변환 비용이 조금 더 들더라도, 변환 후 재작업(수정/재타이핑) 비용이 훨씬 크기 때문입니다.

마이일타는 "초기 변환 비용"보다 전체 제작 비용 (사람 시간) 을 줄이는 쪽을 우선합니다.

📊 내부 테스트 기준 (5~10줄 문제 100개)#

방식	변환 시간	검토 및 수정 시간	총 소요 시간
전통 OCR	10초	40분	약 40분
마이일타 일타조교	4분 30초	5분	약 10분

3) 'LaTeX → 한글(HWP) 수식' 변환이 특히 어려운 이유#

여기서 많은 분들이 한 번 더 막힙니다:

AI는 수식을 LaTeX로 뽑아내는 경우가 많고
국내 제작 현장은 한글(HWP) 수식을 많이 씁니다

문제는 LaTeX와 HWP 수식 문법이 다르다는 점입니다.

그래서 단순 변환을 하면:

분수 \frac{a}{b} 구조가 틀어지거나
루트/괄호 크기 조절이 깨지거나
아래첨자/위첨자 위치가 흐트러져

편집 가능한 한글 수식이 아니라 **"깨진 텍스트"**가 되어버립니다.

마이일타의 해결 방식#

기술	설명
형식 제어(Precision Control)	AI 출력 단계부터 변환 엔진이 처리하기 좋은 형태로 유도
수식 매핑/치환 엔진	LaTeX 표현을 HWP 수식 구조로 안정적으로 치환
편집 가능한 수식 유지	변환된 한글 문서에서 수식을 다시 수정할 수 있도록 유지

💡 목표
"이미지→텍스트"가 아니라, PDF 문제집을 '편집 가능한 한글 문제집'으로 만드는 것입니다.

4) 'HWP 수식 깨짐'의 마지막 원인: 표기 기준의 불일치#

수식이 눈에 보이는 형태로만 맞아도, 실제로는 "표기" 때문에 자료가 어색해지는 경우가 많습니다:

변수는 기울임, 상수는 로만체
숫자와 단위 사이 공백
단위 곱셈점, 지수 표기
과목별 기호 관례 (물리/화학/수학)

마이일타는 이런 부분을 **국제 표기 관례(예: SI 단위 표기 등)**를 기준으로 정리해, 문제집 전체의 표기를 **"교육 자료로서 일관된 형태"**로 맞추는 것을 지향합니다.

⚠️ 중요한 포인트
"원문보다 더 고친다"가 아니라, **"원문의 표기가 흔들려도 결과물을 '일관되게 정돈'한다"**가 핵심입니다.

5) 변환 결과가 "신뢰"로 이어지려면: Before/After를 공개합니다#

말로만 "안 깨집니다"는 설득이 약합니다. 그래서 마이일타는 변환 전후 비교 이미지로 검증 가능한 형태를 제공합니다.

일타조교는 한글파일을 만들어준다는 타 서비스들과 비교 불가능합니다.

AI로 만든 서비스가 아니라 수만개의 다양한 주제의 문서들을 직접 변환해보며

"한글"로 표현가능한 모든 형태의 식들을 모두 찾아 정규화 시켜놓았습니다.

너무 많은 예시가 있지만 "이런 것까지 해놨어?"의 예시를 하나 보여드립니다.

원본 PDF

타 한글타이핑 서비스 결과

일타조교 한글타이핑 결과

✅ 일타조교의 차별점#

일타조교는 한글파일을 만들어준다는 타 서비스들과 비교 불가능합니다.

AI로 만든 서비스가 아니라 수만 개의 다양한 주제의 문서들을 직접 변환해보며 "한글"로 표현 가능한 모든 형태의 식들을 모두 찾아 정규화시켜놓았습니다.

결론#

PDF 한글(HWP/HWPX) 변환이 진짜 어려운 이유는 "텍스트를 뽑는 것"이 아니라, 교육 자료로서 신뢰 가능한 형태로 복원해야 하기 때문입니다.

마이일타 기술연구소는:

✅ 수식이 깨지지 않게
✅ 기호/단위/표기가 흔들리지 않게
✅ 편집 가능한 한글 수식으로

PDF 문제집을 HWP/HWPX로 변환하는 SaaS를 개발하여 운영 중입니다.

❓자주 묻는 질문

대부분 변환기가 글자 모양만 읽는 OCR 중심이라서, 수식 구조(분수/루트/첨자/행렬)를 "문맥대로" 복원하지 못합니다.

수식이 이미지처럼 붙으면 수정이 어렵고, 교사가 수업용으로 편집하기 위해 결국 다시 타이핑해야 합니다. 편집 가능한 수식이 핵심입니다.

전통 OCR이 "글자 인식"이라면, 마이일타는 문제 문맥을 고려해 수식을 복원하는 비전 LLM과 LaTeX→HWPX 수식 구조 변환에 집중합니다.

보안과 품질 유지 때문에 세부 구현은 공개하지 않습니다. 다만 결과는 Before/After 샘플로 검증 가능하게 제공합니다.

직접 경험해보세요

My1ta와 함께 새로운 교육을 시작하세요