<aside> 💬

사람에게 도움이 되는 AI를 직접 만들고 싶었다는, 로민 ML팀의 Son의 인터뷰를 들어볼까요?”

</aside>

손정빈님_아바타.png

🧑🏻‍💻       **ML Engineer**

                  Son

💬 간단한 자기소개를 부탁드려요


안녕하세요. 로민의 ML 엔지니어 Son입니다.

석사 과정 동안 자연어처리(NLP) 분야를 연구했고, 약 2년 전 로민에 합류해 Multi-modal AI 연구를 시작했습니다. 현재는 문서 이해를 위한 Vision Language Model (VLM) 연구 개발을 진행하고 있습니다.

💬 로민의 ML팀 ML 엔지니어는 어떤일을 하나요?


저희 ML팀은 문서 이미지로부터 정보를 추출하는 다양한 Task를 수행합니다. 기본적으로 다양한 문서 이미지에서 Key-value 정보와 표 정보를 추출하는 등 데이터를 구조화하기 위한 모델을 개발합니다. 단순히 모델 개발뿐 아니라, 추론 파이프라인을 설계하고, 모델에 필요한 전처리, 후처리 과정 및 알고리즘 구현까지 담당합니다. 최근에는 모든 종류의 문서에서 정보를 추출할 수 있도록 대규모 VLM에 대한 모델 학습, 추론 파이프라인 및 모델 서빙까지 전반적인 과정을 진행하고 있습니다.

💬 로민의 ML팀 ML 엔지니어에게 가장 필요한 역량은 무엇일까요?


가장 필요한 역량은 문제 해결 능력입니다. 실제 ML서비스에서는 예상치 못한 다양한 문제가 자주 발생합니다. 따라서 모델이 특정 문서에서 인식률이 떨어지는 등 어떤 문제가 발생했을 때 합성 데이터를 생성하거나 모델 구조를 변경하는 등 빠르게 해결책을 찾아야 합니다. 이를 위해 최신 기술과 연구 동향을 꾸준히 학습하고, 새로운 시도를 두려워하지 않는 태도가 추가로 필요합니다.

💬 로민 ML팀은 어떻게 일하나요?


ML팀은 task 마다 핵심 기술이라고 할 수 있는 모델에 대한 개발이 주 업무입니다. Task에 가장 적합한 모델을 조사하고 Base model을 기반으로 성능을 높이기 위해 학습 데이터, 학습 방법, 모델 구조 등 다양한 방면을 고려하여 내부 모델을 완성 시킵니다.

또한, 실제 서비스 되는 사업 프로젝트에도 참여하고 있습니다. 새로운 서비스를 시작할 때, 우선 문서에 대해 데이터 팀과 논의하여 라벨링 방식을 정의하고 완료되면 데이터를 배포 받게 됩니다. 데이터가 배포된 후 가장 적합한 내부 모델을 사용하여 모델을 학습한 후 백엔드팀에 배포하여 실제 API로 end-to-end 테스트를 진행하게 됩니다. 이 과정에서 발생하는 다양한 문제를 해결하며 성능을 개선하는 것이 일상적인 업무입니다.

💬 로민의 문화/제도 중 자랑할만한 게 있다면?