Career Profile
현재 Turing Co. ltd.에서 AI Researcher로 병역 특례를 수행하고 있습니다. 추천 시스템, 비디오, 자연어 처리에 익숙하며, 새로운 도전에도 언제나 열려 있습니다. 지금까지 얻은 지식과 노하우를 바탕으로 아느 분야에도 기여할 준비가 되어 있습니다.
Research Interests
현재 발을 담그고 있는 분야입니다. 그 동안 Natural Language Video Localization(NLVL)을 연구하며 얻은 경험을 더 활용하여 더 많은 분야로 뻗어나가고 싶습니다. 특히 NLVL 분야를 중점적으로 알고 있으나, 다른 관련 분야 (예: Video Captioning, Dense Captioning, Vision-Language Navigation 등)에도 일정 수준의 지식을 가지고 있습니다.
- Video and Language: NLVL, Video (Dense) Captioning, Vision-Language Navigation, Video and Language Transformer
- Image and Language: Image Captioning, Scene Graph
Natural Language Video Localization(NLVL)을 연구하며 비디오 프로세싱에 관한 노하우를 쌓았습니다. 이를 활용하여 비디오 관련 분야에 대해서도 공부하고 싶습니다.
- Video Denosing
- Action Recognition
개인적으로 사용할 곳이 많고 컴퓨터 비전이나 NLP에 비해 비교적 발전의 여지가 많이 남아있다고 생각하는 분야입니다. PyTorch-MFCC와 같은 라이브러리를 제작하고 Interspeech등의 학회를 꾸준히 모니터링 하며 시류에 뒤쳐지지 않도록 노력하고 있습니다.
- Singing Voice Synthesis
- Speech Separation
- Vision and Audio
Experiences
Turing Co. ltd.에서 병역특례로 근무중입니다. 2023년 7월 3일 복무만료 예정입니다.
Turing Co. ltd.에서는 월간 수학 교육 분야 이용자수에서 최고치를 기록하고 있는 “수학대왕” 어플리케이션을 서비스하고 있습니다.
Knowre Inc.에서 병역특례로 근무하였습니다.
Knowre Inc.에서는 수학/영어 과목에서 학생별로 개인화된 교육 서비스를 제공하고 있습니다.
대표적으로 대교 써밋 수학을 개발하고 서비스하고 있으며, 300여개에 달하는 미 공교육 기관에 수학 커리큘럼을 공급하고 있습니다.
저는 이러한 서비스의 핵심이 되는 학생 능력 추정 및 문제 추천 시스템 개발 부문에서 리드 연구원으로서 차세대 시스템 연구개발를 담당하였습니다.
머신러닝에 쓰이는 이미지 데이터셋의 프라이버시 문제를 해결하기 위한 이미지 비식별화(Image Obfuscation)기법의 연구개발에 참여하였습니다. 여기서, 저는 비식별화에 사용된 인공신경망 구조를 구현하였고, 개발 완료된 비식별화 알고리즘이 다양한 크기의 이미지에 대응할 수 있도록 하는 방법을 개발하였습니다.
Education
광주과학기술원 컴퓨터 비전 연구실(최종현 교수님)에서 석사 학위를 받았습니다.
Video & Language, Action recognition, Image security 등의 분야를 경험하였습니다.
연구실에서 다음과 같은 분야를 경험하였습니다:
- Vision & Language: Video Captioning, Natural Language Video Localization
- Video Understanding: Action Recognition, Self-supervised Video Representation Learning
- Image Security: Steganography, Image Obfuscation
- Image Generation(GAN): Image Obfuscation
광주과학기술원대학 전기전자컴퓨터공학부에서 컴퓨터과학을 전공하였습니다.
- 우등졸업
- 국가이공계장학금 수여
- ACM-ICPC Asia Seoul Regional 진출 (지역 본선)
Projects
학생의 문제풀이 능력과 각 문제의 난이도를 추정하는 시스템을 개선하여, 기존 시스템보다 높은 정확도를 보이면서 직관적으로 이해할 수 있는 점수(레이팅)체계를 개발하였습니다.
새로운 시스템은 TrueSkill Rating system에 Knowledge Graph와 학생들의 문제 풀이 로그에서 나온 통계치를 접목하여 만들었으며, 다음과 같은 장점을 지닙니다: |
- 학년에 따라 학생의 능력이 증가하는 것을 직관적인 점수로 확인할 수 있습니다.
- 마찬가지로, 학년에 따른 문제의 난이도 증가 역시 직관적인 점수로 표현됩니다
- 학생의 실력 추정치가 급격하게 변하는 일이 적어 안정적입니다
- 기존 시스템보다 추정치가 정확합니다
Natural Language Video Localization(NLVL)은 비디오와 문장이 주어졌을 때 비디오에서 문장이 가리키는 부분을 찾아내는 문제입니다. 이 문제를 별다른 annotation cost 없이 해결하는 Zero-Shot NLVL문제를 제시하고 이를 해결하는 알고리즘을 제시하였습니다. 해당 논문의 제 1저자로 연구를 진행하였고, 아이디어부터 대부분의 실험 설계와 논문 구성까지 도맡아 했습니다. 지도교수님과 다른 분들의 도움을 통해 성공적으로 논문의 형태로 만들 수 있었습니다.
- NCSOFT의 지원을 받아 특허를 출원하였습니다 (출원번호 10-2021-0076124)
- ICCV2021 Accpeted as Oral Paper (link)
- KCC2022(한국정보과학회) Top Conference Sesson에 연사로 초청받아 강연하였습니다
위에 소개된 Natural Lanugage Video Localization (NLVL) 문제의 지도학습 버전입니다. NCSOFT의 지원을 받아 당시 State-of-th-art 였던 ASST 모델을 재구현하고 이를 바탕으로 모델 성능을 올리는 방법을 제시하였습니다. 이 연구를 통해 노하우가 많이 필요한 비디오 분야에 필수적인 기술 여러 가지를 배울 수 있었습니다.
MFCC(Mel Frequency Cepstral Coefficient)는 음성 인식이나 기타 오디오 관련 분야에 필수적인 기능이지만, 2019년 12월 당시까지도 아직 PyTorh상에 구현되지 않은 기능이었습니다. 이 때문에 differentiable MFCC를 직접 개발하여 배포하였습니다. 현재는 공식 라이브러리인 TorchAudio에서 이를 지원하여 관리하고 있지는 않으나, 30개에 가까운 깃허브 스타를 가지고 있습니다.
Deeping Source Inc.의 연구개발 인턴으로 활동하며 아래에 설명한 Image obfuscation 모델이 실사용에서도 잘 동장하도록 하는 선행연구를 하였습니다. 기존의 연구는 GAN을 활용하여 Image Obfuscation을 수행하나, 이로 인해 64*64 보다 큰 이미지에는 잘 적용되지 않습니다. 저는 이를 해결하기 위해 Target Task의 Featuremap을 활용하여 Obfuscator GAN이 커다란 이미지에서도 잘 작동할 수 있도록 만들었습니다.
방학 동안 Deeping Source Inc.의 인턴으로 활동하며 Image Obfuscation서비스의 기반 연구를 하였습니다. Image Obfuscation은 데이터셋의 privacy문제를 해결하기 위해 이미지를 사람이 알아볼 수 없는 형태로 바꾸되 인공신경망에 학습되었을 때는 정상적인 성능을 내도록 하는 것을 목표로 합니다. 현재 Image Obfuscation은 Deeping source inc.의 주요 서비스로 자리잡았습니다.
하나의 이미지 안에 다른 이미지에 대한 정보를 주입하되 이를 사람이 인식하지는 못하게 하는 알고리즘을 제안하였습니다. 기존의 연구는 대부분 이미지 내에 짧은 문장을 주입하는 문제를 다루었으나, 여기에서는 하나의 이미지에 같은 사이즈의 다른 이미지를 주입하는 더 복잡한 문제를 다루었습니다. 이를 위해 기존에 존재하던 Text-in-Image Steganography 모델에서 출발하여 Image-in-Image 문제에도 대응하는 새로운 모델을 제안하였습니다.
Publications
위에 언급된 프로젝트를 바탕으로 논문과 특허를 출판하였습니다.
Skills & Proficiency
Python
- 떠올린 아이디어를 대부분 코드로 옮길 수 있습니다.
- 대학원 시기 모든 연구에 파이썬을 이용하였으며 참여한 모든 프로젝트의 주요 코드를 작성하였습니다.
- Knowre Inc. 에 재직하며 사용한 주요 언어입니다.
PyTorch
- 떠올린 아이디어를 대부분 딥 러닝 모델로 구현할 수 있습니다.
- 대학원 시기 모든 연구에 PyTorch를 사용하였습니다. 참여한 모든 프로젝트의 코드에 주요 멤버로서 관여하였습니다.
- PyTorch 라이브러리 내부의 코드를 수정하여 원하는 형태로 만들 수 있습니다. 예를 들어, DataParallel을 수정하여 커스텀 데이터 타입을 Multi-GPU에서도 사용할 수 있게 만든 경험이 있습니다.
Amazon Web Services
- 현재 AWS Certified Solutions Architect – Associate 자격증을 준비하고 있습니다.
- 노리코리아의 서비스 개발에 AWS 서비스를 자주 사용하였습니다.
- AWS Lambda, Glue 등을 활용하여 Event-driven architecture 구현
- EC2, S3, SageMaker 등의 서비스를 이용한 기계학습
- 광주과학기술원 컴퓨터 비전 연구실의 AWS 관리자로 활동하였습니다.
- 연구실 IAM 계정 통합 관리
- EC2, S3, SageMaker 등의 서비스를 이용한 기계학습
- Lightsail을 활용하여 웹/VPN 서버 호스팅
C/C++
- 처음 컴퓨터 비전을 시작할 때 사용했던 언어입니다.
- C/C++를 이용하여 ACM-ICPC Korea Regional 본선에 진출한 경험이 있습니다.
- 학부 이후로 사용한 경험이 없어 조금 시간이 필요합니다.
React/Vue
- 최근 남는 시간에 프론트엔드를 배우기 시작했습니다.
- 아직은 템플릿을 수정할 수 있는 정도이지만, 꾸준히 발전하고 있습니다.
Arduino/ATmega128
- 취미로 하는 DIY 프로젝트에 많이 이용하였습니다.
- 2D 플로터
- 수비드 머신