전통적으로 AI 딥러닝은 데이터와 데이터를 설명하는 레이블(label)을 쌍으로 학습시키는 '지도학습(supervised learning)' 방식으로 이뤄져왔다.
음성인식 AI를 개발하기 위해서는, 음성과 음성 속 텍스트를 같이 학습시켜야 한다. 이 같은 데이터 레이블링은 사람의 수작업으로 이뤄지기 때문에 학습데이터 구축에 시간과 비용이 많이 든다. 반면 자기지도학습(self-supervised learning)은 레이블 없이 데이터 자체만으로 학습할 수 있는 최신 딥러닝 기법으로 학습의 효율성을 훨씬 높일 수 있다. 이는 네이버가 최근 공개한 초대규모(hyperscale) AI '하이퍼클로바'의 핵심 기술이기도 하다.
업그레이드된 NEST 엔진은 '클로바노트'에 탑재됐다. 네이버가 작년 말 출시한 음성기록 서비스 클로바노트는 높은 인식률과 편리한 서비스로 사용자들의 호응을 얻으며, 올해 1월 대비 지난 달 사용자 수(MAU)가 2.5배나 증가하는 등 빠른 성장세를 보이고 있다. 최근에는 누적 앱 다운로드가 40만 건을 돌파하기도 했다. 네이버는 클로바노트를 시작으로, AI가 전화로 코로나19 능동감시자를 확인하는 클로바 케어콜, 뉴스 자동 자막 서비스 등 음성인식 AI가 적용된 여러 서비스로 점차 적용을 확대할 예정이다.