밀 크 T A I g e n i a .

에듀테크의 선두주자, 학습 효과를 높이는 혁신.
누구도 따라올 수 없는 전문성과 기술력, 밀크T AI Genia만이 가능한 시스템.

AI 특허 취득 완료!

밀크T X AI Genia. 적용 AI 기술

  • 취약 분석 문항 추천 기술AI 스마트코칭AI 학습 유도 챗봇 시스템 안면 인식 시스템IRT모델 솔루션TTS AI 학습 솔루션
  • 취약 분석 문항 추천 기술AI 스마트코칭AI 학습 유도 챗봇 시스템 안면 인식 시스템IRT모델 솔루션TTS AI 학습 솔루션
  • 전국 석차 분석 시스템B-IRT 모델 솔루션선호도 추천 학습 시스템 AI 필기 인식 시스템룰베이스 학습 시스템DKT AI 수학 시스템
  • 전국 석차 분석 시스템B-IRT 모델 솔루션선호도 추천 학습 시스템 AI 필기 인식 시스템룰베이스 학습 시스템DKT AI 수학 시스템
  • 실력 분석 FM 모델 시스템AI 학습 QA 시스템AI 학교 시험 족보 시스템 자동 번역 서비스자동자막 STT 서비스취약 추천 약점 보완 솔루션
  • 실력 분석 FM 모델 시스템AI 학습 QA 시스템AI 학교 시험 족보 시스템 자동 번역 서비스자동자막 STT 서비스취약 추천 약점 보완 솔루션
밀크T Genia.
밀크T만이 가능한 천재(Genius)적인 AI기술 집약체

밀크T Genia.는 천재교육의 42년 교육 전문 노하우와 기술력이 만들어낸 인공지능 AI기술 집약체 입니다.

AI Genia.는 빅데이터를 기반으로 학생 한 명 한 명의 실력을 진단하고 점검하여 1:1 맞춤학습을 추천,
제공하고 성취도를 파악해 주는 교육용 AI 엔진입니다.
에듀테크 분야에서도 선두주자인 천재교과서 밀크T의 Genia.는 42년의 노하우를 토대로 쌓아온 전문성과 지속적인 투자 개발로
구축한 기술력으로 전문적이고 더욱 정확한 엔진으로 각광받고 있습니다.
밀크T Genia.는 획일화된 교과과정과 획일화된 교육과정을 통해 단순히 담고 있는 내용을 암기하고 습득하는 형태의 교육에서 탈피하여
학습자가 필요에 따라 자기주도적으로 체험하고 경험하고 문제 해결을 할 수 있도록 서비스를 제공한다는 점에서 기존의 교육방식과는
차별화된 학습 서비스를 지원합니다.
진단, 맞춤학습 제공, 점검이라는 프로세스를 넘어 학습 콘텐츠를 제작함에 있어서도 AI 기술을 적극 활용해
다양한 서비스를 선보이고 있고, 이를 통해 학생들은 학습의 흥미를 이끌어주고 쌍방향 소통이 가능하다는 점에서
심층적 학습이 가능하다는 장점이 있습니다.
밀크T Genia.는 크게 세가지 방면으로 개발 활용하고 있습니다.

밀크T에서는 인공지능 알고리즘을 활용해 ‘AI 1:1 진단평가’ 후 영역별 학습 취약점을 분석하고
이를 바탕으로 학생의 현재 수준을 파악, 학습자 수준을 고려한 개별 맞춤형 학습 커리큘럼을 제공합니다.
모두가 똑같은 획일화된 학습 커리큘럼이 아닌 모든 과정에서 AI 기술을 활용해 성취도를 정확하게 분석하고,
수준별 문항을 제공하기 때문에 극대화된 학습효과를 기대할 수 있습니다.

뿐만 아니라 이러한 결과 분석을 토대로 관리 선생님의 체계적이고 꼼꼼한
1 대 1 맞춤학습 코칭을 제공해 더욱 빈틈없이 학습이 가능합니다.

인공지능과 빅데이터 개인화를 바탕으로 단순한 학습 상담이 아니라 부족한 부분을 채우고
잘하는 부분은 돋보일 수 있도록 해주는 것이 밀크T 학습관리 에듀테크 기술의 핵심이라고 할 수 있습니다.

밀크T 초등 챗봇 화면

밀크T Genia.는 각 과목별로 AI 기술이 적용된 콘텐츠를 제공하고 있는데, 이는 국어, 수학, 영어 등 주요 과목 뿐 아니라 미술, 과학까지 다양하게 준비되어 있습니다.

2D인 종이책으로 배우며 어렵게 느껴졌던 학습을 고도화된 에듀테크 기술이 기반된 3D, AR 등을 이용해 직접 듣고 느끼며 움직이며 학습할 수 있기 때문에 재미있게 학습이 가능하여, 학습의 흥미를 느끼며 스스로 공부하는 습관을 형성할 수 있습니다.

예비 초등 대상의 필기인식 기술을 이용한 ‘받아쓰기’와 음성인식 기술이 적용된 ‘한글스피치’부터 AI Speaking을 통한 말하기 연습은 물론 태블릿 센서와 AR, 3D 기능을 활용한 디지털 체험과학의 실험 강의는 인기 콘텐츠 중의 하나입니다.

그 밖에도 코딩과 독서, 흥미 위주의 게임 콘텐츠까지 밀크T는 교과 콘텐츠 외에도 AI 기술을 적극 도입하여 학생들이 재미있고 효율적으로 학습합니다.

밀크T Genia. 기술을 활용한 학습 콘텐츠 화면

밀크T Genia.는 단순한 일방적 차원의 학습이 아닌 다양한 에듀테크 기술을 통해 쌍방향 학습 콘텐츠를 구축하여 학습자가 다양한 상호작용을 하며 학습할 수 있도록 개발되어 있습니다.

‘AI학습톡톡’에서는 개별 캐릭터들과 메신저 하듯 대화방에서 이야기를 나누며 자연스럽게 공부한 내용을 예습/복습을 할 수 있으며, ‘AI학습챗봇’을 통해서는 음성인식의 STT 기술과 검색엔진 기술을 통해 학습 중 궁금한 점을 직접 질문하면서 실시간으로 소통할 수 있습니다.

이외에도 AI 1:1첨삭과외는 AI필기인식 기술을 이용해 서술형 문제를 풀고 제출하면 AI와 첨삭 선생님이 채점해 주는 서술형 학습 프로그램으로 첨삭 후에는 채점 결과를 토대로 정리 노트에 정리하며 확장 학습을 할 수 있어 서술형 시험에 대한 대비도 가능합니다.

밀크T 1:1 첨삭과외 및 학습 톡톡 화면
AI맞춤학습 프로세스

AI 학습 프로세스는 밀크T에서만 활용되고 있는 고유하고 독보적인 학습 방법입니다. 학습, 평가, 보강의 과정을 반복하여 학습을 마무리하면 종합 측정을 통해 회원의 성취 기준을 다시 측정하여 필요한 학습을 진행하는 일련의 과정을 반복합니다.

N차시의 공부가 끝난 학생의 평가를 진행하여 N+ 1차시의 학생의 수준을 예측합니다. 예측된 수준에 따라서 학생에게 적합한 수준의 강의와 적합한 난이도를 가진 문제, 풀어야 하는 문제 수를 추천합니다. 또한 N 차시의 공부가 끝난 학생에게는 실제 풀은 문제 여부와 상관없이 해당 단원의 정 오답을 예측하여 취약한 부분을 선정하여 다시 보강할 수 있도록 합니다.

각 문항은 현재 공부하는 학습 구조에 적합한 분류 기준과 측정하고자 하는 성취 기준 정보가 들어있습니다. 또한 각 분류 기준은 필요한 선 후행 위계 구조가 선정되어 있습니다. 이는 특정한 분류 기준이 약한 경우 선행 분류 기준의 취약이 학습 부진의 원인인지 판단할 수 있습니다.

각 학습 과정 중에 쌓인 데이터는 학생의 공부 습관 및 태도를 분석하고, 적합한 학습 콘텐츠를 추천하고 학생의 학습 동기 부여를 관리하는데 활용되고 있습니다.

관련 등록 특허

<학습 컨텐츠 추천 시스템 (Learning contents recommendation system)> 등록번호 - 1025109940000
<학습 컨텐츠 추천 방법 및 이를 기록한 기록매체 (Learning contents recommendation method and recording medium recording the same)> 등록번호 - 1025109950000
<사용자에게 다양하고 유용한 컨텐츠를 코칭하는 인공지능 스마트 코칭 시스템 및 방법 (AN ARTIFICIAL INTELLIGENCE SMART COACHING SYSTEM AND METHOD FOR COACHING VARIOUS AND USEFUL CONTENT TO USERS)> 등록번호 - 1024630770000
<컨텐츠 구조 이용 학습 시스템 (Learning system using contents structure)> 등록번호 - 1024985400000

Knowledge Tracing
Knowledge Tracing 기술소개

Knowledge Tracing(지식 추적)이란 학생(user)의 풀이 이력을 활용하여 학생이 미래에 각 문제에 대해 잘 풀어낼 확률을 도출하는 것으로 이를 ‘활용하여 학생의 지식 상태를 추적합니다. 이를 나타내는 척도로 ‘숙련도’라는 용어를 활용합니다. 학생의 풀이 이력은 각 문항별 정 오답과 해당 문항이 담고 있는 학습 개념(Knowledge Concept)을 포함합니다. 또한, 문제 풀이 순서에 따라 달라지는 학생의 지식 상태를 추적하기 위해 시간 정보도 활용합니다. Knowledge Tracing 분야에서는 Bayesian 확률 기반의 BKT(Bayesian Knowledge Tracing), 딥러닝 기반의 DKT(Deep Knowledge Tracing) 등 다양한 모델들이 연구되고 있습니다.

문제를 풀이했는지, 해당 문제를 맞혔는지에 대한 정보가 포함되어 있는 풀이 이력을 활용합니다. DKT는 RNN(Recurrent Neural Networks) 모델의 형태를 가지고 있습니다. RNN은 시간 순차적 데이터를 학습하는 데 특화된 순환적 구조를 갖는 것이 특징입니다. DKT는 RNN의 일종인 LSTM(Long Short-Term Memory models)을 사용하고 있습니다.

DKT 모델 구조
밀크T활용

밀크T에서는 DKT 기술을 활용해 학생의 지식수준을 파악하고, 미래의 정 오답을 예측할 수 있습니다. 이를 통해 밀크T초등 ‘AI수학’ 서비스에 DKT를 적용하여 학생의 각 지식별 숙련도를 측정하고 있습니다.

ICP(Item Correct Predict)
ICP기술소개

에듀테크 분야에서 AI 기반 개인화 추천 기술은 학습자가 학습한 이력을 바탕으로 학습 정도를 추정하고, 학습자에게 적합한 내용과 방법을 추천하는 기술입니다. 혹은 특정한 문제를 맞힐 확률을 예측하는데 활용됩니다. 일반적인 추천 시스템의 방법들을 사용하여 다룰 수 있으며 예를 들어, n 명의 학생이 m 개의 문제 중 특정 문제를 풀 때 어떤 문제를 선택해 풀이하는 것이 효과적인지를 데이터를 기반으로 한 분석 방법을 통해 추천해 주는 문제가 됩니다. 추천 시스템 문제 해결을 위해 지금까지 다양한 방법들이 제안되었고, CBF(Content Based Filtering), CF(Collraborative Filtering), MF(Matrix Factorization) 협력 필터링 방식과 Deep Learning을 이용한 다양한 알고리즘을 사용한 방법들이 사용되고 있습니다.

일반으로 추천 시스템(Recommend System)에서 사용되는 데이터는 행이 사용자가 되고, 열이 콘텐츠에 대한 평점(Rating)이 됩니다. 이를 교육 도메인에 적용했을 때 행은 학습자가 되고, 열이 학습자가 풀이한 문제의 정 오답으로 표현할 수 있습니다.

이런 데이터로 학습자가 특정 문제에 대해 정 오답 확률을 예측할 수 있는 대표적인 추천 시스템 알고리즘으로 행렬 분해 기반 MF(Matrix Factorization) 알고리즘이 있습니다. 하지만 학습자, 문제 정보 외에 추천의 정확도를 높이기 위한 부가 정보를 활용할 수 없는 단점이 있습니다. 이런 단점을 극복하기 위해 매개변수 인수분해(Factorized Parameterization)를 사용하여 학습자와 문제 간 관측되지 않은 상호작용도 추정이 가능하고, Feature Engineering이 비교적 유연한 Factorization Machines(이하 FM)도 많이 사용하고 있습니다.

각 행엔 하나의 사용자, 아이템에 대한 정보가 있고 파란색 영역은 User를 나타내고, 주황색 영역은 item(영화)을 나타내는 feature입니다. 노란색 영역은 User가 평가한 다른 영화들이고 초록색 영역은 특정 기간부터 item에 대한 평가까지 걸린 시간을 나타냅니다. 빨간색 영역은 직전에 평가한 영화이고 마지막 Target은 예측하고자 하는 label입니다.

영화 평점 시스템 데이터 기반 feature vector 예시

이를 문제 추천 시스템에 적용하면 파란색 영역은 학습자, 주황색 영역은 아이템(문제)를 나타내는 feature입니다. 노란색 영역은 학습자가 학습한 문제 기반 성적을 나타내고, 빨간색 영역은 문제와 관련된 정보입니다. 제일 오른쪽 Target은 예측하고자 하는 특정 문제에 대한 맞출 확률을 예측하게 됩니다.

밀크T활용

밀크T는 개인화 추천 시 문제의 난이도, 정답률 등의 문제와 관련된 정보를 활용하여 학습자에게 적합한 문제를 추천하는 시스템이 구축되어 있습니다.

이를 활용하여 AI 약점 보완 학습을 통해 한 단원 학습 후 개념별 정답률을 AI가 분석하여 최취약 개념을 학습하도록 추천 학습 콘텐츠를 제공합니다.

또한 AI 추천 수준별 학습을 통해 한 단원 학습 후 개념별 정답률과 다음 단원에 대한 예측 정답률을 AI가 분석하여 개인 수준에 맞는 학습 코스를 제공하여 효율적인 학습이 가능합니다.

밀크T Genia. AI수준별학습 화면
IRT (Item Response Theory)
IRT기술소개

IRT는 피험자들이 평가 문항에 대한 응답을 근거하여, 피험자의 특성(인지 능력, 물리적 능력, 기술, 지식, 태도, 인격 특징 등)이나 평가 문항의 난이도, 변별도를 측정하기 위한 검사 이론입니다. 이 이론의 주된 특징은, 예를 들면 개인의 능력이나 문항의 난이도 같은 모수를 평가 문항에의 정오(正誤)와 같은 이산적인 결과를 확률론적으로 판단하여 구한다는 점입니다. 즉 검사 자료에 수학적 모형들을 적용하는 것입니다.

평가 문항의 적절성을 분석하고, 평가 문항이 기능을 제대로 수행하고 있는지 확인하는 것을 문항분석이라 하며 문항분석을 위한 이론은 크게 고전검사이론과 문항반응이론으로 나뉩니다. 정답률에 의해 평가 문항이 분석되는 고전검사이론의 경우, 시험에 응시한 학생의 시험 결과 자료를 이용하여 문항 난이도를 계산하는 방식으로써 동일한 문항이라도 응시생 집단의 능력 수준에 따라 문항의 난이도가 상대적으로 측정되는 한계가 있을 수 있습니다. 그러나 확률적 모형식을 통해 문항 모수 및 학생 능력 수준의 추정이 이루어지는 문항반응이론은 응시생 집단의 특성에 영향을 받지 않기 때문에 고유한 문항 난이도와 변별도 및 학생의 능력을 산출할 수 있는 특징이 있습니다.

즉, 문항반응이론에 따르면 어느 문항이나 고유의 특성이 있어 수험생 집단이 다르더라도 문항의 특성은 바뀌지 않고, 마찬가지로 수험생도 고유의 능력이 있어 문항 특성에 따라서 그 능력 지수가 바뀌지 않는 장점을 지니고 있습니다.

문항특성곡선(Item Characteristic Curve: ICC)이란 문항반응이론에서 각 능력 수준의 학생들이 문항을 맞힐 실제 확률 값에 가장 가깝게 그려지는 곡선을 의미합니다. 문항특성곡선을 통해 학생들이 각 문항에 반응하는 정도와 문항 모수(문항 난이도, 문항 변별도, 문항 추측도)를 확인할 수 있습니다.

IRT 모델 설명
밀크T활용

밀크T Genia.는 보유하고 있는 문항에 IRT 이론에 근거하여 문항의 난이도와
변별도를 산정하고 있습니다.
개인의 평가를 위한 시험지를 작성할 때 높은 변별도를 지닌 문제와 적합한 수준의
난이도의 문제를 조합하여 활용합니다.
또한 일대일 맞춤형 학습을 진행할 때 학생의 수준에 적합한 난이도의 문제를
출제하고 있으며 이외 다양한 방면에서 활용하고 있습니다.

CAT (Computerized Adaptive Testing)
CAT기술소개

CAT는 개별 학생이 문항을 푸는 추이에 따라 맞춤형으로 다음 문항을 제시하고 측정하는 시험 방식입니다. 모든 학생이 동일한 시험지로 측정하는 전통적인 방식(CT, Classical Testing)에 대비 적은 수의 문항으로도 측정이 가능하고, 응시자 모두 개인의 능력 평가에 적당한 문제를 제공받기에 평가의 정확도가 증가하고, 응시자 모두 유사한 정도의 심리적 부담감을 받기에 시험의 공정성이 증가하는 장점을 지니고 있습니다.

시험을 보는 모든 수험생이 동일한 수준의 문제를 푸는 것을 집단 수업, 개인별로 수준에 맞는 다른 문항을 푸는 것을 개별 시험으로 분류할 수 있습니다. 개별 시험을 실시하면 수험자에게 적절한 문항을 선택하여 시험을 치르고, 수험자가 과제를 이해했는지 여부를 자세히 알 수 있는 반면, 시험 환경의 동일성을 유지하고 비용을 절감할 수 있는 집단 시험의 장점을 잃게 됩니다. 이러한 이유로 집단 시험이 현재 더 널리 사용되고 있지 만 집단 시험은 너무나 넓은 범위의 능력 수준을 가정하고 있다는 문제점이 있습니다.

시험의 정확도는 능력 수준에 적합한 문제를 제시할 때 높아지지만 대부분의 집단 시험에서는 평균 수준의 능력자들에게 초점을 맞추기 때문에 중간 난이도 수준의 문제가 대부분이고 소수의 아주 쉽거나 어려운 문제로 구성됩니다. CAT는 시험의 난이도가 수험자의 능력 수준에 적합할 때 가장 많은 시험 정보를 얻을 수 있다는 가정에 근거하고 있습니다.

밀크T활용
밀크T ‘AI 내전석수학’ 응시 및 결과분석 화면

CAT는 밀크T내의 내전석(내 아이의 전국 석차) 서비스에서 문항 반응 이론(IRT, Item Response theory)과 함께 사용되고 있습니다. 개별 응시자의 수학 학습능력을 빠르고 정확하게 판단하고 이를 전국 백분위로 환산하여 제시합니다. 최소 3개부터 최대 20개까지 문제를 풀면 자신의 성적을 확인할 수 있으며, 단순 석차 확인을 넘어서 문항 반응 이론에 입각한 결과 분석 보고서가 응시자의 수준과 특성을 정확하게 반영해 평가 결과를 제공합니다. 뿐만 아니라 중학교 학습 가이드와 함께 추천 과정까지 제공하기 때문에 보다 정교한 1:1 수준별 맞춤 학습이 가능한 장점을 지니고 있습니다.

빅데이터 및 ML/DL

천재그룹의 수억 건의 대규모 빅데이터 처리와 workflow 관리는, AWS EMR 기반의 Spark 분산처리 환경과 관리형 Airflow를 통해 이루어지고 있습니다. 데이터 처리를 위해 pyspark 기반으로 스크립트화된 spark-job 들은, EMR에 할당된 EC2 인스턴스를 통해 실행되도록 설계되었으며, 이러한 각각의 job은 관리형 Airflow의 메인 DAG 안에서 sub_dag 형태로 연동되어 천재그룹 AWS cloud 내의 모든 데이터 파이프라인을 구성하고 있습니다. 또한 Airflow를 통해 데이터 처리 프로세스 및 작업의 순서를 예약 및 모니터링하고 있습니다.

Kubernetes 기반 Kubeflow는 다수 컴퓨터에 있는 리소스를 모두 운영하면서 머신러닝 워크플로우를 자동화해주는 툴킷입니다. 인공지능 모델 학습과 서비스에 적용하기 위한 데이터 처리와 모델 학습, 그리고 배포까지의 파이프라인을 관리할 수 있습니다. Kubeflow 플랫폼의 목적은 다른 서비스나 툴 없이 머신러닝에 필요한 여러 컴퓨터 자원들을 한 번에 관리하기 위함으로, Kubeflow 컴포넌트들은 데이터 분석가와 필요한 툴과 데이터 사이언티스트가 필요한 툴 모두 포함되어 구성되어 있다는 점입니다. 따라서 머신러닝 사이클인 데이터 분석 단계, 모델 학습 단계, 모델 튜닝 단계, 그리고 서비스에 적용하기 위한 서빙 단계까지 하나의 플랫폼 위에서 실행할 수 있습니다.

밀크T활용

해당 빅데이터 처리 기술을 활용하여 연간 22억 건 수준의 학습자 행동 데이터와 8억 건 이상의 풀이 이력 데이터를 수집 및 처리하고 있습니다. 수집된 데이터를 활용하여 개인의 수준 및 약점을 진단하고, 적합한 콘텐츠를 추천하고, 성취도를 측정하는 학습 모델에 활용하고 있습니다. 해당 데이터를 통해서 학생의 행동을 분석하고, 행동에 따른 공부 습관 등을 파악하는 것에 활용하고 있습니다. 또한 해당 데이터를 활용하여 학생들이 가장 좋아하는 콘텐츠를 파악하고 콘텐츠 선호 트렌드를 파악하는 등 다양한 방면에서 활용하고 있습니다.

유사도 기반 학습 챗봇
(Word Embedding to Vector)
유사도 기반 학습 챗봇 기술소개

Word2Vec은 단어를 벡터로 바꿔주는 알고리즘입니다. Neural Network Language Model(NNLM)을 계승하면서도 학습 속도와 성능을 비약적으로 끌어올려 주목을 받고 있습니다. one hot encoding(예 [0000001000]) 혹은 Bag of Word 비롯한 희소 표현은 공간적 낭비 외에도 각 단어 간의 유사성을 표현할 수 없다는 문제점이 있고, 이를 대안으로 "단어의 의미"를 N 차원 공간에서 벡터화시키는 방법이 바로 word2Vec입니다. Word2Vec는 '비슷한 위치에서 등장하는 단어들은 비슷한 의미를 가진다" 는 가정 하에 수행됩니다. 표현된 벡터들은 원-핫 벡터처럼 벡터의 차원이 단어 개수일 필요가 없으므로, 벡터의 차원이 상대적으로 저차원으로 줄어들게 됩니다. 또한 이러한 분산 표현 방법을 통해 각 단어 간의 유사도 측정이 가능해집니다.

Word2Vec 학습 과정 시각화 이미지
밀크T활용
밀크T 초등 챗봇 화면

밀크T에서는 질문이 입력되면 미리 학습된 질문들과의 유사도를 계산하고, 미리 학습된 모든 질문들 중 가장 유사한 상위의 TopN(n은 파라미터로 입력 받도록 처리함) 개를 유사도 값과 함께 반환하는 서비스를 제공하고 있습니다.

관련 등록 특허

<학습 챗봇을 활용한 학습 유도 시스템 (Learning induction system using learning chatbot)> 등록번호 - 1024493490000
<학습 유도용 챗봇 시스템 (Learning induction type chatbot system)> 등록번호 - 1025109980000
<학습 챗봇을 활용한 학습 유도 방법 및 이를 기록한 기록매체 (A method of inducing learning using a learning chatbot and a recording medium recording the same)> 등록번호 - 1024985440000

검색엔진 기반 학습 챗봇
검색엔진 기반 챗봇 기술소개

검색엔진 기반 챗봇은 텍스트 분석에 특화되어 있습니다.

문자열 필드가 저장될 때 데이터에서 검색어 토큰(Token)을 저장하기 위해 여러 단계의 처리 과정을 거칩니다. 이 전체 과정을 텍스트 분석 (Text Analysis)이라고 하고 이 과정을 처리하는 기능을 분석기(Analyzer)라고 합니다. 분석기는 0~3개의 캐릭터 필터(Character Filter)와 1개의 토크나이저(Tokenizer), 그리고 0~n개의 토큰 필터(Token Filter)로 이루어집니다.

인덱싱이 이루어지는 경우, 분석기를 통하여 용어(Term)가 분해되어 역인덱스 사전을 구축합니다. 검색 시엔 단어의 변형과 상관없이 검색이 가능해야 하기 때문에 각각의 용어에서 어간 추출 또는 형태소 분석이 필요하게 됩니다.

토큰은 분석기에서 토크나이저를 통해 필터링된 문자열이 잘리는데 이때 잘린 단위를 토큰이라고 칭하며, 토큰 필터를 거쳐서 최종적으로 정제가 되어 인덱스에 저장되는 토큰들을 용어라고 부릅니다. 이렇게 문자를 잘라서 인덱스 하는 것을 역인덱스(역색인)이라고 부릅니다.

긴 장문의 문자열 속에서 일부를 검색해도 빠른 속도로 정확한 검색이 가능하다는 것이 강점입니다.

밀크T활용
밀크T 중학 챗봇 화면

밀크T 중학 AI 학습 챗봇에 적용하여 답변의 속도와 정확도를 높이는 데 활용되고 있습니다.

손글씨 인식
손글씨 인식 기술소개

CNN(Convolution Neural Network; CNN)은 동물들이 물체를 인식하거나 구분하는 것을 모티브로 한 신경망으로서 동물들이 다른 대상을 구분할 때, 대상의 특정 부분을 민감하게 받아들여 대상을 구분하는 것을 아이디어로 하여 등장했습니다. 이러한 뇌의 활동에 힌트를 얻어 CNN이라는 신경망이 발표되었고 현재 이미지 분야와 영상 분야에서 널리 활용되고 있습니다. CNN의 주요 기능은 이미지에서의 특징 추출(Feature extraction)을 하는 것입니다. 특징 추출이란 이미지 데이터에서 고유한 특징을 찾는 것을 말하며, CNN에서는 기본적으로 kernel 파라미터의 학습을 통해 이미지의 특징을 추출합니다. 그리고 이 커널들을 시각화하면 아래 그림과 같습니다.

좌 : 입력 이미지, 중 딥뉴럴 네트워크의 학습된 주요 영역(이미지 특징), 우 : 입력 데이터와 hitmap의 겹친 이미지
밀크T활용
밀크T 손글씨 인식 화면

밀크T에 탑재된 손글씨 인식 엔진은 딥 뉴럴 네트워크(DNN)를 사용한 모델입니다. 그중, computer vision 영역에서 가장 많이 사용되는 기법인 CNN(Convolution Neural Network)을 사용, 유아 필기 데이터를 정제, 학습하여 평균 90% 이상의 인식률을 달성하였습니다 (한글 90%, 영어 95%) 사용자가 펜 혹은 손가락을 이용하여 본인이 원하는 글씨를 쓰게 되면 손글씨 인식 모델을 통해 글씨로 인식하게 됩니다.

관련 등록 특허

<손글씨 인식을 통한 유아 학습 시스템> 등록번호 - 1023441440000

<손글씨 인식을 통한 유아 학습 방법 및 이를 기록한 기록매체> 등록번호 - 1023441450000

<손가락을 이용한 학습 시스템> 등록번호 - 1024552470000

<손가락을 이용한 학습 방법 및 이를 기록한 기록 매체> 등록번호 - 1024552480000

OCR (Optical character recognition)
OCR 기술소개

광학 문자 인식(Optical character recognition; OCR)은 컴퓨터가 문자나 수식이 포함된 이미지나 획 데이터를 인식하는 기술로서 다양한 응용 콘텐츠 및 기술을 만들어 낼 수 있는 원천 기술입니다.

OCR 모델은 2017년 구글이 발표한 논문인 Attention is all you need에서 나온 Transformer 모델을 기반으로 구성되어 있습니다. Transformer 모델은 기존의 seq2seq의 구조인 Encoder-Decoder를 따르면서도 Attention으로만 구현만 모델로 RNN을 사용하지 않고 Encoder-Decoder 구조를 설계했음에도 성능이 RNN보다 우수합니다. Encoder는 Self-attention layers 구조로 구성되는데 각 Encoder Layer는 이전 Layer로부터 모든 위치를 처리한 정보를 활용합니다. Decoder는 Sequence-to-Sequence 모델에서의 일반적인 Encoder-Decoder Attention 메커니즘을 모방하여 Key-Query-Value 구조를 사용하고 Encoder의 모든 Position 정보를 사용합니다. Encoder와 Decoder에서는 각각 Multi-Head Self-Attention과 Masked Mulit-Head Self-Attention 구조를 사용하여 Attention Layer의 다른 위치에 있는 단어를 집중(Attention) 하는 성능을 향상시켰습니다.

The Transformer - model architecture.
밀크T활용

밀크T는 문자가 있는 이미지를 인풋 하면, 한글과 수식(Latex)으로 구성된 문자열을 아웃풋으로 출력합니다. 해당 기술을 활용하여 학습지를 촬영하면 학습지 안에 있는 이미지인 문제를 글씨로 인식합니다. TEXT를 인식함과 동시에 수학에서 가장 필요한 수식도 인식합니다. 해당 문자와 수식을 활용하여 스캔 한 문제와 가장 유사한 문제를 찾아내는 것 등 많은 분야에서 해당 기술을 활용하여 아이들의 학습을 돕고 있습니다.

Auto Encoder
Auto Encoder 기술소개

오토 인코더는 비지도 (unsupervised) 방식으로 훈련된 인공 신경망으로, 먼저 데이터에 인코딩된 표현을 학습한 다음, 학습된 인코딩 표현에서 입력 데이터를 (가능한 한 가깝게) 생성하는 것을 목표로 합니다. 따라서, 오토 인코더의 출력은 입력에 대한 예측이라고 할 수 있습니다.

오토 인코더의 주요 응용 분야는 이상 감지 또는 이미지 노이즈 제거입니다. 오토 인코더는 주어진 데이터 매니폴드에 있는 데이터를 재현하는 것을 목표로 합니다. 따라서 우리는 모델이 훈련 중에 관찰한 것들만을 재현할 수 있도록 제한합니다.

오토 인코더의 또 다른 응용은 이미지 feature 추출 시에 많이 사용됩니다. 인코더에서 입력 이미지를 feature(특징점)로 축소하고, 디코더에서는 축소된 feature(특징점)로 입력 이미지와 유사한 이미지를 생성하도록 진행하는 것이 Generative Model입니다. 이와 같은 방법론으로 역사 속 인물의 초상화 이미지의 feature를 추출하여 차원 축소 및 복원하는 과정을 통하여 이미지의 특징을 학습합니다.

밀크T활용
밀크T ‘내가 왕이 될 상인가’ - 역사 속 유사 인물 결과 도출 과정

밀크T중・고등서비스 ‘내가 왕이 될 상인가’ 콘텐츠에 Face detection 기술과 벡터 기반 이미지 유사도 측정 기술이 접목되었습니다. 해당 기술을 활용하여 학습자와 유사한 역사 속 인물을 찾을 수 있습니다.

Speech To Text (STT)

STT는 VUI(음성 사용자 인터페이스: Voice User Interface)를 위한 기본적인 기술로써 사람의 음성을 컴퓨터가 인식해 텍스트화할 수 있습니다. 음성인식 기술은 숨소리, 기침소리 또는 다양한 환경 잡음을 포함한 소리들과 음성을 명확히 구분해야 하고 음성이 어떤 단어, 어떤 문장을 말하고 있는지 정확하게 텍스트로 변환합니다.

언어 모델은 뉴스, 소설, 사전 등 대용량의 텍스트 데이터를 기반으로 단어와 단어 사이의 패턴을 확률적으로 계산한 통계 모델입니다. 언어 모델은 다양한 텍스트를 분석하여 ‘나는 학교에’라는 패턴이 등장하면 그 뒤에는 ‘감다’라는 단어 보다 ‘간다’라는 단어가 등장할 확률이 높다는 것을 학습하게 됩니다. 이렇게 학습된 언어 모델을 통해 단어와 단어의 관계를 기반으로 음향 모델과 발음 열 사전을 거쳐 출력된 단어 열을 문법에 맞게 보정하여 사용자에게 최종 인식 결과를 제공하게 됩니다.

밀크T활용

유아 한글

유아 수학

유아 영어

밀크T 유아용 교육 콘텐츠 적용 (한글, 수학, 영어)

딥러닝을 통해 음성인식 정확도가 향상되면서 우리는 실생활에서 다양한 종류의 음성인식 서비스를 접하고 있습니다. 밀크T 에서도 영어 발음의 인식을 통한 발음의 수정, 한글의 인식을 통한 답안 인식 등 다양한 방면에서 음성 인식을 활용하고 있습니다. 또한 콜센터로 유입되는 상담콜을 TXT 전환하여 고객님의 소리를 점검하는 부분에도 활용하고 있습니다. 지속적인 기술 개발을 통해 음성인식의 활용처를 높이고, 음성인식의 정확도를 높이는 작업을 지속적으로 진행하고 있습니다.