★ AI Data 교육 안내 및 수강신청 사이트 - http://aidata.elancer.co.kr/student/edulist.php
교육 신청하기 | 2022 인공지능 학습용 데이터 라벨링 전문 교육
교육 신청하기 | 2022 인공지능 학습용 데이터 라벨링 전문 교육 | 교육과정 소개 및 수강신청 사이트입니다.
aidata.elancer.co.kr
※ 인공지능 윤리와 법(필수교육) 후기 - https://lbsdatastat.tistory.com/194
'데이터 라벨링 전문 교육' 인공지능 윤리와 법(필수) 수강 후기
★ AI Data 교육 안내 및 수강신청 사이트 - http://aidata.elancer.co.kr/student/edulist.php 교육 신청하기 | 2022 인공지능 학습용 데이터 라벨링 전문 교육 교육 신청하기 | 2022 인공지능 학습용 데이터 라..
lbsdatastat.tistory.com
💡 [교육내용 공지]
ㅇ 과정명: [온라인] 음성/텍스트 입문 과정
ㅇ 수료 기준
- 강의 각각 80% 이상 수강 및 만족도 조사 제출 시 수료
- 단, 필수과정 수료 시 수료증 발급 가능
ㅇ 교재/교안: 강의 개요에서 확인 가능합니다.
ㅇ 강의 구성: 총 4강(70분)
ㅇ 교육 내용
- 교육의 목적
- 음성/텍스트 데이터 학습 처리 과정과 유형
- 학습 처리 사례 및 최종 산출물
- 맞춤법 (입문 과정)
데이터 라벨러 교육에는 각 분야별로 입문, 기본, 심화 과정으로 세분화되어 있습니다. 입문 교육의 경우는 실습과제 없이 이론교육만으로 이루어져 있으며, 음성/텍스트 유형의 경우 70분 분량의 이론 강의가 준비되어 있습니다. 기본과 심화 단계에서는 음성 따로 텍스트 따로 배우지만, 입문 단계에서는 음성과 텍스트를 한 강의에 묶은 것이 눈에 띄는 점이고요.
교안과 교재는 수강 사이트에서 다운로드받을 수 있으며, 각각의 파일을 참고하여 교육에 참여하면 될 것으로 보입니다. 교안 그대로 수업이 진행되며, 교재파일이 이와 차이가 조금은 있지만 큰 틀은 비슷해서 교재파일을 보면서 강의를 듣는게 최적이라 생각했습니다.
용어의 개념부터 학습 처리 과정, 유형, 사례까지 70분 동안 폭넓은 내용을 배울 수 있었는데요, 입문 단계인 만큼 음성/텍스트 데이터 라벨링에 있어 반드시 알아야 할 내용 중심으로 담겨져 있는 것으로 보였습니다.
특히 데이터 처리 사례에서 일반남녀, 노인남녀, 소아와 유아 별로 자유대화 음성 데이터의 구축 목적과 활용 분야가 모두 다르다는 점이 인상적이었습니다. 음성 파일인 WAV, 텍스트 파일인 TXT 외에 데이터 교환 형식으로 JSON 포맷이 사용된다는 점도 중요하게 다가왔는데요, 프론트엔드 개발을 잘 하는 사람이 음성/텍스트 데이터 라벨링도 잘 할 수 있겠구나 하는 생각이 들었습니다. 능력 있는 데이터 라벨러가 되려고 한다면, 프론트엔드 개발 공부도 같이 하면 좋을 것 같네요.
이론 교육과 만족도 조사를 마치고 나면, 위와 같이 수료증이 발급됩니다. 교육기간이 약 열흘이라 신청한 기한 내에 이수를 하셔야 한다는 점, 그리고 필수 과정(인공지능 윤리와 법)을 수료하셔야 해당 교육 과정에 대한 수료증이 발급 가능하다는 점 주의하시면 되겠습니다.
아래는 교육 내용을 요약하여 정리해 놓은 글입니다. 아래 모든 내용은 교육의 교재와 교안에 기반하였으며, 만약 이 부분이 저작권법에 문제가 될 경우 해당 게시글을 비공개 또는 삭제처리할 수 있다는 점을 미리 알려드립니다.
<음성/텍스트 입문교육 내용 정리>
1장. 교육 과정 소개
- 입문 과정 : 기본 과정 학습 전 필수적으로 알아야 하는 용어 및 개념 정리에 중점을 두고 교육의 흥미를 유발하여 기본 과정과 심화 과정으로의 접근성을 높이기 위한 준비 단계
- 기본 과정 : 입문 과정에서 학습한 이론적인 내용을 바탕으로 음성 텍스트 전사 라벨링에 사용되는 저작도구에 대한 사용법 학습 후 실습을 통해 기본적인 음성 텍스트 전사 라벨링 작업이 가능하도록 함
- 심화 과정 : 기본 과정에서 익힌 전사 라벨링 방법을 토대로 이중 전사 비식별화 등의 심화된 전사 라벨링 규칙의 학습과 실습
→ 심화 과정까지 이수한 교육생을 대상으로 NIA 와의 관련 프로젝트 진행 시 필요 인원 선발 후 2주~4주의 연수 과정을 거쳐 취업 연계 계획
2장. 용어 개념 정의
1. 전사와 속기
1) 전사 : 말소리를 음성 문자로 옮겨 적음
2) 속기 : 꽤 빨리 적음, 속기법으로 적는 일 또는 그런 기록
3) 비교
- 전사는 인공지능의 학습을 목적으로 한 데이터를 만들기 위한 작업으로서 인공지능 학습을 진행하는 회사나 기관마다 필요한 규칙을 적용하기 때문에 전사 방법에 조금씩 차이가 있음
- 속기는 기록으로 남겨 증거물로서의 가치를 지니거나 기록으로 남기기 위한 것으로 규칙은 거의 일정함
2. 음성 싱크 작업 : 음성 데이터와 문자 데이터를 일치시키는 작업
3. 비식별화 작업 : 음성/텍스트 데이터에 있는 개인 정보를 알 수 없도록 처리하는 기법
4. 이중 전사 작업 : 말소리와 표기하는 문자가 다른 경우 둘 모두를 전사에 반영하는 작업 (우리가 이야기할 때의 발음과 그 말을 글로 작성했을 때의 발음은 다소 차이가 있음)
3장. 음성/텍스트 데이터의 학습 처리 과정
1. 음성 텍스트 데이터 학습 처리 과정 : '수집(녹음) → 정제 → 검사 → 전사 → 검사 → 최종 검수' 과정을 거침
2. 원시 데이터 수집(녹음) : 음성 데이터를 얻기 위한 단계
※ 원시 데이터 : 어떠한 편집도 되지 않은 상태로 수집된 결과물
(음성 녹음 교육 및 저작권 이용 허락 계약 체결 → 화자 정보 기재 → 사전 녹음 → 관리 FTP에 결과물 등록)
3. 데이터 정제
- 음성 데이터에서 나타난 잡음이나 개인 정보 등을 삭제하는 편집 작업이며 작업 과제에 따라 개인 정보를 비식별화하기도 함
- 정제된 결과물을 원천 데이터라고 하여 정제 전 수집 과정에서 획득한 결과물인 원시 데이터와 구분
(음성 원시 데이터 다운로드 → 정제 작업→ 관리 FTP에 결과물 등록)
4. 검사
1) 정제 검사 : 관리 서버에 있는 정제 결과물을 받아서 정제 매뉴얼을 바탕으로 검사
2) 전사 검사 : 전사 완료된 결과물을 대상으로 검사
5. 전사 : 정제 검사가 완료된 음성 파일을 가지고 작업
6. 최종 검사 : 전사 결과물을 검사한 파일을 대상으로 최종 검수를 진행 (JSON 포맷으로 변환)
7. 학습 : 완성된 학습 데이터를 가지고 인공지능 학습을 진행하여 인식률을 평가
(인식률은 사람이 한 말에 대해 인공지능이 얼마만큼 정확하게 인식하는지에 대한 확률을 의미)
4장. 데이터 정제/전사 저작도구 및 규칙
1. 음성 데이터 정제 도구 - Audacity
- 파일 가져오기/내보내기 : 사운드 파일을 가져와서 편집하고 새로운 파일과 결합할 수 있으며 한 번에 여러 파일을
포함하여 다양한 파일 형식으로 저장 가능
- 편집 : 사용자가 원하는 구간을 자르기, 붙여넣기, 삭제 등 쉬운 편집이 가능 / 발화 앞 뒤 묵음 넣기, 샘플링(Hz) 변경 가능 / 여러 클립은 트랙당 허용이 되며, 프로그램 비정상 종료 시 자동 복구
- 효과 : 음량 조절이 가능하며 배경 소음 제거 가능 / 템포를 변경하지 않고 피치 변경 가능
2. 전사 데이터 저작 도구 - 전사툴
- 모든 기능을 단축키로 조작 할 수 있도록 하여 전사 및 태깅 작업시간을 최소화
- 세그먼트 합치기 나누기 기능으로 문장발화의 정확한 시간 정보 저장 가능
- 재생속도 조절가능으로 화자가 많거나 말이 빠른 경우 전사 작업에 용이
- 학습데이터 수정 작업 내용 최종 저장 제출 기능
3. 데이터 정제 규칙 : 음성 품질 기준(파일 형식 등), 음성 정제 및 삭제 대상, 음성 정제/검사 주의 대상 등의 항목이 존재
4. 전사(받아쓰기 작업 규칙) : 개요, 화자 표시, 전사 단위부터 발화문장 길이, 잡음, 발화자 정보까지 약 15개 가량의 분류 항목이 존재
5장. 음성/텍스트 데이터의 학습 처리 유형
1. 음성 데이터 전사(받아쓰기) 방법에 따른 분류
1) 일반 전사 : 사람이 말한 그대로 말을 더듬거나 반복해도 따로 표기하지 않고 그대로 전사
2) 이중 전사 : 말 그대로 한 단어 또는 어절에 대해 두 번 전사, 발음 전사와 철자 전사 표준어 표기 를 병기
3) 화자 전사 : 음성 데이터에 등장하는 화자가 여러 명일 때 화자를 구분
4) 배경음 및 화자 감정 태깅 : 드라마 등에서 배경음이 나오는 구간을 음성 싱크를 설정하고 태깅 (감정 표기는 중립, 분노, 기쁨, 슬픔 으로 주로 네 가지를 사용)
5) 방송 영상 자막 사전 제작 : 청각 장애인의 시청권 보장을 위해 영화와 같은 프로그램의 내용을 자막으로 사전에 제작
2. 음성 데이터 전사(받아쓰기) 주체에 따른 분류
1) 사람에 의한 전사
- 장점 : 프로그램에 의해 전사했을 때 제대로 인식이 되지 않은 부분을 보다 명확히 알아들을 수 있음, 음성 데이터를 가지고 처음부터 끝까지 사람이 작업을 진행하므로 작업마다 달리 적용되는 전사 규칙의 유연한 적용 가능
- 단점 : 작업 속도나 완성도가 작업자의 능력에 좌우됨, 전사 결과물의 완성도가 낮을 경우 전사 검사자의 업무 부담 증가
2) STT(Speech To Text)
- 장점 : 프로그램에 의해 하나의 음성 데이터에 대한 전체 전사가 가능, 사람이 전사할 때보다 속도가 빠름
- 단점 : STT 프로그램의 음성 인식률이 낮을 경우 각 문장마다 일일이 수정, 사람에 의한 검사가 필요하며 경우에 따라서는 전사 검사자의 업무 부담 증가
3. 음성 데이터 기관에 따른 분류
1) 연구 기관의 과제 전사 : 인공 지능 학습을 위한 연구 과제에서 요구하는 음성 데이터를 전사
2) 기업의 콜센터 녹취 전사 : 기업에서 보유하고 있는 인공지능 엔진의 학습을 목적으로 함
6장. 음성/텍스트 데이터 학습 처리 사례
1. 민원(콜센터) 질의-응답 데이터 : 상담원들이 전문 상담에 집중하여 원활한 업무가 진행될 수 있도록 상담사의 업무를 보조할 수 있는 서비스 구축
2. 상담 음성 데이터 : AI 상담 센터를 위한 음성 상담, 음성 인식 기술 및 언어 이해, 언어 생성 연구 및 서비스 개발 분야로의 활용
3. 자유대화 음성(일반남녀) 데이터 : 자유대화를 효과적으로 인식하기 위해 인공지능 기반 한국어 자유대화(일상대화) 데이터 구축
4. 자유대화 음성(노인남녀) 데이터 : 사투리, 억양 등의 발화 특성이 타 연령대와 다른 특성이 존재하여 노인 대상 음성 서비스를 위해서는 별도의 음성인식 데이터의 구축 필요
5. 자유대화 음성(소아/유아) 데이터 : 소아들의 음성인식 관련 서비스가 증가되고 있으나 소아들의 발화 특성(어휘, 발음 등)을 반영한 음성 학습 데이터의 부족으로 음성인식 품질 이슈가 있으며 이를 극복하기 위해 해당 연령대의 별도의 학습 데이터 구축 필요
6. 한국인 대화 음성 : 다양한 환경(연령, 원거리, 노이즈, 다자 발화 등)을 인식할 수 있는 대화/음성 데이터 셋 구축
7. 한국인 외래어 발화 : 인공지능 기반 한국어 음성인식 서비스의 활성화를 위한 자유대화 지식데이터 구축
8. 회의 음성 : 한국인의 음성을 문자로 바꾸어 주고, 문맥을 이해하는 한국어 음성 언어처리 기술 개발을 위한 AI 학습용 한국어 음성 DB를 구축
7장. 최종 산출물 형태
1. WAV : 일반적인 오디오 파일 형태로 전사한 문자 데이터의 음성 내용이 담겨 있으나, 음성 정제를 거친 원천 데이터로서 수집 단계에서 생성된 원시 데이터와는 구분됨
2. TXT : 사람이 인지할 수 있는 문자열로 구성되어 있어 전사 내용의 검사에 용이하고 JSON 파일로의 변환할 때 반드시 필요
3. JSON : TXT 포맷을 기반으로 학습 데이터 구축에서 원하는 데이터를 추출하기 위해 각 정보들을 구조화한 형태
- JSON 포맷은 경량의 데이터 교환 형식으로 프로그래밍 언어가 아니라 단순히 데이터를 표시하는 포맷으로 학습 데이터 구축에서 원하는 데이터를 추출하기 위해 각 정보들을 구조화하여 학습에 활용
- XML 파일보다 최소한의 용량으로 데이터 전송이 가능하고 가독성이 뛰어난 장점이 있어 최근에는 XML 보다 선호되는 추세
- 가공 과정 입력했던 음성 정보 및 발화자 정보 , 전사 내용 등을 약속된 하나의 포맷으로 사용자 간 데이터 전송 및 학습 데이터에 필요한 정보들을 학습 프로그램에 넣는 것
8장. 언어 모델의 정의
1. 언어 모델이란? = Language Model로 번역에 따라 언어 모형으로도 부를 수 있음
- Model(모델 또는 모형)은 어떤 상황이나 물체 등 연구 대상 주제를 도면이나 사진 등 화상을 사용하거나 수식이나 악보와 같은 기호를 사용하여 표현하는 것으로서 모형을 변형하거나 조작하여 그것이 변형 및 수정 또는 조건의 변화에 의해 어떻게 달라지는가를 알아낼 수 있음
- 언어 모델의 언어는 자연어, 즉 사람들이 사용하는 언어를 지칭
2. 음향 모델을 이용한 언어 모델
- 음향 모델(Acoustic Model) : 음성 데이터와 음성 데이터를 전사한 텍스트 데이터를 이용해 인공지능이 음향적 특징을 학습하기 위한 모델
- 음성 전사 텍스트 데이터를 이용한 언어 모델 작업을 통해 인공지능의 음성 인식률을 높임
9장. 텍스트 데이터의 학습 처리 유형
1. 주어진 시나리오에 맞는 Q&A 대화 제작
2. 제시된 지문을 읽고 질문을 만들거나 질문에 대한 답을 찾는 작업
3. 일반인을 대상으로 한 텍스트 데이터 수집
10장. 텍스트 데이터 학습 처리 사례
1. 논문 자료 요약 : 다양한 주제의 한국어 학술 논문 및 특허명세서에서 전체 요약문과 섹션별 요약문을 도출해낼 수 있도록 인공지능을 훈련하기 위한 데이터셋
2. 도서 자료 요약 : 다양한 주제의 한국어 도서 원문으로부터 생성 요약문을 도출해 낼 수 있도록 인공지능을 훈련하기 위한 데이터셋
3. 도서자료 기계독해 : 다양한 주제의 도서 자료를 활용한 기계 독해용 데이터셋 구축
4. 일반 상식 : 한국어 위키백과 내 주요 문서 15 만 개에 포함된 지식을 추출하여 객체(entity), 속성(attribute), 값(value)을 갖는 트리플 형식의 데이터 75 만 개를 구축
11장. 음성 데이터 학습 처리에 필요한 맞춤법
1. 띄어쓰기 : '잘', '안', '안 돼/안돼', '못' 등
2. 헷갈리는 단어 : '이에요/예요', '-오/-요', '되/돼', '안/않', '안되다/안 되다' 등
Quiz 1. 다음 중 음성 라벨링에 대한 설명으로 옳은 것은?
- 이미지를 보고 무엇인지 적는 과정
- 음성 데이터의 품질을 높이기 위해 편집하는 과정
- 음성 데이터를 저작도구를 사용하여 문자화하는 과정
- 음성 데이터를 빠르게 적는 과정
→ 정답 : 3 (음성 라벨링은 전사와 같은 개념)
Quiz 2. 다음 중 음성 싱크 과정을 설명한 것으로 옳은 것은?
- 재생되는 음성 데이터와 문자화된 내용을 일치시켜 주는 과정
- 음성 데이터의 품질을 높이기 위해 편집하는 과정
- 음성과 음성의 크기를 맞춰주는 과정
- 잡음, 소음 등을 제거하는 과정
→ 정답 : 1 (음성 데이터를 재생한 구간에 맞는 문자 데이터와 매칭시켜야 함)
Quiz 3. 다음 중 음성/텍스트 데이터의 가공 처리 과정으로 옳은 것은?
- 정제 → 수집 → 전사 → 학습
- 수집 → 정제 → 전사 → 학습
- 수집 → 전사 → 학습 → 정제
- 학습 → 수집 → 전사 → 정제
→ 정답 : 2 (음성 데이터를 수집하고 정제한 뒤, 전사 작업은 진행하고 학습함)
Quiz 4. 원시 데이터에 대한 설명으로 옳은 것은?
- 원시인의 생활상을 기록한 데이터
- 가공이 완료된 음성 데이터
- 정제 작업을 거쳤지만 전사 단계로 넘어가지 않은 데이터
- 가공이 되지 않은 음성 데이터
→ 정답 : 4 (원시 데이터 = 어떠한 가공도 되지 않은 상태로 수집한 결과물)
Quiz 5. 음성 데이터 정제에 대한 설명으로 옳은 것은?
- 저작도구를 사용하여 음성 데이터를 문자화하는 과정
- 인공지능 학습을 위해 필요한 파일
- 음성 데이터의 품질을 높이기 위해 편집하는 과정
- 음성 데이터를 표준어에 맞게 표기하는 방식
→ 정답 : 3 (편집에는 잡음 삭제나 개인정보의 비식별화 처리 등이 있음)
Quiz 6. 다음 중 전사가 녹취와 다른 점으로 옳은 것은?
- 재판의 증거물로 사용되기도 한다.
- 통일된 규칙이 적용된 음성에 대한 문자화 작업이다.
- 사람이 학습하기 위한 데이터를 만드는 작업이다.
- 잡음, 소음 등이 제거된 음성을 가지고 문자화하는 작업이다.
→ 정답 : 4 (전사는 인공지능 학습, 녹취는 통일된 규칙이 적용)
Quiz 7. 다음 중 저작도구에 대한 설명으로 옳지 않은 것은?
- 전사에 사용되는 소프트웨어
- 음성 데이터 정제에 사용하는 소프트웨어
- 음성 데이터를 재생하는 소프트웨어
- 싱크 작업에 사용되는 소프트웨어
→ 정답 : 3 (정제나 전사 등에 사용되는 소프트웨어를 저작도구라고 함)
Quiz 8. 다음 중 비식별화의 대상으로 옳지 않은 것은?
- 주민등록번호
- 유명인의 이름
- 카드 번호
- 전화번호
→ 정답 : 2 (대중이 이미 잘 알고 있는 유명인의 이름은 비식별화하지 않음)
Quiz 9. 다음 중 STT의 약어로 옳은 것은?
- Sound To Text
- Sound To Tag
- Speech To Text
- Speech To Tag
→ 정답 : 3 (※ 검수 작업이 꼭 필요)
Quiz 10. 데이터 가공 처리 결과물에는 WAV와 TXT, 그리고 ( )이 있다. 여기서 ( )에 들어갈 단어로 알맞은 것은?
- JSOL
- JSAN
- JJON
- JSON
→ 정답 : 4
Quiz 11. 부정으로 사용하는 ‘안돼’/’안 돼’의 표기로 옳은 것은?
- 저 사람 때문에 일이 진행이 안돼.
- 그렇게 하면 안 돼.
→ 정답 : 2 (’안 돼’는 ‘돼’의 부정적 표현으로 띄어 씀)
Quiz 12. 다음 중 ‘이에요’/’예요’의 표기로 옳은 것은?
- 마음 이에요
- 나무예요
- 호랑이에요
- 사람이예요
→ 정답 : 2 (’이예요/에요’는 없고 ‘이에요/예요’만 존재함)
Quiz 13. 다음 중 ‘안’/’않’의 표기로 옳은 것은?
- 학교에 가지 않았다.
- 학교에 가지 안았다.
- 나는 너를 안 았다.
- 나는 그 일을 않 했다.
→ 정답 : 1 (’않’과 ‘안’을 쉽게 구별하는 방법은 그 두 개를 뺐을 때 말이 되면 ‘안’, 말이 안 되면 ‘않’이다.)
'데이터 [Data] > 라벨링 (Labeling)' 카테고리의 다른 글
라벨링교육 텍스트(기본) 수강 후기 [2022년 인공지능 학습용 데이터 라벨링 전문 교육] (0) | 2022.09.09 |
---|---|
라벨링교육 음성(기본) 수강 후기 [2022년 인공지능 학습용 데이터 라벨링 전문 교육] (0) | 2022.08.23 |
라벨링교육 이미지/영상(기본) 수강 후기 [2022년 인공지능 학습용 데이터 라벨링 전문 교육] (0) | 2022.08.12 |
라벨링교육 이미지/영상(입문) 수강 후기 [2022년 인공지능 학습용 데이터 라벨링 전문 교육] (0) | 2022.07.15 |
라벨링교육 인공지능 윤리와 법(필수) 수강 후기 [2022년 인공지능 학습용 데이터 라벨링 전문 교육] (0) | 2022.07.04 |
댓글