★ AI Data 교육 안내 및 수강신청 사이트 - http://aidata.elancer.co.kr/student/edulist.php
교육 신청하기 | 2022 인공지능 학습용 데이터 라벨링 전문 교육
교육 신청하기 | 2022 인공지능 학습용 데이터 라벨링 전문 교육 | 교육과정 소개 및 수강신청 사이트입니다.
aidata.elancer.co.kr
[이전에 들은 교육 후기]
- 인공지능 윤리와 법(필수) : https://lbsdatastat.tistory.com/194
- 음성/텍스트(입문) : https://lbsdatastat.tistory.com/199
- 이미지/영상(입문) : https://lbsdatastat.tistory.com/201
- 음성(기본) : https://lbsdatastat.tistory.com/231
- 이미지/영상(기본) : https://lbsdatastat.tistory.com/222
데이터 라벨러 교육에는 각 분야별로 입문, 기본, 심화 과정으로 세분화되어 있습니다. 기본 교육의 경우에는 실습 과제를 포함하여 강의를 수강해주셔야 합니다. 교안과 교재는 수강 사이트에서 다운로드받을 수 있으며, 해당 파일을 참고하여 교육에 참여하면 될 것으로 보입니다.
이번 음성 기본 과정은 약 65분 분량의 강의 5개를 수강하고, 실습과제를 제출해야 수료 처리가 됩니다. 강의의 경우 분량에 따라 최소 출석인정 요구시간을 채워주셔야 하고, 모든 강의의 최소시간을 채우게 되면 출석이 인정됩니다.
강의는 텍스트 데이터의 정의, 학습 처리 규칙, 저작도구, 구축 및 활용 사례 순서로 되어 있습니다.
1차시는 텍스트 데이터의 정의 파트입니다. 텍스트 데이터는 글자 그대로 텍스트 문자 로 구성되어 있는 데이터로, 일반적으로는 음성 데이터 + 텍스트 데이터의 형태를 보이나, 이 강의에서는 텍스트만 단일로 수집 및 가공되는 데이터를 학습했습니다. COVID-19로 인해 비대면 경제의 가속화되고 비대면 의사소통 서비스의 증가하면서 필요성이 증대되었고, 가장 효율적으로 수집할 수 있는 데이터이자 한국어 특색을 반영할 수 있는 데이터라는 특성이 소개되었습니다. 처리 기법으로 데이터 마이닝과 텍스트 마이닝의 소개와 비교가 진행되었고요.
2차시 텍스트 데이터의 학습 처리 규칙에서는, 간투사 태깅을 중심으로 강의가 진행되었습니다. 간투사는 머뭇거림의 기능을 하는 1음절 담화 표지 중 "이, 그, 저, 아, 어, 에, 음, 응, 뭐"의 9개 형태가 대상이며, 구어적인 표현까지 포함됩니다. 이러한 담화 표지에 라벨링을 진행하는 것이 규칙이자 이번 실습과제 내용이라고 할 수 있겠습니다.
예를 들면, '아! 어 음 잘 모르겠어요."라는 문장이 있을 때 '아'는 감탄사로, '어'와 '음'은 머뭇거림으로 활용되었으므로 '아'는 내버려 둔 후 '어'와 '음' 두 단어에 라벨링을 하는 것입니다.
저작도구는 Saltlux 말뭉치 구축 지원 시스템을 활용하였고, 저작도구 설명에 더해 말뭉치 구축 방법이라 하여 실습 관련 설명이 이뤄졌습니다.
이후에는 작업 실수 사례, 말뭉치 검증 방법, 텍스트 데이터의 수집 방법, 텍스트 데이터의 구축 및 활용 사례까지 상세하게 알 수 있었습니다. 챗봇은 물론 네트워크 시각화까지 텍스트 데이터가 활용될 수 있다는 점이 저에겐 인상적이었고요.
실습과제의 경우 위와 같은 사이트에서, 머뭇거림을 뜻하는 간투사에 INTJ라는 태깅을 달아주면 됩니다. 개채명 분석은 진행하지 않았지만, 문장이 100개에 달하다보니 태깅 항목은 1,500개가 넘는 모습을 보였습니다. 그래도 간투사에만 라벨링을 진행하면 되다보니, 실제로 라벨링(태깅)을 진행한 단어는 200개가 약간 넘었고요.
간투사 분석이 모두 완료되었다고 판단하면 검증 요청 버튼을 클릭해서 제출하면 됩니다. 저작도구 실습 영상에서도 확인할 수 있지만 검증요청 때 메시지는 굳이 입력하지 않아도 되며, 문법 오류 항목은 간투사 분석을 진행하지 않은 항목이기 때문에 무시하고 진행해도 됩니다. 이때 음성(기본) 강의때와 같이 교수님이 직접 채점하시기 때문에 채점결과는 제출 후 최소 하루는 지나야 받게 된다는 점 참고해 주시고요.
저는 위와 같은 채점 결과와 피드백을 얻게 되었습니다. 5일 저녁에 실습을 마무리하여 제출했더니 6일에 채점이 완료된 모습이고요. 구어적인 표현을 거의 태깅하지 못했다고 생각했는데, 그런 표현이 많지 않았는지 실습점수가 많이 깎이지는않았네요.
위 과정을 끝으로 라벨러 과정의 기본 레벨은 모두 수료를 했습니다. 6월에 시작했던게 벌써 9월이긴 하지만요. 라벨러 과정에서 공통적으로 느꼈던 것은, 데이터를 라벨링하는 것 자체가 집중력과 꼼꼼함을 필요로 한다는 것이었습니다. 이미지 데이터에서 선과 점을 찍을 때도, 음성 데이터에서 말을 받아적는 것도, 텍스트 데이터에서 단어 중 머뭇거림 의미를 파악해서 라벨링하는 것도 모두 디테일한 작업이었기에, 빠르게 하는 것이 아니라 제대로 하는 것이 중요하다고 느껴졌습니다.
PS. 저는 원래 데이터 전문가 특화 과정의 '데이터 기획'과 '인공지능과 보안' 강의를 모두 수강하려고 했습니다. 9월 6일자로 데이터 기획 강의를 모두 수강하기도 했고요. 그러나, 현재 취업준비생 신분으로서 올 하반기에는 반드시 취업을 하려고 하는 입장인데다가, 데이터 기획 과제에 생각보다 시간을 많이 들여야 할 것으로 보여 보안 강의는 나중에 들으려고 합니다. 데이터 기획에 대해 RFP(제안요청서; Request For Proposal)를 직접 작성해야 하다보니, 이를 구상하고 작성해서 제출하는 것까지 금방 끝낼 수 있는 일이 아니라고 판단했기 때문입니다.
그래서 남은 9월에는 RFP 과제를 끝내고 데이터 기획 관련 후기를 쓰는 것으로 라벨링교육 과정을 마무리하려고 합니다. 만약에 이 과정을 들을 여유가 있다면, 남은 강의를 수강하는 방법도 고려해볼만 할테니까요. 그리고 이제는 실시간 온라인 강의로도 라벨링교육을 들을 수 있다고 하니, 하루 일정 잡아서 실시간으로 듣는 방법도 있으니 말이죠.
→ 라벨링교육 실시간 온라인 강의 확인 및 신청하기
교육 신청하기 | 2022 인공지능 학습용 데이터 라벨링 전문 교육
교육 신청하기 | 2022 인공지능 학습용 데이터 라벨링 전문 교육 | 교육과정 소개 및 수강신청 사이트입니다.
aidata.elancer.co.kr
'데이터 [Data] > 라벨링 (Labeling)' 카테고리의 다른 글
라벨링교육 데이터기획 수강 후기 [2022년 인공지능 학습용 데이터 라벨링 전문 교육] (0) | 2022.09.14 |
---|---|
라벨링교육 음성(기본) 수강 후기 [2022년 인공지능 학습용 데이터 라벨링 전문 교육] (0) | 2022.08.23 |
라벨링교육 이미지/영상(기본) 수강 후기 [2022년 인공지능 학습용 데이터 라벨링 전문 교육] (0) | 2022.08.12 |
라벨링교육 이미지/영상(입문) 수강 후기 [2022년 인공지능 학습용 데이터 라벨링 전문 교육] (0) | 2022.07.15 |
라벨링교육 음성/텍스트(입문) 수강 후기 [2022년 인공지능 학습용 데이터 라벨링 전문 교육] (0) | 2022.07.13 |
댓글