AI SafetyStudent하먀 팀
혐오 표현 필터링 효율화
LLM을 활용하여 데이터 편향성 판단 기준의 정확성 고도화 연구
연구 배경
인공지능의 편향성은 데이터 편향성에서 시작
데이터 편향성의 원인 중 하나는 사람이 사용하는 혐오 표현으로
혐오 표현을 분류/제외시키는 과정 필요
맥락 파악: 글의 의도나 맥락파악을 통해 상황 별 혐오표현 여부 판단
신조어 추출: 새로운 혐오 표현 주기적 업데이트
오타 정정: 토큰의 발음 정보 추가, 정상 문장으로 변환