논문명 | 대화형 텍스트 데이터 내 개인정보 식별에 대한 연구 |
---|---|
개최일 | 2022.11.03 |
학술회의명 | 한국정보처리학회 ACK 2022 |
책임교수 | |
구분 | 구두발표 |
제1저자 | 차도현 |
교신저자 | 주종화 |
공동저자 | 권보근, 윤희창, 이구협, 주종화 |
국내/국외 | 국내 |
개최국가 | KR |
주관기관 | |
데이터 3법을 필두로, 기업은 개인정보가 포함된 데이터를 활용하기 위해 비식별 처리가 필요하게 되었다. 기존 방식은, 비정형 텍스트 데이터에서 정규표현식을 통한 개인정보 식별은 데이터의 다양성에 의해 한계가 명확하며, 기존의 Named Entity Recognition(NER) 태스크로 해결하기에는 언어의 중의적 표현과 2인 대화에서 나타나는 개인정보가 누구의 것인지 판단하지 못한다는 한계가 존재한다. 따라서 우리는 기존의 한계점을 극복하고 개선하기 위해 BERT 언어 모델에 화자 정보를 학습시키고, 하나의 어절에 2개의 tag를 labeling하는 방법을 제안하여 정확한 개인정보 식별을 시도하였다. |