Исследование возможности выявления сгенерированных нейросетевыми моделями текстов на основе оценки вероятностей появления в них новых слов
Семинар: Информационные технологии в задачах филологии и компьютерной лингвистики
Начало заседания: 17:30
Дата выступления: 2 Апрель 2024
Организация: НГУ (Новосибирск)
Авторы: Мария Артемовна Ковалевская
Одним из основных подходов к решению задачи выявления текстов, сгенерированных нейросетевыми моделями, является исследование достаточно больших наборов таких текстов на предмет наличия в них статистически значимых характерных признаков, позволяющих с высокой степенью уверенности отличить их от текстов, написанных людьми. В данном докладе будет дан краткий обзор существующих подходов к решению задачи выявления сгенерированных текстов и недостатков этих методов, а также будут предложены к рассмотрению результаты исследования по применению собственной методики, основанной на использовании генерации вероятностей токенов моделью GPT-2. В основе методики лежит использование обученной модели GPT-2 из библиотеки transformers для языка Python, с помощью которой вычисляются вероятности появления новых слов в исследуемых текстах и производится сравнительная оценка значений этих вероятностей для сгенерированных текстов и текстов, написанных людьми.
(аннотация представлена в авторской редакции)
---
Онлайн-подключение на семинар будет осуществляться по ссылке:
https://vcs-6.ict.nsc.ru/rooms/be6-uui-gvg-ced/join