Исследование возможности выявления сгенерированных нейросетевыми моделями текстов на основе оценки вероятностей появления в них новых слов

Семинар: Информационные технологии в задачах филологии и компьютерной лингвистики
Начало заседания: 17:30

Дата выступления: 2 Апрель 2024

Организация: НГУ (Новосибирск)

Авторы: Мария Артемовна Ковалевская

Одним из основных подходов к решению задачи выявления текстов, сгенерированных нейросетевыми моделями, является исследование достаточно больших наборов таких текстов на предмет наличия в них статистически значимых характерных признаков, позволяющих с высокой степенью уверенности отличить их от текстов, написанных людьми. В данном докладе будет дан краткий обзор существующих подходов к решению задачи выявления сгенерированных текстов и недостатков этих методов, а также будут предложены к рассмотрению результаты исследования по применению собственной методики, основанной на использовании генерации вероятностей токенов моделью GPT-2. В основе методики лежит использование обученной модели GPT-2 из библиотеки transformers для языка Python, с помощью которой вычисляются вероятности появления новых слов в исследуемых текстах и производится сравнительная оценка значений этих вероятностей для сгенерированных текстов и текстов, написанных людьми.

(аннотация представлена в авторской редакции)

---

Онлайн-подключение на семинар будет осуществляться по ссылке:

https://vcs-6.ict.nsc.ru/rooms/be6-uui-gvg-ced/join