Библиотека для автоматической аугментации текстовых данных на русском языке
Семинар: Информационные технологии в задачах филологии и компьютерной лингвистики
Начало заседания: 17:30
Дата выступления: 10 Март 2021
Организация: НГУ
Авторы: Печёркина Софья Сергеевна
Аугментация данных представляет собой способ получения новых данных на основе имеющихся. Данная работа посвящена исследованию аугментации текстовых данных для задач автоматической обработки текстов, а также созданию инструмента аугментации текстовых данных на русском языке.
Созданная библиотека включает в себя более двадцати способов аугментации для данных в формате стандартной текстовой строки и для данных в формате conllu. Например, среди лексических способов аугментации данных в формате conllu есть такие способы как замена одного или нескольких имён прилагательных синонимами («Мама работает на кирпичном заводе.» - «Мама работает на плиточном заводе.») или преобразование подлежащего, выраженного именем существительным, в подлежащее, выраженное местоимением («Отец пошёл на кухню.» - «Он пошёл на кухню.»). К синтаксическим способам относятся добавление вводной конструкции («Отец пошёл на кухню.» - «Видимо, отец пошёл на кухню.») и изменение порядка имени существительного и зависимого от него имени прилагательного («Я читаю интересную книгу.» - «Я читаю книгу интересную.»).
Проведенные эксперименты для задачи определения текста показывают, что что качество модели, обученной с данными, полученными с помощью наших аугментаций, выше, чем качество модели, которая была обучена без аугментированных данных. Значение метрики F1 у модели, обученной без аугментаций, составило 0.79. В процессе обучения второй модели к данным применялись такие аугментации, как случайное удаление буквы, случайное добавление буквы, мена букв местами и добавление опечаток. Значение метрики F1 выросло до 0.81, что показывает обоснованность использования аугментаций.
Исходный код библиотеки является открытым и доступен по ссылке https://github.com/ProstoSo/Augmentator.