Выделение именованных сущностей из текстов распорядительных документов с помощью глубоких нейронных сетей

Выделение именованных сущностей из текстов распорядительных документов с помощью глубоких нейронных сетей
Язык статьиРусский
Аннотация

Выделение именованных сущностей (NER) - это задача извлечения из текстовых данных информации, принадлежащей к заранее определенным категориям, таким как названия организаций, топонимы, имена людей и т.п. В рамках представленной работы был разработан подход, развивающий идеи предшественников по дообучению глубоких нейроных сетей с механизмом внимания архитектуры BERT. Показано, что предварительное обучение языковой модели задачам восстановления маскированного слова и определению семантической связанности двух предложений позволяет заметно улучшить показатели качества решения задачи выделения именованных сущностей. Достигнут один из лучших результатов в задаче выделения именованных сущностей на наборе данных RuREBus, содержащем тексты распорядительных документов министерства экономического развития Российской Федерации. Одной из ключевых особенностей описываемого решения является близость постановки к реальным бизнес-задачам и выделение сущностей не общебытового характера, а специфичных для экономической отрасли.

DOI10.31144/si.2307-6410.2020.n16.p137-148
УДК004.032.26
Номер № 16,
Страницы137-148
Файл berezinbondarenko.pdf (619.98 КБ)