В статье описывается подход к автоматизации извлечения терминологии для пополнения онтологии научной предметной области из текстов на русском языке. Применимость методов автоматического пополнения онтологии из текстов на естественном языке зависит от характеристик корпуса текстов и используемого языка. Специфика входного языка, характеризующегося сильной флективностью и свободным порядком слов, и отсутствие большого корпуса текстов приводят к выбору лингвистического подхода, базирующегося на использовании лексико-семантических паттернов. К особенностям предлагаемой методики извлечения информации относятся а) автоматическое пополнение предметного словаря на основе онтологии и корпуса текстов и разметка его с помощью системы семантических признаков; б) определение небольшого набора исходных структурных мета-паттернов, устанавливающих концептуальные контексты извлечения онтологической информации; в) автоматическое порождение по набору структурных мета-паттернов множества лексико-семантических паттернов, определяющих лексические, семантические и синтаксические свойства контекстов извлечения.
Методика разработки лексико-семантических паттернов для извлечения терминологии научной предметной области
Методика разработки лексико-семантических паттернов для извлечения терминологии научной предметной области
Язык статьиРусский
Аннотация
Ключевые слова
DOI10.31144/si.2307-6410.2022.n20.p25-46
УДК004.822
Номер
№ 20,
Страницы25-46
Файл
n20-sikononenkosidorova.pdf
(858.43 КБ)