Статья: ПОИСК И ИДЕНТИФИКАЦИЯ ТЕКСТОВ ОПРЕДЕЛЕННОЙ СЕМАНТИЧЕСКОЙ НАПРАВЛЕННОСТИ В ЕСТЕСТВЕННО-ЯЗЫКОВЫХ ПОТОКАХ

В обработке естественно-языковой информации актуальна проблема выявления текстов определенной семантической направленности и определения их источников. Это требуется в анализе новостных потоков, чатов мессенджеров, социальных сетей, проверке документов на плагиат и других подобных задачах. Целью работы является обоснование концептуальной модели выявления в естественно-языковых потоках текстов определенной семантической направленности по формальным описаниям их источников. Анализ известных подходов показал потребность в собственном инструментарии для решения проблемы. В работе предлагается семантическую направленность задавать сценариями языка формальной грамматики гипотетического семантического объекта, сценарии представлять последовательностями характеристик семантического словаря и направленность текста определять семантической близостью сценарию. Бесконечность языка сценариев и отсутствие информации об исходном тексте исключают простой перебор, поэтому предполагаемый сценарий конструируется. Процесс организуется последовательным определением семантического сходства токенов текста характеристикам и их сборкой в предполагаемый сценарий, проверяемый на принадлежность языку. Для семантического сравнения текстов и сценариев сконструированы функции семантического подобия, общий и частный алгоритмы выявления текстов определенной семантической направленности. В общем алгоритме разбор сводится к построению вывода в формальной грамматике, для регулярных грамматик разбор выполняется системой переходов. Для ускорения сборка предполагаемого сценария совмещается с грамматическим разбором и используется механизм бек-трекинга. Точность алгоритмов определяется фактической близостью текстов сценариям. В работе приводится состав разработанного программного комплекса, тестирование которого подтверждает теоретические результаты. Исследование развивает фундаментальные основы математического моделирования естественно-языковой обработки и предлагает новые эффективные вычислительные алгоритмы для комплексов проблемно-ориентированных программ.

Информация о документе

Формат документа
PDF
Кол-во страниц
1 страница
Загрузил(а)
Лицензия
Доступ
Всем
Просмотров
5

Предпросмотр документа

Информация о статье

ISSN
1812-7320
Журнал
СОВРЕМЕННЫЕ НАУКОЕМКИЕ ТЕХНОЛОГИИ
Год публикации
2025
Автор(ы)
Вишняков Ю. М., Вишняков Р. Ю.