Статьи в выпуске: 1

АЛГОРИТМЫ ПОИСКА ВЕРБАЛЬНЫХ МАРКЕРОВ ИДЕНТИЧНОСТИ В СОВРЕМЕННОМ НАУЧНОМ ДИСКУРСЕ (2024)
Авторы: ГОНЧАРОВА ОКСАНА ВЛАДИМИРОВНА, ЗАВРУМОВ ЗАУР АСЛАНОВИЧ, ХАЛЕЕВА СВЕТЛАНА АНАТОЛЬЕВНА

Статья посвящена изучению специфики вербализации компонентов идентичности с помощью инструментов интеллектуального анализа данных. В качестве материала исследования использованы англоязычные тексты из открытых интернет-репозиториев научных статей и научных электронных библиотек, посвященные различным концепциям идентичности молодого человека.

В рамках исследования была разработана и апробирована методика комплексного анализа текстовых данных, основанная на применении современных инструментов обработки естественного языка и машинного обучения. Частотный и семантический анализ текстов проводился с использованием библиотеки Natural Language Toolkit для токенизации текстов и процедуры POS-теггинга для подсчета частотности употребления лексем из окружения «identity».

Для последующего анализа и кластеризации слов на основе их семантической близости были использованы Word Embeddings, предобученная модель Word2Vec и алгоритм K-means. Для работы с моделью Word2Vec были использованы библиотека Gensim и библиотека Scikit-learn.

В результате было установлено, что в англоязычном научном дискурсе основные компоненты идентичности молодого человека вербализуются в рамках 9 семантических категорий: behaviour, communities, communication, education, identity, language, practice, complexity, science, наиболее распространенными из которых являются education (1475 / 33%), language (1032 / 21%) и communities (885 /18%).

Анализ N-грамм позволил выявить определенные семантические поля, установить их атрибуты, оценить меру сходства текстов, что обеспечило наиболее точный поиск в векторном пространстве семантически близких n-грамм.

Оптимизация позволила установить меру сходства, используемую для ранжирования фраз в соответствии с запросом, а также присвоить каждой n-грамме определенный вес для ранжирования. Улучшения могут быть достигнуты путем включения определенного типа статистического взвешивания слов, такого как TF-IDF.

Предложенная система способна осуществлять поиск в большом текстовом массиве связанных фраз со схожим значением.

Сохранить в закладках