Статья: АЛГОРИТМЫ ПОИСКА ВЕРБАЛЬНЫХ МАРКЕРОВ ИДЕНТИЧНОСТИ В СОВРЕМЕННОМ НАУЧНОМ ДИСКУРСЕ (2024)

Читать онлайн

Статья посвящена изучению специфики вербализации компонентов идентичности с помощью инструментов интеллектуального анализа данных. В качестве материала исследования использованы англоязычные тексты из открытых интернет-репозиториев научных статей и научных электронных библиотек, посвященные различным концепциям идентичности молодого человека.

В рамках исследования была разработана и апробирована методика комплексного анализа текстовых данных, основанная на применении современных инструментов обработки естественного языка и машинного обучения. Частотный и семантический анализ текстов проводился с использованием библиотеки Natural Language Toolkit для токенизации текстов и процедуры POS-теггинга для подсчета частотности употребления лексем из окружения «identity».

Для последующего анализа и кластеризации слов на основе их семантической близости были использованы Word Embeddings, предобученная модель Word2Vec и алгоритм K-means. Для работы с моделью Word2Vec были использованы библиотека Gensim и библиотека Scikit-learn.

В результате было установлено, что в англоязычном научном дискурсе основные компоненты идентичности молодого человека вербализуются в рамках 9 семантических категорий: behaviour, communities, communication, education, identity, language, practice, complexity, science, наиболее распространенными из которых являются education (1475 / 33%), language (1032 / 21%) и communities (885 /18%).

Анализ N-грамм позволил выявить определенные семантические поля, установить их атрибуты, оценить меру сходства текстов, что обеспечило наиболее точный поиск в векторном пространстве семантически близких n-грамм.

Оптимизация позволила установить меру сходства, используемую для ранжирования фраз в соответствии с запросом, а также присвоить каждой n-грамме определенный вес для ранжирования. Улучшения могут быть достигнуты путем включения определенного типа статистического взвешивания слов, такого как TF-IDF.

Предложенная система способна осуществлять поиск в большом текстовом массиве связанных фраз со схожим значением.

Ключевые фразы: ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ, ЯЗЫК ПРОГРАММИРОВАНИЯ PYTHON, семантическая категория, вербализация идентичности, идентичность молодого человека, НАУЧНЫЙ ДИСКУРС, научные интернет-репозитории
Автор (ы): ГОНЧАРОВА ОКСАНА ВЛАДИМИРОВНА, ЗАВРУМОВ ЗАУР АСЛАНОВИЧ, ХАЛЕЕВА СВЕТЛАНА АНАТОЛЬЕВНА
Журнал: АКТУАЛЬНЫЕ ПРОБЛЕМЫ ФИЛОЛОГИИ И ПЕДАГОГИЧЕСКОЙ ЛИНГВИСТИКИ

Предпросмотр статьи

Идентификаторы и классификаторы

УДК
81. Лингвистика. Языкознание. Языки
Для цитирования:
ГОНЧАРОВА О. В., ЗАВРУМОВ З. А., ХАЛЕЕВА С. А. АЛГОРИТМЫ ПОИСКА ВЕРБАЛЬНЫХ МАРКЕРОВ ИДЕНТИЧНОСТИ В СОВРЕМЕННОМ НАУЧНОМ ДИСКУРСЕ // АКТУАЛЬНЫЕ ПРОБЛЕМЫ ФИЛОЛОГИИ И ПЕДАГОГИЧЕСКОЙ ЛИНГВИСТИКИ. 2024. № 2
Текстовый фрагмент статьи