Статья посвящена изучению специфики вербализации компонентов идентичности с помощью инструментов интеллектуального анализа данных. В качестве материала исследования использованы англоязычные тексты из открытых интернет-репозиториев научных статей и научных электронных библиотек, посвященные различным концепциям идентичности молодого человека.
В рамках исследования была разработана и апробирована методика комплексного анализа текстовых данных, основанная на применении современных инструментов обработки естественного языка и машинного обучения. Частотный и семантический анализ текстов проводился с использованием библиотеки Natural Language Toolkit для токенизации текстов и процедуры POS-теггинга для подсчета частотности употребления лексем из окружения «identity».
Для последующего анализа и кластеризации слов на основе их семантической близости были использованы Word Embeddings, предобученная модель Word2Vec и алгоритм K-means. Для работы с моделью Word2Vec были использованы библиотека Gensim и библиотека Scikit-learn.
В результате было установлено, что в англоязычном научном дискурсе основные компоненты идентичности молодого человека вербализуются в рамках 9 семантических категорий: behaviour, communities, communication, education, identity, language, practice, complexity, science, наиболее распространенными из которых являются education (1475 / 33%), language (1032 / 21%) и communities (885 /18%).
Анализ N-грамм позволил выявить определенные семантические поля, установить их атрибуты, оценить меру сходства текстов, что обеспечило наиболее точный поиск в векторном пространстве семантически близких n-грамм.
Оптимизация позволила установить меру сходства, используемую для ранжирования фраз в соответствии с запросом, а также присвоить каждой n-грамме определенный вес для ранжирования. Улучшения могут быть достигнуты путем включения определенного типа статистического взвешивания слов, такого как TF-IDF.
Предложенная система способна осуществлять поиск в большом текстовом массиве связанных фраз со схожим значением.
Актуальность исследования связана с динамичной трансформацией специальных лексических пластов Fashion & Clothing в условиях глобализации и цифровизации, требующей сочетания качественного анализа культурных нюансов и количественной обработки больших данных.
Традиционные лингвистические методы, такие как компонентный и сопоставительный анализ, обладают ограниченной масштабируемостью, в то время как цифровые технологии (NLP, графовые модели) открывают новые возможности для изучения семантических сдвигов и кросс-культурных заимствований.
Цель работы заключается в систематизации методов анализа специальной лексики в английском языке через интеграцию классических подходов с алгоритмами NLP, большими языковыми моделями (BERT) и графовыми методами.
Материалы и методы включали латентно-семантический анализ (LSA) для выявления тематических паттернов в корпусе современных текстов на английском языке, нейросетевые модели BERT для анализа полисемии и диахронических сдвигов специальной лексики, а также графовые модели для визуализации связей в датасете ASOS. Результаты показали, что LSA выявил оппозиции «эксклюзивность vs. функциональность», подтвердив культурные особенности специальной лексики.
Модель BERT продемонстрировала динамику значений, а также эволюцию специальной лексемы denim от обозначения рабочей одежды к концепции устойчивой моды. Графовые модели визуализировали кластеры атрибутов (цвет, ткань) и узлы-«мосты», такие как специальная лексема drape, отражающие структурные связи в рамках специальной лексики.
В заключение подчеркивается, что комбинированный подход повысил масштабируемость и контекстуальную чувствительность анализа, открыв перспективы для прогнозирования трендов и кросс-культурных исследований. Ограничения связаны с необходимостью верификации автоматических методов через качественный анализ, а перспективы включают интеграцию временных параметров в графовые модели и применение мультиязычных LLM.