Публикации автора

МУЛЬТИМЕДИЙНАЯ БАЗА ДАННЫХ ЖЕСТОВ РУССКОГО ЖЕСТОВОГО ЯЗЫКА В ТРЕХМЕРНОМ ФОРМАТЕ (2020)

Настоящая статья посвящена описанию мультимедийной базы данных (БД) “TheRuSLan” русского жестового языка (РЖЯ) и принципов ее фонетической аннотации. Особенностью заявленной БД является трехмерное (3D) представление жестов, что дает новые возможности лексикографического описания лексики и исследования особенностей артикуляции РЖЯ. Трехмерное представление жеста достигается за счет использования камеры Kinect 2.0, записывающей данные в высоком разрешении (FullHD), в режиме карты глубины и в инфракрасном диапазоне. БД представляет собой запись 164 лексических единиц и клауз в исполнении 13 информантов минимум в 5 итерациях. Общий размер файлов составляет 3,8 Тб в оригинальном формате, общая длительность видео - более 8 часов. В статье дается обзор существующих БД по РЖЯ, раскрывается содержание описываемого словаря, обрисовываются принципы лингвистической аннотации жестов и обосновывается набор признаков, используемых при аннотировании настоящей БД. Показано, что некоторые параметры жеста могут существенно варьировать от информанта к информанту, а именно: форма руки и локализация. Однако причины такой вариативности, ее масштабы и значение для описания РЖЯ являются делом дальнейших исследований.

Издание: ВОПРОСЫ ЯЗЫКОЗНАНИЯ

Выпуск: № 1 (2020)

Автор(ы): Кагиров Ильдар Амирович, Рюмин Дмитрий Александрович, Аксёнов Александр Александрович, Карпов Алексей Анатольевич

Сохранить в закладках

МЕТОД РАСПОЗНАВАНИЯ СЕНТИМЕНТА И ЭМОЦИЙ В ТРАНСКРИПЦИЯХ РУССКОЯЗЫЧНОЙ РЕЧИ С ИСПОЛЬЗОВАНИЕМ МАШИННОГО ПЕРЕВОДА (2024)

В статье рассматривается проблема распознавания сентимента и эмоций пользователей в русскоязычных текстовых транскрипциях речи с использованием словарных методов и машинного перевода. Количество имеющихся информационных ресурсов для анализа сентимента текстовых сообщений на русском языке очень ограничено, что существенно затрудняет применение базовых методов анализа сентимента, а именно, предобработки текстов, векторизации с помощью тональных словарей, традиционных классификаторов. Для решения этой проблемы в статье вводится новый метод на основе автоматического машинного перевода русскоязычных текстов на английский язык. Частичный перевод предполагает перевод отдельных лексем, не включенных в русскоязычные тональные словари, тогда как полный перевод подразумевает перевод всего текста целиком. Переведенный текст анализируется с использованием различных англоязычных тональных словарей. Экспериментальные исследования для решения задачи распознавания сентимента и эмоций были проведены на текстовых транскрипциях многомодального русскоязычного корпуса RAMAS, извлеченных из аудиоданных экспертным путем и автоматически с использованием системы распознавания речи. В результате применения методов машинного перевода достигается значение взвешенной F-меры распознавания семи классов эмоций 31,12 % и 23,74 %, и трех классов сентимента 75,37 % и 71,60 % для экспертных и автоматических транскрипций русскоязычной речи корпуса RAMAS, соответственно. Также в ходе экспериментов было выявлено, что использование статистических векторов в качестве метода преобразования текстовых данных позволяет достичь значение показателя взвешенной F-меры на 1-5 % выше по сравнению с использованием конкатенированного (статистического и тонального) вектора. Таким образом, эксперименты показывают, что объединение всех англоязычных тональных словарей позволяет повысить точность распознавания сентимента и эмоций в текстовых данных. В статье также исследуется корреляция между длиной вектора текстовых данных и его репрезентативностью. По результатам экспериментов можно сделать вывод, что использование лемматизации для нормализации слов текстовых транскрипций речи позволяет достичь большей точности распознавания сентимента по сравнению со стеммингом. Использование предложенных методов с полным и частичным машинным переводом позволяет повысить точность распознавания сентимента и эмоций на 0,65-9,76 % по показателю взвешенной F-меры по сравнению с базовым методом распознавания сентимента и эмоций.

Издание: ИНФОРМАТИКА И АВТОМАТИЗАЦИЯ

Выпуск: Т. 23 № 4 (2024)

Автор(ы): Двойникова Анастасия Александровна, Кагиров Ильдар Амирович, Карпов Алексей Анатольевич

Сохранить в закладках

АНАЛИТИЧЕСКИЙ ОБЗОР МЕТОДОВ АВТОМАТИЧЕСКОГО АНАЛИЗА ЭКСТРАЛИНГВИСТИЧЕСКИХ КОМПОНЕНТОВ СПОНТАННОЙ РЕЧИ (2024)

Точность систем автоматического распознавания спонтанной речи далека от тех, которые демонстрируют системы распознавания подготовленной речи. Обусловлено это тем, что спонтанная речь не характеризуется той плавностью и отсутствием сбоев, что подготовленная. Спонтанная речь варьируется от диктора к диктору: отличное произношение фонем, наличие пауз, речевых сбоев и экстралингвистических компонентов (смех, кашель, чихание, и цыканье при выражении эмоции раздражения и др.) прерывают плавность вербальной речи. Экстралингвистические компоненты очень часто несут важную паралингвистическую информацию, поэтому для систем автоматического распознавания спонтанной речи важно распознавать подобные явления в потоке речи. В данном обзоре проанализированы научные работы, посвященные проблеме автоматического анализа экстралингвистических компонентов спонтанной речи. Рассмотрены и описаны как отдельные методы и подходы по распознаванию экстралингвистических компонентов в потоке речи, так и работы, связанные с многоклассовой классификацией изолированно записанных экстралингвистических компонентов. Наиболее распространенными методами анализа экстралингвистических компонентов являются нейронные сети, такие как глубокие нейронные сети и сети на основе моделей-трансформеров. Приведены основные понятия, относящиеся к термину экстралингвистические компоненты, предложена оригинальная систематизация экстралингвистических компонентов в русском языке, описаны корпуса и базы данных звучащей разговорной речи как на русском, так и на других языках, также приведены наборы данных экстралингвистических компонентов, записанных изолированно. Точность распознавания экстралингвистических компонентов повышается при соблюдении следующих условия работы с речевым сигналом: предобработка аудиосигналов вокализаций показала повышение точности классификации отдельно записанных экстралингвистических компонентов; учет контекста (анализ нескольких фреймов речевого сигнала) и использовании фильтров для сглаживания временных рядов после извлечения векторов признаков показали повышение точности при пофреймовом анализе речевого сигнала со спонтанной речью.

Издание: ИНФОРМАТИКА И АВТОМАТИЗАЦИЯ

Выпуск: Т. 23 № 1 (2024)

Автор(ы): Поволоцкая Анастасия Андреевна, Карпов Алексей Анатольевич

Сохранить в закладках