Архив статей журнала
В рамках данной статьи предлагается один из возможных вариантов оптимального набора базовых методик, необходимых для изучения языковых картин мира на материалах крупных текстовых корпусов с использованием сочетания языка высокоуровневого языка программирования Python и библиотеки NLTK (Natural Language Toolkit). Необходимость выделения и конкретизации означенного методологического инструментария проистекает из характера тех вызовов, которые стоят перед современной когнитивной лингвистикой и лексикологией в сфере анализа больших неструктурированных данных. Работоспособность и практическая ценность предлагаемых методик демонстрируется на примере составленных автором сплошных параллельных диахронических корпусов дискурса обеих палат британского парламента за период с 2006 по 2023 гг., совокупный объём которых превышает треть миллиарда токенов. Набор предлагаемых методик включает в себя инструменты анализа базовых параметров вокабуляра, инструменты извлечения целевого вокабуляра, а также обработки и визуализации его частотных параметров и сочетаемости. Целесообразность овладения предлагаемыми и систематизируемыми в рамках данной статьи методиками автоматического анализа текста обосновывается с позиции их необходимости как компетентностного минимума в области компьютерных технологий, который способен значительно повысить уровень лингвистических исследований и их научную конкурентоспособность. Автор приходит к выводу о том, что в силу объективно сложившихся условий современному отечественному исследователю языковых картин мира с высокой долей вероятности придётся включить в свой прикладной инструментарий сочетание языка программирования Python и библиотеки NLTK. Предлагаемые в данной статье методики делают возможным гибкое формирование исследовательских протоколов с учётом широкого разнообразия возможных приоритетов. В качестве главного преимущества предлагаемого автором набора методов машинной обработки и количественного анализа текста видится возможность использования практических навыков, полученных в результате её освоения как комфортной компетентностной основы для последующей интеграции овладевшего ими лингвиста в сообщество исследователей наиболее высокотехнологичных и наиболее актуальных на сегодняшний день направлений науки о языке.
В данной статье предпринимается попытка измерить популизм в англоязычных выступлениях политиков с использованием методов компьютерной лингвистики. Актуальность данного исследования связана не только с ростом популизма в мире и важностью понимания механизмов политического дискурса, но и недостатком лингвистических исследований в контексте корпусных исследований. Большинство предложенных на сегодняшний день методов требуют значительных ресурсов или страдают от структурных ограничений, особенно когда они в значительной степени зависят от процесса аннотирования человеком для анализа обширных корпусных данных. Материалом для исследования послужили публичные выступления и интервью правого политика-популиста и 45-ого президента США Дональда Трампа и политическая риторика политика-популиста левого толка - сенатора Берни Сандерса. Корпусный анализ проводился на основе транскриптов, загруженных с сайтов The American Presidency Project и Miller Center. Синтаксическая позиция ключевых лексических единиц определяется при помощи комплексного метода, основанного на грамматике зависимостей, в сочетании с методами обработки естественного языка (NLP) и лингвистической теории ван Левена. Применение методов обработки естественного языка подтверждает предположение, что частота обращения политиков к народу не является единственным значимым показателем для измерения народоцентризма в (популистском) политическом дискурсе, как обычно предлагается в политологической литературе. Результаты исследования указывают на отсутствие превалирующей роли народа в дискурсе Трампа и Сандерса. В большинстве случаев народ выступает в роли комплемента или адъюнкта, что свидетельствует о его второстепенном значении в их риторике. С учётом того, что популизм подразумевает близость к народу и позиционируется как “vox populi” - «голос народа», можно предположить, что как для Трампа, так и для Сандерса обращение к теме народа - это лишь способ достижения своих политических целей.