Научная статья: КАК ЯЗЫК PYTHON ПОМОГАЕТ ЛЕКСИКОГРАФАМ (2022) (читать, скачать)

Статья Литература Выпуск Статистика Издательство

Читать онлайн

Современные средства компьютерной обработки текста позволили автоматизировать многие рутинные задачи лексикографов и терминологов. Помимо привычных программных средств, применяемых для вспомогательных задач прикладной лексикографии специалистами по составлению терминологических и других словарей, в решении таких задач может помочь язык программирования Python и его библиотеки, такие как NLTK (Natural Language Toolkit), pymorphy2, mystem и др. Python - один из самых распространенных и доступных в изучении языков программирования, который все шире применяется в прикладной лингвистике. Статья продолжает цикл публикаций, знакомящих практикующих лингвистов и лексикографов с Python и его возможностями для обработки текстов на естественном языке (natural language processing). Описываются техники, которые можно использовать для предварительной обработки текстов с целью последующего извлечения из них терминологии и составления терминологических словарей, в том числе для нужд письменного перевода. В настоящее время эта задача пересекается с использованием систем машинного перевода, в ряде которых реализована функция приоритетного использования пользовательского терминологического двуязычного словаря. Кроме того, некоторые из описанных приемов помогут извлечь информацию из больших корпусов текстов и проанализировать их содержание. В статье описывается порядок выполнения токенизации и лемматизации текста или корпуса текстов, приемы для выделения наиболее частотных лемм, рассматриваются разные подходы к поиску в тексте частотных словосочетаний методом нахождения n-грамм. Техники для автоматического нахождения потенциальных узкоспециальных терминов проиллюстрированы примерами из научно-технического текста. На материале художественного текста показаны методы анализа содержания, например, подсчет частотности определенных лемм в корпусе. Все приведенные примеры кода можно скопировать и запустить в облачной среде Google Colab без установки каких-либо программ на компьютер. Надеемся, что эти приемы облегчат повседневную работу лексикографов, а может быть, и побудят лингвистов к изучению языка Python.

Modern computer text processing tools have made it possible to automate many routine tasks of lexicographers and terminologists. In addition to the usual software used by terminologists for auxiliary tasks in composing terminological and other dictionaries, the Python programming language and its libraries (such as NLTK, pymorphy2, mystem and others) can help to solve such tasks. Python is one of the most widespread and accessible programming languages, more and more widely used in applied linguistics. This article continues the series of publications introducing practicing linguists and lexicographers to Python and its natural language processing capabilities. Techniques are presented that can be used to preprocess texts for the purpose of extracting terminology and compiling terminological dictionaries, including those for the needs of translation. Currently, this task intersects with the use of machine translation systems, some of which implemented the priority usage of a user’s terminological bilingual dictionary. In addition, some of the described techniques can help in the analysis of large corpora content. The article describes the tokenization and lemmatization of texts or corpora, methods of singling out the most frequent lemmas; different approaches to searching for frequent word combinations in a text by means of the n-gram finding are also discussed. Techniques for automatic finding of potential terms are illustrated by examples from a scientific news text. Content analysis techniques, such as frequency counting of specific lemmas in a corpus, are shown on the evidence taken from a fiction text. All the code examples can be copied and run in the Google Colab cloud environment without installing any software on the computer. We hope that these techniques will facilitate the everyday work of lexicographers and, perhaps, motivate linguists to learn Python.

Ключевые фразы: компьютерная лингвистика, ЛЕКСИКОГРАФИЯ, компьютерная лексикография, автоматизированная лексикография, компьютерная терминография, автоматическое извлечение терминологии, обработка текстов на естественном языке, ПРИКЛАДНАЯ ЛИНГВИСТИКА, Python

Автор (ы): Ладушина Мария Игоревна

Журнал: JOURNAL OF APPLIED LINGUISTICS AND LEXICOGRAPHY

Идентификаторы и классификаторы

УДК: 81. Лингвистика. Языкознание. Языки
Префикс DOI: 10.33910/2687-0215-2022-4-2-107-121
eLIBRARY ID: 59459717

Для цитирования:

ЛАДУШИНА М. И. КАК ЯЗЫК PYTHON ПОМОГАЕТ ЛЕКСИКОГРАФАМ // JOURNAL OF APPLIED LINGUISTICS AND LEXICOGRAPHY. 2022. Т. 4 № 2

Текстовый фрагмент статьи

Список литературы

Булгаков, М. А. (1980) Мастер и Маргарита. М.: Художественная литература, 368 с.
Машинное зрение повысит качество лабораторных исследований. (2022) МИСИС. Университет науки и технологий, 9 июня. [Электронный ресурс]. URL.: https://misis.ru/university/news/science/2023-06/8562/ (дата обращения 12.02.2022).
Pymorphy2: Документация. (2022) [Электронный ресурс]. URL: https://pymorphy2.readthedocs.io/en/stable/user/ (дата обращения 12.02.2022).
Любанович, Б. (2021) Простой Python. Современный стиль программирования. 2-е изд. СПб.: Питер, 592 с.
Митренина, О. В. (2019) Python для тех, кто никогда не программировал. Journal of Applied Linguistics and Lexicography, т. 1, № 1, с. 127-135. DOI: 10.33910/2687-0215-2019-1-1 EDN: PVTBWR

Выпуск

Т. 4 № 2 (2022)

Кол-во страниц: 126 страниц

Другие статьи выпуска

A REVIEW OF A COLLECTIVE MONOGRAPH ‘COMMUNICATIVE ADAPTATION IN DIALOGUE: A PHONETICIAN’S POINT OF VIEW’ (AUTHORS: T. V. KACHKOVSKAYA, A. D. MAMUSHINA, D. A. KOCHAROV,A. KHOLYAVIN, A. P. MENSHIKOVA, S. V. ZIMINA, V. V. EVDOKIMOVA, A. A. PORTNOVA, D. D. GUSEVA; EDITED BY T. V. KACHKOVAKAYA. ST. PETERSBURG: ST. PETERSBURG UNIVERSITY PRESS, 2022) (2022)

Авторы: Степихов Антон Анатольевич

In June 2022, the publishing house of Saint Petersburg State University published the monograph Communicative Adaptation in Dialogue: A phonetician’s point of view (Kachkovskaya 2022), the fruit of many years of work by a team of authors who are teachers, students and graduates of the Department of Phonetics and Methods of Teaching Foreign Languages. The book explores the manifestations of intra-speaker speech variability as a result of the adaptation of interlocutors to each other in the course of the process of communication. This is the first comprehensive study of the phonetic side of communicative adaptation based on Russian material that determines the relevance and innovative perspective of this work and its unconditional theoretical value. The subtitle of the publication (‘a phonetician’s point of view’) is of note and is able to arouse the interest of a prospective reader.

Сохранить в закладках

УЧЕБНЫЙ КОМПОНЕНТ "СЛОВАРЯ РЕДКОЙ ЛЕКСИКИ ПО ПРОИЗВЕДЕНИЯМ ШКОЛЬНОЙ ПРОГРАММЫ" (2022)

Авторы: Чердаков Дмитрий Наилевич

Учебная направленность созданного в Санкт-Петербурге «Словаря редкой лексики по произведениям школьной программы» обеспечивается не только особенностями словника и характером семантизации слова в словарной статье, но и подготовленным методическим сопровождением, включающим систему заданий к словарным статьям и указаниями для учителя. Эта система опирается на словоцентрический подход в организации учебной работы и предполагает, во-первых, комментирование специально подобранных отрывков литературных произведений школьной программы в соответствии с лексикографическим описанием, а во-вторых, разноаспектный, а именно семантический, словообразовательный, грамматический, стилистический, анализ лексического материала, содержащегося в словаре. В числе приоритетных направлений предлагаемой учебной работы - сопоставительный анализ языковых явлений, формирование навыков обращения к авторитетным источникам информации о языке, в первую очередь к словарям разных типов и воспитание филологической культуры, предполагающей осознание взаимодействия узуса и нормы, исторической изменчивости как основополагающей характеристики языка, специфики эстетически значимого словоупотребления. Большое внимание уделяется также возможностям осуществления на предложенном материале исследовательской и проектной деятельности учащихся, организации публичного обсуждения теоретически значимых или практически актуальных языковых вопросов. Составленные задания предоставляют учителю возможность самостоятельно регулировать объем нагрузки на ученика и могут служить средством индивидуализации обучения. В статье приведены примеры заданий различных типов и методических комментариев к ним, адресованных учителю.

Сохранить в закладках

ОСОБЕННОСТИ ИСКУССТВЕННОЙ АНГЛОЯЗЫЧНОЙ СРЕДЫ ДЛЯ ДЕТЕЙ ДОШКОЛЬНОГО ВОЗРАСТА В БИЛИНГВАЛЬНОМ РЕГИОНЕ: РЕЗУЛЬТАТЫ СОЦИОЛИНГВИСТИЧЕСКОГО ОПРОСА (2022)

Авторы: Шайхутдинова Рузалина Ильясовна

В связи с укреплением статуса английского языка как языка международного общения все более распространенным становится его изучение детьми раннего дошкольного возраста в условиях искусственно созданной языковой среды, которое до сих пор остается малоизученным в билингвальных регионах РФ. В данном небольшом социолингвистическом исследовании представлены результаты анализа речевых особенностей детей дошкольного возраста, проживающих на территории Республики Татарстан и осваивающих родные русский, татарский языки и неродной английский язык в условиях семейного взаимодействия. В данной работе проанализированы данные выборочного опроса, в котором приняли участие 28 казанских семей, воспитывающих детей от 2,5 до 7 лет, систематические записи речи детей, которые родители проводили на протяжении 4-х лет, а также аудио- и видеоматериалы (общий объем - 11 часов). Мы обнаружили взаимовлияние трех языковых систем на разных уровнях детской речи и проанализировали детские формообразовательные межъязыковые русско-английские и татаро-английские инновации, представляющие интерес в области онтобилингвологии и онтолингвистики. Также было установлено, что дети респондентов в процессе коммуникации на трех языках уже в раннем возрасте используют не только номинативную, но и металингвистическую функцию языка. Наше исследование подтверждает, что взаимопроникновение языковых структур в речи детей в рамках ныне популярного явления изучения и усвоения неродного английского языка детьми дошкольного возраста в условиях билингвальных регионов требует более серьезного и детального изучения специалистами по детской речи.

Сохранить в закладках

NEW LOANWORDS IN RUSSIAN AND HUNGARIAN: EVIDENCE FROM A DICTIONARY CORPUS (2022)

Авторы: Дягилева Ирина Борисовна, Козловская Наталия Витальевна, Якименко Оксана Аркадьевна

The article compares new foreign neologisms in the 19th and 21st century Hungarian and Russian dictionaries. Hence, not only two linguistic cultures, but also two historical periods come under scrutiny. To identify new loanwords, the corpora of major Russian and Hungarian dictionaries were compiled. The study analyses methods used in lexicographic description of new words in Hungarian and Russian dictionaries within the specified period. It also focuses on general observations made on specific linguistic material. A dictionary-based corpus (corpus in a square) proved to be effective in diachronic studies. It helped to reveal the main trends in lexical borrowing in two unrelated languages. Corpora provide data on the word origin from different time periods, the first inclusion of a lexical item, its origin, meaning, semantic evolution and thematic nearness, statistical data, etc. The scope of available data depends on the level of lexicographic description. It was found to be very different for the 19th and 21st century dictionaries with more extensive data provided by the latter. The study shows that corpora can be an important first step in linguistic research across a range of avenues.

Сохранить в закладках

Статистика статьи

Статистика просмотров за 2025 год.

Издательство

Издательство: РГПУ им. А. И. Герцена
Регион: Россия, Санкт-Петербург
Почтовый адрес: 191186, Санкт-Петербург, набережная реки Мойки 48
Юр. адрес: 191186, Санкт-Петербург, набережная реки Мойки 48
ФИО: Тарасов Сергей Валентинович (ректор)
E-mail адрес: mail@herzen.spb.ru
Контактный телефон: +7 (812) 3124477
Сайт: https://herzen.spb.ru/

Все права на тексты и товарные знаки принадлежат их законным владельцам. Подробнее...

Сайт https://scinetwork.ru (далее – сайт) работает по принципу агрегатора – собирает и структурирует информацию из публичных источников в сети Интернет, то есть передает полнотекстовую информацию о товарных знаках в том виде, в котором она содержится в открытом доступе.

Сайт и администрация сайта не используют отображаемые на сайте товарные знаки в коммерческих и рекламных целях, не декларируют своего участия в процессе их государственной регистрации, не заявляют о своих исключительных правах на товарные знаки, а также не гарантируют точность, полноту и достоверность информации.

Все права на товарные знаки принадлежат их законным владельцам!

Сайт носит исключительно информационный характер, и предоставляемые им сведения являются открытыми публичными данными.

Администрация сайта не несет ответственность за какие бы то ни было убытки, возникающие в результате доступа и использования сайта.

Спасибо, понятно.

Наведите камеру на QR-код, чтобы открыть моб. версию страницы.

Статья: КАК ЯЗЫК PYTHON ПОМОГАЕТ ЛЕКСИКОГРАФАМ (2022)

Идентификаторы и классификаторы

Список литературы

Выпуск

Другие статьи выпуска

Статистика статьи

Издательство