Семиотический анализ текстов и интерпретация знаковых систем в цифровую эпоху: Sentiment-анализ с использованием платформы KNIME
Введение. Целью статьи является изучение возможности интеграции семиотических подходов и методов машинного обучения для автоматизированного анализа тональности текстов (Sentiment-анализа). Sentiment-анализ текста является популярным направлением лингвистики на стыке с компьютерными науками и анализом данных. Новизна работы заключается в попытке интерпретации результатов машинного обучения с опорой на содержание текстов отзывов как знаковых систем, выявляя их лексические, синтаксические и прагматические характеристики. Методология и источники. Исследование опирается как на фундаментальные основы семантики, синтактики и прагматики, так и на современные подходы к автома- тизации обработки текстовой информации и применению математических методов для обоснования речевых явлений. Материалом исследования послужил свободно распространяемый набор данных отзывов на кинофильмы с платформы IMDB. В качестве инструмента автоматизации применяется система KNIME для анализа данных в парадигме «No-coding» (без кодирования). В статье представлен рабочий поток, включающий этапы предобработки данных, построения моделей классификации, а также оценки их эффективности, предложена лингвистическая интерпретация ошибок автоматической классификации отзывов. Результаты и обсуждение. Результаты демонстрируют высокую точность классификации (до 92,0 %) и способность алгоритмов выявлять ключевые лексические и синтаксические маркеры, формирующие эмоциональную окраску текста. Исследование расширяет границы традиционной семиотики, интегрируя методы машинного обучения и анализа больших данных, а также подчеркивает практическую ценность использования KNIME в задачах обработки естественного языка. Заключение. В статье дается детализированное описание алгоритма автоматизации Sentiment-анализа отзывов на кинофильмы с учетом преимуществ и потенциальных сложностей такого подхода для интерпретации текста. Перспективы дальнейших исследований включают применение предложенных методов к многоязычным корпусам и анализу мультимодальных данных, что открывает новые возможности для изучения знаковых систем в условиях цифровой коммуникации. Предложенная методика может найти применение в коммерческой сфере для выявления настроений пользователей товаров, услуг, приложений, книг, фильмов и т.д., что повышает интерес к лингвистической науке, а именно к автоматическому анализу тональности или Sentiment-анализу.
Авторы: Исаева Е. В., Семенов С. В., Черных Д. Л., Гудовщиков А. В.
Направление: Языкознание
Ключевые слова: семиотика, тональность, анализ настроений, интерпретация, знаковые системы, лексические маркеры, машинное обучение, KNIME
Открыть полный текст статьи