Новое исследование, опубликованное в журнале Frontiers in Psychology, показало, что даже самые передовые языковые модели, вроде ChatGPT, испытывают серьезные трудности при попытке интерпретировать метафорический язык в политических выступлениях. Ученые проанализировали четыре ключевые речи Дональда Трампа, произнесенные с середины 2024 по начало 2025 года — после покушения, после победы на выборах, в день инаугурации и при обращении к Конгрессу. Эти тексты были выбраны из-за их высокой эмоциональной насыщенности и частого использования метафор, формирующих яркие образы, способные вызывать отклик у избирателей, пишет PsyPost.

Исследователи адаптировали метод критического метафорического анализа для работы с ChatGPT-4. Модель должна была распознать метафоры, понять контекст, классифицировать образы и объяснить, какую эмоциональную или идеологическую функцию они выполняют. В количественном плане результат был неплохим: из 138 фрагментов речи ChatGPT правильно определил 119 метафор, что дало уровень точности около 86 процентов. Но при ближайшем рассмотрении обнаружились систематические сбои в логике модели.
Наиболее распространенной ошибкой стало смешение метафор с другими выражениями. Например, фраза «Вашингтон — это ужасное поле боя» была ошибочно распознана как метафора, хотя на деле это прямолинейное преувеличение с эмоциональной окраской. Модель также склонна переусложнять простые обороты: она интерпретировала выражение «ряд смелых обещаний» как пространственную метафору, хотя никакого переносного смысла там нет. Еще один типичный сбой — путаница имен собственных и метафор. Так, термин «Железный купол» — израильская система ПВО — был принят ИИ за метафору, а не за техническое название.
Анализ показал, что ChatGPT уверенно справляется с часто используемыми образами, связанными с движением, силой, здоровьем или телесностью. Например, фразы вроде «мы поднимаемся вместе» или «вернем закон и порядок» были верно классифицированы как метафоры действия и власти. Но в более редких тематиках — например, в метафорах, связанных с растениями или едой — модель оказалась менее точной. Она либо не распознавала образы вообще, либо ошибочно воспринимала буквальные выражения как переносные.
Исследование также вскрыло более глубокие проблемы. Во-первых, результаты работы ChatGPT сильно зависят от того, как сформулирован запрос. Небольшое изменение в инструкции может привести к совершенно другому результату. Во-вторых, модели не имеют доступа к культурному опыту, эмоциональному контексту и социальным кодам — всему тому, что люди интуитивно используют при восприятии речи. И, наконец, обучение на огромных, но неаннотированных корпусах интернета делает языковые модели уязвимыми: они могут легко упустить значимые образы или, наоборот, увидеть метафору там, где ее нет.
Ученые сравнили работу ChatGPT с более традиционными инструментами анализа, такими как Wmatrix и MIPVU. Классические методы оказались медленнее, но более стабильными и точными в определении разных типов метафор. ChatGPT же выигрывает в скорости и удобстве, но требует тщательного контроля со стороны человека.
Авторы исследования пришли к выводу, что языковые модели вроде ChatGPT можно использовать как вспомогательный инструмент для анализа метафор, но не как полноценную замену экспертному мышлению. Особенно в политике, где метафоры апеллируют к коллективной памяти, культурной символике и эмоциональным кодам, машины пока остаются всего лишь учениками — внимательными, но все еще плохо разбирающимися в подтексте.