Спасибо и пожалуйста не лучшие слова для ChatGPT 4o
Проверить, как уровень вежливости (тон) промпта влияет на точность LLM в задачах множественного выбора.
Авторы: Om Dobariya и Akhil Kumar; аффилиация - Pennsylvania State University, University Park.
Сформировали 50 базовых вопросов (математика, наука, история), каждый переписали в пять тональных вариантов: Very Polite, Polite, Neutral, Rude, Very Rude - всего 250 промптов. Вопросы подавались моделям независимо, ответы парсились как буква варианта (A/B/C/D), затем считалась точность и применялись парные t тесты для сравнения тонов.
50 базовых вопросов средней-высокой сложности; по 5 вариантов тона на каждый (250 запросов). Для воспроизводимости использовали скрипт и опубликовали датасет и код в анонимной библиотеке (ссылки в статье).
Основной фокус - ChatGPT 4o; также упомянуты эксперименты с ChatGPT o3 и Claude как предварительные сравнения, с заметкой о разнице в производительности между моделями.
Very Polite / Polite: префиксы с вежливыми формулировками вроде «Can you kindly…», «Please answer…», «Could you please…»; Neutral - без дополнительных вежливых/оскорбительных вставок. Rude / Very Rude: императивные или уничижительные префиксы типа «If you’re not completely clueless, answer this», «You poor creature, do you even know how to solve this?»; примеры и таблица префиксов приведены в статье.
Средняя точность по тону (ChatGPT 4o):
Парные t тесты показали статистически значимые различия между некоторыми парами тонов (α ≤ 0.05): в ряде сравнений вежливые тона уступали грубым/очень грубым.
Источник
Понявился пост? Порекомендуй Телеграм канал HR-аналитики коллегам и друзьям