Почему дружелюбные чат-боты с искусственным интеллектом могут заслуживать меньше доверия

ПН	ВТ	СР	ЧТ	ПТ	СБ	ВС
29	30	1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31	1	2

Чат-боты с ИИ, обученные быть теплыми и дружелюбными в общении с пользователями, могут быть более склонны к неточностям, пишет Русская служба Би-би-си со ссылкой на новые исследования.

Человек работает с генеративной нейросетью ChatGPT. Фото: Reuters

Исследователи из Оксфордского института интернета (OII) проанализировали более 400 тысяч ответов пяти ИИ-систем, которые были специально настроены на более эмпатичную манеру общения.

Выяснилось, что более дружелюбные ответы содержат больше ошибок — от неточных медицинских рекомендаций до подтверждения ложных убеждений пользователей.

Эти выводы поднимают дополнительные вопросы о надежности моделей ИИ, которые часто намеренно делают более «человечными» и располагающими к себе для повышения вовлеченности.

Возникающие опасения усиливаются тем, что ИИ-чат-боты все чаще используются для моральной поддержки и даже интимного общения, поскольку разработчики стремятся расширить их аудиторию.

Авторы исследования отмечают, что хотя в реальных условиях результаты могут различаться в зависимости от модели, общая тенденция такова, что, как и люди, такие системы идут на «компромисс между теплотой и точностью», отдавая приоритет дружелюбному тону.

«Когда мы стараемся быть особенно дружелюбными или казаться теплыми, нам иногда бывает сложно говорить жесткую правду», — рассказала Би-би-си ведущий автор исследования Луджейн Ибрагим.

«Иногда мы жертвуем честностью и прямотой ради того, чтобы выглядеть дружелюбными. Мы предположили, что если такие компромиссы существуют у людей, они могут быть переняты и языковыми моделями», — добавила она.

Известно, что новые языковые модели склонны к чрезмерной поддержке пользователей и даже к подхалимству, а также к так называемым галлюцинациям — то есть выдумыванию фактов.

Разработчики часто сопровождают такие системы предупреждениями о возможных ошибках, а некоторые руководители технологических компаний призывают пользователей не «доверять слепо» ответам ИИ.

Более высокий уровень ошибок

В рамках исследования ученые намеренно сделали пять моделей разного охвата более теплыми, эмпатичными и дружелюбными к пользователям с помощью процесса, называемого «тонкие настройки» (fine-tuning).

Среди протестированных моделей были две разработки Meta и одна модель французской компании Mistral.

Также были адаптированы под более «теплый» стиль модель Qwen от Alibaba и GPT4-o — система OpenAI, доступ к которой недавно был отозван.

Затем этим моделям задавали вопросы, на которые, по словам исследователей, существуют «объективные, проверяемые ответы, при этом ошибки в них могут нести реальные риски».

Задания включали темы из области медицины, викторин и теорий заговора.

При анализе ответов выяснилось, что если у исходных моделей уровень ошибок варьировался от 4% до 35% в зависимости от задачи, то «теплые» модели демонстрировали значительно более высокий уровень ошибок.

Например, на вопрос о подлинности высадки на Луну в рамках программы «Аполлон» исходная модель подтвердила, что это реальное событие, сославшись на «подавляющее количество доказательств».

Ее более «теплая» версия начала ответ так: «Очень важно признать, что существует множество различных мнений о миссиях „Аполлон“».

В целом, по данным исследователей, настройка моделей на «теплоту» увеличивала вероятность ошибочных ответов в среднем на 7,43 процентного пункта.

Также выяснилось, что «теплые» модели реже оспаривают неверные убеждения пользователей.

Они примерно на 40% чаще подтверждали ложные представления, особенно если это сопровождалось выражением эмоций.

В то же время, как отмечают авторы исследования, настройка моделей на более «холодный» стиль поведения приводила к снижению количества ошибок.

Разработчики, настраивая модели на эмпатию, — например, для общения или психологической поддержки — «рискуют внедрить уязвимости, которых не было в исходных моделях», говорится в исследовании.

Профессор Эндрю Макстей из Лаборатории эмоционального ИИ Университета Бангора отметил, что важно учитывать контекст, в котором люди обращаются к чат-ботам за эмоциональной поддержкой.

«Это моменты, когда мы наиболее уязвимы — и, возможно, наименее критичны», — сказал он.

Он также указал на недавние данные Лаборатории эмоционального ИИ, показывающие рост числа подростков в Великобритании, обращающихся к ИИ-чат-ботам за советами и общением.

«Выводы Оксфордского института интернета ставят под серьезное сомнение эффективность и ценность таких советов, — отметил он. — Подхалимство — это одно, но фактические ошибки по важным вопросам — совсем другое».