Искусственный интеллект становится мощнее, но делает больше ошибок, - The New York Times
Проблемы, связанные с ошибками, также наблюдаются в моделях ИИ от других компаний, таких как Google и китайский стартап DeepSeek. Несмотря на заметное увеличение математических возможностей, количество фактических ошибок в ответах продолжает расти.
Одной из наиболее распространенных проблем являются так называемые «галюцинации» — когда ИИ выдает вымышленные факты без ссылок на источники. Генеральный директор Vectara, Амр Авадалла, утверждает, что такие галлюцинации, к сожалению, будут присутствовать всегда, несмотря на усилия разработчиков.
Ярким примером такого явления можно считать случай с ИИ-ботом поддержки Cursor, который ошибочно заявил, что пользоваться инструментом можно только с одного устройства. Это привело к множеству жалоб и даже к удалению аккаунтов. Позднее выяснилось, что никаких изменений в политике компании не было; вся информация была вымышленной.
В ходе тестирования различных моделей уровень галлюцинаций достигал 79%. Внутренние тесты OpenAI показали, что модель o3 ошибалась на 33% вопросов о знаменитостях, что вдвое превышает уровень ошибок предыдущей модели o1. Ещё более печальные показатели демонстрирует новая модель 04-mini, где количество ошибок составило 48%.
Когда речь идет о более общих вопросах, модели o3 и o4-mini показывают еще более высокий уровень галлюцинаций — 51% и 79% соответственно. В то же время старшая модель o1 допускала ошибки в 44% случаев. Представители OpenAI признают необходимость дополнительных исследований для выяснения причин подобных проблем.
Согласно независимым тестам, проводимым различными исследовательскими группами, галлюцинации также встречаются в моделях с функцией размышления от Google и DeepSeek. В частности, исследование компании Vectara показало, что такие модели могут выдумывать факты в 3% случаев, а иногда этот показатель достигает 27%. Несмотря на усилия по устранению ошибок, за последний год уровень галлюцинаций снизился всего на 1–2%.
Обсудим?
Смотрите также: