
Новая инфографика от Terzo демонстрирует сравнительную частоту ошибок у современных ИИ-моделей при выполнении задач.
Тщательный тест на склонность к «галлюцинациям» включал анализ фрагментов новостных текстов. Моделям требовалось точно определить оригинальную статью, источник публикации и её веб-адрес.
Эксперимент строился так, что стандартный поиск по указанным текстам неизменно выводил первоисточник в топ-3 результатов. Это позволило объективно проверить корректность ответов каждой системы.
Perplexity показал образцовый результат, а Grok-3 занял последнюю позицию с 94% случаев некорректных ответов.
Интересно, что бесплатные версии моделей в целом превзошли платные аналоги по точности. Почти все ИИ уверенно давали ответы даже при допущении ошибок.
Источник: naked-science.ru





