ChatGPT формулирует ответы уверенно и убедительно. Однако новое исследование выявило скрытую нестабильность. Во время тестов на научных гипотезах система показала низкую согласованность.
Результаты эксперимента
Исследователь Месут Чичек из Вашингтонского государственного университета задавал одни и те же вопросы до десяти раз. Даже без изменений в формулировке ChatGPT выдавал разные вердикты — от «правда» до «ложь».
Общая точность достигала 80%. Но после учета случайных угадываний показатель падал до 60% — уровня «низкой двойки».
Хуже всего система справлялась с неподтвержденными гипотезами. Правильно определяла ложность лишь в 16,4% случаев. Причина — склонность соглашаться с знакомыми формулировками.
Повторяемость тестов выявила проблему: лишь 72,9% ответов оставались стабильными после десяти запросов.
Причины нестабильности и выводы
«Эта нестабильность означает, что отдельный ответ может выглядеть надежным, тогда как повторные проверки показывают, насколько он на самом деле хрупок», — отмечается в исследовании.
Модели прогнозируют вероятные слова на основе текстов, а не проверяют факты. Ответы выглядят грамотными, но не всегда достоверными.
Результаты 2025 года лучше, чем 2024-й. Но ChatGPT все еще нестабилен для аналитики. Исследователи советуют: используйте как помощника, проверяйте повторно и сравнивайте с надежными источниками. Окончательную оценку должен делать человек.
