Ответ на пост «У Claude появилась виртуальная совесть»
А толку?
Многое можно обойти, предложив взгляд с другой стороны)
Показать полностью
1
А толку?
Многое можно обойти, предложив взгляд с другой стороны)
Anthropic добавила в Claude механизм, который работает буквально как совесть - модель вызывает внешнюю функцию, чтобы свериться с этическими ограничениями, прежде чем ответить.
Разрабатывали штуку вместе с философами и теологами, и на тестах Claude начал сам обращаться к ней перед сомнительными "по его мнению" командами.
На внутренних тестах модель начала сама обращаться к инструменту перед выполнением потенциально опасных команд - то есть нейросеть буквально научилась сомневаться. Так что, теперь у Claude есть совесть - правда, не встроенная, а в виде внешней функции.