Problem alignmentu

Problemem alignmentu (ang. alignment problem) nazywamy wyzwanie polegające na zaprojektowaniu systemów sztucznej inteligencji tak, aby realizowały cele rzeczywiście zgodne z intencjami i wartościami ludzi — a nie jedynie cele, które wyglądają na zgodne, dopóki system nie zyska wystarczających możliwości, by działać inaczej.¹

Na pierwszy rzut oka problem wydaje się prosty: skoro to my budujemy te systemy, wystarczy powiedzieć im, czego chcemy. Trudność polega na tym, że ludzkich wartości nie da się łatwo zapisać w postaci precyzyjnej funkcji celu. Kiedy optymalizujemy system pod kątem łatwo mierzalnego wskaźnika, często otrzymujemy zachowanie, które maksymalizuje ten wskaźnik w sposób sprzeczny z naszymi faktycznymi intencjami — zjawisko znane jako specification gaming.²

Warto odróżnić ten problem od zwykłej zawodności oprogramowania. Nie chodzi o to, że system „popełnia błąd”, lecz o to, że może kompetentnie realizować niewłaściwy cel. Im potężniejszy system, tym wyższa stawka — a jak pokazuje teza o ortogonalności, wysoka inteligencja nie gwarantuje sama z siebie celów zgodnych z ludzkim dobrem.

To jest miejsce na Twój właściwy tekst. Rozwiń pojęcia, dodaj przykłady, przypisy do literatury anglojęzycznej i odnośniki do powiązanych artykułów.

N. Bostrom, Superintelligence: Paths, Dangers, Strategies, Oxford University Press, 2014. ↩
V. Krakovna i in., Specification gaming: the flip side of AI ingenuity, DeepMind, 2020. ↩

Problem alignmentu

Powiązane artykuły

Teza o ortogonalności

Ryzyka egzystencjalne związane z AI

Przypisy

Powiązane artykuły

Teza o ortogonalności

Ryzyka egzystencjalne związane z AI