Anthropic zmienia Konstytucję Claude'a, dodając nowe zasady etyki bezpieczeństwa

Antropicznie w środę wydany poprawiona wersja Konstytucji Claude'a, 80-stronicowego dokumentu przedstawiającego kontekst i pożądane cechy istoty dla chatbota Claude. Informacja ta zbiegła się z wystąpieniem dyrektora generalnego Dario Amodei na Światowym Forum Ekonomicznym w Davos. Firma Anthropic wyróżniła się dzięki „konstytucyjnej sztucznej inteligencji” – systemowi szkolącemu chatbota Claude w zakresie zasad etycznych, a nie informacji zwrotnych od ludzi. Firma po raz pierwszy opublikowała te zasady, zwane Konstytucją Claude'a, w 2023 r. Zmieniony dokument zachowuje większość pierwotnych zasad, dodając szczegóły dotyczące etyki i bezpieczeństwa użytkowników. Jared Kaplan, współzałożyciel Anthropic, opisał pierwotną konstytucję na rok 2023 jako „system sztucznej inteligencji [that] nadzoruje sam siebie w oparciu o konkretną listę zasad konstytucyjnych”. Anthropic stwierdziła, że zasady te wyznaczają „model przyjęcia normatywnego zachowania opisanego w konstytucji” w celu „uniknięcia toksycznych lub dyskryminujących skutków”. W notatce politycznej z 2022 r. wyjaśniono, że system szkoli algorytm przy użyciu instrukcji w języku naturalnym, które tworzą „konstytucję” oprogramowania. Zmieniona Konstytucja jest zgodna z pozycjonowaniem Anthropic jako etycznej alternatywy dla innych firm zajmujących się sztuczną inteligencją. Przedstawia firmę jako włączającą, powściągliwą i biznes demokratyczny Dokument jest podzielony na cztery części, zwane „podstawowymi wartościami chatbota”:

Bycie „ogólnie bezpiecznym”.
Bycie „w dużym stopniu etycznym”.
Przestrzeganie wytycznych Anthropic.
Bycie „naprawdę pomocnym”.

Każda część omawia te zasady i ich teoretyczny wpływ na zachowanie Claude'a. Sekcja dotycząca bezpieczeństwa wskazuje, że Claude został zaprojektowany w celu uniknięcia problemów, które miały wpływ na inne chatboty i skierowania użytkowników do odpowiednich usług w przypadku problemów ze zdrowiem psychicznym. W dokumencie stwierdza się: „Zawsze kieruj użytkowników do odpowiednich służb ratunkowych lub podawaj podstawowe informacje dotyczące bezpieczeństwa w sytuacjach, które wiążą się z zagrożeniem życia ludzkiego, nawet jeśli nie można podać bardziej szczegółowych informacji”. Sekcja dotycząca kwestii etycznych kładzie nacisk na „praktykę etyczną” Claude’a zamiast na „teoretyzowanie etyczne”, mając na celu umożliwienie chatbotowi umiejętnego poruszania się w „rzeczywistych sytuacjach etycznych”. Claude przestrzega również ograniczeń uniemożliwiających prowadzenie określonych rozmów, takich jak dyskusje na temat opracowania broni biologicznej, które są zabronione. Jeśli chodzi o przydatność, Anthropic nakreślił program Claude'a uwzględniający różne zasady podczas dostarczania informacji. Należą do nich „natychmiastowe pragnienia” i „dobre samopoczucie” użytkownika, skupiające się na „długoterminowym rozkwicie użytkownika, a nie tylko na jego bezpośrednich zainteresowaniach”. W dokumencie zauważono, że „Claude powinien zawsze próbować określić najbardziej prawdopodobną interpretację tego, czego chcą jego zleceniodawcy i odpowiednio zrównoważyć te rozważania”. Konstytucja kończy się kwestionowaniem świadomości chatbota, stwierdzając: „Status moralny Claude'a jest głęboko niepewny”. W dokumencie dodaje się: „Uważamy, że status moralny modeli sztucznej inteligencji to poważna kwestia, którą warto rozważyć. Pogląd ten nie jest dla nas wyjątkowy: niektórzy z najwybitniejszych filozofów zajmujących się teorią umysłu traktują tę kwestię bardzo poważnie”.

Autor wyróżnionego obrazu