Na ostatniej konferencji AI mieliśmy okazję porozmawiać z Romanem Shaposhnikiem i Tanyą Dadashevą, współzałożycielami Ainekko/AIFoundry, i porozmawiać z nimi na niejednoznaczny temat wartości danych dla przedsiębiorstw w czasach AI. Jedno z kluczowych pytań, od którego zaczęliśmy, brzmiało: czy większość firm korzysta z tych samych pionierskich modeli sztucznej inteligencji i czy włączenie ich danych to jedyny sposób, w jaki mają szansę się wyróżnić? Czy dane rzeczywiście są fosą dla przedsiębiorstw?
Roman wspomina: „Kiedy w 2009 roku zaczynał pracę w społeczności dużych zbiorów danych, wszyscy mówili o tym, jak przedsiębiorstwa ulegną transformacji dzięki wykorzystaniu danych. W tamtym czasie nie były to nawet przedsiębiorstwa cyfrowe; transformacja cyfrowa jeszcze nie nastąpiła. Były to w większości przedsiębiorstwa analogowe, ale już podkreślały wartość gromadzonych danych – danych o swoich klientach, transakcjach, łańcuchach dostaw i nie tylko. Ludzie porównywali dane do ropy naftowej, czegoś, co ma nieodłączną wartość i należy je wydobyć, aby wykorzystać jej prawdziwy potencjał.”
Jednak ropa jest towarem. Jeśli więc porównamy dane z ropą, sugeruje to, że każdy ma dostęp do tych samych danych, chociaż w różnych ilościach i dla niektórych łatwiejszych do zebrania. To porównanie sprawia, że dane wydają się towarem, dostępnym dla każdego, ale przetwarzanym na różne sposoby.
Kiedy dane w swojej pierwotnej formie znajdują się w hurtowni danych przedsiębiorstwa, przypominają amorficzną plamę — towar, który ma każdy. Jednak gdy zaczniesz je udoskonalać, wtedy pojawi się prawdziwa wartość. Nie chodzi tylko o pozyskiwanie danych, ale o budowanie procesu od wyodrębnienia do udoskonalenia całej wartości w potoku.
„Co ciekawe, przypomina mi to coś, co powiedział mi kiedyś dyrektor korporacji naftowej” – udostępnia Roman. „Dyrektor ten opisał tę działalność nie jako wydobywanie ropy, ale jako rekonfigurację cząsteczek węgla. Dla nich ropa była jedynie źródłem węgla. Zbudowali łańcuchy dostaw zdolne do rekonfiguracji cząsteczek węgla w produkty dostosowane do wymagań rynku w różnych lokalizacjach – tworzywa sztuczne, benzyna, cokolwiek zaszło. Wyobraził sobie rafinerie definiowane programowo, które mogłyby dostosowywać produkcję w oparciu o potrzeby rynkowe w czasie rzeczywistym. Ta koncepcja zrobiła na mnie ogromne wrażenie i myślę, że jest porównywalna z tym, co widzimy obecnie w danych — przenoszenie obliczeń na dane, udoskonalanie ich w celu uzyskania tego, czego potrzebujesz, tam, gdzie tego potrzebujesz” – brzmiała refleksja Romana.
Kiedy w przedsiębiorstwach zaczynasz zbierać dane, zdajesz sobie sprawę, że są one pofragmentowane i w wielu miejscach utknęły w komputerach mainframe lub są rozproszone po systemach takich jak Salesforce. Nawet jeśli uda się to zebrać, jest wiele silosów i aby wydobyć cenne części, potrzebujemy podejścia przypominającego szczelinowanie. Tak jak szczelinowanie wydobywa ropę z miejsc wcześniej niedostępnych, tak my potrzebujemy metod pozwalających uzyskać dane przedsiębiorstwa, które w przeciwnym razie byłyby niedostępne.
Wiele danych korporacyjnych nadal znajduje się na komputerach mainframe, a ich uwolnienie stanowi wyzwanie. Oto ciekawostka: z dużym prawdopodobieństwem, jeśli zarezerwujesz lot dzisiaj, backend nadal będzie działał na komputerze mainframe. Nie chodzi tylko o jednorazowe wyodrębnienie danych; potrzebujesz ciągłego dostępu do niego. Wiele firm opiera swój biznes na pomaganiu przedsiębiorstwom w pobieraniu danych ze starych systemów, a narzędzia takie jak Apache Airflow pomagają usprawnić te procesy.
Ale nawet jeśli dane nie są już zablokowane w komputerach mainframe, nadal są pofragmentowane w różnych systemach, takich jak usługi SaaS w chmurze lub jeziora danych. Oznacza to, że przedsiębiorstwa nie mają wszystkich swoich danych w jednym miejscu, a z pewnością nie są one tak dostępne i aktualne, jak tego potrzebują. Można by pomyśleć, że rozpoczęcie od zera zapewni przewagę, ale nawet nowsze systemy zależą od wielu partnerów, a ci partnerzy kontrolują część potrzebnych danych.
Całe pojęcie danych jako fosy okazuje się wówczas mylące. Koncepcyjnie przedsiębiorstwa są właścicielami swoich danych, ale często brakuje im rzeczywistego dostępu. Na przykład przedsiębiorstwo korzystające z Salesforce jest właścicielem danych, ale faktyczna kontrola i dostęp do tych danych są ograniczone przez Salesforce. Różnica pomiędzy posiadaniem a posiadaniem danych jest znacząca.
„Sprawa staje się jeszcze bardziej skomplikowana, gdy w sprawę zaczyna angażować się sztuczna inteligencja” – mówi Tanya Dadasheva, kolejna współzałożycielka AInekko i AIFoundry.org. „Przedsiębiorstwo może być właścicielem danych, ale nie musi to oznaczać, że firma taka jak Salesforce może ich używać do uczenia modeli. Trwa również debata na temat tego, czy zanonimizowane dane można wykorzystać do celów szkoleniowych – z prawnego punktu widzenia jest to szara strefa. Ogólnie rzecz biorąc, im więcej danych jest anonimizowanych, tym mniejszą mają wartość. W pewnym momencie uzyskanie wyraźnej zgody staje się jedyną drogą naprzód”.
Ta kwestia własności wykracza poza przedsiębiorstwa; wpływa to również na użytkowników końcowych. Użytkownicy często zgadzają się na udostępnianie danych, ale mogą nie zgodzić się na wykorzystanie ich do celów szkoleniowych. Zdarzały się przypadki inżynierii wstecznej danych z modeli, co prowadziło do potencjalnych naruszeń prywatności.
Na wczesnym etapie równoważenia producentów danych, konsumentów danych i podmiotów udoskonalających dane pod względem prawnym i technologicznym niezwykle skomplikowane jest ustalenie, jak będą działać te relacje. Na przykład w Europie obowiązują znacznie bardziej rygorystyczne zasady dotyczące prywatności w porównaniu ze Stanami Zjednoczonymi (https://sztuczna inteligencjaact.eu/). W USA system prawny często dowiaduje się o wszystkim na bieżąco, podczas gdy w Europie woli się ustalać przepisy z wyprzedzeniem.
Tanya porusza tutaj kwestię dostępności danych: „Wszystko to wiąże się z wartością dostępnych danych. Ogromne modele językowe, które zbudowaliśmy, zrobiły wrażenie dzięki danym publicznym i półpublicznym. Jednak większość nowszych treści jest teraz uwięziona w „ogrodach otoczonych murem”, takich jak WeChat, Telegram czy Discord, gdzie nie jest dostępna do szkolenia – prawdziwa ciemna sieć! Oznacza to, że modele mogą stać się nieaktualne i nie będą w stanie uczyć się na nowych danych ani rozumieć nowych trendów.
W ostatecznym rozrachunku ryzykujemy stworzenie modeli, które utknęły w przeszłości i nie mają możliwości przyswojenia nowych informacji ani przystosowania się do nowych stylów konwersacji. Nadal będą zawierać starsze dane, a zachowania i kultura nowszego pokolenia nie będą reprezentowane. To będzie jak rozmowa z dziadkiem – ciekawe, ale zdecydowanie z innej epoki.”
Kim jednak są wewnętrzni użytkownicy danych w przedsiębiorstwie? Roman wspomina trzy epoki koncepcji wykorzystania danych w przedsiębiorstwach: „Oczywiście wykorzystuje się go do podejmowania wielu decyzji, dlatego istnieje cała część analityki biznesowej. Właściwie wszystko zaczęło się od analizy biznesowej. Korporacje musiały przewidywać i sygnalizować rynkom akcji, czego spodziewają się wydarzyć w następnym kwartale lub kilku kwartałach wcześniej. Wiele z tych decyzji od dawna opierało się na danych. To pierwszy poziom wykorzystania danych — bardzo prosty i zorientowany na biznes.
Drugi poziom rozpoczął się od pojęcia cyfrowo zdefiniowanych przedsiębiorstw lub transformacji cyfrowej. Firmy zdały sobie sprawę, że wartościowy jest sposób, w jaki wchodzą w interakcję z klientami, a nie koniecznie sam produkt, który obecnie sprzedają. Relacja z klientem jest wartością samą w sobie. Chcieli, aby ten związek trwał jak najdłużej, czasami aż do skrajności, polegającej na tym, że jak najdłużej będziesz przyklejony do ekranu. Chodzi o kształtowanie zachowań konsumenta i nakłanianie go do wykonywania określonych czynności. Można tego dokonać jedynie poprzez analizę wielu różnych rzeczy na Twój temat – Twojego statusu społecznego i ekonomicznego, tożsamości płciowej i innych danych, które pozwolą im utrzymać ten związek tak długo, jak to możliwe.
Teraz dochodzimy do trzeciego poziomu, trzeciego etapu korzyści, jakie przedsiębiorstwa mogą czerpać z produktów opartych na danych. Wszyscy mówią o tych systemach agentycznych, ponieważ obecnie przedsiębiorstwom zależy na pomocy nie tylko ludzkiej siły roboczej. Choć brzmi to futurystycznie, często jest tak proste, jak ustalenie, kiedy ma się odbyć spotkanie. Zawsze byliśmy w sytuacjach, w których potrzeba pięciu różnych e-maili i trzech telefonów, aby dowiedzieć się, jak dwie osoby mogą spotkać się na lunchu. Byłoby znacznie łatwiej, gdyby agent elektroniczny mógł to wszystko za nas wynegocjować i pomóc w tym. To prosty przykład, ale w przedsiębiorstwach jest mnóstwo innych. Teraz chodzi o przeniesienie niektórych aspektów przedsiębiorstwa na zewnątrz do tych agentów. Można tego dokonać tylko wtedy, gdy potrafisz przeszkolić agenta AI w zakresie wielu typów wzorców, z których przedsiębiorstwo korzystało w przeszłości.”
Wracając do tego, kto gromadzi, kto jest właścicielem i ostatecznie czerpie z danych korzyści: pierwszy rzut oka na tego Romana uzyskał, pracując w Pivotal nad kilkoma projektami, w które zaangażowane były linie lotnicze i firmy produkujące silniki:
„Wtedy nie wiedziałem, że najwyraźniej tak naprawdę nie kupuje się silnika; dzierżawisz silnik. Taki jest model biznesowy. Firmy produkujące silniki dysponowały wszystkimi tymi danymi — całą telemetrią potrzebną do optymalizacji silnika. Ale wtedy linia lotnicza powiedziała: „Zaczekaj chwilę. To dokładnie te same dane, których potrzebujemy do optymalizacji tras lotów. To my zbieramy dla Was te dane, ponieważ faktycznie latamy samolotem. Silnik pozostaje na ziemi, dopóki w kokpicie nie pojawi się pilot, który faktycznie steruje samolotem. Kto zatem może zyskać na danych? Już teraz płacimy o wiele za dużo pracownikom maszyn, którzy chcą utrzymać te silniki. Więc teraz mówisz nam, że udostępnimy Ci dane za darmo? Nie, nie, nie.
Cały ten argument jest naprawdę przekonujący, ponieważ dokładnie to się teraz powtarza w dyskusjach OpenAI i wszystkich dużych przedsiębiorstwach. Duże przedsiębiorstwa uważają, że OpenAI jest niesamowite; mogą zbudować tego chatbota w ciągu kilku minut — to świetnie. Ale czy rzeczywiście mogą wysłać te dane do OpenAI, które są wymagane do dostrojenia i wszystkich innych rzeczy? Po drugie, załóżmy, że te firmy w ogóle to potrafią. Załóżmy, że ten rodzaj danych jest w porządku, ale są to ich dane – zebrane przez te firmy. Z pewnością jest to coś warte dla OpenAI, więc dlaczego nie porzucą rachunku po stronie wnioskowania dla firm, które je zebrały?
I tu pojawia się główne pytanie dzisiejszego świata danych: czy tak samo jest ze sztuczną inteligencją?
W pewnym sensie tak, ale z ważnymi niuansami. Jeśli możemy mieć przyszłość, w której podstawowy „silnik” samolotu, czyli model, będzie produkowany przez większe firmy, a następnie przedsiębiorstwa wykorzystają swoje dane do udoskonalenia lub udoskonalenia tych modeli, wówczas nastąpi bardzo harmonijne współistnienie naprawdę złożona rzecz, a na dodatek bardziej wyspecjalizowana, może mniej złożona rzecz. Jeśli tak się stanie i odniesie sukces technologiczny, wówczas rozmowa na poziomie ekonomicznym i politycznym o tym, co należy do kogo i jak dzielimy zbiory danych, będzie znacznie łatwiejsza.
Jako przykład Roman przytacza rozmowę z ekspertem, który zarabia na życie projektowaniem samochodów: „Powiedział, że zasadniczo istnieją dwa typy projektantów samochodów: jedni, którzy projektują samochód dla silnika, i drudzy, którzy projektują samochód, a następnie kupują silnik. Jeśli dzisiaj produkuje się samochód, znacznie łatwiej jest zdobyć silnik, ponieważ silnik jest najbardziej złożoną częścią samochodu. Zdecydowanie jednak nie definiuje produktu. Jednak sposób, w jaki działa ta branża: znacznie łatwiej jest powiedzieć: cóż, biorąc pod uwagę pewne ograniczenia, wybieram silnik, a następnie projektuję całą gamę samochodów wokół tego silnika lub przynajmniej tego typu silnika.”
To prowadzi nas do następującej koncepcji: wierzymy, że tak będzie wyglądał świat danych oparty na sztucznej inteligencji. Będzie obóz „Google” i „Meta Camp”, a Ty wybierzesz jeden z tych otwartych modeli – wszystkie będą wystarczająco dobre. Następnie wszystkie elementy, którymi interesujesz się jako przedsiębiorstwo, opierają się na wykorzystaniu Twoich danych i wiedzy o tym, jak je dostrajać i stale aktualizować modele z różnych „obozów”. . Jeśli to się powiedzie technologicznie i ekonomicznie, wyłoni się nowy, wspaniały świat.
Autor wyróżnionego obrazu: NASA/Usuń rozpryski