Badacze Apple zajmujący się sztuczną inteligencją opublikowali po cichu trzy nowe badania, które odsłaniają kurtynę nowego, ważnego celu: automatyzacji najbardziej żmudnych i krytycznych części tworzenia oprogramowania. Artykuły opublikowane na blogu Apple Machine Learning Research szczegółowo opisują nowe systemy sztucznej inteligencji, które potrafią przewidzieć, gdzie mogą pojawić się błędy, automatycznie napisać całe plany testów, a nawet samodzielnie naprawić uszkodzony kod. Ma to znaczenie, ponieważ nie jest to kolejne demo „AI pisze kod”. Apple tworzy zespół wyspecjalizowanych inżynierów ds. jakości sztucznej inteligencji, którzy będą znajdować i naprawiać błędy, zanim dotrą one do Twojego telefonu lub komputera, co może prowadzić do ogromnego wzrostu produktywności i (miejmy nadzieję) bardziej stabilnego oprogramowania.
Artykuł 1: Predyktor błędów AI
Pierwsze badanie”,Przewidywanie defektów oprogramowania przy użyciu modelu transformatora autoenkodera”, od badaczy Seshu Barma, Mohanakrishnan Hariharan i Satish Arvapallirozwiązuje problem „błędnego” kodu. Zamiast zmuszać sztuczną inteligencję do odczytywania milionów wierszy kodu – co jest procesem podatnym na „halucynacje” sztucznej inteligencji – zbudowali narzędzie innego rodzaju. Ich model, ADE-QVAETdziała mniej jak recenzent kodu, a bardziej jak analityk danych. Nie czyta samego kodu. Zamiast tego analizuje metryki dotyczące kodutakie jak jego złożoność, rozmiar i struktura. Jest wytrenowany w znajdowaniu ukrytych wzorców w tych metrykach, które niezawodnie przewidują, gdzie najprawdopodobniej będą się ukrywać błędy. Wyniki są niezwykle skuteczne. Na standardowym zestawie danych do przewidywania błędów model został osiągnięty Dokładność 98,08%.. Uzyskał również wysokie wyniki w zakresie precyzji i zapamiętywania, co technicznie określa, że jest niezwykle dobry w znajdowaniu prawdziwych błędów, unikając jednocześnie „fałszywych alarmów”, które marnują czas programistów.
Artykuł 2: Zautomatyzowany inżynier jakości
Znajdowanie błędów to świetna sprawa, ale co z górą dokumentów związanych z testowaniem oprogramowania? Drugie badanie „Agentyczny RAG do testowania oprogramowania”, rozwiązuje ten problem bezpośrednio. Naukowcy zauważają, że inżynierowie ds. jakości wydają 30-40% swojego czasu po prostu tworzenie „podstawowych artefaktów testowania” — korporacyjne określenie planów testów, przypadków i skryptów. Ich rozwiązaniem jest agent AI, który robi to automatycznie. System odczytuje wymagania projektu i logikę biznesową, po czym samodzielnie generuje cały pakiet dokumentów testowych. System ten zachowuje pełną „możliwość śledzenia”, co oznacza, że dokładnie rejestruje, który przypadek testowy odpowiada danemu wymaganiu biznesowemu. Tutaj wpływ mierzy się czasem i pieniędzmi. System pokazał coś niezwykłego Dokładność 94,8%. w wygenerowanych testach. W projektach walidacyjnych doprowadziło to do: Skrócenie czasu testów o 85%. i 85% poprawa wydajności zestawu testów. W przypadku jednego projektu oznaczało to przyspieszenie daty uruchomienia o pełne dwa miesiące.
Badacze z MIT zbudowali sztuczną inteligencję, która sama uczy się, jak się uczyć
Dokument 3: „Siłownia” sztucznej inteligencji ucząca naprawiania kodu
Trzecie i najbardziej ambitne badanie to „Szkolenie agentów inżynierii oprogramowania i weryfikatorów za pomocą SWE-GymW tym artykule zadano kolejne logiczne pytanie: po co po prostu znajdować błędy, skoro można je naprawić? W tym celu zespół zbudował „siłownię” dla agentów AI. To środowisko szkoleniowe, SWE-Gymto piaskownica zbudowana z 2438 rzeczywistych zadań w języku Python pobrane z 11 projektów open source. Każde zadanie ma własne środowisko wykonywalne i zestaw testów. Dzięki temu agent AI może przećwiczyć pełny przepływ pracy programisty: przeczytaj raport o błędzie, napisz kod, aby go naprawić, a następnie uruchom testy, aby sprawdzić, czy poprawka rzeczywiście zadziałała (i nie zepsuła niczego innego). Szkolenie opłaciło się. Agenci AI przeszkoleni w tej „siłowni” poprawnie rozwiązało 72,5% błędnych zadańco oznacza wynik lepszy od poprzednich benchmarków o ponad 20 punktów procentowych. Są to wyspecjalizowane narzędzia, a nie koder AI ogólnego przeznaczenia. Badacze zajmujący się testowaniem automatycznym (dokument 2) zauważają, że ich praca skupiała się wyłącznie na określonych „systemach pracowniczych, finansach i środowiskach SAP”, co oznacza, że nie jest to jeszcze rozwiązanie uniwersalne. Podobnie „siłownia” do naprawiania błędów skupiała się na zadaniach w Pythonie. Te trzy badania pokazują jasną, wielopłaszczyznową strategię. Apple nie tylko próbuje zbudować jedną, wszechstronną sztuczną inteligencję. Zamiast tego tworzą zespół specjalistów AI: analityka przewidującego błędy, „popychacza” piszącego testy i „mechanika naprawiającego błędy”. Takie podejście może zasadniczo zmienić ekonomikę tworzenia oprogramowania, prowadząc do szybszych terminów, niższych kosztów i bardziej niezawodnych produktów.





