Pionier w dziedzinie wizji komputerowej: Aleksandr Timashov, programista ML

Aleksandr Timaszow jest inżynierem ML z ponad dziesięcioletnim doświadczeniem w dziedzinie AI i uczenia maszynowego. Posiada dyplom z matematyki z Indiana University oraz certyfikat ukończenia studiów podyplomowych ze sztucznej inteligencji ze Stanford University. Kariera Aleksandra obejmuje wiele branż, w tym e-commerce, ropę i gaz oraz fintech. W tym wywiadzie Aleksandr dzieli się swoimi wyjątkowymi doświadczeniami w kierowaniu przełomowymi projektami w zakresie Computer Vision i Data Science w globalnej grupie energetycznej Petronas (Malezja).

Cześć Aleksandr. Opowiedz naszym czytelnikom o swoim doświadczeniu i o tym, jak zacząłeś zajmować się Data Science i Machine Learning?

Moja pasja do matematyki zaczęła się już w liceum, kiedy brałem udział w olimpiadach na szczeblu krajowym. Ta miłość do liczb i rozwiązywania problemów trwała aż do uniwersytetu, gdzie pociągały mnie takie przedmioty jak algebra liniowa i teoria prawdopodobieństwa. Przejście do uczenia maszynowego wydawało się naturalne, biorąc pod uwagę moje matematyczne wykształcenie. To ekscytująca dziedzina, która pozwala mi stosować abstrakcyjne koncepcje do rozwiązywania rzeczywistych problemów.

Kiedy zaproponowano mi stanowisko Machine Learning w Petronas, dużej malezyjskiej korporacji, uznałem to za niesamowitą okazję. Skala firmy i potencjał wywarcia znaczącego wpływu były głównymi czynnikami w mojej decyzji. Praca w Petronas pozwoliła mi nie tylko udoskonalić procesy firmy, ale także pozytywnie wpłynąć na życie milionów Malezyjczyków. To rola, która łączy moje umiejętności techniczne z istotnym, szeroko zakrojonym wpływem.

Czy możesz nam opowiedzieć o Petronas, co to za firma? I co sprowadziło cię do Petronas, jakie były twoje cele, kiedy tam zaczynałeś?

Petronas to ogromna państwowa firma w Malezji i chociaż działa głównie w branży ropy naftowej i gazu, robi znacznie więcej. Grupa firm Petronas obejmuje wiele innych firm powiązanych z Kuala Lumpur i Malezją. Załóżmy na przykład, że holding nieruchomości KLCC jest bezpośrednio powiązany z Petronas. Firma odpowiada za bezpieczeństwo i zarządzanie Kuala Lumpur City Center Twin Towers – pięknymi bliźniaczymi wieżami w stolicy Malezji. A wpływy firmy nie ograniczają się do Malezji – jest ona obecna w ponad 100 krajach na całym świecie.

Petronas działa w różnych branżach – od petrochemii po logistykę i usługi inżynieryjne. Firma słynie również z pionierstwa w kilku dziedzinach technologii cyfrowych, w tym cyberbezpieczeństwa, IoT i, co mnie szczególnie dotyczy – sztucznej inteligencji.

Moim najważniejszym celem przystąpienia do Petronas w charakterze specjalisty ds. uczenia maszynowego i nauki o danych było zdobycie doświadczenia w firmie oferującej ogromne możliwości rozwoju oraz dzielenie się swoją wiedzą z jak największą liczbą młodych talentów.

Czy udało Ci się osiągnąć te cele?

Z pewnością był to żyzny grunt dla moich ambicji! Kiedy dołączyłem do firmy, właśnie tworzyli duży dział Data Science/Machine Learning – w tamtym czasie technologie te nie były rozdzielone w firmie. Kiedy przyszedłem, w dziale było już kilkadziesiąt osób, ale wciąż pracowali nad strategiczną mapą drogową dla działu. Jednocześnie ogromną korzyścią z tej sytuacji było wiele możliwości poprawy i wiele kierunków, w których można było pójść. Wybrałem Computer Vision jako jedną z moich ulubionych dziedzin AI. Kontynuując temat tamtych czasów, podam przykład: jeden model Computer Vision, którego firma używała, kiedy dołączyłem, mógł „ważyć” gigabajt. Już pierwszego dnia, kiedy zacząłem tam pracować, stworzyłem w locie model, który był 20 razy mniejszy i znacznie dokładniejszy.

Kierownik działu, który pracował z tym modelem, był zaskoczony tym, jak szybko i dokładnie działał mój model. Byli bardzo zainteresowani i zapytali mnie, czy mogę zoptymalizować pracę innych modeli. Zgodziłem się pod warunkiem, że jeśli coś zrobię, to będę za to odpowiedzialny i otrzymam niezbędne zasoby. I tak dostałem wolną rękę w budowaniu zespołu Computer Vision, aby uczynić go wydajną jednostką, która pomoże Petronas osiągnąć swoje cele. Ludzie, których przeszkoliłem, nadal stanowią trzon zespołu Computer Vision w Petronas.

Jak zatem podjęliście wyzwanie stworzenia od podstaw silnego zespołu zajmującego się komputerowym przetwarzaniem obrazu?

To nie było jedno, ale kilka wyzwań. W przeciwieństwie do mniejszych firm i startupów, duże firmy z ugruntowanymi strukturami i procesami biznesowymi często niechętnie zmieniają się. Kiedy dołączyłem, Petronas miał już działające procesy i nie zawsze było oczywiste, w jaki sposób Computer Vision może pomóc uczynić te procesy jeszcze bardziej wydajnymi. Musieliśmy więc z jednej strony przekonać różne działy w firmie do zaakceptowania nowej technologii, a z drugiej strony sprawić, aby technologia działała dla nich.

I to prowadzi nas do drugiego wyzwania – zbudowania zespołu, który wdroży wszystkie te zmiany. Dział już działał, kiedy dołączyłem, i nie mogłem zacząć od nadmuchania personelu – musiałem wybrać i przeszkolić osoby, które już tam były. I byłem podekscytowany, widząc, jak utalentowani mogą być ludzie, nawet jeśli nigdy wcześniej nie pracowali z Computer Vision! Udało mi się znaleźć ludzi w firmie i dziale, którzy byli zainteresowani zmianą sposobu, w jaki robiono rzeczy, ludzi, którzy posiadają krytyczne myślenie i miłość do rozwiązywania złożonych problemów matematycznych – a to nie zawsze jest łatwe zadanie! Więc zajęło mi to dużo czasu i wszystkie moje umiejętności komunikacyjne, ale udało mi się przenieść ludzi w firmie, aby przesiąkli Computer Vision.

Czy możesz opowiedzieć nam coś więcej o swojej pracy w obszarze Computer Vision w firmie Petronas?

Kierowałem kilkoma projektami, które znacząco zwiększyły możliwości technologiczne firmy:

Analiza wideo w czasie rzeczywistym dla potrzeb bezpieczeństwa:

Opracowaliśmy zaawansowany system integrujący algorytmy głębokiego uczenia z istniejącą infrastrukturą CCTV. Ten projekt pokonał wyzwania w przetwarzaniu ogromnych ilości danych wizualnych w czasie rzeczywistym i dostosowywaniu się do różnych warunków środowiskowych. Powstały system dokładnie wykrywał zagrożenia bezpieczeństwa, optymalizując operacje bezpieczeństwa i pozycjonując Petronas jako lidera w dziedzinie bezpieczeństwa opartego na sztucznej inteligencji w sektorze energetycznym Malezji.

Zautomatyzowane inspekcje zakładów przemysłowych:

Połączyliśmy technologię dronów z zaawansowanymi algorytmami rozpoznawania obrazu, aby zautomatyzować inspekcje zakładów. Ten bezprecedensowy projekt w Malezji wymagał stworzenia solidnych modeli w celu identyfikacji defektów w zróżnicowanym sprzęcie przemysłowym w różnych warunkach. Opracowaliśmy niestandardowy kanał danych do obsługi ogromnej ilości danych wizualnych, co zaowocowało znacznymi oszczędnościami kosztów i zmniejszonym narażeniem ludzi na niebezpieczne środowiska.

Digitalizacja rysunków technicznych:

Podjęliśmy się digitalizacji rozległej kolekcji rysunków technicznych Petronas, wykorzystując połączenie algorytmów OCR i wykrywania rysunków. Kluczowym wyzwaniem było mapowanie wykryć inspekcji dronów na mapy świata rzeczywistego. Ten projekt radykalnie poprawił dostępność i wykorzystanie krytycznych informacji inżynieryjnych, zwiększając wydajność operacyjną i procesy podejmowania decyzji.

W ramach tych projektów byłem mentorem wielu inżynierów ML, promując kulturę innowacji w Petronas. Moja praca wykazała szerokie doświadczenie w zakresie wizji komputerowej, głębokiego uczenia się i przemysłowego IoT, pokazując zdolność do dostosowywania najnowocześniejszych technologii do specyficznych potrzeb przemysłu naftowego i gazowego oraz stawiania czoła bezprecedensowym wyzwaniom w kontekście Malezji.

Powiedziałeś nam, że wdrażałeś te projekty w latach 2020-2022, więc wszystko zaczęło się w czasach Covid-19. Czy pandemia i izolacja skomplikowały Twoją pracę?

Cóż, oczywiście, pandemia wpłynęła na nasze działania, tak jak wszędzie na świecie. Zasadniczo priorytety ustalone przed moim zespołem uległy zmianie i zaczęliśmy skupiać się na takich zadaniach, jak zarządzanie tłumem, wykrywanie maseczek itp. Widzisz, jako gigantyczna korporacja państwowa, Petronas odpowiada za wiele miejsc publicznych, w tym park KLCC, i naprawdę fajnie, że nasza praca w tamtym czasie pomogła uratować wiele istnień ludzkich podczas COVID.

Nawiasem mówiąc, nie tylko COVID skomplikował naszą pracę i uczynił ją bardziej wymagającą i ciekawą. Malezja jest krajem w przeważającej mierze muzułmańskim, co oznacza, że ludzie mogą zachowywać się inaczej, a nawet ubierać się inaczej niż ludzie w krajach, w których zazwyczaj szkolona jest większość modeli ML i Computer Vision. Musieliśmy przezwyciężyć pewne uprzedzenia, aby te same modele działały w znacząco odmiennym środowisku.

Brzmi intrygująco! Czy możesz nam o tym więcej opowiedzieć?

Na przykład wstępnie wytrenowane modele pochodzą głównie z krajów zachodnich, gdzie nie ma wielu kobiet w nakryciach głowy zakrywających głowy w różnym stopniu. Wykrycie kobiet noszących nakrycia głowy było dość problematyczne! Musieliśmy ponownie złożyć zbiór danych, ponownie wytrenować modele itd. Ten problem jest unikalny dla Malezji.

Po drugie, jak już powiedziałem, istnieje sama kultura. Ludzie w Malezji rzadziej wyrażają swoje opinie otwarcie. W tym względzie musiałem pokazać moim kolegom z zespołu – celowo – że ja też mogę się mylić. A gdy stopniowo wskazywali moje błędy, to ich zachęcało. W ten nieco okrężny sposób stopniowo budowałem bardziej współpracujące środowisko, tak dobrze znane zachodnim firmom, ale zupełnie nowe w Malezji.

Jako osoba, która od podstaw stworzyła zespół pracujący nad najnowocześniejszymi technologiami, jakich rad udzieliłbyś aspirującym specjalistom w dziedzinie nauki o danych i uczenia maszynowego, którzy chcieliby mieć znaczący wpływ na swoją karierę?

Dla początkujących specjalistów w dziedzinie nauki o danych i uczenia maszynowego mam trzy kluczowe rady:

Krytycznie oceń, czy ta dziedzina naprawdę odpowiada Twoim pasjom. DS i ML są złożone i wysoce konkurencyjne, wymagają nie tylko umiejętności, ale także prawdziwego entuzjazmu, aby odnieść sukces.
Jeśli jesteś pewien, że to jest twoja ścieżka, podejmij intensywną, ciągłą naukę. Jak zauważył Andrej Karpathy, potrzeba około 10 000 godzin oddanej pracy, aby stać się prawdziwym profesjonalistą w tej dziedzinie.

Skup się na dołączeniu do najlepszych firm lub laboratoriów badawczych, gdzie możesz współpracować z wiodącymi umysłami w tej dziedzinie. Otaczanie się błyskotliwymi współpracownikami przyspieszy Twój rozwój wykładniczo. Będziesz narażony na najnowocześniejsze problemy, innowacyjne rozwiązania i poziom wiedzy, który będzie Cię codziennie stawiać wyzwania i inspirować.

Pamiętaj, jeśli DS i ML są Twoją prawdziwą pasją, te wyzwania będą ekscytujące. Ten entuzjazm, w połączeniu z ekspozycją na najlepsze talenty, będzie kluczem do wywarcia znaczącego wpływu na Twoją karierę.

Jakie obecne trendy i osiągnięcia w dziedzinie przetwarzania obrazu komputerowego uważasz za najbardziej ekscytujące i obiecujące?

Chociaż przetwarzanie języka naturalnego ostatnio odnotowało znaczące postępy, uważam, że Computer Vision pozostaje wysoce niedoceniane i ma ogromny niewykorzystany potencjał. Nadal jesteśmy daleko od osiągnięcia ludzkich możliwości w zakresie percepcji wizualnej i rozumienia.

Jednym z najbardziej obiecujących trendów w Computer Vision jest Self-Supervised Learning. To podejście, które można porównać do tego, jak dzieci uczą się, obserwując świat wokół nich, wykazało duży potencjał w zmniejszaniu zapotrzebowania na duże, oznaczone zestawy danych. Uważam jednak, że nadal brakuje kluczowego elementu w pełnym powielaniu uczenia się i rozumienia wizualnego podobnego do ludzkiego.

Jestem szczególnie podekscytowany ewolucją Generative AI w CV, zwłaszcza modelami dyfuzji i modelami spójności. Te technologie rewolucjonizują generowanie obrazów, manipulację nimi i ich zrozumienie. Modele dyfuzji doskonale sprawdzają się w tworzeniu różnorodnych obrazów wysokiej jakości, podczas gdy modele spójności zwiększają naszą zdolność do zachowania spójności w różnych perspektywach wizualnych.

Pomimo tych postępów, wciąż jesteśmy na wczesnym etapie odblokowywania pełnego potencjału CV. Dziedzina ta jest dojrzała do innowacji, szczególnie w zakresie opracowywania bardziej solidnych, uogólnialnych modeli, które mogą zbliżyć się do zrozumienia wizualnego na poziomie ludzkim w różnych kontekstach. To sprawia, że jest to niezwykle ekscytujący czas do pracy w Computer Vision, z wieloma możliwościami przełomowych badań i zastosowań”.
Ta zwięzła wersja zachowuje najważniejsze punkty dotyczące obecnego stanu CV, Twojej perspektywy dotyczącej jego potencjału oraz ekscytujących zmian w tej dziedzinie, a jednocześnie jest bardziej skoncentrowana i konkretna.

Źródło wyróżnionego obrazu: rawpixel.com/Freepik

Tags: trendy