W ciągu ostatnich dwudziestu lat dane stały się nieocenionym zasobem firm, konkurującym z tradycyjnymi aktywami, takimi jak infrastruktura fizyczna, technologia, własność intelektualna i kapitał ludzki. W przypadku niektórych z najcenniejszych firm na świecie dane stanowią rdzeń ich modelu biznesowego.
Skala wytwarzania i przesyłania danych wzrosła wykładniczo. Forbes podaje, że globalna produkcja danych wzrosła z 2 zettabajtów w 2010 r. do 44 ZB w 2020 r., a prognozy przekraczają 180 ZB do 2025 r. – co oznacza oszałamiający wzrost o 9000% w ciągu zaledwie 15 lat, częściowo napędzany sztuczną inteligencją.
Jednak same surowe dane nie są równoznaczne z praktycznymi spostrzeżeniami. Nieprzetworzone dane mogą przytłoczyć użytkowników, potencjalnie utrudniając ich zrozumienie. Informacje — dane, które są przetwarzane, zorganizowane i nadające się do wykorzystania — dostarczają spostrzeżeń, które prowadzą do działań i generowania wartości.
W tym artykule dzielę się moim doświadczeniem w zakresie analityki danych i wdrażania narzędzi cyfrowych, koncentrując się na wykorzystaniu „Big Data” do tworzenia praktycznych spostrzeżeń. Te spostrzeżenia umożliwiły użytkownikom wykorzystanie możliwości komercyjnych, identyfikację obszarów generujących oszczędności i dostęp do przydatnych informacji porównawczych. Nasze projekty często uwzględniały automatyzację, co zapewniało oszczędność czasu i wzrost wydajności. Przedstawię kluczowe wyzwania, przed którymi stanęliśmy, oraz nasze rozwiązania, kładąc nacisk na wczesne fazy projektu, na które decyzje mają największy wpływ.
Kluczowe obszary zainteresowania obejmują:
- Kwantyfikacja korzyści
- Ryzyko pełzania zakresu
- Pokonywanie wyzwań za pomocą danych PDF
- Faza projektowania i rozważania dotyczące wydajności
W dużych organizacjach dostępność i przystępność danych często stwarzają poważne wyzwania, szczególnie w przypadku łączenia danych z wielu systemów. Większość moich projektów miała na celu stworzenie ujednoliconego, zharmonizowanego zbioru danych na potrzeby samoobsługowej analityki i wnikliwych dashboardów. Zastosowaliśmy zwinne metodologie, aby zachować jasny nadzór nad postępem i wąskimi gardłami, zapewniając odpowiedzialność każdemu członkowi zespołu.
Typowy cykl życia projektów dotyczących danych obejmuje etapy określania zakresu, projektowania, opracowywania, wdrażania i utrzymania. Podczas określania zakresu właściciel produktu ściśle współpracuje z organizacją klienta/użytkownika końcowego, aby poznać ogólne potrzeby, pożądane typy danych oraz spostrzeżenia, wymagania i funkcjonalność.
Kwantyfikacja korzyści
Kluczowym elementem fazy scopingu jest przypadek korzyści, w którym ilościowo określamy potencjalną wartość rozwiązania. Z mojego doświadczenia wynika, że ten krok często okazuje się trudny, szczególnie przy szacowaniu wartości spostrzeżeń analitycznych. Odkryłem, że chociaż obliczanie korzyści wynikających z automatyzacji, takich jak oszczędność czasu, jest stosunkowo proste, użytkownicy mają trudności z oszacowaniem wartości spostrzeżeń, zwłaszcza gdy mają do czynienia z wcześniej niedostępnymi danymi.
W jednym kluczowym projekcie stawiliśmy czoła temu wyzwaniu. Opracowywaliśmy model danych, aby zapewnić głębszy wgląd w kontrakty logistyczne. Na etapie określania zakresu mieliśmy trudności z ilościowym określeniem potencjalnych korzyści. Dopiero kiedy odkryliśmy niedawny incydent, znaleźliśmy odpowiedź.
Kilka miesięcy wcześniej klient odkrył, że przepłaca za konkretny rurociąg. Struktura umowy, obejmująca różne przepływy objętościowe powodujące różne stawki, doprowadziła do nieoptymalnego wykorzystania i nadmiernych kosztów. Dostosowując przepływy objętościowe, udało im się znacznie obniżyć koszty jednostkowe. Ten przykład z życia wzięty okazał się nieoceniony w naszym procesie kwantyfikacji korzyści.
Wykorzystaliśmy ten incydent, aby zademonstrować, w jaki sposób nasz model danych mógłby:
- Zidentyfikowano problem wcześniej, co potencjalnie pozwoliło zaoszczędzić miesiące na nadpłatach
- Zapewniono stały monitoring, aby zapobiec podobnym problemom w przyszłości
- Oferowane spostrzeżenia dotyczące optymalizacji natężenia przepływu we wszystkich kontraktach
Ten konkretny przykład nie tylko pomógł nam określić ilościowo korzyści, ale także podniósł priorytet projektu w oczach kadry kierowniczej wyższego szczebla, zapewniając potrzebne nam fundusze. Była to kluczowa lekcja na temat mocy wykorzystania namacalnych, niedawnych wydarzeń do zilustrowania potencjalnej wartości.
Jednak nie wszystkie projekty mają takie jednoznaczne przykłady. W takich przypadkach opracowałem alternatywne podejścia:
- Benchmarking: porównujemy wyniki poszczególnych działów z innymi działami lub konkurentami, identyfikując najlepsze w swojej klasie wyniki i określając ilościowo wartość osiągnięcia tego poziomu.
- Procentowa poprawa: szacujemy konserwatywną procentową poprawę ogólnych przychodów lub kosztów wydziałów wynikającą z modelu. Nawet niewielki procent może przełożyć się na znaczną wartość w dużych organizacjach.
Niezależnie od metody nauczyłem się, jak ważne jest zdefiniowanie jasnych, mierzalnych kryteriów sukcesu. Teraz zawsze ustalamy, w jaki sposób korzyści będą mierzone po wdrożeniu. Praktyka ta nie tylko ułatwia ponowną ocenę, ale także zapewnia odpowiedzialność za decyzję o wdrożeniu rozwiązania cyfrowego.
Kolejna cenna lekcja przyszła z nieoczekiwanego źródła. W kilku projektach odkryliśmy „klientów pobocznych” – działy lub zespoły, które mogły skorzystać z naszego modelu danych, ale nie były objęte pierwotnym zakresem. W jednym przypadku model zaprojektowany dla zespołu logistycznego okazał się nieoceniony dla działu finansowego w budżetowaniu i prognozowaniu.
To doświadczenie nauczyło mnie zarzucać szerszą sieć przy definiowaniu bazy klientów. Obecnie na etapie określania zakresu rutynowo patrzymy poza dział składający wniosek. Takie podejście często zwiększało ogólne korzyści i priorytet projektu, czasami zamieniając marginalny projekt w niezbędną inicjatywę.
Doświadczenia te podkreślają krytyczną wiedzę: w dużych organizacjach wielu użytkowników z różnych obszarów często boryka się z podobnymi problemami, nie zdając sobie z tego sprawy. Wcześnie identyfikując te synergie, możemy stworzyć bardziej kompleksowe, wartościowe rozwiązania i zbudować solidniejsze argumenty do wdrożenia.
Ryzyko pełzania zakresu
Poszerzenie bazy klientów zwiększa wpływ modelu, ale zwiększa również ryzyko rozszerzenia zakresu. Dzieje się tak, gdy projekt próbuje objąć zbyt wielu interesariuszy, obiecując nadmierną lub nadmiernie złożoną funkcjonalność, co potencjalnie zagraża budżetowi i harmonogramowi. Właściciel produktu i zespół muszą jasno rozumieć swoje zasoby i realistyczne możliwości dostarczenia produktu w uzgodnionych ramach czasowych.
Aby ograniczyć to ryzyko:
- Należy przewidzieć pewne prace projektowe na etapie określania zakresu.
- Oceń, czy nowe wymagania można spełnić przy użyciu istniejących źródeł danych lub czy konieczne jest pozyskanie nowych.
- Ustal jasne, realistyczne oczekiwania z kierownictwem klienta dotyczące zakresu i wykonalności.
- Utwórz ręczną makietę produktu końcowego podczas określania zakresu, aby wyjaśnić wymagania dotyczące źródła danych i zapewnić użytkownikom końcowym namacalny podgląd wyniku.
- W makietach używaj rzeczywistych podzbiorów danych, a nie fikcyjnych danych, ponieważ użytkownicy lepiej odwołują się do znanych informacji.
Wyzwania związane z danymi PDF
W kilku projektach zwrócono uwagę na wyzwania związane z przechwytywaniem danych PDF. Użytkownicy często prosili o szczegółowe informacje z faktur i wyciągów od dostawców zewnętrznych, które nie są dostępne w naszych systemach finansowych. Podczas gdy zespoły księgowe zazwyczaj księgują wersje podsumowane, użytkownicy potrzebowali do celów analitycznych szczegółowych informacji o pozycjach zamówienia.
Wyodrębnianie danych z plików PDF wymaga ustalenia reguł i logiki dla każdego elementu danych, co jest znacznym wysiłkiem wartym zachodu tylko w przypadku wielu plików PDF o podobnej strukturze. Jednakże w przypadku dokumentów pochodzących od tysięcy dostawców o różnych formatach, które z czasem mogą się zmieniać, opracowanie reguł mapowania staje się ogromnym zadaniem.
Zanim włączę ekstrakcję plików PDF do zakresu projektu, muszę teraz dokładnie zrozumieć powiązane dokumenty i upewnić się, że organizacja użytkownika końcowego w pełni rozumie związane z tym wyzwania. Takie podejście często prowadziło do ponownego zdefiniowania zakresu projektu, ponieważ korzyści mogą nie uzasadniać kosztów i mogą istnieć alternatywne sposoby osiągnięcia pożądanych spostrzeżeń.
Faza projektowania i rozważania dotyczące wydajności
Faza projektowania obejmuje analizę określonych elementów, identyfikację źródeł danych, ocenę optymalnych metod interfejsu danych, zdefiniowanie etapów sprawdzania i obliczeń oraz dokumentowanie całego modelu danych. Obejmuje również decyzje dotyczące hostingu modelu danych, aplikacji do przesyłania i wizualizacji danych, modeli bezpieczeństwa i częstotliwości przepływu danych. Kluczowe wymagania projektowe obejmują zazwyczaj szczegółowość danych, niezawodność, elastyczność, dostępność, automatyzację i wydajność/szybkość.
Wydajność ma kluczowe znaczenie, ponieważ użytkownicy oczekują reakcji w czasie zbliżonym do rzeczywistego. Powolne modele, niezależnie od ich spostrzeżeń, często mają ograniczone zastosowanie. Typowe metody poprawy wydajności obejmują materializację ostatecznego zestawu danych w celu uniknięcia obliczeń opartych na pamięci podręcznej. Wybór narzędzia do wizualizacji również znacząco wpływa na wydajność. Testowanie różnych narzędzi na etapie projektowania i ustalanie harmonogramu poszczególnych etapów modelu pomaga w wyborze narzędzia. Wybór narzędzia może mieć wpływ na projekt, ponieważ każde narzędzie ma preferowane struktury danych, chociaż ostateczna decyzja może wpłynąć na strategię firmy i względy kosztowe.
Przyszłe trendy
Pojawiające się trendy zmieniają krajobraz analityki danych. Narzędzia do przygotowywania i analizy danych umożliwiają teraz osobom niebędącym programistami tworzenie modeli danych przy użyciu intuicyjnych interfejsów graficznych z funkcją „przeciągnij i upuść”. Użytkownicy mogą symulować i wizualizować każdy krok, umożliwiając rozwiązywanie problemów na bieżąco. Ta demokratyzacja modelowania danych rozszerza trend samoobsługowej analityki, umożliwiając użytkownikom tworzenie własnych modeli danych.
Chociaż istnieją ograniczenia w zakresie złożoności produktów danych tworzonych przez użytkowników końcowych, a organizacje mogą w dalszym ciągu preferować centralnie administrowane zbiory danych korporacyjnych w przypadku powszechnie używanych danych, narzędzia te poszerzają możliwości modelowania danych poza specjalistów IT.
Osobiste doświadczenie ilustruje wpływ tego trendu: podczas fazy określania zakresu jednego projektu, w obliczu potencjalnej utraty programisty, przeszliśmy od modelu programowanego w języku SQL na rzecz Alteryx. Właścicielowi produktu udało się stworzyć model danych przy minimalnym wsparciu IT, zwiększając zarówno jego umiejętności techniczne, jak i satysfakcję z pracy.
Uspołecznienie tworzenia złożonych narzędzi analitycznych niesie ze sobą znaczne korzyści. Firmy powinny rozważyć zapewnienie programów szkoleniowych, aby zmaksymalizować wartość tych aplikacji. Dodatkowo asystenci AI mogą sugerować lub debugować kod, co jeszcze bardziej przyspiesza przyjęcie tych narzędzi. Ta zmiana może przekształcić każdego pracownika w specjalistę ds. danych, wydobywającego maksymalną wartość z danych firmowych bez rozbudowanego wsparcia IT.
Odblokuj wartość danych
Podejmowanie decyzji w oparciu o dane szybko rośnie w różnych branżach. Aby odblokować wartość danych, należy je przekształcić w ustrukturyzowaną informację, którą można wykorzystać. Projekty analizy danych mają na celu konsolidację danych z różnych źródeł w scentralizowany, zharmonizowany zbiór danych, gotowy do wykorzystania przez użytkownika końcowego.
Projekty te obejmują kilka etapów – ustalanie zakresu, projektowanie, budowanie, wdrażanie i utrzymanie – każdy z unikalnymi wyzwaniami i możliwościami. Faza określania zakresu jest szczególnie istotna, ponieważ podejmowane na niej decyzje mają ogromny wpływ na cały cykl życia projektu.
Tradycyjny model polegania na dedykowanych programistach IT ewoluuje wraz z pojawieniem się przyjaznych dla użytkownika narzędzi do przygotowywania i analizy danych, uzupełnionych asystentami AI. Ewolucja ta obniża barierę w budowaniu modeli analitycznych, umożliwiając udział w procesie szerszemu gronu użytkowników końcowych. Ostatecznie ta demokratyzacja analityki danych jeszcze bardziej wzmocni jej wpływ na podejmowanie decyzji w przedsiębiorstwie, stymulując innowacje i wydajność we wszystkich organizacjach.