W dzisiejszych czasach większość przedsiębiorców zdaje sobie sprawę z potencjału marketingowego jaki niesie ze sobą wykorzystywanie najnowszych rozwiązań technologicznych oraz dostrzega konieczność rozwoju i inwestowania w nie. Kluczową składową sukcesu w biznesie, która pozwala generować zyski i zmniejszać wydatki, jest umiejętność bieżącego podążania za rynkiem i dopasowanie do jego realiów. Niekiedy jednak przedsiębiorcy nie wyobrażają sobie w jaki sposób mogliby wykorzystać nowe, skomplikowane technologie i jak mogą one być zastosowane w procesach biznesowych ich działalności, które wydają się nie mieć żadnego związku z hasłami takimi jak sztuczna inteligencja. Coraz więcej nowych możliwości i rozwiązań pojawia się obecnie niemal z miesiąca na miesiąc i aby sporządzić wyczerpującą listę możliwości, potrzeba by napisać raczej książkę zamiast artykułu. Warto zatem skorzystać z konsultacji, jakie możemy zaoferować, aby wspólnie wypracować nowe rozwiązania, dające wartość w kontekście Państwa biznesu. Na naszym blogu pojawiają się wpisy o zastosowaniach sztucznej inteligencji w różnych branżach i szczerze zachęcam do zapoznania się z nimi. Zaś w tym artykule postaram się przybliżyć kilka kluczowych zagadnień, które stanowią pierwszy krok na drodze do wdrożenia sztucznej inteligencji w każdej firmie.
Do nowych technologii, które z całą pewnością są warte wzięcia pod uwagę, należą sztuczne sieci neuronowe oraz uczenie maszynowe. Dają one niesamowite możliwości w przetwarzaniu różnego rodzaju danych, usprawniając wiele czynności, czy też dając wartościowe spostrzeżenia, które można wykorzystać do zwiększenia zysków. Do takich spostrzeżeń, uzyskanych dzięki algorytmom sztucznej inteligencji należeć mogą przykładowo wnioski w postaci – “do tego typu klientów musimy adresować inne rozwiązania, aby zwiększyć sprzedaż”. Wspomniane dane to mogą być dokumenty, obrazy, dźwięki, nagrania, czy też tabele bazy danych. Ważne jest jednak, aby zbudować świadomość osób chętnych do inwestowania w tę kategorię algorytmów, odnośnie do wymagań, jakie muszą zostać spełnione, aby inwestycja ta była skuteczna. Warto odpowiedzieć sobie skrupulatnie na kilka pytań, a pierwszym z nich jest – jakie dane posiadam? Aby znaleźć odpowiedź na to pytanie, warto wypisać sobie procesy zachodzące w firmie. Nie zawsze na pierwszy rzut oka widać, że posiadając magazyny z kamerami, posiadamy co najmniej 2 źródła danych. Po pierwsze dane magazynowe, które można wykorzystać do optymalizacji rozłożenia towaru i jego pobierania w odniesieniu do terminów transportów. Po drugie, dane w postaci obrazu z kamer, które można wykorzystać np. w celach bezpieczeństwa.
Dane, które posiadasz, zazwyczaj poddawane są ewaluacji zgodnie z poniższą listą. Bardzo istotna w tym miejscu informacja, że dane nie muszą być idealne! Istnieją sposoby na to, aby radzić sobie z błędami, brakami w danych itp., jednakże zawsze lepiej jest dążyć do ideału, a na pewno dobrze przygotowane dane przełożą się na sprawność pracy z nimi oraz wyniki, jakie dzięki ich przetwarzaniu będzie można osiągnąć.
Przyjmuje się, że im bardziej złożony problem chcesz rozwiązać, tym więcej danych potrzebujesz. Dzisiejsze rozwiązania dają naprawdę niesamowite możliwości, w niektórych przypadkach, nawet z bardzo niewielką ilością danych, które muszą po prostu oddawać charakterystykę Twoich działań. Niemniej Istnieją pewne zasady (oparte na doświadczeniu) mówiące o absolutnym minimum. Przykładowo, korzystając ze wspomnianego wcześniej magazynu, jest to 1000 transakcji, które zostały obsłużone. Wszystko to bardzo mocno zależy jednak od konkretnego przypadku i warto już na tym etapie zasięgnąć rady ekspertów. Z punktu widzenia osób technicznych, ważne jest również, aby znać granice, po których przekroczeniu model nie będzie dawał już lepszych wyników, a wręcz zacznie spadać poziom jego stabilności. Nie znaczy to bynajmniej, że w takim momencie nie warto już gromadzić danych. Dane pozwalają nam na znajdowanie w historii pewnych zależności i wzorców na bazie, których chcemy również przewidywać przyszłe zdarzenia. I tu kolejna ważna uwaga. Możemy starać się przewidywać pewne ogólne prawdy niezależne, kiedy wystąpiły. Czy był to rok 2000, czy 2017. Lato, czy zima. Możemy także szukać czegoś, co jest zależne od wielu innych czynników, które chcemy powiązać z czasem ich występowania. Dlatego tak istotne jest nie tylko przechowywanie archiwalnych danych, ale również zbieranie tych jak najbardziej aktualnych.
Jeżeli chcemy precyzyjnie przewidywać pewne istotne fakty, bardzo ważne jest, aby zbiór danych był stosownie zbilansowany, tzn. musi być jak najbardziej równomierny rozkład ilości rekordów w każdej z klas. Choć tu ważna uwaga, mogą zaistnieć przypadki, kiedy nie będzie możliwości uzyskania takiego równomiernego rozkładu i nie powinno się tego zmieniać, ponieważ w uzasadnionych przypadkach sam ten fakt może również nieść za sobą jakiś rodzaj informacji do wykorzystania w modelu. Z reguły jednak sztuczne bilansowanie zbioru powoduje jedynie uzyskanie bezużytecznego modelu.
Miejsce drugie tego punktu nie jest przypadkowe, ponieważ jeżeli posiadamy wystarczająco dużo danych, problem niezbalansowanej próbki nie jest już tak istotny. W badaniach udowodniono, że żadna z metod bilansujących nie może równać się z efektem uzyskiwanym poprzez dodanie większej ilości danych.
Możliwość uzupełniania przez pracownika pól tekstowych w formularzach generuje wiele potencjalnych problemów na poziomie spójności danych w bazie, a także późniejszego ich przetwarzania. Wszędzie tam, gdzie nie ma co najmniej walidacji albo w najlepszym przypadku możliwości wyboru wartości ze słowników, bardzo często spotykane są np. literówki, czy też wartości wpisywane bez staranności jak np. wiek: 200 lat. Przyczyny takich sytuacji należy szukać w brakach wypracowanych standardów, szablonów oraz słowników, z których mogliby korzystać pracownicy. Jest to aspekt bardzo istotny, żeby zweryfikować zgodność danych z rzeczywistością i jak najszybciej wychwycić błędy oraz wdrożyć wspomniane rozwiązania eliminujące ponowne występowanie takich problemów, ponieważ dane, które nie oddają realiów, będą skutkowały mało wiarygodnymi wynikami.
Puste, nieuzupełnione pola tabel powodują, że dany rekord może okazać się bezużyteczny, pomimo posiadania być może innych, bardzo wartościowych informacji. Widać więc, że jest to strata potencjału, na jaką szkoda sobie pozwolić. Takie sytuacje najczęściej wynikają z podobnych powodów, jakie zostały przedstawione w punkcie trzecim.
W Jaki sposób unikać wspomnianych strat i radzić sobie w sytuacji, kiedy jeden, lub wiele powyższych punktów nie zostaje spełnionych? Rozwiązaniem jest przede wszystkim wypracowanie odpowiednich standardów funkcjonowania firmy, ale co jest jeszcze ważniejsze, wprowadzenie ich i konsekwentne stosowanie. Poprzez ten artykuł chciałbym rozpocząć serię ukierunkowaną na dzielenie się wiedzą związaną z projektami z zakresu sztucznej inteligencji. W portfolio naszego zespołu posiadamy szereg doświadczeń zarówno w sferze komercyjnej, jak i naukowo badawczej. W każdym przypadku serdecznie zapraszamy do kontaktu, ponieważ informacje w tym artykule, są jedynie wierzchołkiem góry lodowej, jaką jest wiedza na temat rozpoczynania projektów z wykorzystaniem uczenia maszynowego i sieci neuronowych. Nawet jeśli po tej lekturze masz wrażenie, “to nie dla mnie”, niekoniecznie jest tak w rzeczywistości.
Krzysztof Sapiejewski – Data scientist