FŐOLDAL | Mesterséges intelligencia, BI | Mesterséges intelligencia és Big Data a cégvezetésben

Mesterséges intelligencia és Big Data a cégvezetésben

Szerző: 2019. június 14.

Talán észre sem veszed, hogy amikor beütöd a navigációs rendszeredbe, hogy hová szeretnél menni az autóddal, akkor az a lehetséges útvonalak közül a leggyorsabbat igyekszik kiválasztani, azaz prediktív (előrejelző) analitika segítségével megjósolja, hogy hogyan fogsz a leggyorsabban elérni a célodhoz. Hasonló módszer segít Neked, amikor egy tavaszi reggelen az időjárás előrejelzést nézed a telefonodon, hogy mennyire meleg ruhát húzz, vagy kell-e vinned esernyőt.

Az üzleti életben talán még fontosabb a hatékony előrejelzés, mert ennek segítségével csökkentheted a költségeidet és növelheted a működési biztonságodat. Ha látod előre a várható ingadozást a cashflow-ban, akkor előre fel tudsz rá készülni, ha meg tudod jósolni a jövőbeli rendeléseket, akkor optimális szinten tudod tartani a készletedet, ha előre érzékeled, hogy egy vevőd elhagyni készül, akkor oda tudod küldeni egy értékesítődet, aki egy jó akcióval vagy a vevő problémájának kezelésével visszahozza a rendeléseket.

A mesterséges intelligencia prediktív analitika nevű területe új, de mivel óriási mértékben tudja befolyásolni azon cégek profitját, akik ki tudják használni, ezért futótűzként terjed. Használják:

  • az online marketingben, hogyan tudják hatékonyabbá tenni a hirdetéseket,
  • social médiában,
  • a felhasználói élmény növelésében,
  • csalás illetve hiba előrejelzésben,
  • pénzügyi döntések előkészítésében,
  • a tőzsdén és a Forex-en,
  • kockázatelemzésben,
  • HR-ben a felvételnél és a munkatársak motivációjának megtartásánál,
  • készlettervezésben,
  • gyártási folyamatok optimalizálásában,
  • és még számtalan egyéb helyen.

Big Data, prediktív analitika és üzleti intelligencia a cégek életében

Egyre több szervezet tárolja adatait digitális formátumban, percről-percre nő a tárolt adatok mennyisége az interneten és a közösségi médiában, és egyre több okos eszköz csatlakozik rá az internetre és adatbázisokra és rögzít különféle információkat.

A rendelkezésre álló adatok mennyisége exponenciális mértékben növekszik és ezen adatok tartalmazzák azon szabályszerűségeket, amik alapján hatékonyan jósolható a jövő, azaz a Big Data korában – ha nem is exponenciálisan, de – egyre jobban működik a prediktív analitika a gyakorlatban. Természetesen ehhez az is hozzájárul, hogy a prediktív analitikát segítő matematikai módszerek új tudománya is fejlődik, de a matekos résszel nem szeretnélek terhelni ebben a cikkben.

Az, hogy a sok adatból hogyan lehet kinyerni az információt az az üzleti intelligencia rendszerek területe (az üzleti intelligencia (angolul Business Intelligence, röviden BI) gyűjtőfogalom; magában foglalja azokat az alkalmazásokat, legjobb gyakorlatokat, eszközöket, amelyek lehetővé teszik, hogy megszerezhessünk és felhasználhassunk olyan információkat, amelyek fontosak ahhoz, hogy az üzleti döntéseket és így az üzleti teljesítményt javítsuk) és ezért természetes fejlődési irány az, hogy a prediktív analitika funkció leginkább az üzleti intelligencia rendszerek alkalmazásához áll legközelebb és számos BI rendszer használ is különböző eljárásokat a prediktív analitikára.

Egyszerű azonban belátni, hogy amennyire segít egy ilyen rendszer a hatékony és helyes előrejelzésével, annyira tud rombolni is, ha nem jól működik (gondolj arra, hogy napfényes időt jósolnak, eközben szétázol az esőben egy fontos üzleti tárgyalásra menet), ezért nagyon fontos, hogy a lehető legjobb módszert alkalmazd az üzleti jövőd előrejelzésére. Fontos tehát tisztában lenni azzal, hogy az egyes üzleti intelligencia eszközök milyen mesterséges intelligencia módszereket használnak prediktív analitikára és azt is, hogy a Te adataid esetén melyik lehet a leghatékonyabb eljárás a jövőd előrejelzésére.

Adatelemzés és prediktív analitika háttere

Mielőtt még a prediktív analitika mélységeibe hatolnánk, fontos tisztában lenned az alapvető big data és adat-analitikai fogalmakkal. Az adatok feldolgozása klasszikusan a matematika, azon belül a matematikai statisztika területe, ami még akkor is megkerülhetetlen, ha manapság már a számítógépek átvették az uralmat az adatfeldolgozás és az adatelemzés felett.

Talán hallottál már a hipotézisvizsgálatról, ami a statisztikai módszerek alapeleme. Ilyenkor feltételezünk valamit és vizsgáljuk, hogy az mennyire igaz. Ez egyfajta célkitűzés (objective), ami nagyon fontos a saját adataid elemzésében is. Vagyis fel kell tenned helyesen a kérdést, hogy pontosan mire vagy kíváncsi:

  • Melyik termékemen van a legtöbb profitom?
  • Szezonális az értékesítésem?
  • Mely dolgozóim dolgoznak a legtöbbet és melyek termelik meg a legtöbb értéket?

Ezeket a kérdésekre adott lehetséges válaszokat lehet statisztikailag elemezni. Mindemellett el kell döntened, hogy mit mérsz és hogyan méred. Mivel valószínűleg Te és munkatársaid ismerik legjobban a saját folyamataidat, ezért ezt Neked kell kitalálni és abban tapasztalt tanácsadók tudnak Neked segíteni, hogy hogyan kell gyűjtened ehhez adatot. A következő lépés az adattisztítás, ami az ismétlődő és hibás adatok kiszűrését jelenti. Ez a lépés olyan kulcsfontosságú, hogy néhány üzleti intelligencia rendszer beépítetten támogatja pl. egy kiugró érték (outlier) vizsgálattal.

Ha ezeken a lépéseken túl vagy, akkor jön az adatanalízis, ami az üzeti intelligencia rendszerek igazi vadászterülete. Minden BI tudja az adatvizualizációt, amikor az adataid színes grafikonok (charts) formájában jelennek meg és segítenek a gyors döntésben vagy az eredmények prezentálásában egy találkozón. A másik lehetséges adatanalitikai módszer az értelmező (explanatory) adatelemzés, amikor az eszköz lehetőséget ad arra, hogy az adatok mélyére áss és megtaláld az összefüggéseket. Ilyen eszköz például a grafikonoknál a lefúrás (drill down) lehetősége, de a pivot tábla is egy tipikus értelmező eszköz.

Talán a legérdekesebb (és a prediktív analitika irányába mutató) adatelemzési módszer a leíró statisztikai elemzés (descriptive statistics), ami a vizsgált adatok karakterisztikáját vagy tulajdonságait hivatott leírni (pl. növekszik vagy csökken, homogén vagy diverz, melyik termékcsoport értékesítése nagyobb átlagosan?). Ide tartoznak a jól ismert statisztikai mérőszámok: átlag, szórás, medián, variancia, stb. és ezek mind vizuálisan, mind pedig értelmező táblázatokban is tálalhatóak. Mivel feltételezzük, hogy a viszgált adatokon mért jellemzők kiterjeszthetők a teljes adattömegre és így a jövőben gyűjtendő adatokra is, ez az a módszer, ami átvezet minket a prediktív analitikához.

Prediktív analitika

A prediktív analitika a leíró, deszkriptív analitikából fejlődött ki, amiről az előbbi bekezdésben írtam. A leíró elemzés képes feltárni egy idősorról (az idősor az egymást követő időpontokhoz vagy időszakokhoz tartozó adatok sora, amit egy kétdimenziós grafikonon úgy tudunk ábrázolni, hogy a vízszintes tengely az idő és a függőleges tengelyen vannak az adatok), hogy növekvő vagy csökkenő trend jellemzi, és ha egy mért adat az elmúlt két évben minden nap növekedett, akkor nagy biztonsággal mondhatjuk, hogy jövő hétfőn is növekedni fog (csak az adattudós és matematikus olvasóknak írom, hogy milyen szép lenne itt egy kicsit a Bayes-tételről és a feltételes valószínűségről is írni) – és el is érkeztünk a prediktív elemzéshez.

A prediktív analízis az esetek többségében ennél sokkal bonyolultabb, és a deszkriptív elemzés sokszor nem talál törvényszerűségeket a vizsgált adathalmazban, az előrejelzést viszont meg kell tenni. Az ilyen esetekben sokszor már ún. algoritmusokat használunk, amik általában több lépésből állnak, amíg az utolsó lépésben a kívánt eredményhez vezetnek.

A prediktív analízis szokásos módszere, hogy az adatok egy jelentős részét elkülöníti (ez általában 80%) és ezeken az adatokon “tanítja” az algoritmust, majd a fennmaradó részén az adatoknak (általában 20%) teszteli az algoritmus hatékonyságát. Mivel ezek az algoritmusok a módszer során “megtanulják” az adathalmaz tulajdonságait, tanuló algoritmusoknak nevezzük őket és az informatikában ezt hívják machine learningnek (gépi tanulás), és sok helyen a mesterséges intelligencia elnevezés mögött valójában a machine learning van.

Eddig azok a szervezetek, akik komolyan akartak foglalkozni a prediktív analitikával adattudóst vettek fel (vagy ilyen részleget létesítettek), aki Python-ban, R program-nyelvben vagy egyéb eszközrendszerben lekódolta a szükséges elemző eszközöket. Az alábbiakban azonban láthatod, hogy az üzleti intelligencia rendszerek olyan mértékben fejlődnek, hogy nincs szükséged saját tudósra ahhoz, hogy az üzleti adataidból meg tudd jósolni a jövőt.

A prediktív analitika után a következő lépcsőfok az ún. előíró vagy preszkriptív analitika, ami nem csak a jövőt jósolja meg, hanem abban is segítséget nyújt, hogy a jövőbeli várható események fényében mit kell tennünk, hogy a kezdetben rögzített célkitűzésünket elérjük. Erről a technikáról az utolsó fejezetben lesz szó.

A következő részben igyekszek egy általános áttekintést adni arról, hogy milyen módszereket használnak jelenleg a piacon lévő üzleti intelligencia rendszerekben és melyiket mennyire egyszerű használni. Az egyszerű használat azért fontos, mert az önkiszolgáló BI. már elterjedt és régóta központi kérdés ezeknél a rendszereknél, de az önkiszolgálásról előszeretettel elfeledkeznek a rendszer tervezői, amikor összetettebb prediktív elemzéseket kell elvégezni. Tehát az alábbi elemzésből eldöntheted, hogy mely módszerek a leghatékonyabbak az üzleti adataid elemzésére és melyik BI eszköz használatához van elég tudás és szakértelem a cégedben, azaz mit tudsz viszonylag kis TCO-val használatba venni.

Prediktív analitikai módszerek

1. Trendvonal vagy regresszió
Ez a legegyszerűbb és ezáltal a legelterjedtebb prediktív eszköz és így az üzleti intelligencia szoftverek széles körében elérhető, de már az Excel is tudja. Ha grafikusan felrajzolod az adataidat vagy ábrázolod őket pl. egy idősor esetén, akkor kézzel is meg tudod rajzolni a trendvonalat, ahogyan azt az alábbi ábra szemlélteti a Tableau BI rendszer esetén.

A trendvonal funkciót általában nagyon egyszerű használni, hiszen az adatok adottak és a szoftver egy gombnyomásra megcsinálja az illesztést. A legtöbb rendszernél szükséges megadni a használt regresszió típusát (lásd alább), amihez azért picit érteni kell a statisztikához, de ez az ismeret tapasztalati úton is megszerezhető.

A lineáris regresszió esetén gyakorlatilag egy egyenest próbálunk ráilleszteni a grafikonra, amint az a fenti, Tableau-ból kivágott ábrán is látszik. És az is látszik az ábrán, hogy ez nem a legjobban illeszkedik, ezért a gyakorlatban, amikor az adataink nem folyamatos függvény kiemenetei, hanem különállóak (diszkrét változók) a logisztikus regressziót szoktuk használni, ahol a kimenetek valószínűségi értékek, azaz ebben az esetben egy esemény bekövetkeztének valószínűségét kapjuk eredményül. (Itt van az a pont, ahol érzem, hogy a nem matekos olvasót le is fárasztottam kicsit ezzel a logisztikus regresszió magyarázattal, ezért nem akarlak terhelni egyéb kimondhatatlan regressziós technikák (Probit, Polinomial, Ridge, Lasso, ElasticNet, stb.) kifejtésével.) A regresszióból elég ha annyit megjegyzel, hogy ilyenkor adatsorra illesztünk görbéket (az egyenes is egyfajta görbe) és hogy a statisztika ezen területe nagyon gazdag.

A legtöbb üzleti intelligencia rendszer megáll a lineáris és logisztikus regresszió használatánál, ami nem csak azt jelenti, hogy bonyolultabb regressziós technikák nem elérhetők a szoftverekben, hanem azt is, hogy a további pontokban tárgyalt fejlettebb módszereket sem lehet használni beépítetten a legtöbbjükben (köztük a PowerBi, a Sisense, a Tableau, a Qlik, a Looker, a Domo sem támogatja ezeket).

Azaz a piacvezető üzleti intelligencia rendszerek többsége megáll a trendvonal és regressziós módszerek szintjén és ezeken kívül semmi mást nem lehet használni a menüből. Ezért írtam korábban, hogy eddig azokban a cégekben, ahol komolyan akartak foglalkozni a big datával, mesterséges intelligenciával és prediktív elemzéssel, mindig szükség volt programozóra, adattudósra, aki Python vagy R programnyelvben kifejlesztette a szükséges algoritmusokat, amit azután már tudtak használni az adott üzleti intelligencia rendszerben.

Ráadásul azoknál az üzleti intelligencia rendszereknél, amelyek igyekeznek egyszerűvé tenni ennek a funkciónak a használatát (pl. Tableau), egyetlen regressziót (általában logisztikus típusút) használják minden adat illesztésére, ami könnyűvé teszi ugyan a használatot, de nagyon pontatlanná teszi az előrejelzéseket, míg azok az eszközök (pl. a Power.BI Forecast modulja), amelyek viszonylag jól paraméterezhetően jobb eredményeket adnak, csak komoly statisztikai tudás birtokában használhatók biztonsággal.

A trendvonal előnye a számítási gyorsasága, egyszerűsége és szemléletessége, nagy hátránya azonban, hogy komplexebb esetekben rossz előrejelzéseket ad. Ha csak viszonylag kevés adatod van (néhány ezer) és elegendő a trendvonal meghatározása az esetedben, akkor én az Excel trendvonal megoldását ajánlom, amiről itt találsz részletes leírást: https://www.excel-easy.com/examples/trendline.html

A Dyntell BI-ban lévő Ensemble rendszerben (lásd később) egy logisztikus regresszión alapuló algoritmus található, a Prophet, amelyet Facebook-os fejlesztők kezdtek el programozni, nyílt forráskódúvá tették és a Dyntell továbbfejlesztette. A Prophet nagyon jó konszenzus az egyszerűség és a hatékony előrejelzés között, nagy előnye, hogy jól detektálja az idősorok szezonalitását is.

Összefoglaló: TRENDVONAL ÉS REGRESSZIÓ

Önkiszolgáló szint: Magas

Előnyök: Gyors válaszidő, kis számítási igény, elterjedt módszer.

Hátrányok: Közepes előrejelzési hatékonyság és a big data adatbázisokon rosszul működik.

2. Mozgóátlag
Az Excelben ez is csak egy trendvonal típus (mint ahogyan azt az Excel tutorialban láthattad), de kifinomult használata miatt sokkal összetettebb, sőt a magam részéről olykor erősebb eszköznek tartom a hagyományos regressziónál. A ‘mozgóátlag’-ot gyakorta használják a deviza- (Forex) vagy tőzsdei piacok elemzésekor (kedvencem a Double Bollinger Band) mi több, megbízható működése révén üzleti idősorok vizsgálatakor is bátran támaszkodhatunk rá.

A legszélesebb körben alkalmazott mozgóátlag módszer valószínűleg az ARIMAAz algoritmus mögötti matematikáról itt olvashatsz bővebben:
(https://en.wikipedia.org/wiki/Autoregressive_integrated_moving_average)

Az ARIMA paraméterei a ‘p’, ‘q’, és ‘d’, melyek közül:

  • ‘p’ – az autoregresszív kifejezések száma
  • ‘d’ – a stacionáriussághoz szükséges (nem szezonális) különbségek száma 
  • ‘q’ – a késleltetett előrejelzési hibák száma a predikciós egyenletben.

Az adattudósok különböző paraméter-beállításokat tesztelnek, hogy megtalálják a legmegfelelőbb előrejelzést az adott adatkészlethez. A Dyntell BI-ban az automatizált folyamat sok beállítási permutációt tesztel, és megtanulja a legjobb módszert egy adott idősor jövőbeli használatához.

A kisebb adatsorokon jól működnek a különféle mozgóátlag módszerek, noha a pontosság épp csökken az adatmennyiség növekedésével.

Ha még nem vesztetted el a lelkesedésed, úgy kipróbálhatod az ARIMA-t például a SAS BI-ban. Játsz a p, d, q paraméterek beállításaival, hogy még mélyebben megismerd a mozgóátlagot.

Összefoglaló: MOZGÓÁTLAG
Önkiszolgáló szint: Közepes
Előnyök: Könnyen érthető, gyors válaszidő, jó becslési minőség a megfelelő beállítások esetén.
Hátrányok: Az adatállomány méretének növekedésével (big data) csökken az előrejelzés pontossága.

3. Neuronhálózat

A mesterséges neurális hálózatok az emberi idegrendszert és az agyat modellező statisztikai algoritmusok. Nagy előnyük, hogy ezek a rendszerek könnyen megoldják azokat a komplex problémákat, amelyek kihívást jelentenek a hagyományos algoritmusok számára, de egy ember számára egyszerű feladatok (pl. arcfelismerés, természetes nyelvek feldolgozása).

Kedvenc példám a kézzel írott karakterek felismerése. Képzeld el, hogy a kézzel írt számot egy kockás füzetbe írod és kiszínezed feketére azokat a kockákat, ahová a rajzolt szám vonala esik vagy amelyik kockát érinti. Így a kézzel írt számot átalakítottad fekete és fehér kockákká, hogy számolni is tudjunk velük jelöljük ‘1’-el “pixeleket”, és ‘0’-val a fehér “pixeleket”. Ily módon a kézzel írt betűk képeit 1-esekkel és 0-kkal rendezett sorokba konvertáltad.

Ezt követően tanítanunk kell a hálózatot, azaz megmondani a gépnek, hogy az adott kép milyen betűt jelent. Ehhez kell egy ember, aki pl. megmondja: „Ez a számsor egy ‘o’ betű.” A neurális hálózat egy speciális függvénnyel kiszámítja a képhez rendelt számsorból a kép “energiaállapotát” vagyis egy számot, ami a képet jellemzi. (A statisztikai számítás módszere a cikk tárgykörén kívül esik.) A tanulási mechanizmus azt jelenti, hogy a neurális hálózat ezt az energiaállapotot az ‘o’ betűs polcon helyezi el a képzeletbeli polcok közül (mivel azt mondta neki a tanító ember, hogy ez az ‘o’ betű). Több tucat különböző kézzel írott ‘o’-t kell megtanítanod a neurális hálónak, és minden alkalommal, amikor ‘o’-ként azonosítjuk a képet, az algoritmus kiszámítja az energia állapotot, majd az „o-polcra” helyezi azt. Természetesen más betűkhöz más polcok tartoznak és a neurális hálózat képes megtanulni az egész ábécét.

És itt jön a trükk: amikor a neurális hálónak mutatunk egy új, kézzel írott ‘o’-t, melyet korábban még sosem látott, kiszámítja a kép energia állapotát és ez alapján megtalálja az ehhez megfelelő polcot, ami az ‘o’ polc lesz és a felismert ‘o’ karakterrel válaszol.

A modern karakterfelismerő rendszerek már másképpen működnek, de ez egy kiváló példa a neurális hálózatok lényegének megértésére.

Hasonlóképp, a neurális hálózatok képesek megtanulni az idősorok jellegzetességeit, melyek felhasználhatók egy görbe jövőbeli pontjainak előrejelzésére. Ezekben az esetekben általában felügyelet nélküli hálózatokat használunk, ahol az algoritmusok emberi segítség nélkül is tudnak tanulni.

Biztosan rájöttél, hogy ezen algoritmusok használatához mélyebb statisztikai tudásra van szükség. Egy Big Data rendszerben beállíthatod a hálózat méretét és összetettségét, megváltoztathatod az „energia” függvényt és kísérletezhetsz a neuronhálóval, de a használata sok tapasztalatot és komoly háttértudást igényel. A neuronhálózatot tesztelheted többek közt a Rapidminerben, ami remek eszköz, de egy azok közül, ami komoly adattudósi hátteret igényel.

A Dyntell BI rendszerében a neurális hálózatok alkalmazása el van rejtve a felhasználók elől. A Dyntell BI az idősorok statisztikai jellemzői alapján automatikusan meghatározza az alkalmazandó neurális hálózatok paramétereit, ami azután bekerül egy komplex rendszerbe és hozzájárul a hatékonyabb előrejelzéshez.

Összefoglaló: NEURÁLIS HÁLÓK
Önkiszolgáló szint: alacsony
Előnyök: Jól alkalmazható osztályozási problémákra
Hátrányok: Előzetes tudást igényel a használata

4. Mélytanulás (deep learning)

A mesterséges neurális hálózat szerkezete olyan csomópontokból áll, melyek egymáshoz kapcsolódnak.

Egyes csomópontok vagy neuronok az ‘o’ karakter képének (a fenti példában) azonosításáért felelnek, ezek a neuronok a bemeneti rétegben vannak. Az energiaállapot kiszámítása néha összetettebb és több csomópontot igényel. Ezek egy vagy több rejtett rétegbe vannak rendezve, és a neurális hálózatok a kimeneti rétegen keresztül adják vissza az eredményt (amely szintén több neuront is tartalmazhat).

Vedd észre, hogy ez a folyamat az információ egyfajta tömörítésének tekinthető: egy képet tömöríthetünk egy energiaállapotba.

A mélytanulás abból a kissé őrült ötletből származik, hogy a rejtett rétegbe tömörített információt betesszük egy másik neurális hálózat bemeneti rétegébe (beágyazott neurális háló), majd a másik neuronháló rejtett rétegét egy harmadik neurális hálóba tesszük bemeneti rétegként. Így tömörítjük újra és újra az információt egyre tovább.

Ebből egy zűrzavarnak kellene kijönnie, de a helyzet az, hogy remekül működik. Mélytanuló (deep learning) hálózatoknak nevezzük őket, és rendkívül hatékonyak nagy mennyiségű adatokon, big data adatbázisokon. Ezek az algoritmusok már joggal nevezhetők mesterséges intelligenciának.

Az alábbi két kép szemlélteti a mélytanuló hálózatok hatékonyságát a hagyományos algoritmusokkal szemben egy olyan világban, ahol az adatok mennyisége exponenciálisan növekszik.

Forrás:
https://image.slidesharecdn.com/dominodatasciencepopupseattledeeplearningusecases-151013134409-lva1-app6892/95/deep-learning-use-cases-data-science-popup-seattle-7-638.jpg?cb=144623097

Másik előnyük az automatikus “feature extraction”, ami azt jelenti, hogy nincs szükség emberi erőforrásra a képek vagy adatok címkézéséhez. Fontos tulajdonság ez, hiszen mialatt az adatmennyiség exponenciálisan növekszik, addig mindezen információ feldolgozásához erőforrás is szükséges. Szerencsére a mélytanuló hálózatok megoldják ezt a problémát és alkalmazásuk egyre szélesebb körben terjed.

Forrás:
https://content-static.upwork.com/blog/uploads/sites/3/2017/06/27095812/image-16.png

Felépíteni és működtetni egy mélytanulási rendszert valódi kihívás, ráadásul ha nincs elég adatod, úgy várhatóan meg sem éri az erőfeszítést, hiszen az algoritmus valódi ereje épp abban rejlik, hogy big data mennyiségű adatok alapján adjon minél pontosabb előrejelzéseket.

A mélytanulás használatához szükséged lesz egy speciális GPU szerverre.

Ha adattudós vagy, úgy tégy egy próbát a mélytanulásra pl.: a H2O.ai-ban, a KNIME-ben, vagy a MATLAB-ban, de saját hálózatodat is felépítheted Pythonban a Keras keretrendszer használatával.

A Dyntell BI-ban is van természetesen deep learning algoritmus, de ennek paraméterezése is önműködően történik az adatok statisztikai paraméterei alapján.

Összefoglaló: DEEP LEARNING
Önkiszolgáló szint: Egy mélytanuló rendszer felépítéséhez adattudósra van szükséged
Előnyök: Automata “featue extraction” és a legjobb eszköz az óriási adattömegek kezelésére
Hátrányok: GPU szerverre van szükség

5. Ensemble rendszer
Az Ensemble rendszer több tanuló algoritmusból tevődik össze, ahol a kimenetet a tagok súlyozott eredményei adják. Ez a módszer jobb előrejelzést ad, mint amit kinyerhetnénk a részeiből, a tanuló algoritmus összetevőkből. Az Ensemble példa a konszenzus keresésre, hiszen számunkra fontos kérdésekben mi is mindig kikérjük mások véleményét, úgy az Ensemble rendszer is több „véleményt” ütköztet a legpontosabb előrejelzés érdekében.

További információt itt találsz: http://users.rowan.edu/~polikar/RESEARCH/PUBLICATIONS/csm06.pdf

Noha többek közt RapidMinerben is felépíthetsz egy Ensemble rendszert, de ahhoz, hogy az üzleti adataidra is előrejelzéseket tudj vele tenni, mindenképp szükséged lesz egy adattudós csapatra, adattudós alkalmazás fejlesztőkkel, és legalább egy ‘fekete öves’ matematikusra.

A Dyntell BI Ensemble rendszere két szerver segítségével készít előrejelzéseket: míg az egyik szerveren klasszikus algoritmusok futnak, addig a másik szerveren neuronhálózatok és mélytanuló algoritmusok. Ezáltal pontosabb előrejelzéseket tesz, mint a hagyományos algoritmusok és egyaránt működik big datán és kis mennyiségű adatokon is. Ez egy hatékony módja az üzleti előrejelzéseknek, amikor nem feltétlenül rendelkezünk nagy adatmennyiséggel, de a vezetőség hajszálpontos eredményeket vár.

Összefoglaló: ENSEMBLE RENDSZER
Önkiszolgáló szint: szükséged van egy adattudós csapatra a létrehozásához
Előnyök: az Ensemble rendszer egyesíti magában az összes korábban leírt algoritmus hatékonyságát
Hátrányok: szerver oldalon nagy teljesítményre van szükségünk a használathoz, míg a válaszidő igen lassú

6. Korreláló idősorok

Adataink jövője vajon tényleg csak az adott adathalmaz múltbéli mintázataitól függ? A részvényárfolyamok esetén biztosan nem. Ha valami olyan történik a világban, ami összefügg a részvényekkel, akkor az árak rögtön megváltoznak. Viszont ha valóban befolyásolják a külső tényezők részvényárfolyamokat, akkor képesek kihatni egy cég eladási számaira is? És ha vizsgáljuk ezen külső tényezőkből származó adatokat, akkor az üzleti adataid jövőjét is képesek vagyunk pontosabban előrejelezni?

Mielőtt választ adnék ezekre a kérdésekre, nézzük hogyan váltak nagy adatbázisok a gépi tanulás fő segítőjévé a mesterséges intelligencia rövid történelme alatt.

A WordNet (https://wordnet.princeton.edu/) egy angol nyelvű lexikai adatbázis (több mint 150000 szóval). A WordNet synset-eket, szinoníma készleteket használ ahhoz, hogy körülírja egy szó jelentését. Ez az adatbázis igen hasznos, ha  szövegelemzés témában fejleszt valaki mesterségesen intelligens szoftvert.

Az ImageNet (http://www.image-net.org/) a WordNet ötletéből származik, viszont ez egy hatalmas képadatbázis (több mint 14 millió képpel). A cél viszont hasonlóan a mesterséges intelligencia programok segítése, elsősorban képfelismerő szoftvereket fejlesztők általi használatra tervezve.

A TimeNet (http://timenet.cloud/) az idősorok adatbázisa, gazdasági és földrajzi adatokat tárol, naponta frissítve azokat. Az itt tárolt adatokkal külső gazdasági folyamatok írhatók le, egyúttal azon törekvéseinket is támogatja, hogy korrelációt találjunk ezen külső tényezők és egy adott vállalat adatai között. Játszhatsz a TimeNettel, hogy kipróbáld találsz-e korrelációkat a feltöltött idősorok között, de a saját adataid összevetésére ezekkel vagy más idősorokkal szükséged lesz a Dyntell BI rendszer telepítésére.

A TimeNet a klasszikus korreláció fogalmat és a saját korrelációs módszerét is használja. A klasszikus korreláció hasonlóságot keres a görbék alakjában (adataiddal itt tudsz játszani: https://www.mathsisfun.com/data/correlation-calculator.html), de a TimeNet saját fejlesztésű korrelációja az idősorok viselkedésében keres hasonlóságot. A viselkedések összehasonlításához a TimeNet meghatározza egy görbe trend-váltó pontjait (lokális minimumok és maximumok), így ha egy másik idősornak is időben közel található trend-váltó pontja, úgy feltételezhető kapcsolat a két idősor között.

A korreláció nem mindig jelent ok-okozati összefüggést. Ugyanígy jelentheti, hogy a két adatállomány hátterében ugyanaz a matematikai törvény érvényesül. Kissé morbid, ugyanakkor vicces példákat találhatsz itt is az erősen korreláló, de egymással nem ok-okozati kapcsolatban lévő idősorokra: http://www.tylervigen.com/spurious-correlations

Noha az idősorok közötti korreláció koncepciót a tőzsdén nagyon is alkalmazzák, nincs szabvány üzleti szoftver példa a saját adataid és korreláló idősorok elemzésére (a Dyntell BI kivételével). Például a Qlik segítségével elérhető a DataMarket adatbázisa (https://www.qlik.com/us/products/qlik-data-market), de nincs olyan eszköz a Qlik-ben, mellyel elemezhető lenne az adatok közti korreláció. Ha mélyebbre akarsz ásni, úgy számtalan tudományos cikk foglalkozik ezzel a témával (pl. Https://ieeexplore.ieee.org/document/6222660)

Összefoglaló: KORRELÁLÓ IDŐSOROK
Önkiszolgáló szint: magas (TimeNet.cloud)
Előnyök: új változót hozhatunk az előrejelzésbe: mely függ a külső tényezőktől
Hátrányok: külső adatkészleteket kell kezelned ahhoz, hogy korrelációt találj az adataiddal

7. Dyntell BI “TimeNet Deep Prediction”
A TimeNet mély előrejelzés módszere a prediktív analitika fenti 6 szintjét egyesíti, néhány további funkciót adva a folyamathoz. Ez a jelenleg elérhető legkiterjedtebb és legegyszerűbben használható előrejelző eszköz, ami ráadásul működik a kis mennyiségű és a nagy mennyiségű adatokon is.

A módszer elérhető a Dyntell BI-ból, és használata egyszerű. Ha van egy olyan diagramod, ami idősort ábrázol (vagyis a vízszintes tengelyen az idő van ábrázolva), és elindítod egy kattintással az előrejelzési folyamatot, a Dyntell BI elküldi az idősor adatait a felhőbe. Itt a Dyntell GPU kiszolgáló klaszter fogadja és indul a predikció. Az elemzés időt vesz igénybe, és amíg várunk a válaszra, természetesen az üzleti intelligencia szoftver is használható, és figyelmeztetést kapunk, ha az előrejelzés készen van és a rendszer visszakapta a prediktált adatokat.

De mi történik a háttérben?

A felhőben az első lépés a kapott adatok jellemzése: egy neuronhálózat meghatározza az adatok fő statisztikai tulajdonságait, vagyis a megfelelő osztályba sorolja az idősort azok alapján. A második lépés a kiugró értékek (outlierek) kiszűrése, ha vannak ilyenek. Az outlierek hibákat is jelenthetnek, de az is lehet, hogy hozzá tartoznak a valós adatokhoz (utóbbira példa egy értékesítési idősor esetén, ha van egy nap, amikor egy nagy projekt kezdődik, és 100-szor több értékesítés történt), de mindkét esetben hibás eredményeket hozhat létre, ezért kiszűrjük azokat, amik zavarhatják a megfelelő predikciót.

A következő lépés a TimeNet adatbázisban található adatok és a kapott üzleti adatok közötti korreláció elemzése. Ha a Dyntell BI 85%-os vagy nagyobb korrelációt (klasszikus korrelációt vagy trend-korrelációt) talál a TimeNet idősorok között, akkor a Dyntell BI hozzáköti a korreláló adatokat a kapott adatokhoz és a folyamat következő lépéseiben figyelembe veszik a korreláló idősorokat is.

A fenti tapasztalatok alapján a Dyntell BI beállítja az Ensemble rendszer paraméterei. Ezután az Ensemble számítás egyidejűleg indul el egy hagyományos kiszolgálófürtön, és egy másik GPU szerver-klaszteren.

Az első klaszter „klasszikus algoritmusokat” (regressziókat és testreszabott ARIMA-kat) futtat – ezeknek a funkcióknak kis mennyiségű adatra van szükségük jó előrejelzések létrehozásához, de előrejelzéseik nem teljesen pontosak. A másik klaszteren neurális hálók és mély tanulási algoritmusok futnak, amelyek nagyon nagy adatállományokat képesek feldolgozni (millió vagy milliárd adatpont) és ha elegendő adatod van, akkor itt pontosabb előrejelzéseket kaphatsz.

Mivel az üzleti adatállományok általában kicsik, de nagy pontosságot igényelnek, mindkét módszertan integrálva van az Ensemble rendszerbe.

A folyamat végén az előkonfigurált súlyok alapján az Ensemble rendszer meghatározza a kimenetet: a szükséges számú előre jelzett adatpontot, és visszaadja ezeket a helyi Dyntell BI rendszerbe. A megjelenítés után a rendszer figyelmezteti a felhasználót, hogy az előrejelzés befejeződött.

Összefoglaló: DYNTELL BI TIMENET DEEP PREDICTION
Önkiszolgáló szint: Magas
Előnyök: Egyesíti a prediktív elemzés további 6 szintjét
Hátrányok: Nagy feldolgozási teljesítményre van szükség (klasszikus és GPU szerverek)

Előíró (preszkriptív) elemzés

Az előíró elemzés arra a kérdésre ad választ, hogy “mit tehetünk?” azért hogy meggátoljunk egy problémát vagy kihasználjunk egy lehetőséget, ami a célunk felé vezet minket.

A preszkriptív elemzés a prediktív elemzés után a következő lépcső. Ez a módszer nem csak a jövőt jósolja, hanem még abban is segít, hogy mit kell tennünk a jövőben, hogy a kívánt eredményt elérjük. Ha lehetséges, akkor a megfelelő lépéseket (pl. egy üzenet elküldése, adat visszaírása az ügyviteli rendszerbe) meg is teszi helyettünk és így a folyamatot is automatizálhatja, hogy proaktívan kezelje üzleti problémáit – kihasználjon egy üzleti lehetőséget, vagy megakadályozzon a problémát.

Az előíró elemzést riasztásokkal lehet kezelni, ezért a kifinomult riasztórendszer vagy munkafolyamat-rendszer elengedhetetlen a modern üzleti intelligencia szoftverben.

A preszkriptív elemzés erősségének bemutatásához két esettanulmányt szeretnék megosztani.

1. Costa
A Costa kávézó lánc üzleteiben valószínűleg már Te is sok kávét ittál, legközelebb gondolj arra, hogy itt a Dyntell BI elemezi a kávézók összesített adatait. A prediktív elemzés az üzletek jövőbeli tranzakciószámát mutatja üzletenként. Ez segít a Costa-nak abban, hogy hatékonyan kezelje a humán erőforrásait és éppene a megfelelő számű barista és kiszoláló legyen a shopban és figyelmezteti a menedzsmentet, ha váratlan esemény fordulhat elő. Costa nem használja a TimeNet-et, de az algoritmus elemzi a múltbeli adatmintákat és egyéb speciális idősorokat. Costa-ban a Dyntell mély előrejelzése körülbelül 90%-os pontosságú előrejelzést ad egy héttel előre.

2. Ana Pan
Az Ana Pan Európa egyik legnagyobb sütőüzeme, ahol a Dyntell prediktív és előíró elemzését használják az üzletek eladásának előrejelzésére, és ennek alapján a péksütemények gyártására. Az Ana Pannál a TimeNet korrelációs adatokat és a Deep Prediction szerver-klasztereket használják a gyártandó termékek számának és az adott boltba szállítandó termékek számának megjóslására. A Dyntell BI rendszer automatikusan betölti az előre jelzett adatokat az Ana Pan ERP rendszerébe, ahol az előrejelzett mennyiségek közvetlenül a termelés- tervezési és gyártási modulokba kerülnek.

A predikciónak az élelmiszeriparban nagy jelentősége van a termékek szavatossági idejének köszönhetően, hiszen ha valaminek lejárt a szavatossága, akkor az jó eséllyel a kukába kerül azaz a teljes önköltség csökkenti  a várható profitot. Ilyen esetekben a predikció ha csak 1% -os pontosággal tud jobban jósolni, mint a menedzser, akkor egyenes arányban csökkentheti a hulladék mennyiségét. Ez az 1% akár ezer dolláros megtakarítást is jelenthet hetente. (Az Ana Pan nem járult hozzá előrejelzési hatékonysági számaik közzétételéhez.)

Neked melyik előrejelzés a legjobb?

Abból indulj ki, hogy mennyire fontos Neked, hogy előre lásd az üzleti adataid jövőjét. Ha lehetséges, próbáld meg kiszámítani a nyereséget, amit nyerhetsz, ha tudnád, például a jövőbeni rendeléseid mennyiségét vagy az adott napon történő értékesítést egy adott boltban.

A következő kérdés a rendelkezésre álló üzleti adatok mennyiségétől függ. Ha a következő 12 hónapban szeretnéd tudni cashflow előrejelzést, és 3 éves múltbeli adatsorod van, akkor valószínűleg ez nem elegendő a jó előrejelzéshez. Azonban ugyanez az adatmennyiség tökéletes lehet a jövő heti pénzügyi tranzakciók előrejelzésére. Mi van, ha azt szeretnéd, hogy egy rendszer előrejelezze a jövő hét eladását egy adott termék esetében, és 30 évnyi adatod van, de csak 10 értékesítésed volt az adott termékből a 30 év alatt. Ez is egy lehetetlen küldetés, bármilyen jó is az algoritmus.

Ha az idősorokban sok bizonytalanság van (pl. szabálytalan nagy árbevétel az értékesítésben), akkor először meg kell tisztítani az adatokat, és ezért jobb, ha az előrejelzésben beépített outlier szűrőket használ.

Az adatok korrelálnak más idősorokkal? A termék fő alapanyaga listázva van a tőzsdén? Kíváncsi vagy, hogy az adataid mennyire függnek a gazdasági, földrajzi vagy Google keresési adatoktól? Ebben az esetben használj nagy adattárakat, mint például a TimeNet.cloud, hogy ellenőrizd a korrelációkat.

Az önkiszolgáló használat a predikció felhasználásának kulcsfontosságú eleme. Ha nem vagy matematikus vagy adatkutató, ne próbáld meg megtanulni a motorháztető alatt található komplex rendszereket. Ilyenkor 1-kattintásos funkcióra van szükséged.

2018 januárjában a Gartner felmérést adott ki a mesterséges intelligencia projektekről, ahol megállapították, hogy a felépített adatmodellek több mint 60% soha nem került felhasználásra. Ezért ha az előrejelzés stratégiai kérdés a Te vállalkozásában, akkor szükséged van egy professzionális csapatra (belső vagy kiszervezett), amely segít a jó minőségű előrejelzés adatforrásainak és módszereinek beállításában és karbantartásában.

A saját csapata építése előtt a Dyntell BI-t érdemes kipróbálni. Itt regisztrálhatsz egy Dyntell BI felmérésre, ahol a szakértők felmérik, hogy a Te szervezetedben mennyit tudnál profitálni egy üzleti intelligencia rendszerből.

 

Tetszett a cikk? Oszd meg másokkal is!

ÉRDEKEL A VÉLEMÉNYED:

EZEK IS ÉRDEKELHETNEK

KAPCSOLÓDÓ CIKKEK

Dyntell Bi üzleti intelligencia rendszer

Ösztönös cégvezetés helyett válaszd az adatelemzést. Hozz megalapozott üzleti döntéseket a megfelelő időben, a megfelelő adatok alapján.

KAPCSOLAT

1117 Budapest INFOPARK, Gábor Dénes u. 2. D/I

4024 Debrecen, Csapó utca 28. Pulykakakas irodaház

info@dyntellbi.hu

KÖVESS MINKET!

ÍRJ NEKÜNK!




Elolvastam és elfogadom az adatvédelmi nyilatkozatot.

Copyright 2019 © Dyntell Magyarország

Elfogadom az adatvédelmi nyilatkozatot!
Név
Email
A TELJES ESETTANULMÁNY ELOLVASÁSÁHOZ KÉRLEK, IRATKOZZ FEL!
A TELJES ESETTANULMÁNY ELOLVASÁSÁHOZ KÉRLEK, IRATKOZZ FEL!
Név
Email
Elfogadom az adatvédelmi nyilatkozatot!
Elfogadom az adatvédelmi nyilatkozatot!
Név
Email
A TELJES ESETTANULMÁNY ELOLVASÁSÁHOZ KÉRLEK, IRATKOZZ FEL!
A TELJES ESETTANULMÁNY ELOLVASÁSÁHOZ KÉRLEK, IRATKOZZ FEL!
Név
Email
Elfogadom az adatvédelmi nyilatkozatot!
Elfogadom az adatvédelmi nyilatkozatot!
Név
Email
A TELJES ESETTANULMÁNY ELOLVASÁSÁHOZ KÉRLEK, IRATKOZZ FEL!
A TELJES ESETTANULMÁNY ELOLVASÁSÁHOZ KÉRLEK, IRATKOZZ FEL!
Név
Email
Elfogadom az adatvédelmi nyilatkozatot!
Elfogadom az adatvédelmi nyilatkozatot!
Név
Email
A TELJES ESETTANULMÁNY ELOLVASÁSÁHOZ KÉRLEK, IRATKOZZ FEL!
A TELJES ESETTANULMÁNY ELOLVASÁSÁHOZ KÉRLEK, IRATKOZZ FEL!
Név
Email
Elfogadom az adatvédelmi nyilatkozatot!
Elfogadom az adatvédelmi nyilatkozatot!
Név
Email
A TELJES ESETTANULMÁNY ELOLVASÁSÁHOZ KÉRLEK, IRATKOZZ FEL!
A TELJES ESETTANULMÁNY ELOLVASÁSÁHOZ KÉRLEK, IRATKOZZ FEL!
Név
Email
Elfogadom az adatvédelmi nyilatkozatot!
Elfogadom az adatvédelmi nyilatkozatot!
Név
Email
A TELJES ESETTANULMÁNY ELOLVASÁSÁHOZ KÉRLEK, IRATKOZZ FEL!
A TELJES ESETTANULMÁNY ELOLVASÁSÁHOZ KÉRLEK, IRATKOZZ FEL!
Név
Email
Elfogadom az adatvédelmi nyilatkozatot!
Elfogadom az adatvédelmi nyilatkozatot!
Név
Email
A TELJES ESETTANULMÁNY ELOLVASÁSÁHOZ KÉRLEK, IRATKOZZ FEL!
A TELJES ESETTANULMÁNY ELOLVASÁSÁHOZ KÉRLEK, IRATKOZZ FEL!
Név
Email
Elfogadom az adatvédelmi nyilatkozatot!
Elfogadom az adatvédelmi nyilatkozatot!
Név
Email
A TELJES ESETTANULMÁNY ELOLVASÁSÁHOZ KÉRLEK, IRATKOZZ FEL!
A TELJES ESETTANULMÁNY ELOLVASÁSÁHOZ KÉRLEK, IRATKOZZ FEL!
Név
Email
Elfogadom az adatvédelmi nyilatkozatot!
MI A BAJ AZ ÖSZTÖNÖS CÉGVEZETÉSSEL A MESTERSÉGES INTELLIGENCIA KORÁBAN? - Dyntell BI előadás
2019. július 16. kedd | Hotel Continental, Budapest
Érdekel hogyan tehetsz szert versenyelőnyre az MI használatával?
Gyere el INGYENES előadásunkra!
2019. szeptember 19. csütörtök | Hotel Continental, Budapest
ÉRDEKEL, HOGY MI A BAJ AZ ÖSZTÖNÖS CÉGVEZETÉSSEL?
INGYENES workshopunkon megtudhatod!
Vezetéknév *
Keresztnév *
Email cím *
Telefonszám *
Utolsó nettó éves árbevétel *
Elfogadom az adatvédelmi nyilatkozatot!
Tevékenység *
A *-al jelölt mezők kitöltése kötelező!
Vezetéknév
Keresztnév
Email
Telefonszám
Utolsó éves nettó árbevétel
Tevékenység
Elfogadom az adatvédelmi nyilatkozatot!
Elfogadom az adatvédelmi nyilatkozatot!
Név
Email
A TELJES ESETTANULMÁNY ELOLVASÁSÁHOZ KÉRLEK, IRATKOZZ FEL!
A TELJES ESETTANULMÁNY ELOLVASÁSÁHOZ KÉRLEK, IRATKOZZ FEL!
Név
Email
Elfogadom az adatvédelmi nyilatkozatot!