banner-big-data-Zetta-Discovery-intern

Big Data

logo-zettaZetta Discovery este o solutie de cautare care inglobeaza un management inteligent al informatiilor, depasind cu mult o simpla cautare.
Organizatiile pot cauta informatii atat in infrastructura interna cat si in surse externe, oferind rezultate relevante din punct de vedere contextual.
Solutia de cautare in volume mari de documente/informatii este potrivita atunci cand vorbim de informatii nestructurate, insa si cand datele sunt adunate din diverse surse.
Este un proiect ambitios, un alt nivel de solutie fata de cel al managementului informatiilor, o solutie proiectata in mod special pentru a fi adaptata limbii romane.
Desi de conceptul Big Data se discuta de cativa ani, piata este in perioada de adoptare a unor astfel de solutii. Clar devine un avantaj competitiv, mai ales la companiile care exploateaza volume mari de informatii, nestructurate (banci, asigurari, utilitati, telecom, media, organizatii (ne)guvernamentale, pharma…).

Comportamentul oamenilor si nevoile curente ale acestora forteaza companiile sa ofere servicii mult mai personalizate, sa se adapteze pietii, sa opereze rapid cu informatiile pentru a fi proactive si eficiente, sa faca diferenta fata de competitie.
Este o solutie puternica pentru analiza continutului in limba romana, folosind o arhitectura bazata pe tehnologii open source complexe, concepte si idei verificate de peste 15 ani in laboratoarele de cercetare, solutii probate in zeci de aplicatii cu caracter public si privat.
Elementul cheie a solutiei Zetta Discovery “from text to relevant information” este orientarea catre rezultatul cautarii. Informatiile rezultate trebuie sa fie relevante in contextul cautarii.
Se pot obtine raspunsuri mult mai precise, se pot identifica informatii care au o anumita legatura contextuala cu cautarea propriu-zisa, se pot aborda probleme specifice si complexe care nu pot fi rezolvate pe calea clasica de cautare sau imposibilitatea corelarii si filtrarii anumitor structuri de informatii.
Companiile pot construi si distribui baze foarte mari de cunostinte, oferind angajatilor/partenerilor liste relevante cu informatii prin acces instant, ordonare dupa diverse criterii contextuale, elemente esentiale si link-uri catre documentele rezultate.
Sursele de date care pot fi: emailuri, baze de date, site-urisi resurse web, retele de socializare, documente in diferite formate text aflate pe servere de fisiere.

Beneficiile principale ale solutiei

• Abilitatea de a genera automat taxonomie de cuvinte sau expresii cuprinse in materiale, bazate pe orice tip de date: nestructurate, structurate, semistructurate
• Identificarea si extragerea automat din continutul documentelor a unor entitati precum nume, locatie, departament, data, sursa de continut, metadate specifice, autor etc. si clasificarea informatiilor prin oferirea de filtre suplimentare
• Filtrarea rezultelor in meniul de navigare este dinamic, rafinarea cautarii dand un sens mai precis si controlabil utilizatorului, eficient pentru o gama larga de surse de date si continut
• Rezultatele sunt clasificate dupa entitati asociate cu informatiile regasite. Categoriile rezultate dinamic sunt rafinate dupa un numar mare de metadate.
• Se pot face cautari asemanatoare pentru termeni speciali cu care se opereaza in organizatie. Ofera rezultate precise chiar daca documentele contin diacritice sau nu
• Se pot apela conectori pentru extragerea de informatii din diferite baze de date, email, directoare partajate
• Se pot implementa solutii de securitate pentru a limita cautarea la anumiti utilizatori predefiniti. Integrarea cu un LDAP al organizatiei vine cu acreditari specifice pentru accesul la date, confidentialitate
• Se jurnalizeaza actiunile de interogare, oferind administratorului instrumente pentru optimizarea solutiei
• Se poate optimiza rezultatul cautarii prin ajustarea parametrilor de cautare
Companiile continua sa produca, sa stocheze informatii, sa foloseasca datele in activitatea de zi cu zi, volumul creste si investitiile in gestiunea si analiza datelor cresc in complexitate.
Institutele de analiza recunoscute dau ca 80% din datele unei companii sunt in continuare nestructurate, continut aflat pe calculatoarele personale sau in sisteme de fisiere centralizate, rata de crestere a volumului de continut fiind de peste 200% anual. Lucrand cu aceste volume de informatii, pentru a lua o decizie, a discerne intre o informatie utila si relevanta, este din ce in ce mai greu. Inclusiv procesul de cautare si gasire a unor informatii aduce atingere productivitatii angajatilor, lucrul cu informatiile fiind esentiale pentru business.
In completarea procesului de acumulare de informatii, gasirea informatiilor din surse si formate multiple (intranet, sisteme de fisiere, aplicatii DM/CRM/ERP, o serie de surse externet din internet cu informatii de business, sistemul de email alte aplicatii) precum si localizate in diferite medii, este aproape imposibila sau cu rezultate nerelevante si consum mare de timp/resurse. Rezultatul este orientat direct catre costurile mari care pot fi analizate si aduc atingere eficientei companiei, productivitatii, pierderea unor oportunitati.

Un scenariu clasic al lucrului cu documentele/informatiile este urmatorul:
– Elaborarea de documente, gestiunea, versionarea acestora fie pe statia locala, in retea sau aplicatii specializate
– Schimbul de corespondenta intern si cu partenerii via email
– Introducerea structurata a unor date in aplicatii specializate
– Colectarea de informatii care sunt utile desfasurarii activitatii si se transforma in baze de cunostinte ale companiei
– Apelarea la surse/medii externe care gestioneaza clasificat sau nu informatii de valoare pentru activitate
– Aplicatii/site-uri specializate care ofera informatii punctuale
Fiecare canal de tratare a informatiilor poate avea un motor propriu de cautare pentru a obtine un document care are legatura un anumit cuvinte cheie. Aplicatiile specializate ofera diferite filtre de cautare in special pentru datele structurate. Motoarele web de cautare aduc spre utilizator o informatie relevanta din perspectiva algoritmilor de cautare folositi.
Deci, surse variante de date, informatii gestionate in formate diferite, resurse diverse.

Procesul in sine, de lucrul cu volume mari de informatii, devine o provocare din ce in ce mai mare pentru toate partile implicate: IT, marketing, manageri, oamenii de stiinta. Implementarea unor idei de simplificare a procesului de cautare si regasire a informatiilor, potrivite organizatiei, a devenit critica pentru companii si departamentele IT.
Din fericire exista solutii care sa aduca eficienta in aceasta zona, sa ajute si sa asiste utilizatorii in procesul de cautare, sa le ofere informatiile de care au nevoie, sa accelereze procesul de luare a unei decizii.
IDC, publicatie independenta care sondeaza permanent piata, mentioneaza in rapoartele sale ca se consuma cel putin 20% din din timp, pe luna, cautand si adunand informatii. Facand un scenariu simplu pentru a ajuta o companie sa vada potentialul unei astfel de solutii, la o companie tipica (fara a lua in calcul specificul unor organizatii la care procesul de cautare este activitate principala) cu 100 angajati si 50% (50 angajati) „cautatori”, la un salariu mediu de 15.000 EUR/an cu taxe, costurile aferente numai acestui proces sunt de 150.000 EUR/an. Luand in calcul studiile ca printr-o solutie de cautare eficienta, imbunatatirea procesului poate fi cel putin 50% (mai exact 53,4%, din estimarile IDC), aceasta companie poate economisi anual 75.000 EUR, bani care se pot folosi in alte scopuri.

Prin rezultatele oferite, Zetta Discovery pune la dispozitia organizatiilor un cadru eficient, puternic si controlabil pentru a fi mai eficiente in raport cu competitia, a opera cu resurse diverse si volume mari de date, a descoperi si analiza noi perspective in relevanta culegerii de informatii.

Exista o zona mare de aplicabilitate pentru volume mai de informatii.
In functie de domeniul din care provine organizatia, se pot obtine raspunsuri mult mai precise, se pot identifica informatii care au o anumita legatura contextuala cu cautarea propriu-zisa, se pot aborda probleme specifice si complexe care nu pot fi rezolvate pe calea clasica de cautare sau imposibilitatea corelarii si filtrarii anumitor structuri de informatii.
Sunt folosite tehnici avansate de corelare, conditii de evenimente.
Sunt industrii care inglobeaza cantitati uriase de date (telecomunicatii, media, utilitati, sanatate, educatie si cercetare, sectorul financiar-bancar, asigurari etc.), analiza informatiilor din surse multiple de date si precizia raspunsurilor poate conduce la imbunatatirea proceselor existente, a factorilor de mediu, a timpului de procesare in identificarea unor probleme sau rezolvarii acesteia, reducerea unor riscuri de frauda, abuzuri, tranzactii, monitorizarea sanatatii planurilor de actiune, cresterea responsabilitatii actului de guvernare etc.
Incercam sa dam un sens nou ideii de valorificare a datelor la un potential maxim, date provenite din surse diverse, continut intern, valorificarea cunostintelor organizatiei, continut din surse externe.

Solutia Zetta Discovery are posibilitatea de indexare a milioane de documente, solutia poate fi scalabila pana la miliarde de documente, folosind o arhitectura hardware extinsa.
Este capabila sa indexeze peste 100 de tipuri de documente de tip text, inclusiv html, pdf, documente tip office si multe altele.
Exista conectori pentru diferite baze de date, se pot dezvolta si altii, functie de specificul clientului.
Intra prin ZettaDiscovery in lumea cautarilor in volume mari de informatii alaturi de produse de top: Google Search Enterprise (Appliance), IBM Data Explorer, Microsoft Fast, Lucene, LucidWorks, Oracle Endeca Information Discovery, HP Universal Search.

Companiile continua sa produca, sa stocheze informatii, sa foloseasca datele in activitatea de zi cu zi pentru decizii de business, volumul de date crestespectaculos, sursele de date sunt variate, gestiunea si analiza datelor cresc in complexitate.
Zetta = unitate de masura a capacitatii de stocare (1 ZB = 1.000.000.000.000.000.000.000 bytes = 1 miliard de terabytes)
• Spatiul de pe toate hard disk-uri din lume, a fost estimat in 2009 la aproximativ o ½ zettabyte
• Suma totala de date la nivel mondial in 2012 s-a estimat a fi de 2,7 zettabytes, avand o crestere de 48% fata de 2011 (IDC)
• In 2013 World Wide Web s-a estimat ca a atins 4 zettabyte, cu o crestere de cca. 1,6 zettabyte/an pana in 2018
• Pana in 2020 volumul mondial total al informatiilor digitale se preconizeaza a fi peste 35 zetabytes
90% din datele care exista astazi in lume au fost generate in ultimii doi ani

  Brosura