Automatizace práce s dokumenty – DMS a vytěžování dat



Pojem OCR (Optical Character Recognition) je už mnoho let uživatelům známý. Nikdo dnes už příliš nepochybuje o tom, co OCR je. V posledních letech se ale začíná častěji objevovat pojem vytěžování dat (Data Mining). A nad ním nejeden uživatel může váhat. Jaký je rozdíl mezi OCR a vytěžováním dat? A co přináší vytěžování dat navíc systémům pro správu elektronických dokumentů (DMS – Document Management System)?

Co se rozumí pod pojmem vytěžování dat?

Vytěžováním dat se má na mysli získání strukturovaných dat z dokumentu – např. přijaté faktury, formuláře, dotazníku apod. Pokud dokument máte v papírové podobě, převedete ho do elektronické podoby skenováním. Před vlastním vytěžením dat se provádí prosté rozpoznání textu pomocí technologie OCR a teprve následně se na získaná data aplikuje vytěžovací algoritmus.

OCR versus vytěžování dat

Pro vytvoření názornější představy vidíte na obrázku níže hlavičku faktury.

 

Technologií OCR získáte z takovéto hlavičky faktury data zhruba v této podobě:

 


 

Technika, a.s. IČ: 14114141 Faktura - daňový doklad č. 2016-06-11-7 Paříkova 910/11a Datum plnění 10. říjen 2016 19000 Praha 9-Vysočany Datum vystavení 10. říjen 2016 DIČ: CZ14114141 Datum splatnosti 24. říjen 2016 Banka: AirBank, a.s. Číslo objednávky Účet: 14114141/3030 Forma úhrady převodním příkazem Konečný příjemce Příjemce IČ 15115151 DIČ: CZ15115151 IT Tech, a.s. Pešlova 1 190 00 Praha 9-Vysočany

 


 

Takhle získaný text je vhodný např. pro fulltextové vyhledávání dokumentů uvnitř DMS. Ale pokud budete mít ambice proces přijatých faktur více automatizovat, není takový výsledek použitelný.

Naproti tomu technologií pro vytěžování dat získáte informace podstatně lépe strukturované:

Typ

ID

Hodnota

Faktura přijatá

id_Dodavatel

Technika, a.s.

Faktura přijatá

id_AdresaDodavatel

Paříkova 910/11a
19000 Praha9-Vysočany

Faktura přijatá

id_IcoDodavatel

14114141

Faktura přijatá

id_DicDodavatel

CZ14114141

Faktura přijatá

id_CisloUctu

14114141

Faktura přijatá

id_KodBanky

3030

Faktura přijatá

id_DatumSplatnosti

24.10.2016

Faktura přijatá

id_CisloFaktury

2016-06-11-7

Faktura přijatá

id_Odberatel

IT Tech, a.s.

 

K čemu je to dobré?

Je to dobré pro automatizaci rutinní práce. Popíšeme zde proces zpracování přijatých faktur, který už dnes využívá řada našich klientů využívajících DMS eDoCat. Vytěžená data uložená např. v souboru typu XML potom mohou sloužit k automatizaci dalších operací nutných k zaevidování přijaté faktury. V několika krocích potom proběhne následující proces:

1. Na vstupu je přijatá faktura. Buď přijde elektronickou poštou jako PDF, anebo asistentka oskenuje papírový dokument. Vytěžovací software pak PDF k vytěžení získá z buď došlého emailu, anebo přímo ze skeneru.

2. Po určité době nutné k zaučení vytěžovacího software (řádově jednotky, popř. nízké desítky dokumentů) proběhne vytěžení přijaté faktury zcela automaticky, bez zásahu operátora/ky. Pokud si přesto software není některým znakem jistý, vyžádá si kontrolu operátora.

3. Z vlastního vytěžení vzniknou dva soubory:

a. PDF s textovou vrstvou určenou k fulltextovému vyhledávání (OCR) a

b. XML soubor se strukturovanými daty (vytěžení dat).

4. Oba dva soubory vloží vytěžovací software přímo do DMS. Ten potom např. do složky Přijaté faktury vloží PDF soubor s obrazem faktury a z přiloženého XML souboru vyplní META data (košilku faktury).

5. Pokud jsou známé všechny informace a není nutný zásah operátora/ky, DMS může automaticky spustit proces schvalování přijaté faktury (workflow).

6. Do XML souboru s daty získanými z faktury potom DMS přidá link, kde se v jeho databázi nachází PDF s obrazem faktury. Takto doplněný XML soubor odešle DMS do účetnictví.

7. Účetní software pak z dat v XML soboru založí datový záznam přijaté faktury, propojí ho s obrazem faktury v DMS a připraví ho paní účetní k zaúčtování.

DMS eDoCat ve spolupráci s nástroji pro vytěžování dat může ušetřit firmě nemálo lidské práce náročné na přesnost a nízkou chybovost.

DMS eDoCat – specialista na pořádek v dokumentaci

DMS eDoCat na platformě Alfresco Community Edition je uživateli ověřené řešení. Vyniká dostupností, jednoduchostí a intuitivním uživatelským rozhraním. A hlavně – to, co dělá, dělá pořádně. DMS eDoCat vám pomůže udržet si dokumentaci pod kontrolou. Výkonným pomocníkem může být zejména pro vaše kolegy, kteří mají na starosti ISO certifikace, anebo odborné akreditace vaší společnosti.

Mgr. Pavel Nykl, obchodní ředitel společnosti Onlio, a.s., www.onlio.com, www.edocat.cz


(31. 10. 2016 | redakce2)


Předcházející článek: <<< DMS – samostatné řešení anebo jako součást ERP? <<<

Tento článek je součástí speciálu:

Speciál: Dokumenty v kostce aneb Co byste měli vědět o DMS


Nelze pochybovat o tom, že pevné základy vaší firmy tvoří produkty, o které mají vaši zákazníci trvale zájem. Nedílnou součástí firemních základů jsou ale také fungující informační systémy, které vám dovolí lusknutím prstů uspokojit poptávku vašich klientů. A významnou součástí těchto systémů je i systém pro správu dokumentů, DMS.



Komentáře, názory a rady

Zatím sem nikdo nevložil žádný komentář. Buďte první...

>>> Číst a vkládat komentáře <<<

Tip - Konference: Datová centra pro byznys - 23.11.2017!


Otázky a odpovědi z IT: Diskusní portál Bizio.cz
Pozoruhodné IT produkty pro rok 2017 - Nové
Věříme, že v tomto přehledu pozoruhodných produktů najdete ty, které vám pomohou ve vaší práci v IT.

Pozoruhodné IT produkty pro rok 2017
Věříme, že v tomto přehledu pozoruhodných produktů najdete ty, které vám pomohou ve vaší práci v IT.




Anketa


©2011-2017 BusinessIT.cz, ISSN 1805-0522 | Názvy použité v textech mohou být ochrannými známkami příslušných vlastníků.
Provozovatel: Bispiral, s.r.o., kontakt: BusinessIT(at)Bispiral.com | Inzerce: Best Online Media, s.r.o., zuzana@online-media.cz
Používáme účetní program Money S3
O vydavateli | Pravidla webu BusinessIT.cz a ochrana soukromí | pg(4527)