Delta Lake: Od datových jezer k datovým bažinám a zpět



Nízká spolehlivost dat, která jsou uložena v tzv datových jezerech, představuje vedle absentující podpory transakcí jednu z hlavních překážek pro efektivnější vytěžování informací v organizacích. Řešení Delta Lake, které společnost Databricks uvolnila jako open source, má uvedené výzvy pomoci řešit a teoreticky aspiruje na nový standard vyvíjejícího se oboru.

Koncept datových jezer nabízí řadu atraktivních a současně praktických možností využití. V teorii o jedno velké úložiště dat, která organizace generuje anebo potřebuje zpracovávat. Za tímto účelem sjednocuje téměř libovolné informační zdroje. V praxi ovšem nemálo datových jezer představuje spíše bažinu, která je naplněna z mnoha hledisek neuspořádatelným obsahem. Zástupci společnosti Databricks mají za to, že jeden z důvodů současného stavu tkví v chybějící transakční podpoře. Z tohoto důvodu uvolnili své řešení Delta Lake jako open source.

Společnost Databricks založili tvůrci systému Apache Spark. Ten doplňuje nebo rozšiřuje možnosti platformy Hadoop. Využívá vyšší míry abstrakce ve svých rozhraních API a nabízí rychlejší vnitropaměťové zpracování dat. Společnost Databricks nabízí řízenou cloudovou verzi systému Spark, jenž je rovněž open source, s řadou proprietárních doplňků. Celé řešení nese název Delta. Využívá jej řada velkých podnikových uživatelů.

Open source řešení Delta Lake reprezentuje transakční vrstvu úložiště, která pracuje nad on-premise systémy s podporou HDFS - Hadoop Distributed File System a nad cloudovými službami typu S3 nebo Azure. Uživatelé mohou načítat data z jakéhokoli zdroje kompatibilního s Apache Spark a zapisovat je do Delta Lake ve formátu Apache Parquet. Ten je pochopitelně rovněž k dispozici jako open source.

Jak se tento postup projeví na spolehlivosti dat? Podle zástupců společnosti Databricks řešení Delta Lake nabízí hned několik integrovaných funkcionalit, konkrétně verzování a rollbacky. Uživatelé získají přístup ke starším verzím datových sad pro účely auditu, opětovného nasazení nebo opakování experimentů strojového učení. Systém podporuje transakce ACID - Atomicity, Consistency, Isolation, Durability prostřednictvím souběžné kontroly a streamování zápisu dat a izolace snapshotů. Uživatelé tudíž nepřijdou do styku s tzv. odpadními dat, která při operacích generuje někdo jiný. Problematiku ošetřuje integrované verzování, rollbacky a vynucování schémat.

Podobné možnosti nabízejí i jiné projekty, například Apache Hive nebo Project Ozone firmy Cloudera. První ale operuje pouze nad systémem HDFS, druhý se zatím nedostal do fáze použitelné pro produkční nasazení.

 


(2. 5. 2019 | Lukas_Kriz)

Facebook Twitter
Komentáře, názory a rady

Zatím sem nikdo nevložil žádný komentář. Buďte první...

>>> Číst a vkládat komentáře <<<

Tip - Konference: DATOVÁ CENTRA PRO BUSINESS 2019 - 19.9.2019!
Hledáme nové kolegy pro realizaci zajímavých projektů
v oblasti IT

NOVINKA: Pozoruhodné IT produkty pro rok 2019
Ani tentokrát si nenechte ujít produkty, které vám mohou pomoci ve vaší práci v IT.






Články čtenářů

Jak přidat složku do Cesty (Path) ve...


Tohle je častý dotaz: Z nějakého důvodu potřebujete přidat nějaký adresář / složku do systémové proměnné Path (Cesta) a potřebujete to udělat rychle. Kdo pamatuje DO...

Možnosti uchycení LED monitoru, nebo...


Využíváte monitor ve větší míře ke hraní her, případně máte Vaše PC napojené na televizi s větší úhlopříčkou, takže potřebujete mít od sebe obrazovku více vzdálenou,...

Komentáře čtenářů

TBW
Dobrý den. Koukám že váš článek je z roku 2016. Dnes je rok 2019 a situace může být odlišná. Můj dotaz z...>>
Podnikání na youtube
Zdravím, měl bych pár dotazů týkajících se podnikání na youtube. Četl jsem na http://techhity.cz/media/j...>>
Zdá se mi to nebezpečné
Přijde mi to už docela nebezpečné, že půjde platit i prostřednictvím televize. Ale pokrok nezastavíme. C...>>


©2011-2019 BusinessIT.cz, ISSN 1805-0522 | Názvy použité v textech mohou být ochrannými známkami příslušných vlastníků.
Provozovatel: Bispiral, s.r.o., kontakt: BusinessIT(at)Bispiral.com | Inzerce: Best Online Media, s.r.o., zuzana@online-media.cz
Používáme účetní program Money S3
O vydavateli | Pravidla webu BusinessIT.cz a ochrana soukromí | pg(6921)