Hlavní rubriky: Informační systémy, Mobilní technologie, Datová centra, Sítě, IT bezpečnost, Software, Hardware, Zkušenosti a názory, Speciály

Delta Lake: Od datových jezer k datovým bažinám a zpět

Nízká spolehlivost dat, která jsou uložena v tzv datových jezerech, představuje vedle absentující podpory transakcí jednu z hlavních překážek pro efektivnější vytěžování informací v organizacích. Řešení Delta Lake, které společnost Databricks uvolnila jako open source, má uvedené výzvy pomoci řešit a teoreticky aspiruje na nový standard vyvíjejícího se oboru.

Koncept datových jezer nabízí řadu atraktivních a současně praktických možností využití. V teorii o jedno velké úložiště dat, která organizace generuje anebo potřebuje zpracovávat. Za tímto účelem sjednocuje téměř libovolné informační zdroje. V praxi ovšem nemálo datových jezer představuje spíše bažinu, která je naplněna z mnoha hledisek neuspořádatelným obsahem. Zástupci společnosti Databricks mají za to, že jeden z důvodů současného stavu tkví v chybějící transakční podpoře. Z tohoto důvodu uvolnili své řešení Delta Lake jako open source.

Společnost Databricks založili tvůrci systému Apache Spark. Ten doplňuje nebo rozšiřuje možnosti platformy Hadoop. Využívá vyšší míry abstrakce ve svých rozhraních API a nabízí rychlejší vnitropaměťové zpracování dat. Společnost Databricks nabízí řízenou cloudovou verzi systému Spark, jenž je rovněž open source, s řadou proprietárních doplňků. Celé řešení nese název Delta. Využívá jej řada velkých podnikových uživatelů.

Open source řešení Delta Lake reprezentuje transakční vrstvu úložiště, která pracuje nad on-premise systémy s podporou HDFS - Hadoop Distributed File System a nad cloudovými službami typu S3 nebo Azure. Uživatelé mohou načítat data z jakéhokoli zdroje kompatibilního s Apache Spark a zapisovat je do Delta Lake ve formátu Apache Parquet. Ten je pochopitelně rovněž k dispozici jako open source.

Jak se tento postup projeví na spolehlivosti dat? Podle zástupců společnosti Databricks řešení Delta Lake nabízí hned několik integrovaných funkcionalit, konkrétně verzování a rollbacky. Uživatelé získají přístup ke starším verzím datových sad pro účely auditu, opětovného nasazení nebo opakování experimentů strojového učení. Systém podporuje transakce ACID - Atomicity, Consistency, Isolation, Durability prostřednictvím souběžné kontroly a streamování zápisu dat a izolace snapshotů. Uživatelé tudíž nepřijdou do styku s tzv. odpadními dat, která při operacích generuje někdo jiný. Problematiku ošetřuje integrované verzování, rollbacky a vynucování schémat.

Podobné možnosti nabízejí i jiné projekty, například Apache Hive nebo Project Ozone firmy Cloudera. První ale operuje pouze nad systémem HDFS, druhý se zatím nedostal do fáze použitelné pro produkční nasazení.

(2. 5. 2019 | Lukas_Kriz)

Komentáře, názory a rady

Zatím sem nikdo nevložil žádný komentář. Buďte první...

>>> Číst a vkládat komentáře <<<