O nás     Inzerce     KontaktSpolehlivé informace o IT již od roku 2011
Hledat
Nepřehlédněte: Pozoruhodné IT produkty 2020
Správa dokumentů
Digitální transformace
Informační systémy
Hlavní rubriky: Informační systémy, Mobilní technologie, Datová centra, Sítě, IT bezpečnost, Software, Hardware, Zkušenosti a názory, Speciály

Pozoruhodné IT produkty 2020
E-knihy o IT zdarma
Odborné IT konference BusinessIT

Apache Arrow zjednoduší sdílení velkých dat různých systémů

Organizace Apache Software Foundation spustila nový projekt zaměřený na sjednocení prezentace velkých dat v rámci vnitropaměťových výpočtů různých systémů. Nese jméno Arrow, spolupracuje na něm třináct vývojových komunit a prostřednictvím jednotné komunikační nebo prezentační vrstvy má zjednodušit a zrychlit sdílení dat mezi různými systémy.

Analytické úlohy, na kterých se podílí více systémů pro zpracování velkých dat, sdílejí výstupy za doprovodu výpočetně náročných úprav, konverzí datových formátů. Podle zástupců Apache Foundation na ně připadá až 80 procent procesorového času. Nově zahájený projekt Arrow má prostřednictvím jednotné datové prezentační vrstvy až stonásobně urychlit zpracování distribuovaných analytických úloh.

Základem projektu se stal kód ze sesterského pracovního rámce Apache Drill. Ten podporuje datově intenzivní distribuované aplikace pro interaktivní analýzy rozsáhlých datových sad. Dokáže zapojit deset tisíc a více serverů.  Arrow se v podobě nejvyšší datové vrstvy zaměří na sjednocení prezentace sloupcových vnitropaměťových dat z různých systémů. Ty využívají vlastní nekompatibilní formáty, ale principem práce s daty ve sloupcích se povětšinou příliš neodlišují. V praxi bude Arrow redukovat nadbytečnou komunikaci různých systémů, které se na realizaci výpočtů podílejí. Jinými slovy: nebude třeba kopírovat a konvertovat výstupy.

Projekt Arrow nemá za cíl vytvořit nový engine pro zpracování nebo ukládání dat. Ve výsledku půjde o sadu formátů a algoritmů pro práci s hierarchizovanými sloupcovými daty, které doplní příslušné nástroje pro jazyky Java, Python, C a C++. Na projektu spolupracují komunity sdružené kolem řešení Calcite, Cassandra, Drill, Hadoop, HBase, Ibis, Impala, Kudu, Pandas, Parquet, Phoenix, Spark a Storm. Poté, co jejich systémy integrují prezentační vrstvu Arrow, dokáží sdílet data bez náročné a zbytečné komunikace, resp. konverzí.

 


(18. 2. 2016 | Lukas_Kriz)

Facebook Twitter
Komentáře, názory a rady

Zatím sem nikdo nevložil žádný komentář. Buďte první...

>>> Číst a vkládat komentáře <<<
©2011-2020 BusinessIT.cz, ISSN 1805-0522 | Názvy použité v textech mohou být ochrannými známkami příslušných vlastníků.
Provozovatel: Bispiral, s.r.o., kontakt: BusinessIT(at)Bispiral.com | Inzerce: Best Online Media, s.r.o., zuzana@online-media.cz
O vydavateli | Pravidla webu BusinessIT.cz a ochrana soukromí | pg(3909)