Organizace Apache Software Foundation spustila nový projekt zaměřený na sjednocení prezentace velkých dat v rámci vnitropaměťových výpočtů různých systémů. Nese jméno Arrow, spolupracuje na něm třináct vývojových komunit a prostřednictvím jednotné komunikační nebo prezentační vrstvy má zjednodušit a zrychlit sdílení dat mezi různými systémy.
Analytické úlohy, na kterých se podílí více systémů pro zpracování velkých dat, sdílejí výstupy za doprovodu výpočetně náročných úprav, konverzí datových formátů. Podle zástupců Apache Foundation na ně připadá až 80 procent procesorového času. Nově zahájený projekt Arrow má prostřednictvím jednotné datové prezentační vrstvy až stonásobně urychlit zpracování distribuovaných analytických úloh.
Základem projektu se stal kód ze sesterského pracovního rámce Apache Drill. Ten podporuje datově intenzivní distribuované aplikace pro interaktivní analýzy rozsáhlých datových sad. Dokáže zapojit deset tisíc a více serverů. Arrow se v podobě nejvyšší datové vrstvy zaměří na sjednocení prezentace sloupcových vnitropaměťových dat z různých systémů. Ty využívají vlastní nekompatibilní formáty, ale principem práce s daty ve sloupcích se povětšinou příliš neodlišují. V praxi bude Arrow redukovat nadbytečnou komunikaci různých systémů, které se na realizaci výpočtů podílejí. Jinými slovy: nebude třeba kopírovat a konvertovat výstupy.
Projekt Arrow nemá za cíl vytvořit nový engine pro zpracování nebo ukládání dat. Ve výsledku půjde o sadu formátů a algoritmů pro práci s hierarchizovanými sloupcovými daty, které doplní příslušné nástroje pro jazyky Java, Python, C a C++. Na projektu spolupracují komunity sdružené kolem řešení Calcite, Cassandra, Drill, Hadoop, HBase, Ibis, Impala, Kudu, Pandas, Parquet, Phoenix, Spark a Storm. Poté, co jejich systémy integrují prezentační vrstvu Arrow, dokáží sdílet data bez náročné a zbytečné komunikace, resp. konverzí.