Dremio твърди, че отвореният формат вече не е достатъчен без по-лесно управление

8 април, 2026

No Comments

С превръщането на Apache Iceberg в предпочитан табличен формат за все повече AI и analytics натоварвания, Dremio се опитва да наложи нова теза: големият проблем вече не е приемането на open format, а оперативната тежест, която идва след това.

Apache Iceberg на практика изглежда е спечелил войната при табличните формати, а Dremio използва този момент, за да изостри аргумента в полза на собствената си платформа. Според компанията трудното днес не е изборът на отворен формат, а управлението му без нови слоеве разходи и сложност. Dremio твърди, че предприятията са приели Iceberg, защото искат по-голяма съвместимост и по-малко зависимост от един доставчик, а форматът става все по-важен и за data архитектури в AI ерата, където трябва да се работи едновременно със структурирани, полуструктурирани и неструктурирани данни в една lakehouse среда.

Ползата от Iceberg идва с нова оперативна цена

За потребителите обещанието на Iceberg е гъвкавост. Екипите могат да държат данните си в object storage, да използват различни engine-и и да избегнат затварянето в собственически формат на един доставчик.

Но според Dremio именно тук се появява и новият данък на отвореността. Iceberg таблиците се фрагментират с времето, метаданните растат, snapshot-ите се натрупват, а производителността започва да пада, ако инженерите не се занимават активно с compaction, настройка на layout-и и планирани maintenance задачи. За много data екипи това означава, че времето, което би трябвало да отиде за нови data продукти, модели или бизнес анализ, се изразходва за поддръжка на таблиците.

Dremio се опитва да се отличи с автоматизация

Именно тук компанията се опитва да се разграничи от конкуренти като Snowflake и Databricks. Dremio твърди, че е изградена около Iceberg от самото начало, а не е добавила поддръжка по-късно, и се позиционира като платформа, която автоматизира точно онези части от управлението на Iceberg, които клиентите най-малко искат да правят ръчно.

По думите на компанията платформата ѝ оптимизира постоянно физическия layout на данните чрез Iceberg Clustering, адаптира автоматично query acceleration чрез Autonomous Reflections и поема задачи като file compaction, изтичане на snapshot-и, пренаписване на manifest-и и почистване на orphan file-ове без нужда от ръчно планиране.

Dremio директно противопоставя това на Databricks, където според нея клиентите все още трябва сами да управляват optimization jobs, и на Snowflake, където автоматизацията според компанията е по-ограничена при Snowflake-managed Iceberg таблици.

По-малко поддръжка, по-бързи заявки

Стойността за клиентите е сравнително ясна: по-ниска оперативна тежест и по-добра производителност без отделна поддръжка. Dremio твърди, че автономната ѝ оптимизация намалява нуждата от пълни пренаписвания на таблици, като се насочва само към деградиралите части от data layout-а, а системата ѝ за reflections материализира само онова, което е нужно според реално наблюдаваното поведение на заявките.

Компанията твърди още, че това може да замени по-сложните silver и gold ETL слоеве с по-виртуализиран подход, както и че осигурява до 20 пъти по-висока скорост на заявките спрямо конкуриращи се lakehouse платформи по TPC-DS бенчмаркове. Това очевидно е послание, насочено към екипи, които харесват отвореността на Iceberg, но им липсва по-лесното performance tuning, характерно за класическите cloud warehouses.

Отвореността остава основното стратегическо послание

Dremio силно натиска и върху отвореността като конкурентно оръжие. Компанията посочва, че е съосновател на Apache Polaris – отворен стандарт за каталог – и твърди, че това помага на клиентите да избегнат нов тип lock-in на ниво catalog layer.

Според Dremio всяка таблица, която управлява, остава достъпна през съвместими engine-и като Spark, Trino, Flink, DuckDB и самото Dremio. Компанията противопоставя това на подхода около Unity Catalog на Databricks и на модела с управлявани таблици на Snowflake. За клиенти, които изграждат AI и analytics системи върху множество engine-и и framework-и, аргументът е, че отвореният достъп до данните и метаданните вече не е екстра, а необходимост.

Защо Iceberg V3 може да е по-важен, отколкото изглежда

Компанията използва текста и за да подчертае значението на Apache Iceberg V3, който описва като най-голямата стъпка напред след row-level deletes във версия 2.

Dremio твърди, че вече предлага read и write поддръжка за V3 таблици, включително binary deletion vectors, които могат да направят updates и deletes по-бързи и по-малко изчислително тежки спрямо по-старите подходи с position deletes. Компанията посочва още new row-level lineage полета, типа VARIANT за полуструктурирани данни и timestamps с наносекундна точност като функционалности, които правят Iceberg по-подходящ за real-time analytics, CDC pipelines, финансови услуги и IoT натоварвания.

Аргументът на Dremio е, че това не са просто малки подобрения, а възможности, които правят Iceberg по-практичен за следващото поколение data системи с тежък AI компонент.

Какво всъщност продава Dremio

Под повърхността на спора за форматите Dremio прави по-широк залог за бъдещето на lakehouse пазара. Компанията казва, че само отвореността вече не е достатъчна; печелившата платформа ще бъде тази, която запазва съвместимостта на Iceberg, но премахва управленската тежест, която често идва с нея.

Това дава на Dremio различна позиция спрямо доставчици, които поддържат Iceberg, но продължават да насочват клиентите към собственически catalog-и, управлявани слоеве или по-тежко оперативно участие. Залогът на компанията е ясен: ако Iceberg вече е победил като формат, следващата битка ще е кой ще направи работата с него достатъчно проста, за да не се превърне отвореността в нов източник на сложност.

Изображение: Dremio