Аналитика без границ

CedrusData — российская экосистема для работы с большими данными. Помогаем строить высокопроизводительные lakehouse-архитектуры для создания единого, безопасного и управляемого
data-ландшафта вашего бизнеса

Нам доверяют

Обеспечьте своему бизнесу технологическую независимость

Предлагаем перспективную альтернативу зарубежным решениям. Развиваем и поддерживаем наши продукты с учетом потребностей российских компаний

CedrusData работает там,
где работаете вы

Финансы Ритейл Госсектор Телеком Логистика Туризм Строительство Сельское хозяйство Промышленность

Опыт наших клиентов

Выбор в пользу производительности: почему S7 Airlines остановилась на CedrusData

В результате мы сократили трудозатраты: пользователи получили возможность самостоятельно строить отчеты и простые ETL-процессы с помощью dbt, обходить узкие места и, что самое важное, стали больше доверять данным, которые загружают сами

Читать кейс
Юрий Гаврилов
владелец продукта платформы данных S7 Airlines
Image
Внедрение платформы виртуализации данных на базе CedrusData в компании Ecom.tech

Внедрение платформы виртуализации данных на базе CedrusData позволило компании Ecom.tech достичь поставленных на 2025 год целей в сжатые сроки. Компания успешно перешла от централизованной модели работы с данными к децентрализованной, ускорила Time-to-Market, демократизировала доступ к данным для всех категорий пользователей и заложила масштабируемую основу для внедрения ИИ-решений

Читать кейс
Юрий Гаврилов
владелец продукта платформы данных S7 Airlines
Image

Почему CedrusData

Image
На основе open source

Trino, Spark, Iceberg, Flink

Image
Российская разработка

В реестре Отечественного ПО

Image
Платформа Big Data

Для проектов от десятков терабайт до сотен петабайт

Image
Гибкость и открытость

Открытые форматы и протоколы; расширяемая архитектура; облако/on-premise

Image
На основе open source

Trino, Spark, Iceberg, Flink

Image
Российская разработка

В реестре Отечественного ПО

Image
Платформа Big Data

Для проектов от десятков терабайт до сотен петабайт

Image
Гибкость и открытость

Открытые форматы и протоколы; расширяемая архитектура; облако/on-premise

Наши партнеры

Стать партнером
catalog-tg-huge

Сообщество инженеров

Крупнейшие русскоязычные комьюнити Trino
и Apache Iceberg: помощь по сложным вопросам, обмен опытом и поддержка

Частые вопросы

Что такое Lakehouse и в чем его преимущества?

Основные отличительные особенности Lakehouse — инфраструктурное разделение хранения данных и слоя вычислений, использование открытых табличных форматов (с поддержкой транзакций, time-travel, эволюции структуры данных), централизованные данные и каталог. Из особенностей проистекают преимущества: эффективное использование инфраструктуры (эластичное масштабирование с zero downtime), гибкость при выборе оборудования и независимость от вендоров прикладного программного обесвечения, гибкое управление нагрузками, экономия на TCO, разработке и сопровождении, возможность более гибко развивать архитектуру в будущем.

Где будут храниться мои данные, у CedrusData есть свой слой хранения?

В настоящий момент CedrusData не предоставляет собственных компонентов для хранения данных, поэтому для создания платформ класса Lakehouse мы рекомендуем либо обратиться к нам или одному из наших партнеров, либо использовать открытые реализации S3, например Ceph. Также вы можете воспользоваться одним или несколькими из десятков готовых коннекторов к различным источникам (реляционные СУБД, файлы, key-value хранилища, очереди и пр.) для хранения данных в хранилищах, отличных от S3.

Можно ли скачать и проверить работу ваших продуктов? Есть ли ограничения функционала?

Да, продукты CedrusData Engine и CedrusData Catalog доступны для скачивания бесплатно. Установить возможна из архива, установка и запуск каждого занимают порядка 10 минут, для работы требуется Linux х64-совместимая ОС и JVM 21+, 8 GB RAM. Так же можно установить из Docker-образа или Helm-чарта (еще быстрее). Для развертывания платформы CedrusData потребуется 16 GB RAM, Kubernetes, kubectl, Helm, helmwave. Чтобы получить дистрибутив платформы, обратитесь к нашим специалистам, мы предоставим необходимые файлы и документацию, ответим на все вопросы. Ограничений по функционалу у продуктов нет, все возможности вам будут доступны. Единственное ограничение — без лицензии потребуется перезапуск кластера каждую неделю.

Как для простого пользователя (аналитика, разработчика) будет выглядеть работа с продуктом CedrusData Engine?

Пользователь может работать с CedrusData Engine практически так же, как он привык работать с любой другой современной ANSI SQL СУБД, подключаясь из любого JDBC-клиента (или CedrusData SQL Web UI) и выполняя запросы. Но как и у других СУБД, будут небольшие отличия в части синтаксиса DDL, параметров сессии, особенностей хранимых функций, и т.п.

Какие задачи можно решать при помощи продуктов CedrusData?

Задачи могут быть самые разные, и везде где используются и обрабатываются данные можно найти то или иное применение. Ниже перечислим основные сценарии. 1. Построение платформ данных (Lakehouse, Data Lake, Data Warehouse) Аналитика данных (подготовка данных для витрин, отчетности, BI и дашбордов и обслуживание интерактивных запросов к ним), включая федеративные запросы. 2. Пользовательский ad hoc и песочницы, data exploration. 3. Миграции — поддержка работы запросов в переходные периоды, когда одна часть ваших данных находится в legacy-системе, а другая уже в мигрировала в целевую. CedrusData Engine очень хорошо справляется со сценариями федеративных запросов и имеет множество сопутствующих оптимизаций, например оптимизации типа pushdown. 4. Поддержка Data Governance. Используя федеративные запросы CedrusData, вы можете обеспечить централизованное управление данными: бизнес проверки, проверки качества данных, профилирование данных, построение data linage и т.п. При этом выполняя все через единую точку доступа, единые правила безопасности и единый диалект. 5. ETL и интеграции данных - CedrusData Engine может выступать в качестве ETL-движка, при помощи которого можно извлекать данные из различных систем, трансформировать и вставлять данные в целевые системы.

Что такое федеративные запросы к данным?

Федеративные запросы (термин очень близок к понятию “виртуализация данных”, но последнее — более широкая концепция) — это возможность исполнения запросов (обычно SQL) в едином синтаксисе (диалекте) к данным нескольких источников одновременно. К примеру, вы можете в рамках одного SQL-запроса прочитать необходимые данные из Oracle и Postgres, трансформировать их (join, аггрегации, windowing и т.п.), и записать результат в Greenplum. В любой комбинации для списка поддерживаемых коннекторов.

Если CedrusData Engine это форк Trino, в чем ваши отличия, совместим ли он с Trino?

Отличий очень много, укажем только самые значимые. В первую очередь, CedrusData Engine не просто Trino, приукрашенный фасадами плагинов, a значительно доработанный и оптимизированный в ядре продукт. При этом CedrusData обратно совместим со всеми интерфейсами Trino. В число ключевых доработок входят: ряд улучшений планирования запросов, управляемые материализации и кэширование, нативное исполнение внутренних операторов (Rust-библиотеки вместо Java), собственные коннекторы для Greenplum, Teradata, и пр., Web-интерфейс для исполнения SQL, улучшения управления, безопасности и т.д. Более полный список отличий вы можете найти у нас в документации, но лучше напишите нам и мы проведем для вас презентацию и все расскажем.

Как закрыть вопросы безопасности доступа к множеству источников одновременно?

Продукты CedrusData позволяют полностью закрыть типовые вопросы безопасности, в том числе: — аутентификация (поддерживаются наиболее популярные протоколы, включая LDAP, JWT, OAuth); — шифрование клиентского трафика (использование сертификатов); — авторизация — может быть реализована на различных уровнях и различными способами, в зависимости от особенностей вашей инфраструктуры. В том числе, возможно использование правил OPA, Ranger, RBAC+DAC модели доступа в CedrusData Catalog, правил доступа, определенных в файле и пр. — возможность реализации динамического маскирования или скрытия колонок; — возможность включения аудита доступа и аудита событий ИБ.

У нас 10-100-1000+ТБ данных, ваше решение нам подойдет?

При правильном использовании, архитектура Lakehouse практически не ограничивает объем данных, который может находиться в вашем хранилище. Ответ будет зависеть от конкретных требований к характеру рабочей нагрузки, регламенту обновления данных, количеству запросов и т.п. Обратитесь к нам и мы поможем правильно подобрать архитектуру и рассчитать оборудование для вашего конкретного сценария.

Остались вопросы?

Запросите консультацию или демонстрацию применительно к вашим задачам.
Стоимость продуктов рассчитывается индивидуально и зависит от параметров системы.

    Прокрутить вверх