Аналитика без границ
CedrusData — российская экосистема для работы с большими данными. Помогаем строить высокопроизводительные lakehouse-архитектуры для создания единого, безопасного и управляемого data-ландшафта вашего бизнеса
Каталог продуктов
Обеспечьте своему бизнесу технологическую независимость
Предлагаем перспективную альтернативу зарубежным решениям. Развиваем и поддерживаем наши продукты с учетом потребностей российских компаний
CedrusData работает там,
где работаете вы
Опыт наших клиентов
Выбор в пользу производительности: почему S7 Airlines остановилась на CedrusDataВ результате мы сократили трудозатраты: пользователи получили возможность самостоятельно строить отчеты и простые ETL-процессы с помощью dbt, обходить узкие места и, что самое важное, стали больше доверять данным, которые загружают сами
Читать кейс
Внедрение платформы виртуализации данных на базе CedrusData в компании Ecom.techВнедрение платформы виртуализации данных на базе CedrusData позволило компании Ecom.tech достичь поставленных на 2025 год целей в сжатые сроки. Компания успешно перешла от централизованной модели работы с данными к децентрализованной, ускорила Time-to-Market, демократизировала доступ к данным для всех категорий пользователей и заложила масштабируемую основу для внедрения ИИ-решений
Читать кейс
Почему CedrusData
На основе open source
Trino, Spark, Iceberg, Flink
Российская разработка
В реестре Отечественного ПО
Платформа Big Data
Для проектов от десятков терабайт до сотен петабайт
Гибкость и открытость
Открытые форматы и протоколы; расширяемая архитектура; облако/on-premise
На основе open source
Trino, Spark, Iceberg, Flink
Российская разработка
В реестре Отечественного ПО
Платформа Big Data
Для проектов от десятков терабайт до сотен петабайт
Гибкость и открытость
Открытые форматы и протоколы; расширяемая архитектура; облако/on-premise
Наши партнеры
Стать партнеромСообщество инженеров
Крупнейшие русскоязычные комьюнити Trino и Apache Iceberg: помощь по сложным вопросам, обмен опытом и поддержка
Частые вопросы
Что такое Lakehouse и в чем его преимущества?
Основные отличительные особенности Lakehouse — инфраструктурное разделение хранения данных и слоя вычислений, использование открытых табличных форматов (с поддержкой транзакций, time-travel, эволюции структуры данных), централизованные данные и каталог. Из особенностей проистекают преимущества: эффективное использование инфраструктуры (эластичное масштабирование с zero downtime), гибкость при выборе оборудования и независимость от вендоров прикладного программного обесвечения, гибкое управление нагрузками, экономия на TCO, разработке и сопровождении, возможность более гибко развивать архитектуру в будущем.
Где будут храниться мои данные, у CedrusData есть свой слой хранения?
В настоящий момент CedrusData не предоставляет собственных компонентов для хранения данных, поэтому для создания платформ класса Lakehouse мы рекомендуем либо обратиться к нам или одному из наших партнеров, либо использовать открытые реализации S3, например Ceph. Также вы можете воспользоваться одним или несколькими из десятков готовых коннекторов к различным источникам (реляционные СУБД, файлы, key-value хранилища, очереди и пр.) для хранения данных в хранилищах, отличных от S3.
Можно ли скачать и проверить работу ваших продуктов? Есть ли ограничения функционала?
Да, продукты CedrusData Engine и CedrusData Catalog доступны для скачивания бесплатно. Установить возможна из архива, установка и запуск каждого занимают порядка 10 минут, для работы требуется Linux х64-совместимая ОС и JVM 21+, 8 GB RAM. Так же можно установить из Docker-образа или Helm-чарта (еще быстрее). Для развертывания платформы CedrusData потребуется 16 GB RAM, Kubernetes, kubectl, Helm, helmwave. Чтобы получить дистрибутив платформы, обратитесь к нашим специалистам, мы предоставим необходимые файлы и документацию, ответим на все вопросы. Ограничений по функционалу у продуктов нет, все возможности вам будут доступны. Единственное ограничение — без лицензии потребуется перезапуск кластера каждую неделю.
Как для простого пользователя (аналитика, разработчика) будет выглядеть работа с продуктом CedrusData Engine?
Пользователь может работать с CedrusData Engine практически так же, как он привык работать с любой другой современной ANSI SQL СУБД, подключаясь из любого JDBC-клиента (или CedrusData SQL Web UI) и выполняя запросы. Но как и у других СУБД, будут небольшие отличия в части синтаксиса DDL, параметров сессии, особенностей хранимых функций, и т.п.
Какие задачи можно решать при помощи продуктов CedrusData?
Задачи могут быть самые разные, и везде где используются и обрабатываются данные можно найти то или иное применение. Ниже перечислим основные сценарии. 1. Построение платформ данных (Lakehouse, Data Lake, Data Warehouse) Аналитика данных (подготовка данных для витрин, отчетности, BI и дашбордов и обслуживание интерактивных запросов к ним), включая федеративные запросы. 2. Пользовательский ad hoc и песочницы, data exploration. 3. Миграции — поддержка работы запросов в переходные периоды, когда одна часть ваших данных находится в legacy-системе, а другая уже в мигрировала в целевую. CedrusData Engine очень хорошо справляется со сценариями федеративных запросов и имеет множество сопутствующих оптимизаций, например оптимизации типа pushdown. 4. Поддержка Data Governance. Используя федеративные запросы CedrusData, вы можете обеспечить централизованное управление данными: бизнес проверки, проверки качества данных, профилирование данных, построение data linage и т.п. При этом выполняя все через единую точку доступа, единые правила безопасности и единый диалект. 5. ETL и интеграции данных - CedrusData Engine может выступать в качестве ETL-движка, при помощи которого можно извлекать данные из различных систем, трансформировать и вставлять данные в целевые системы.
Что такое федеративные запросы к данным?
Федеративные запросы (термин очень близок к понятию “виртуализация данных”, но последнее — более широкая концепция) — это возможность исполнения запросов (обычно SQL) в едином синтаксисе (диалекте) к данным нескольких источников одновременно. К примеру, вы можете в рамках одного SQL-запроса прочитать необходимые данные из Oracle и Postgres, трансформировать их (join, аггрегации, windowing и т.п.), и записать результат в Greenplum. В любой комбинации для списка поддерживаемых коннекторов.
Если CedrusData Engine это форк Trino, в чем ваши отличия, совместим ли он с Trino?
Отличий очень много, укажем только самые значимые. В первую очередь, CedrusData Engine не просто Trino, приукрашенный фасадами плагинов, a значительно доработанный и оптимизированный в ядре продукт. При этом CedrusData обратно совместим со всеми интерфейсами Trino. В число ключевых доработок входят: ряд улучшений планирования запросов, управляемые материализации и кэширование, нативное исполнение внутренних операторов (Rust-библиотеки вместо Java), собственные коннекторы для Greenplum, Teradata, и пр., Web-интерфейс для исполнения SQL, улучшения управления, безопасности и т.д. Более полный список отличий вы можете найти у нас в документации, но лучше напишите нам и мы проведем для вас презентацию и все расскажем.
Как закрыть вопросы безопасности доступа к множеству источников одновременно?
Продукты CedrusData позволяют полностью закрыть типовые вопросы безопасности, в том числе: — аутентификация (поддерживаются наиболее популярные протоколы, включая LDAP, JWT, OAuth); — шифрование клиентского трафика (использование сертификатов); — авторизация — может быть реализована на различных уровнях и различными способами, в зависимости от особенностей вашей инфраструктуры. В том числе, возможно использование правил OPA, Ranger, RBAC+DAC модели доступа в CedrusData Catalog, правил доступа, определенных в файле и пр. — возможность реализации динамического маскирования или скрытия колонок; — возможность включения аудита доступа и аудита событий ИБ.
У нас 10-100-1000+ТБ данных, ваше решение нам подойдет?
При правильном использовании, архитектура Lakehouse практически не ограничивает объем данных, который может находиться в вашем хранилище. Ответ будет зависеть от конкретных требований к характеру рабочей нагрузки, регламенту обновления данных, количеству запросов и т.п. Обратитесь к нам и мы поможем правильно подобрать архитектуру и рассчитать оборудование для вашего конкретного сценария.
Остались вопросы?
Запросите консультацию или демонстрацию применительно к вашим задачам.
Стоимость продуктов рассчитывается индивидуально и зависит от параметров системы.