Хранилище данных и
обработка больших объёмов

Клиент

Компания, работающая с большими данными и задачами аналитики для повышения качества поддержки и снижения затрат, решила построить обновленную платформу обработки данных на основе программного обеспечения с открытым исходным кодом.

Проблема

Сложности с обновлением решений вендора. Отсутствие возможностей настройки платформы. Отсутствие очень узкой экспертизы.

Решение

Команда Unison разработала дистрибутив Hadoop с учетом конкретных требований заказчика. Дистрибутив основан на компонентах экосистемы Apache Hadoop с открытым исходным кодом и был дополнен большим количеством патчей и доработок повышающих производительность и надёжность системы. В качестве сервиса управления кластером был выбран Ambari, а примером дополнительных компонентов может стать Apache Ozone. Это позволило клиенту избавиться от зависимости на вендора и значительно сократить операционные расходы расходы.

Результат

В результате работы клиент получил:

  • Дистрибутив Hadoop, отвечающий специфическим требованиям.
  • Инфраструктура CI/CD для создания собственного дистрибутива Hadoop
  • Процессы поддержки дистрибутива внутри компании
  • Успешный переход на новую платформу
  • Снижение совокупной стоимости владения на ТБ хранилища
  • Возможность быстро и безболезненно закрывать уязвимости безопасности
  • Специальные компоненты для решения процессных проблем и оптимизации затрат

Миграция данных и метаданных

Клиент

Компания, предлагающая решения в области репликации и синхронизации распределенных систем, имеющая патент на собственный алгоритм распределенного консенсуса.

Проблема

Недостаток экспертизы и опыта работы с облачными платформами хранения и обработки данных для быстрого вывода сервиса на рынок.

Решение

Мы занимались как созданием программных продуктов с нуля, так и усовершенствованием существующих решений. В портфолио наших проектов есть программное обеспечение, способное выполнять active-active и active-passive репликацию данных на кластерах, насчитывающих более тысячи узлов.
Мы понимаем, что у каждого бизнеса есть уникальные потребности в репликации данных, и наша команда всегда готова предложить комплексный подход для достижения поставленных целей. Команда берет на себя полную ответственность за компоненты и работает с владельцами продуктов и заинтересованными сторонами над полным продуктовым циклом, включая этап изобретения новой функциональности продукта, разработку, интеграционное тестирование и обширную поддержку в средах клиентов с оптимизацией для конкретных потребностей клиента.

Результат

  • Мы увеличили общую пропускную способность платформы за пределы вертикального масштабирования и добившись почти линейной масштабируемости передачи данных с каждым добавленным рабочим узлом.
  • Наши приложения помогли решить нетривиальную проблему смешанных версий и межсервисной репликации метаданных. В список сервисов входят различные версии Hive, Microsoft Azure HDI, AWS Glue, Google Dataproc и BigQuery, Databricks, Databricks Unity и Snowflake.

Мы создали решение для непрерывной миграции данных из Hadoop к облачным провайдерам, а также между центрами обработки данных. Клиент успешно продает это решение и его поддержку.