Начало основного контента

Тип доклада: Доклад

Грузим в Kafka из базы: с CDC и без

Зал 3
  • Доклад на русском языке

Как превратить любые данные в поток событий в Kafka? Если в базе данных есть CDC — это отлично! Но что, если его нет? Какие подводные камни могут встретиться на пути? Даже если удалось настроить загрузку, как это правильно раскатать в большой организации с сотней команд?

Доклад будет сосредоточен на использовании Kafka Connect для забора данных из БД как с возможностью чтения WAL-логов, так и без нее. Посмотрим на неочевидные трудности, которые могут возникнуть в процессе:

  • Что произойдет, если мастер-нода базы данных откажет?
  • Как забрать данные из таблицы, если WAL-логи недоступны, а в ней даже нет таймстемпов?
  • Как справится с partial update (выгрузкой только измененных колонок в CDC)?

Затем обсудим особенности использования Kafka Connect на enterprise-уровне: как унифицировать метаданные, как деплоиться и откатываться из CI, как предоставлять такой сервис в виде PaaS, как управлять доступом. Последняя часть коротко затронет темы Data Mesh и Data Governance в организации.

Как Platform Owner платформы потоковой обработки данных в Райффайзен Банке и дата-инженер с более чем пятилетним опытом, спикер поделится нюансами построения внутреннего PaaS-решения на больших объемах (десятки команд используют его, ежесекундно прогоняя тысячи сообщений).

Спикеры

Расписание