Машобуч на большом датасете вместе со Spark MLlib

День 1 /  / Зал 4  /  RU /

Что нужно уметь и понимать джависту на типичном BigData + ML проекте:

  • Как выбирать фичи;
  • Как перекодировать фичи;
  • Как скалировать;
  • Как очищать и заполнять пропуски;
  • Как оценивать качество кластеризации и бинарной классификации;
  • Что делать, если классификация внезапно небинарная;
  • Уметь делать кросс-валидацию.

И всё это на Java + Spark!

Кроме этого, мы поговорим о подводных камнях использования MLlib, особенностях реализации некоторых популярных алгоритмов, попинаем open source-конкурентов и обсудим особенности интеграции в существующие приложения.


Алексей Зиновьев
Алексей Зиновьев
EPAM Systems

Харон (в греческой мифологии — перевозчик душ умерших через реку Стикс) из Java в Big Data. Если говорить проще, то практикующий тренер в компании EPAM Systems. С Hadoop/Spark и прочей бигдатой дружит с 2012 года, форкается и пуллреквестит с 2014, рассказывает с 2015. Особенно любит текстовые данные и большие графы.

Наши контакты