Тонкости машобуча вместе со Spark ML

День 1 /  / Зал 4  /  RU / Для практикующих инженеров  /  Datascience

Комментарий Программного комитета:

Доклад о хайповой теме машинного обучения, дающий конкретные прикладные вещи. Алексей – практикующий тренер по этой теме и умеет её внятно объяснять.

Что нужно уметь и понимать джависту на типичном BigData + ML проекте:

  • как выбирать фичи;
  • как перекодировать фичи;
  • как скалировать;
  • как очищать и заполнять пропуски;
  • как оценивать качество кластеризации;
  • что делать, если одного дерева мало;
  • уметь делать кросс-валидацию.

И всё это на Scala + Spark!

Всё это на примере одного из самых популярных датасетов с Kaggle — от А до Я.


Посмотреть презентацию
Алексей Зиновьев
Алексей Зиновьев
EPAM Systems

Харон (в греческой мифологии — перевозчик душ умерших через реку Стикс) из Java в Big Data. Если говорить проще, то практикующий тренер в компании EPAM Systems. С Hadoop/Spark и прочей бигдатой дружит с 2012 года, форкается и пуллреквестит с 2014, рассказывает с 2015. Особенно любит текстовые данные и большие графы.

Наши контакты