Сервис по продаже автомобилей с пробегом «Не бит, не крашен» разрабатывает приложение для привлечения новых клиентов. В нём можно быстро узнать рыночную стоимость своего автомобиля. В моем распоряжении исторические данные: технические характеристики, комплектации и цены автомобилей. Мне нужно построить модель для определения стоимости. Заказчику важны:
- качество предсказания;
- скорость предсказания;
- время обучения.
- DateCrawled — дата скачивания анкеты из базы
- VehicleType — тип автомобильного кузова
- RegistrationYear — год регистрации автомобиля
- Gearbox — тип коробки передач
- Power — мощность (л. с.)
- Model — модель автомобиля
- Kilometer — пробег (км)
- RegistrationMonth — месяц регистрации автомобиля
- FuelType — тип топлива
- Brand — марка автомобиля
- NotRepaired — была машина в ремонте или нет
- DateCreated — дата создания анкеты
- NumberOfPictures — количество фотографий автомобиля
- PostalCode — почтовый индекс владельца анкеты (пользователя)
- LastSeen — дата последней активности пользователя
- Price — цена (евро)
Основываясь на полученные результаты можно сделать вывод, что наименьшую ошибку выдает CatBoost, на тренировку данной модели ушло ~1min 19s, в то же время на обучение рандомного леса ушло всего ~ 3min 25s, а на обучение LightGBM ушло 4.68 s с. Ошибки моделей не сильно отличаются, разница между крайними значениями составляет всего 3. В условии указано, что решающим факторами при выборе модели являются следующие показатели:
- Время обучения
- Время предсказания
- Качество предсказаний
Основываясь на данных признаков мы можем из удалить из сравнения RandomForest, так как его время обучения в разы больше. Чтобы определить какая из двух оставшихся моделей нам подойдет больше нужно выбрать что для нас важные, время обучение или ошибка. И там, и там разрыв между моделями небольшой. LightGBM обучается в несколько раз быстрее. Менее выгодно всего в данном случае смотреться CatBoost, эта модель проигрывает по 2 из 3 параметров:
- Время предсказания меньше (302 ms против 591 ms у LightGBM)
- Качесво предсказаний ниже (1410 против 1407 у LightGBM)
- Время обучения больше (1min 19s против 4.68 s у LightGBM)
Основываясь на этом, можно сделать вывод, что лучше всего подойдет модель построенная на LightGBM