Skip to content

Прогнозирование цен на автомобили

Notifications You must be signed in to change notification settings

Stuksus/Gradient-boosting

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

5 Commits
 
 
 
 

Repository files navigation

Прогнозирование цен на автомобили

Содержание

Описание проекта

Сервис по продаже автомобилей с пробегом «Не бит, не крашен» разрабатывает приложение для привлечения новых клиентов. В нём можно быстро узнать рыночную стоимость своего автомобиля. В моем распоряжении исторические данные: технические характеристики, комплектации и цены автомобилей. Мне нужно построить модель для определения стоимости. Заказчику важны:

  • качество предсказания;
  • скорость предсказания;
  • время обучения.

Описание данных

  • DateCrawled — дата скачивания анкеты из базы
  • VehicleType — тип автомобильного кузова
  • RegistrationYear — год регистрации автомобиля
  • Gearbox — тип коробки передач
  • Power — мощность (л. с.)
  • Model — модель автомобиля
  • Kilometer — пробег (км)
  • RegistrationMonth — месяц регистрации автомобиля
  • FuelType — тип топлива
  • Brand — марка автомобиля
  • NotRepaired — была машина в ремонте или нет
  • DateCreated — дата создания анкеты
  • NumberOfPictures — количество фотографий автомобиля
  • PostalCode — почтовый индекс владельца анкеты (пользователя)
  • LastSeen — дата последней активности пользователя
  • Price — цена (евро)

Вывод

Основываясь на полученные результаты можно сделать вывод, что наименьшую ошибку выдает CatBoost, на тренировку данной модели ушло ~1min 19s, в то же время на обучение рандомного леса ушло всего ~ 3min 25s, а на обучение LightGBM ушло 4.68 s с. Ошибки моделей не сильно отличаются, разница между крайними значениями составляет всего 3. В условии указано, что решающим факторами при выборе модели являются следующие показатели:

  • Время обучения
  • Время предсказания
  • Качество предсказаний

Основываясь на данных признаков мы можем из удалить из сравнения RandomForest, так как его время обучения в разы больше. Чтобы определить какая из двух оставшихся моделей нам подойдет больше нужно выбрать что для нас важные, время обучение или ошибка. И там, и там разрыв между моделями небольшой. LightGBM обучается в несколько раз быстрее. Менее выгодно всего в данном случае смотреться CatBoost, эта модель проигрывает по 2 из 3 параметров:

  • Время предсказания меньше (302 ms против 591 ms у LightGBM)
  • Качесво предсказаний ниже (1410 против 1407 у LightGBM)
  • Время обучения больше (1min 19s против 4.68 s у LightGBM)

Основываясь на этом, можно сделать вывод, что лучше всего подойдет модель построенная на LightGBM

About

Прогнозирование цен на автомобили

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published