Dane opisują wszystkie modele nowych samochodów osobowych dostępnych na rynku amerykańskim w 2000 roku.
Do oczyszcznia danych użyłem Google Refine
- Wczytanie pliku xlsx.
- Dodanie kolumny z nazwą producenta.
- Usunięcie nazw producentów z wiersza zawierajacego nazwę modelu.
- Rozdzielenie kolumn z warotsciami Horse Power i RPM na 2 osobne.
- Zmiana wszystkich liter na małe.
- Zamiana wartości wiersza Transmission: a -> automatic, m -> manual
- Usunięcie kolumny ABS.
- Usunięcie spacji w nazwach kolumn.
- Eksport do pliku JSON.
{
"make" : "bmw",
"model" : "328ci",
"price" : 34560,
"wheel_base" : 107.3,
"length" : 176.7,
"width" : 68.5,
"height" : 54.6,
"curb_weight" : 3197,
"horse_power" : 193,
"rpm" : 5500,
"transmission" : "manual",
"mpg_city" : 21,
"mpg_highway" : 29
}
- Oczyszczone dane: car_market.json