期刊名称:Вісник Харківського національного університету імені В.Н. Каразіна: Серія Економіка
印刷版ISSN:2311-2379
出版年度:2019
期号:97
页码:31-40
DOI:10.26565/2311-2379-2019-97-04
出版社:V.N. Karazin Kharkov National University
摘要:Метою дослідження, описаного у цій статті, є порівняльний аналіз прогнозних якостей деяких моделей машинного навчання та регресій, в яких факторами виступають споживчі характеристики вживаного легкового автомобіля: марка автомобіля, тип коробки передач, тип приводу, тип двигуна, пробіг, тип кузову, рік випуску, область продавця, стан авто, чи було авто у ДТП, середня ціна на аналог в Україні, об’єм двигуна, кількість дверей, наявність додаткового обладнання, кількість місць для пасажирів, чи перша реєстрація авто, чи пригнане авто із закордону. Якісні змінні були закодовані як бінарні змінні або за допомогою середнього значення цільової змінної. Для моделювання було використано понад 200 тисяч автомобілів. Оцінка параметрів усіх моделей проводилася у середовищі Python із використанням бібліотек Sklearn, Catboost, StatModels та Keras. У ході дослідження були розглянуті такі моделі регресій та моделі машинного навчання: лінійна регресія; поліноміальна регресія; дерево рішень; нейронна мережа; моделі за алгоритмами «k-найближчих сусідів», «випадковий ліс», «градієнтний бустинг»; ансамбль моделей. У статті представлені найкращі з точки зору якості (згідно критеріїв R 2 , MAE, MAD, MAPE) варіанти із кожного класу моделей. Було виявлено, що найкраще із задачею прогнозування ціни на легковий автомобіль справляються саме нелінійні моделі. Результати моделювання свідчать про те, що найкраще відображає залежність між ціною легкового автомобіля та його характеристиками саме ансамбль моделей, до якого увійшли нейронна мережа, моделі за алгоритмами «випадковий ліс» та «градієнтний бустинг». Ансамбль моделей показав середню відносну похибку апроксимації вихідних даних 11,2%, та середню відносну похибку прогнозу 14,34%. Усі запропоновані нелінійні моделі ціни на авто мають приблизно однакові прогнозні якості (різниця між MAPE у межах 2%).
其他摘要:The purpose of the research described in this article is a comparative analysis of the predictive qualities of some models of machine learning and regression. The factors for models are the consumer characteristics of a used car: brand, transmission type, drive type, engine type, mileage, body type, year of manufacture, seller's region in Ukraine, condition of the car, information about accident, average price for analogue in Ukraine, engine volume, quantity of doors, availability of extra equipment, quantity of passenger’s seats, the first registration of a car, car was driven from abroad or not. Qualitative variables has been encoded as binary variables or by mean target encoding. The information about more than 200 thousand cars have been used for modeling. All models have been evaluated in the Python Software using Sklearn, Catboost, StatModels and Keras libraries. The following regression models and machine learning models were considered in the course of the study: linear regression; polynomial regression; decision tree; neural network; models based on "k-nearest neighbors", "random forest", "gradient boosting" algorithms; ensemble of models. The article presents the best in terms of quality (according to the criteria R2, MAE, MAD, MAPE) options from each class of models. It has been found that the best way to predict the price of a passenger car is through non-linear models. The results of the modeling show that the dependence between the price of a car and its characteristics is best described by the ensemble of models, which includes a neural network, models using "random forest" and "gradient boosting" algorithms. The ensemble of models showed an average relative approximation error of 11.2% and an average relative forecast error of 14.34%. All nonlinear models for car price have approximately the same predictive qualities (the difference between the MAPE within 2%) in this research.
关键词:ціна автомобіля;регресія;нейронні мережі;ансамбль моделей