(5)基于随机森林的合肥城区商品房定价模型探索(安徽省统计局参加全国建模比赛作品)模板

上传人:jiups****uk12 文档编号:90823453 上传时间:2019-06-19 格式:DOC 页数:20 大小:337.51KB
返回 下载 相关 举报
(5)基于随机森林的合肥城区商品房定价模型探索(安徽省统计局参加全国建模比赛作品)模板_第1页
第1页 / 共20页
(5)基于随机森林的合肥城区商品房定价模型探索(安徽省统计局参加全国建模比赛作品)模板_第2页
第2页 / 共20页
(5)基于随机森林的合肥城区商品房定价模型探索(安徽省统计局参加全国建模比赛作品)模板_第3页
第3页 / 共20页
(5)基于随机森林的合肥城区商品房定价模型探索(安徽省统计局参加全国建模比赛作品)模板_第4页
第4页 / 共20页
(5)基于随机森林的合肥城区商品房定价模型探索(安徽省统计局参加全国建模比赛作品)模板_第5页
第5页 / 共20页
点击查看更多>>
资源描述

《(5)基于随机森林的合肥城区商品房定价模型探索(安徽省统计局参加全国建模比赛作品)模板》由会员分享,可在线阅读,更多相关《(5)基于随机森林的合肥城区商品房定价模型探索(安徽省统计局参加全国建模比赛作品)模板(20页珍藏版)》请在金锄头文库上搜索。

1、基于随机森林的合肥市城区商品房定价模型探索安徽省统计局摘 要房地产定价方法是房地产经营过程中的核心与实务。如何定价既影响到房地产企业的销售和利润,也关系到消费者的切身利益。本文利用搜房网、365地产网及百度地图卫星遥感等互联网数据,以目前合肥市城区在售的全部楼盘为研究对象,选取环线、公交、地铁、物业、绿化等15个变量,涵盖区位交通、楼盘品质、周边配套、邻近环境等内容,通过对楼盘均价建立随机森林算法模型,试图找出影响定价的主要因素对其模拟,并结合探索性分析对楼盘分类,建立判别模型。此外,基于模型的拟合结果,结合聚类对奇异点楼盘进行分析。结果表明,随机森林方法稳健性较高,有助于在房地产定价应用中提

2、供参考。关键词:房地产定价 随机森林 判别模型 互联网数据一、问题的提出房地产价格一直是大家关注的热点问题。为什么同一个城市,楼盘价格有高有低?为什么随着时间推移,有些楼盘价格持续看涨,有些却大幅促销?商品房作为老百姓的必需品,也是投资品,其价格的一涨一跌牵动着每一位消费者的心,也关系到社会的和谐和稳定。由于房地产资产规模较大,且具有较强的异质性、不易流动性、不可分割性,其交易信息与数据难以获得,致使对房地产资产的定价研究难度较大,房地产定价模型和方法的研究没有像房地产市场那样得到应有的重视和发展,国内外房地产定价的研究也不多,如何科学定价困扰了专家学者与业内人士。大多数房地产企业按照一般商品

3、模式定价,然而,仅从开发成本角度考虑易导致定价偏低,有利于销售却未体现区位优势和投资潜力,过高的价格又会导致销售不佳。因此,房地产定价模型研究就成为房地产价格未来走势的重要工具。在当今大数据时代,互联网数据获取之便捷以及计算机应用的大量普及,让我们不禁思考,能否运用数据挖掘方法从从纷繁复杂的互联网数据中寻找到房地产定价的一般模式?二、相关研究综述在商品房定价时,定价人员必须考虑开发商成本,同时也要考虑一些相关因素,如楼层、建筑面积、区位、交通、物业管理等。传统的定价方法有:成本加利润法、市场价法和差别定价法。国内外学者以市场竞争、销售博弈、供求理论为基础,根据供需双方之间的市场博弈行为对房地产

4、定价,以影响房地产价格的因素作用波动进行价格调节。2002年Leung B.Y.P,Hui E.C.M.以香港迪斯尼乐园为案例,把定价理论(OPT)运用到房地产定价的策略,阐述了这种定价策略方法的实际应用。2003年Francis K.Cheung,Shawn Ni和Alan Siu对于香港不稳定的房地产市场是否与基于消费者的资产定价模型相一致做出了分析。近年来,部分学者将神经网络、随机森林、支持向量机等新技术运用到房地产价格评估。2001年NguyenNghiep得出了人工神经网络方法对住宅价格预测效果好于多元线性回归的结论,2010年K.C.Lama,C.Y. Yua和C.K.Lama使用

5、支持向量机预测房产价格,并与多元回归、神经网络等方法进行比较。在国内, 2007年惠彦涛使用Bp神经网络模型对影响住宅价格因素进行分析,张鑫使用支持向量机对杭州二手房价格进行评估, 2010年罗党、时亚楠基于灰色BP神经网络组合模型对郑州市商品房价格展开预测。现有研究表明,从数据本身出发的算法模型有很好的预测效果。三、研究设计(一)研究对象本文的研究对象为合肥市城区(瑶海区、庐阳区、包河区、蜀山区、政务区、高新区、经开区、新站区、滨湖新区)2014年在售的住宅用楼盘,产权为70年,包括多层、小高层和高层,不包括别墅。(二)变量选取从理论上看,对住宅价格评估主要有两方面,一是基于开发成本估价,包

6、括土地出让金、建安工程费用、基础设施配套、广告宣传、税费等,二是基于楼盘的属性特征估价,包括区位交通、配套设施、周边环境、管理水平等,表现为消费者效用的满足程度。在现实生活中,住宅价格远远高于开发成本,特别在很多一、二线城市和省会城市,区位优势明显、周边配套齐全的楼盘可谓“寸土寸金”,楼盘所具备的“居住属性”才是价格的决定性因素。此外,从地租理论角度看,楼盘的“居住属性”与土地出让金成本密切相关。因此,在研究省会合肥市的楼盘定价时,我们认为楼盘的区位、配套、环境等属性能够完全解释价格的变化。目前,国内外对房地产价格评估的指标主要集中在楼盘品质、区位交通和周边环境三个方面,我们在这些研究的基础上

7、,从指标对价格解释程度出发,并依据系统性、全面性、数据的可得性、可量化性等原则,选取了装修水平x1、环线位置x2、至城市中心乘车时间x3、距离邻近商圈距离x4、容积率x5、物业费标准x6、公共交通x7、绿化率x8、地铁规划x9、楼层情况x10、配套设施x11、商场数量x12、距公园湖山距离x13、区域环境得分x14、建筑面积x15等15项指标作为自变量。1区位交通类指标有4项,环线位置、至城市中心乘车时间描述了楼盘的地理位置,而公交和地铁作为城市主要出行工具,体现了居民出行的便捷程度。2楼盘品质是消费者关注的重点,共有6项。其中,容积率、绿化率关系到居住的舒适度,物业费标准与物业公司品牌密切相

8、关,并受到部分对价格较敏感消费者的关注,精装或毛坯对定价影响明显。此外,部分消费者对楼层高度也具有偏好。3周边配套类有3项,距离商圈距离远近、周边商场的多少关系到购物的便捷与否,周边学校、医院、银行等设施则为居民提供了教育、医疗、理财等重要服务。4邻近环境类有2项,“距公园湖山距离”被定义为从小区到邻近的公园、湖、山的路程距离,同样决定了楼盘的综合品质,区域环境评分是对楼盘所在区域绿化、空气、卫生、噪音情况的综合评分。表1 “居住属性”变量列表居住属性选用变量区位交通环线位置、至城市中心乘车时间、公共交通、地铁规划楼盘品质装修水平、容积率、物业费标准、绿化率、楼层情况、建筑面积周边配套与邻近商

9、圈距离、商场数量、配套设施邻近环境距公园湖山距离、区域环境得分(三)数据来源及预处理合肥市在售楼盘相关情况,包括均价、环线位置、公共交通、地铁规划等12项变量数据均取自搜房网、合肥365地产家居网和合肥家园网,共计156个样本数据。至城市中心乘车时间、与离邻近商圈距离、距公园湖山距离3项变量数据取自百度地图,区域环境评分是基于合肥市环保局监测数据的综合评分。需要说明的是:1楼盘均价为2014年7月份当月价格。部分楼盘因销售尾盘大幅调整价格,我们对这些楼盘价格作了相应修正,采用了该楼盘本年度主要销售时间内的定价。2地铁规划、装修水平为虚拟变量,具有地铁规划或精装修为1,否则为0。环线位置分为一环

10、内、二环内和二环外三级,相应地赋值为1分、0.8分和0.6分。配套设施包括幼儿园、小学、初中、高中、医院、银行六个分项,具备一项得0.1分,最高为0.6分。3、我们以百度地图为工具,将合肥市传统意义上的市中心淮河路步行街作为终点坐标,查询各楼盘乘公交所花费的时间,记录为“至城市中心乘车时间”数据。选取包括环城公园、森林公园、植物园、蜀峰湾公园、大蜀山、天鹅湖等在内的多个公园、湖、山作为终点坐标,计算与附近楼盘间的距离,记录为“距公园湖山距离”数据。选取逍遥津、天鹅湖万达、明珠广场、双岗、滨湖世纪金源等多个重要商圈作为终点坐标,计算与附近楼盘间的距离,记录为“与邻近商圈距离”。4、我们根据合肥市

11、环保局的监测数据,对各区域绿化、空气、卫生、噪音进行评分。其中,政务区为第一档,蜀山区、高新区和滨湖新区为第二档,经开区、庐阳区、包河区为第三档,瑶海区和新站区为第四档,分别赋值0.9分、0.8分、0.7分和0.6分。5、个别楼盘存在物业费标准、楼层数据缺失情况,对于后者,我们根据合肥房产开发的一般情况,将多层、小高层和高层分别按照6层、18层和30层进行补值。对于前者,我们将在运用随机森林的rfImpute函数进行插值处理。四、模型构建(一)数据探索性分析1变量基本情况使用R软件中的describe和summary函数对数据进行初步分析。summary()函数列出了因变量价格与7个自变量的基

12、本情况,样本中合肥住宅价格最高的为15000元/平米,最低的为5100元/平米,平均价格为7978元/平米,中位数为7800元/平米。describe()函数列出了所有变量的平均值、中位数、四分位数等,并显示最低、最高共计10个离散值。从输出结果可知,X6(物业费标准)有5个缺失值。表2 探索性分析部分输出结果 y x1 x2 x3 Min. : 5100 Min. :0.00000 Min. :0.6000 Min. : 5.00 1st Qu.: 6938 1st Qu.:0.00000 1st Qu.:0.6000 1st Qu.: 40.00 Median : 7800 Median

13、:0.00000 Median :0.6000 Median : 60.00 Mean : 7978 Mean :0.08333 Mean :0.6923 Mean : 59.44 3rd Qu.: 8686 3rd Qu.:0.00000 3rd Qu.:0.8000 3rd Qu.: 80.00 Max. :15000 Max. :1.00000 Max. :1.0000 Max. :120.00 x4 x5 x6 x7 Min. : 0.100 Min. :1.000 Min. :0.450 Min. : 1.000 1st Qu.: 1.800 1st Qu.:2.500 1st Qu

14、.:1.200 1st Qu.: 3.000 Median : 3.150 Median :3.000 Median :1.400 Median : 4.000 Mean : 3.647 Mean :3.195 Mean :1.361 Mean : 4.929 3rd Qu.: 5.300 3rd Qu.:3.500 3rd Qu.:1.440 3rd Qu.: 7.000 Max. :12.500 Max. :9.500 Max. :3.980 Max. :17.000 x6nmissinguniqueMean0.050.10.250.50.750.90.951515401.3610.71.

15、11.21.41.441.441.8752楼盘价格分布对合肥城区楼盘价格绘制密度直方图。以千元位分界线,合肥在售楼盘主要有10个价位水平,大部分价格在6000-10000元/平米区间内,数量达到136个。其中7000-8000元/平米的楼盘有44个,占全部在售楼盘的28.2%,万元以上楼盘有9个,6000元以下的有11个。对各价位水平分别绘制箱线图,结果显示,6000-7000价位的楼盘价格数据明显呈现右偏趋势,而7000-8000、8000-9000价位的楼盘价格数据呈现左偏趋势。图1 楼盘价格分布情况3变量相关性分析在R软件中加载rattle软件包和ellipse软件包,计算变量间相关系数并绘制相关图。图中

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 中学教育 > 其它中学文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号