在万物联网的互联网+时代,我们能否用大数据与AI技术,为买房这一需求赋能,让人们的需求在买房助手的助力下更加便捷,更加智能?笔者的一系列产品构思证明,这个思路或许能得到实现。
年前的时候我得到了一份某一线城市的二手房源信息,包括了超过数万条房屋数据,而且内容十分完整,于是我就想着能用来做点什么,便萌生了设计一个大数据+机器学习的买房助手的产品构思。
下文并不会涉及太多复杂的技术原理,只是简述我的产品思路。
一、产品设计
1. 需求分析:为什么买房
一个人为什么要买房,这是一个与当下社会环境及法律政策、人文环境、经济环境、家庭关系、自身情况混合在一起的复杂需求,有可能是刚需,也有可能是投资,还有可能纯粹收迫于他人意愿的,想要把这些需求进行客观的整理是很困难的事情,因为这个需求的表现本身就可能很不客观的。
购房的表象原因很可能是以下四个方面:
刚需
购房者或其亲属需要固定住所、入户、子女上学、旧房屋被拆迁或破旧无法居住等原因,产生的刚性需求,买房可以说是为数不多的解决方案中,社会认同性最高的、也是最容易操作、综合效果最佳的一个方案。
改善型需求
为了改善居住环境,寻求更宽敞的空间、电梯,更好的医疗资源、教育资源、交通措施等,一般在已拥有一套房的基础上,再次购买的房产,俗称买“二套房”。
投资
房产的投资方向有很多,对于住宅而言,主要又分两种:房租收入、转手收入。
房租收入就是依靠房子出租获得租金的持续性收入。
转手收入则是在购房一段时间后将房屋再次销售给其他购房者,以获得的一次性收入,俗称“找人接盘”。
投资对房子的地理位置、所属地区当前及未来的经济、治安、交通、教育、医疗环境都比较多的考究。
其他
因为房子的价格对于大部分人而言都是非常高昂的,再加上很多地区存在限购政策,让“冲动消费”对于普通购房者而言几乎不可能成为原因。但是不排除依然有此类或其他的购房原因。
刨去现象看本质,在这些表象原因中我们可以抽取出一些可量化的指标:
房屋自身:房屋的产权、面积、状况、是否有小区、是否有供暖等等
政策:是否限购、限售及其他的政策限制如“满二”、“满五”、“唯一”,是否可以入户。
教育:是否学位房、学区房,对应学校的评级如“市一级”、“省一级”
其他周边:周边是否有大医院、景区,医院又分三甲、卫生院等。景区也有不同的星级评级
地区经济:对于改善型和投资购房者而言这点比较重要,他们可能会去关注当地的GDP、未来规划,如珠三角、大湾区等。
房屋售价:之所以单独列出来,而不放在房屋自身的项目中,一是因为房屋的价格其实是“绝大部分场景下”购房者首先要面对的问题,并直接影响他们对其他指标的需求程度;二是房屋的价格/价值是由以上其他指标共同影响“塑造”的;三是有些房源是要求购房者一次性付款的,可能会筛掉大部分客户。
自身情况:自身经济情况、是否拥有购房资格、贷款资格等。
所以我们要顺藤摸瓜,弄清楚购房者或决定购房的主要参与人,在他们内心,到底哪项是决定因素,哪项是次要因素。
2. 需求匹配:到底要什么
完成了需求分析后,我们就可以从新房大数据、二手房大数据中,去寻找那些符合条件的房源:
可购房类型:住宅、商住两用、公寓、小产权(不推荐)
可承担经济范围:单价、总价
房屋情况:面积、户型、朝向、电梯、楼龄、楼况、小区面积、容积率、绿化率
配套教育:幼儿园、小学、初中、高中、大学,又可以具体细分学校的等级
配套交通:公交、地铁、车位、高速路、高铁、铁路等
其他配套:医院、公园、景区
周边经济环境:街道环境内是否有商业街、大型超市;县区定位是否是自贸区、金融区;城市定位是否是珠三角、大湾区等。
因为我拿到的是特定城市的数据,加上考虑了更多刚需购房的场景,所以关于景区、县区/城市定位这些更多与改善型、投资购房相关的内容,我后文中不再详述。
通过让用户填写/输入上面的条件,就可以搜索出符合他们的需求的房子,并可以通过价格、面积、地铁、小区、电梯等进行排序或筛选,然后再一个个实地去看看,找出性价比最高的那家,然后买定离手。
这时候你就会说,这特么不就是房天下、链家APP能做的么,跟传统的有啥不一样?哪里AI了?……
3. AI建议:找出性价比最高、最可靠的房源
我将所有的房源数据进行整理后,通过不同的数据研究方式,对每个房源信息进行分析。
线性回归:初步分析
线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。
对所有数据进行线性回归,可以得到该城市每个区、每条街道、不同的地铁线、学区房/学位房、楼龄、是否有电梯等对房价的影响因子。
有了影响因子,我们就可以反推一个房子的价格构成比例、是否真的值钱等。但是线性分析只作为一个初步分析的手段,优势是运算速度快、数据结果简单可见,缺点则是判断房子价值的准确率并不那么高。
通过将线性分析的结果告知用户,可以帮助用户对比不同的房源价值构成,以及当前地区对房价的影响因素,可以作为用户购房决策辅助工具之一。
聚类:区域优选
将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。
通过对房源地理位置进行聚类,可以将整个城市划分出多个生活片区。我们可以简单推测/认为,如果一个房源在这些片区中心区域,将能获得更好的生活措施保障,如果不在这些片区中、零散分布的房源所配套的生活措施将较差。
某市二手房源热力图
至于为什么要聚类?
这个问题就如同人类文明为什么总是起源于大江河畔,工业文明为什么总产生在矿产丰富、交通便利的地方一样。
城市的发展建设、人类的生活都遵循着一定的规律,如果一个地方有遍历的地铁,有好的学校,反过来试问,那个地方要是没大片住宅没人口,你会觉得符合常理么?
虽说是常理,就像区分一个人的性别一样,只有DNA检测才是最科学的手段,其他所有的表征都不能作为最终判断依据。
支持向量机:性价比分析
支持向量机(support vector machines,SVM)是一种二分类模型,它的目的是寻找一个超平面来对样本进行分割,分割的原则是间隔最大化,最终转化为一个凸二次规划问题来求解。
支持向量机由于使用了超平面,所以能处理更多线性回归不能很好解决的复杂模型。
将所有房源数据,以除价格以外的各项指标作为训练数据,将价格作为结果数据,然后进行支持向量机学习。然后使用训练好的模型,对所有房源通过除价格以外的各项指标进行测试,预测该房源预期的价格。
我们将预测结果作为该房源的预期价格,将原价作为该房源的实际价格。
房源值率=预期价格/实际价格
通过计算房源的值率,就可以知道一个房子是否值这个钱,将步骤2通过条件搜索出来的房源,进行是否优秀区域、是否性价比最高两项指标综合排序,将“真 · 性价比”最高的房源推荐给购房人,这样的话可以帮购房人省去非常多的时间挨个浏览搜索结果,进行对比,然后确认优先实地去看哪些房子。
我使用某地图数据可视化做的值率分析
房源订阅:AI好房推荐
房子并不是短时间内看几次就能决定购买的,有可能当前所有房源最终购房者都不满意。但是我们知道了该用户需要的房源类型后,如果我的房源数据库有新的房源进来,我就会用训练好的聚类模型、支持向量机模型对该房源进行“预测”,看看新房源是否符合设定的推荐阈值(如值率、离最近的聚类中心距离),如果是,则推送给购房人,反之则不推荐。
另外通过用户的浏览记录、驻留时间、是否有预约看房,再结合“随机森林”或其他机器学习方法,从所有房源中找出与之相似的房源推荐给用户。
决策树
在机器学习中,随机森林是一个包含多个决策树的分类器, 并且其输出的类别是由个别树输出的类别的众数而定。 Leo Breiman和Adele Cutler发展出推论出随机森林的算法。
假设某购房者看了200套房源的页面,但是只预测看了其中20套房源,我们就可以将这些浏览过的房源标记为两类:会预约、不会预约,然后进行随机森林训练,再接着将数据库中新加入或者浏览次数大的、有条件的话也可以将所有数据都进行一遍预测,看看是能得到会预约的结果,如果会则推荐给该用户,则有更大的成交可能性。当购房者看了更多房源后,通过不断训练,这个预测模型将越来越准确。
4. AI分析:用户画像
通过以上的机器学习方法,对房源进行分析,找出性价比高的,又或者是类似的房源。我们可以思考一下,是否能用同样的技术,然后结合每个用户看的了不同的房源,然后对用户进行归类。
如果其中某些用户最终在我的平台上完成的购房,然后我就可以根据这些用户的看房特征(如浏览时间、浏览时长、观看房源的特征、用户其他的注册信息、预约频率、预约时间等)进行机器学习,然后对系统中其他的用户进行分析,预测这些用户的潜在购房可能,并进行更有针对性的营销。
同时我们也可以按照用户看房内容,对用户进行偏好划分,如看了很久不买的,总看某一类房源的、或者有其他潜在共同特征的,然后聚类区分。最终让运营/中介可以对用户按标签进行“范围攻击”,极大的降低了工作成本。
二、总结
随着大数据及机器学习的不断发展,我相信很快就会有类似的工具面世,由于AI将带来更精准、高效的房屋推荐策略,现在由各家不同的中介凭直觉带着你一套套房子的瞎逛的年代可能一去不复返。
而且现在越来越多房子有VR全景的信息,未来通过机器视觉对房间内部采光、房型设计、房屋新旧状况分析也将变得可能,说不定到时候还能将你对房屋的风格、颜色喜好输入进去,就能推荐适合你的房屋信息。