Dataset之RentListingInquries:RentListingInquries(Kaggle竞赛)数据集的简介、下载、案例应用之详细攻略

Dataset之RentListingInquries:RentListingInquries(Kaggle竞赛)数据集的简介、下载、案例应用之详细攻略

 

 

 

 

目录

RentListingInquries比赛简介

RentListingInquries数据集下载

RentListingInquries案例应用


 

 

 

 

 

RentListingInquries比赛简介

竞赛官网: https://www.kaggle.com/c/two-sigma-connect-rental-listing-inquiries/overview

        RentListingInquries比赛的描述。找到一个完美的地方打电话给你的新家应该比浏览无穷无尽的清单。RentHop通过使用数据对租赁清单的质量进行排序,使公寓搜索更加智能。但是,尽管寻找完美的公寓已经够困难的了,但通过编程来组织和理解所有可用的房地产数据就更难了。二西格玛和二西格玛风投的投资组合公司RentHop,邀请Kagglers在这场独特的招聘竞争中,释放他们的创意引擎,发掘商业价值。
      Two Sigma邀请您在本次招聘竞赛中发挥您的才能。Kagglers将根据列表的创建日期和其他特性预测新列表收到的查询数量。这样做将有助于RentHop更好地处理欺诈控制,识别潜在的上市质量问题,并让业主和代理商更好地了解租户的需求和偏好。
       Two Sigma一直处于将技术和数据科学应用于财务预测的前沿。尽管他们在金融领域的大数据、人工智能和机器学习方面取得的开创性进展,一直在推动该行业向前发展,就像所有其他科学进步一样,他们也受到不断进步的驱动。这一挑战为竞争对手提供了一个先睹为奇的机会,使他们得以在金融领域之外抢先了解二西格玛的数据科学工作。

       这是Kaggle2017年举办的Two Sigma Connect: Rental Listing Inquiries竞赛。在这个竞赛中,你将根据列表内容,如文字描述、照片、卧室数量、价格等,来预测一个公寓租赁清单的受欢迎程度。数据来自renthop.com,一个公寓上市网站。这些公寓位于纽约市。目标变量interest_level由清单在网站上运行期间的查询次数定义。

 

1、数据集介绍

Dataset之RentListingInquries:RentListingInquries(Kaggle竞赛)数据集的简介、下载、案例应用之详细攻略

(1)、File descriptions
train.json - the training set
test.json - the test set
sample_submission.csv - a sample submission file in the correct format
images_sample.zip - listing images organized by listing_id (a sample of 100 listings)
Kaggle-renthop.7z - (optional) listing images organized by listing_id. Total size: 78.5GB compressed. Distributed by BitTorrent (Kaggle-renthop.torrent). 

(2)、Data fields

  • bathrooms: number of bathrooms
  • bedrooms: number of bathrooms
  • building_id
  • created
  • description
  • display_address
  • features: a list of features about this apartment
  • latitude
  • listing_id
  • longitude
  • manager_id
  • photos: a list of photo links. You are welcome to download the pictures yourselves from renthop's site, but they are the same as imgs.zip. 
  • price: in USD
  • street_address
  • interest_level: this is the target variable. It has 3 categories: 'high', 'medium', 'low'

        根据公寓的listing 内容,预测纽约市某公寓租赁listing的受欢迎程度。
标签: interest_level,该listing被咨询的次数。

  • (1)、有三个取值:: 'high', 'medium', 'low'。
  • (2)、是一个多类分类任务。

Listing内容

  • bathrooms、bedrooms:浴室数目、卧室的数目
  • longitude、latitude:地理位置有关
  • display_address、street_address:地址有关
  • building_id、listing_id、manager_id
  • Created:创建日期
  • Description:更多描述信息
  • features: 公寓的一些特征描述
  • photos: a list of photo links
  • price:价格

 

2、比赛排行榜

Dataset之RentListingInquries:RentListingInquries(Kaggle竞赛)数据集的简介、下载、案例应用之详细攻略

 

 

RentListingInquries数据集下载

如有需要,可留言索取

 

 

 

RentListingInquries案例应用

ML之FE:利用FE特征工程对RentListingInquries(Kaggle竞赛)数据集实现房屋感兴趣程度的多分类预测
ML之FE:基于FE特征工程对RentListingInquries数据集进行预处理并导出为三种格式文件(csv格式/txt格式/libsvm稀疏txt格式)