2021-05-25 10:40:20 来源 : 中关村在线
上周末,知乎联合清华大学正式达成合作。
二者正式对外开放基于知乎的大规模富文本查询和推荐数据集“ZhihuRec”。此数据集里包含了知乎中上亿个行文数据,这也是目前国内个性化数据集中,最大的实际交互数据集。
作为一个大型数据集,ZhihuRec具有社交化问答场景中的详细信息,覆盖了知乎10天内、79.8万用户、16.5万个问题、55.4万个回答、24万个作者、7万话题以及50.1万用户搜索行为日志,保留了完整的用户交互(例如点击、跳过、搜索等)、时机和内容信息,且所有数据均经过脱敏处理。
该数据集可用于评估常规top-N推荐、顺序推荐和上下文感知推荐中的算法应用,还可用于集成搜索和推荐以及带有负反馈的推荐。 此外,该数据集不仅可以用于推荐研究,还可以应用于用户建模(例如,性别预测,用户兴趣预测),搜索和推荐系统的组合以及其他有趣的主题。