今日头条今年一口气签了300多个知乎大V,刚把我也签了,而且是给钱的,年收入比普通白领高。签完以后所有内容不可以再发知乎。优质的内容创作者被抢完了,所以知乎的质量每况愈下...
今年 5 月 15 日,知乎算法团队联合中国人工智能学会、 IEEE 计算机协会和 IEEE 中国代表处,发起「知乎看山杯机器学习挑战赛」。大赛以语义分析应用为赛题,对知乎上的内容进行精准的自动化话题标注,以提升知乎的用户体验和提高内容分发效率。
预测出的 5 个话题标签按照预测得分,从大到小排序。
话题标签默认是不重复的。遇到重复的话题标签,只保留次出现,并且其后的标签递补。去重后不满 5 个标签的,其余位置默认为 -1,-1 不和任何话题标签匹配。多于 5 个话题标签的,从第六位往后忽略。
评测标准:
准确率(Precision): 预测出的标签命中了标注标签中的任何一个即视为正确。终的准确率为每个位置上的准确率按位置加权。准确率评测的公式如下: `math Precision = \sum_{pos \in \{1,2,3,4,5\}} \frac {Precision@pos} {log_{pos + 1}} `
召回率(Recall): 预测出的 Top 5 标签中对原有标签的覆盖量。
终评价指标为 Precision 和 Recall 的调和平均数。即:
来自北京邮电大学的 Koala 团队;
来自中科院计算所、Google 和百度的 YesOfCourse 团队;
来自 Microsoft 和北京大学的 NLPFakers 团队;
来自武汉大学、伦敦大学学院(University College London)的 Gower Street & 81 Road 团队;
来自北京邮电大学的 ye 团队;
来自郑州铁路局、同花顺公司、电子科技大学中山学院的 Yin & Bird 团队。
init 团队:TextCNN + TextRNN + RCNN,共享 Embedding 进行联合学习,在模型集成方面,使用多模型、等权重的 Bagging 方法进行集成;在数据预处理方面,使用 delete 和 shuffle 进行数据增强;
Koala 团队:FastText + TextCNN + TextRNN,使用 boosting 的思想对神经网络进行逐层训练,各个网络之间使用加权平均的 bagging 方式;
YesOfCourse 团队:使用 TextCNN + LSTM/GRU + RCNN 作为基模型,并且利用 GBRank 融合多个神经网络的输出;
NLPFakers 团队:使用 TextCNN + RNN + RCNN 作为基模型,利用线性加权进行模型集成;在神经网络训练中使用了 attention 机制;
Gower Street & 81 Road 团队:使用 RNN 神经网络作为基础模型,并且将 Query-TopicTitle 的相似度与神经网络进行联合训练。终使用 Bagging with Ensemble Selection 作为模型集成策略;
ye 团队:使用 TextCNN + BiGRU 作为基础模型,利用带有权重搜索的 bagging 作模型集成策略;
Yin&Bird 团队:利用 LSTM 和 Bayes 方法作为基础模型,并且利用 stacking 方法进行模型集成。
名的 init 团队,在数据增强方面进行了富有创意的工作。init 团队在进行模型训练的时候,通过 delete 和 shuffle 机制来避免训练结果的过拟合,同时保证模型的差异性。init 团队在提交的评审材料中提到,仅仅通过数据增强机制,训练出来的多模型结果通过等权重的 bagging 方式得到的结果已经能够获得优于第二名结果的表现。
第二名的 Koala 团队,在进行神经网络训练的时候,使用了逐层 boosting 的方法,来提升单个神经网络模型的表现;根据其描述,这个优化可以使多层神经网络的表现提升 1.5 个百分点左右。
第三名的 YesOfCourse 团队将 tag precition 过程转化成了一个 Recall-Rarank 的两步问题;使用大量的神经网络模型来进行召回,并且将神经网络对标签的预测得分作为 GBRank 的特征输入,并且使用 Pairwise 的方式来对标签的排序进行优化,选择排序后的前 5 个标签作为模型的输出。从 YesOfCourse 团队提交的说明中看出,使用 Recall + Rerank 模型得到的结果,相对于 Non-Linear NN Ensemble 的结果,有千分之二以上的提升;同时,YesOfCourse 还尝试使用了多种 Loss Function 和多种 attention 机制来保证模型间的差异性。
第五名的 Gower Street & R1 Road 团队,则将数据提供的 topic 的标题信息利用了起来,使用 RNN + Question-Topic Similarity 信息进行模型的联合训练。将单模型的结果从 0.415 提升到了 0.419,并且使用 20 个模型的 ensemble,终取得了 0.432 的好成绩。
在算法越来越难以取得突破性进展的今天,高质量数据集的重要性进一步凸显。相对于那些大公司,高校学者和独立的开发者想要获得研究数据,更是难上加难。
与此同时,不论是知乎的“看山杯”,还是今日头条和创新工场、搜狗一起联合举行的“AI Challenger”,都通过算法比赛间接地为 AI 社区贡献了大量的数据。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责,本站只提供参考并不构成任何投资及应用建议。本站是一个个人学习交流的平台,网站上部分文章为转载,并不用于任何商业目的,我们已经尽可能的对作者和来源进行了通告,但是能力有限或疏忽,造成漏登,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。