Quora-检测两个问题是否重复

分享给好友

2019-04-25 15:00:00
开始提交

2019-05-25 15:00:00
最终提交结束

自由训练

剩余奖金 ¥ 1,757
报名参赛
  • 赛事介绍
  • 竞赛排行榜
  • 奖金记录
  • 讨论(0)
  • 学习资源

大赛简介

此数据集是Quora网站公开的数据集,包含了40万条数据。每条数据由两个看起来相似的问题及问题是否重复的标签组成。该数据集可用来训练具有判断能力的NLP模型。

参赛须知

参赛时间: 本次竞赛无时间限制,长期有效开放

参赛方式

  • 下载FlyAI样例模版进行本地调试并提交到云端使用免费GPU进行模型训练获得最终成绩得分。

参赛选手说明

  • 参赛人员身份信息需保证真实、有效,大赛主办方仅将个人信息用于赛事数据授权及颁奖使用
  • 欢迎海内外的在校学生,算法工程师和所有AI爱好者参与
  • 本次竞赛报名形式:以个人形式本地提交作品线上审核,并且以最终提交算法得分作为唯一有效成绩
  • 在比赛截止日期前,团队中成绩最高分作为本团队的最终成绩
  • 报名成功后请加入FlyAI竞赛交流群,一起学习进步!重要通知也将在群内发布,不要错过哦

比赛作品说明

  • 参赛选手需要配合组委会对比赛作品的有效性与真实性进行验证
  • 不同团队/个人,提交相似结果文件,取消双方所有人员参赛资格
  • 多开小号报名、提交,一经发现将取消参赛资格
  • 禁止使用外部链接下载代码替换本项目代码
  • 比赛过程中,通过脚本获取比赛数据,成绩无效
  • 使用线上测试集进行训练或者使用非官方提供的外部数据进行训练,成绩无效
  • 使用的预训练模型需为FlyAI官方审核通过的模型,使用非官方验证预训练模型,成绩无效
  • 提交的代码具备可解释性并且其它开源框架可复现
  • 所有相似代码将一律不通过审核!!情况多次出现者封号处理
  • 如有发现利用非正常手段作弊行为,奖金一律不发放。之前所获得奖金金额官方有权收回,情节严重者封号处理
  • 提交代码即视为阅读并同意以上比赛作品说明

大赛奖项设置

奖项说明:

奖项设置 获奖人数 奖金额度说明(按最终得分评判)
参与奖(总奖金30%) 所有人 不同得分区间获得相应的竞赛奖金
突破奖(总奖金20%) 所有人 更新排行榜得分,获取相应竞赛奖金
排名奖(总奖金50%) 第一周/月前3名(冠、亚、季军) 项目上线第一周、第一个月; Time_P(周) = 0.5,Time_P(月) = 0.5;K1=0.5,K2=0.3,K3=0.2;
不同框架奖励 所有人 获得60FAI币用于GPU训练资源消耗

赛事主题和数据说明

赛题描述

通过实现算法并提交训练,获取奖金池奖金。小提示:抢先更新算法排行榜,有更大机会获取高额奖金哦!

数据来源

DuplicatedQusetions

数据描述

由于需要提交代码作品在云端进行训练,参赛数据集不对外开放。仅提供调试数据。

字段说明:

文件名 字段名称 字段类型 备注
question1 string 不为空 第一个问题
question2 string 不为空 第二个问题
labels int 大于等于 0, 小于等于 1 问题是否重复

参考文献:

[1]http://qim.ec.quoracdn.net/quora_duplicate_questions.tsv

评审标准

算法输入输出格式

输入字段: question1, question2,

输出字段: labels,

评审指标说明

  • 准确率(Accuracy):对于给定的测试数据集,预测正确的样本数与实际总样本数之比
  • True,表示预测正确的样本数数量
  • Total Number of Samples,表示实际总样本数数量
  • 计算公式如下:

比赛常见问题说明

Q:比赛使用什么框架?

  • 比赛支持常用的机器学习和深度学习框架,比如TensorFlow,PyTorch,Keras,Scikit-learn、MXNet等。

Q:怎么参加比赛,需不需要提交CSV文件?

  • FlyAI竞赛平台提供免费云端GPU资源,报名后可以使用自己熟练的框架,修改main.py中的网络结构和processor.py中的数据处理;仅部分赛题支持CSV方式提交,请仔细阅读参赛方式相关内容。

Q:比赛排行榜分数怎么得到的?

  • 参加项目竞赛必须实现 model.py 中的predict_all方法。系统通过该方法,调用模型得出评分。

挑战者大赛 官方交流群

我的记录

你还没有任何提交记录喔...

  • 参赛流程
  • 常见问题

第一步:参赛选手从FlyAI官网选择比赛报名,需下载样例代码

下载的项目中不包含数据集,运行main.py会自动下载调试数据集

本地调试根据不同数据集会提供10%~100%数据,全量数据提交到GPU后会自动更新替换

下载样例代码,解压后在样例代码上编写自己的模型代码,压缩后再在上传代码位置进行上传,就可以查看自己得分。

第二步:本地代码调试

本地配置Python3.5以上的运行环境,并安装项目运行所需的Python依赖包 app.json是项目的配置文件

在main.py中编写神经网络,没有框架限制

在prediction.py测试模型是否评估成功

main.py中需在class Main(FlyAI) 类中实现自己的训练过程

第三步:提交到GPU训练,保存模型

本地调试完成之后,提交代码到GPU,在全量数据上训练模型,保存最优模型。

提交GPU的方式有:网站在线提交。

第四步:评估模型,获取奖金,实时提现

GPU训练完成后,会调用prediction.py中的predict方法进行评估,并给出最后得分

高分的参赛选手,可实时获取奖金,通过微信提现