Quora-检测两个问题是否重复

分享给好友

2019-04-25 15:00:00
开始提交

2019-05-25 15:00:00
最终提交结束

自由训练

剩余奖金 ¥ 1,757
参赛权限提示

当前赛题需能力值达到 $vue{itemranking} 才可以正常提交训练哦~

当前赛题仅允许 600 能力值以下的新手可以正常提交训练哦~

报名参赛

下载当前代码

您可使用自己熟悉的编辑器实现算法并通过命令行
提交任务到FlyAI云端训练。确认下载体验吗?

$vue{upDataType ? '上传样例压缩包' : '上传代码压缩包' }

请将代码文件压缩为zip格式,文件大小不超过10M 提示:请确认删除"data"⽂件夹后进行上传操作

将文件拖拽至此处或点击此处选择文件

$vue{complete < 99 ? '上传中' : '上传完成'} $vue{complete}

$vue{fileName}
线上GPU运行环境:
FlyAl推荐如下配置,如有问题可手动添加或修改!

GPU环境

深度学习框架

其它依赖

提交
提交

提交确认

设置好参数后点击“确定“发布GPU训练任务

EPOCHS

BATCH SIZE

绑定你的微信账号

用于本地环境登录和实时接收训练通知

打开微信,使用扫一扫功能分享给好友

绑定你的微信账号

用于本地环境登录和实时接收训练通知

温馨提示

$vue{csv_msg}

知道了
提交结果文件

$vue{csvName == '' ? '仅支持上传 CSV 格式的文件' : csvName+' 上传中...'}

$vue{csvName}上传成功
取消 确认提交

提交成功

系统正在测评您的结果文件,

您可通过右侧【我的提交-查看记录详情】进行查看

知道了
  • 赛事介绍
  • 竞赛排行榜
  • 奖金记录
  • 讨论($vue{comment_count})
  • 学习资源

$vue{item.rank_name}

大赛简介

此数据集是Quora网站公开的数据集,包含了40万条数据。每条数据由两个看起来相似的问题及问题是否重复的标签组成。该数据集可用来训练具有判断能力的NLP模型。

参赛须知

参赛时间: 本次竞赛无时间限制,长期有效开放

参赛方式

  • 下载FlyAI样例模版进行本地调试并提交到云端使用免费GPU进行模型训练获得最终成绩得分。

参赛选手说明

  • 参赛人员身份信息需保证真实、有效,大赛主办方仅将个人信息用于赛事数据授权及颁奖使用
  • 欢迎海内外的在校学生,算法工程师和所有AI爱好者参与
  • 本次竞赛报名形式:以个人形式本地提交作品线上审核,并且以最终提交算法得分作为唯一有效成绩
  • 在比赛截止日期前,团队中成绩最高分作为本团队的最终成绩
  • 报名成功后请加入FlyAI竞赛交流群,一起学习进步!重要通知也将在群内发布,不要错过哦

比赛作品说明

  • 参赛选手需要配合组委会对比赛作品的有效性与真实性进行验证
  • 不同团队/个人,提交相似结果文件,取消双方所有人员参赛资格
  • 多开小号报名、提交,一经发现将取消参赛资格
  • 禁止使用外部链接下载代码替换本项目代码
  • 比赛过程中,通过脚本获取比赛数据,成绩无效
  • 使用线上测试集进行训练或者使用非官方提供的外部数据进行训练,成绩无效
  • 使用的预训练模型需为FlyAI官方审核通过的模型,使用非官方验证预训练模型,成绩无效
  • 提交的代码具备可解释性并且其它开源框架可复现
  • 所有相似代码将一律不通过审核!!情况多次出现者封号处理
  • 如有发现利用非正常手段作弊行为,奖金一律不发放。之前所获得奖金金额官方有权收回,情节严重者封号处理
  • 提交代码即视为阅读并同意以上比赛作品说明

大赛奖项设置

奖项说明:

奖项设置 获奖人数 奖金额度说明(按最终得分评判)
参与奖(总奖金30%) 所有人 不同得分区间获得相应的竞赛奖金
突破奖(总奖金20%) 所有人 更新排行榜得分,获取相应竞赛奖金
排名奖(总奖金50%) 第一周/月前3名(冠、亚、季军) 项目上线第一周、第一个月; Time_P(周) = 0.5,Time_P(月) = 0.5;K1=0.5,K2=0.3,K3=0.2;
不同框架奖励 所有人 获得60FAI币用于GPU训练资源消耗

赛事主题和数据说明

赛题描述

通过实现算法并提交训练,获取奖金池奖金。小提示:抢先更新算法排行榜,有更大机会获取高额奖金哦!

数据来源

DuplicatedQusetions

数据描述

由于需要提交代码作品在云端进行训练,参赛数据集不对外开放。仅提供调试数据。

字段说明:

文件名 字段名称 字段类型 备注
question1 string 不为空 第一个问题
question2 string 不为空 第二个问题
labels int 大于等于 0, 小于等于 1 问题是否重复

参考文献:

[1]http://qim.ec.quoracdn.net/quora_duplicate_questions.tsv

评审标准

算法输入输出格式

输入字段: question1, question2,

输出字段: labels,

评审指标说明

  • 准确率(Accuracy):对于给定的测试数据集,预测正确的样本数与实际总样本数之比
  • True,表示预测正确的样本数数量
  • Total Number of Samples,表示实际总样本数数量
  • 计算公式如下:

比赛常见问题说明

Q:比赛使用什么框架?

  • 比赛支持常用的机器学习和深度学习框架,比如TensorFlow,PyTorch,Keras,Scikit-learn、MXNet等。

Q:怎么参加比赛,需不需要提交CSV文件?

  • FlyAI竞赛平台提供免费云端GPU资源,报名后可以使用自己熟练的框架,修改main.py中的网络结构和processor.py中的数据处理;仅部分赛题支持CSV方式提交,请仔细阅读参赛方式相关内容。

Q:比赛排行榜分数怎么得到的?

  • 参加项目竞赛必须实现 model.py 中的predict_all方法。系统通过该方法,调用模型得出评分。
超过 80分 的成绩会在48小时内更新到排行榜,不要着急哦!
第三名

凉心半浅良心人

64.75

batch数据为64,循环次数为3次,通过在线上环境完成训练,模型最优精度评分为90.23。

2019-07-27 15:47:11

64.75

90.23

第三名

alwaysbetter

4.22

batch数据为32,循环次数为10次,通过在线上环境完成训练,模型最优精度评分为89.10。

2019-10-11 00:51:32

4.22

89.10

第三名

NLP-Learner

147.50

batch数据为128,循环次数为4次,通过在线上环境完成训练,模型最优精度评分为88.87。

2019-06-05 11:18:46

147.50

88.87

4

唱跳RAP打篮球

636.00

batch数据为512,循环次数为100次,通过在线上环境完成训练,模型最优精度评分为87.58。

2019-04-28 21:39:30

636.00

87.58

5

liuchenxu

2.25

batch数据为256,循环次数为300次,通过在线上环境完成训练,模型最优精度评分为83.37。

2019-11-29 06:37:56

2.25

83.37

6

SHUU

4.50

batch数据为32,循环次数为5次,通过在线上环境完成训练,模型最优精度评分为82.89。

2019-11-27 12:15:10

4.50

82.89

7

未名湖畔的落叶

9.00

batch数据为32,循环次数为32次,通过在线上环境完成训练,模型最优精度评分为82.24。

2019-07-23 19:38:05

9.00

82.24

8

cyh12315

1.13

batch数据为128,循环次数为50次,通过在线上环境完成训练,模型最优精度评分为81.22。

2020-03-30 18:21:13

1.13

81.22

9

KK1557441412

batch数据为1024,循环次数为5000次,通过在线上环境完成训练,模型最优精度评分为79.92。

2019-05-14 15:49:33

79.92

10

trick_or_treat

batch数据为256,循环次数为6000次,通过在线上环境完成训练,模型最优精度评分为79.87。

2019-04-27 16:05:19

79.87

11

huaiandaieren

batch数据为512,循环次数为6000次,通过在线上环境完成训练,模型最优精度评分为79.51。

2019-05-13 00:03:56

79.51

12

树泉

batch数据为92,循环次数为20次,通过在线上环境完成训练,模型最优精度评分为78.44。

2019-12-28 09:05:04

78.44

13

DaBing

batch数据为6,循环次数为1次,通过在线上环境完成训练,模型最优精度评分为78.20。

2020-03-05 23:46:10

78.20

14

菜菜来了

batch数据为1024,循环次数为3000次,通过在线上环境完成训练,模型最优精度评分为77.53。

2019-05-01 20:59:49

77.53

15

444444

batch数据为48,循环次数为3次,通过在线上环境完成训练,模型最优精度评分为76.19。

2019-06-12 17:48:52

76.19

16

ericleungs

batch数据为32,循环次数为3次,通过在线上环境完成训练,模型最优精度评分为75.82。

2020-02-22 18:54:06

75.82

17

沙雕网友

batch数据为256,循环次数为3000次,通过在线上环境完成训练,模型最优精度评分为75.55。

2019-05-09 03:09:53

75.55

18

某某

batch数据为512,循环次数为512次,通过在线上环境完成训练,模型最优精度评分为75.02。

2019-07-16 23:00:14

75.02

19

www

batch数据为1024,循环次数为6000次,通过在线上环境完成训练,模型最优精度评分为74.19。

2019-04-29 14:54:35

74.19

20

Joshua

batch数据为512,循环次数为8000次,通过在线上环境完成训练,模型最优精度评分为73.83。

2019-04-29 18:41:36

73.83

21

yphacker

batch数据为256,循环次数为6000次,通过在线上环境完成训练,模型最优精度评分为73.75。

2019-04-30 18:44:07

73.75

22

zhiduanqingchang

batch数据为128,循环次数为3000次,通过在线上环境完成训练,模型最优精度评分为73.44。

2019-05-02 06:29:45

73.44

23

Daiccccc

batch数据为256,循环次数为3000次,通过在线上环境完成训练,模型最优精度评分为72.62。

2019-04-26 08:15:36

72.62

24

弱鸡瑟瑟发抖

batch数据为64,循环次数为2000次,通过在线上环境完成训练,模型最优精度评分为71.66。

2020-01-30 03:00:55

71.66

25

ChangeBio

batch数据为64,循环次数为3000次,通过在线上环境完成训练,模型最优精度评分为71.50。

2019-04-30 16:41:09

71.50

26

Notturno

batch数据为128,循环次数为20次,通过在线上环境完成训练,模型最优精度评分为71.16。

2019-06-24 06:02:50

71.16

27

flyai会员1577688705

batch数据为64,循环次数为3次,通过在线上环境完成训练,模型最优精度评分为71.01。

2020-01-07 00:41:55

71.01

28

叫我培基就好了

batch数据为256,循环次数为3000次,通过在线上环境完成训练,模型最优精度评分为70.93。

2019-04-28 11:59:37

70.93

29

hhy

batch数据为256,循环次数为3000次,通过在线上环境完成训练,模型最优精度评分为70.45。

2019-05-03 09:48:04

70.45

30

江枫渔火

batch数据为32,循环次数为2400次,通过在线上环境完成训练,模型最优精度评分为69.98。

2019-04-26 19:10:10

69.98

31

lyming

batch数据为128,循环次数为2000次,通过在线上环境完成训练,模型最优精度评分为68.45。

2019-04-29 20:40:09

68.45

32

杨杨杨

batch数据为64,循环次数为3次,通过在线上环境完成训练,模型最优精度评分为68.33。

2019-08-06 12:41:23

68.33

33

Meowooo

batch数据为64,循环次数为30次,通过在线上环境完成训练,模型最优精度评分为68.33。

2019-09-09 05:45:16

68.33

34

idleuncle

batch数据为128,循环次数为100次,通过在线上环境完成训练,模型最优精度评分为68.33。

2019-09-18 13:09:10

68.33

35

NLPBest

batch数据为64,循环次数为30次,通过在线上环境完成训练,模型最优精度评分为68.33。

2019-10-09 14:36:09

68.33

36

ZZzzD

batch数据为32,循环次数为1次,通过在线上环境完成训练,模型最优精度评分为68.33。

2019-10-23 15:44:36

68.33

37

陈浩

batch数据为500,循环次数为32次,通过在线上环境完成训练,模型最优精度评分为68.33。

2019-11-01 09:05:51

68.33

38

jumb_high

batch数据为32,循环次数为5次,通过在线上环境完成训练,模型最优精度评分为68.33。

2019-11-11 21:11:55

68.33

39

sishiwu

batch数据为64,循环次数为30次,通过在线上环境完成训练,模型最优精度评分为68.33。

2019-11-15 15:57:50

68.33

40

joleo

batch数据为64,循环次数为10次,通过在线上环境完成训练,模型最优精度评分为68.33。

2019-11-24 17:20:07

68.33

41

AzilFlace

batch数据为50,循环次数为50次,通过在线上环境完成训练,模型最优精度评分为68.33。

2019-11-25 09:06:53

68.33

42

RickWang

batch数据为64,循环次数为20次,通过在线上环境完成训练,模型最优精度评分为68.33。

2019-12-07 14:55:17

68.33

43

凌霄@文强

batch数据为32,循环次数为10次,通过在线上环境完成训练,模型最优精度评分为68.33。

2019-12-14 13:04:48

68.33

44

Rose何不言

batch数据为128,循环次数为60次,通过在线上环境完成训练,模型最优精度评分为68.33。

2019-12-18 18:24:57

68.33

45

Ren_xc

batch数据为64,循环次数为5次,通过在线上环境完成训练,模型最优精度评分为68.33。

2019-12-26 22:39:01

68.33

46

WOVERINE

batch数据为128,循环次数为5次,通过在线上环境完成训练,模型最优精度评分为68.33。

2019-12-27 11:02:45

68.33

47

桑染

batch数据为64,循环次数为30次,通过在线上环境完成训练,模型最优精度评分为68.33。

2020-01-02 17:20:23

68.33

48

脸红的思春期

batch数据为64,循环次数为10次,通过在线上环境完成训练,模型最优精度评分为68.33。

2020-01-09 10:29:44

68.33

49

flyai会员1578470410

batch数据为64,循环次数为30次,通过在线上环境完成训练,模型最优精度评分为68.33。

2020-01-15 09:42:18

68.33

50

仲十三

batch数据为64,循环次数为30次,通过在线上环境完成训练,模型最优精度评分为68.33。

2020-01-15 23:49:31

68.33

51

ai1575436938

batch数据为64,循环次数为30次,通过在线上环境完成训练,模型最优精度评分为68.33。

2020-02-19 10:02:26

68.33

52

润°

batch数据为64,循环次数为30次,通过在线上环境完成训练,模型最优精度评分为68.33。

2020-02-25 22:35:54

68.33

53

ck_101

batch数据为64,循环次数为1次,通过在线上环境完成训练,模型最优精度评分为68.33。

2020-02-28 12:36:30

68.33

54

Marvin_Tec

batch数据为128,循环次数为15次,通过在线上环境完成训练,模型最优精度评分为68.33。

2020-02-28 22:24:29

68.33

55

flyai会员1583066740

batch数据为64,循环次数为30次,通过在线上环境完成训练,模型最优精度评分为68.33。

2020-03-01 20:49:25

68.33

56

Elite

batch数据为64,循环次数为20次,通过在线上环境完成训练,模型最优精度评分为68.33。

2020-03-05 23:12:09

68.33

57

flyai会员1582855016

batch数据为64,循环次数为30次,通过在线上环境完成训练,模型最优精度评分为68.33。

2020-03-09 23:38:03

68.33

58

wmqian

batch数据为64,循环次数为1次,通过在线上环境完成训练,模型最优精度评分为68.33。

2020-04-02 21:32:05

68.33

59

ʎuuɥoſ

batch数据为64,循环次数为30次,通过在线上环境完成训练,模型最优精度评分为68.33。

2020-04-15 23:31:11

68.33

60

miss不曾懂

batch数据为64,循环次数为30次,通过在线上环境完成训练,模型最优精度评分为68.33。

2020-04-22 01:49:20

68.33

61

dark

batch数据为64,循环次数为30次,通过在线上环境完成训练,模型最优精度评分为68.33。

2020-04-26 14:26:45

68.33

62

Deep

batch数据为64,循环次数为30次,通过在线上环境完成训练,模型最优精度评分为68.33。

2020-05-02 12:35:20

68.33

63

flyai会员1588429859

batch数据为64,循环次数为30次,通过在线上环境完成训练,模型最优精度评分为68.33。

2020-05-02 22:42:21

68.33

64

flyai会员1598952413

batch数据为64,循环次数为30次,通过在线上环境完成训练,模型最优精度评分为68.33。

2021-02-19 20:11:34

68.33

65

scott1628051513

batch数据为64,循环次数为30次,通过在线上环境完成训练,模型最优精度评分为68.33。

2021-08-04 12:36:32

68.33

66

哇咔咔

batch数据为256,循环次数为500次,通过在线上环境完成训练,模型最优精度评分为67.73。

2019-04-29 23:01:42

67.73

67

打脸啪啪啪

batch数据为128,循环次数为2000次,通过在线上环境完成训练,模型最优精度评分为67.46。

2019-04-30 11:16:15

67.46

68

Songsong

batch数据为512,循环次数为1000次,通过在线上环境完成训练,模型最优精度评分为66.34。

2019-04-29 23:18:03

66.34

69

xinlofi

batch数据为32,循环次数为100次,通过在线上环境完成训练,模型最优精度评分为63.16。

2019-04-27 21:33:11

63.16

70

No.7

batch数据为32,循环次数为10次,通过在线上环境完成训练,模型最优精度评分为63.16。

2019-05-05 17:44:38

63.16

71

夏天好热

batch数据为20,循环次数为32次,通过在线上环境完成训练,模型最优精度评分为63.16。

2019-05-12 15:40:23

63.16

72

心如止水

batch数据为300,循环次数为50次,通过在线上环境完成训练,模型最优精度评分为63.16。

2019-05-15 23:18:45

63.16

73

C

batch数据为256,循环次数为32次,通过在线上环境完成训练,模型最优精度评分为63.16。

2019-06-04 11:33:21

63.16

74

练字不能停

batch数据为1000,循环次数为3000次,通过在线上环境完成训练,模型最优精度评分为63.16。

2019-06-23 22:38:15

63.16

75

王翔

batch数据为32,循环次数为10次,通过在线上环境完成训练,模型最优精度评分为63.16。

2019-07-09 19:48:58

63.16

76

张咸鱼

batch数据为32,循环次数为100次,通过在线上环境完成训练,模型最优精度评分为63.16。

2019-07-10 11:03:55

63.16

77

Godning

batch数据为32,循环次数为5次,通过在线上环境完成训练,模型最优精度评分为63.16。

2019-07-11 15:48:15

63.16

78

JesseYule

batch数据为128,循环次数为30次,通过在线上环境完成训练,模型最优精度评分为63.16。

2019-09-13 21:07:31

63.16

79

丶人狠话不多

batch数据为256,循环次数为5000次,通过在线上环境完成训练,模型最优精度评分为51.05。

2019-04-26 21:09:01

51.05

80

xiaojing

batch数据为2048,循环次数为5次,通过在线上环境完成训练,模型最优精度评分为22.91。

2020-03-06 13:01:35

22.91

2020-03-30
cyh12315

模型得分为80.49,本次获得实时奖励奖金为1.13

2020-03-30 14:17:34

2019-11-29
liuchenxu

模型得分为83.25,本次获得实时奖励奖金为2.25

2019-11-29 10:33:57

2019-11-28
SHUU

模型得分为82.89,本次获得实时奖励奖金为4.5

2019-11-28 14:23:09

2019-10-11
alwaysbetter

模型得分为89.1,本次获得实时奖励奖金为4.22

2019-10-11 14:09:03

2019-07-29
凉心半浅良心人

模型得分为90.23,本次获得实时奖励奖金为6

2019-07-29 14:02:30

凉心半浅良心人

模型得分为89.97,本次获得实时奖励奖金为25

2019-07-29 12:34:19

凉心半浅良心人

模型得分为88.62,本次获得实时奖励奖金为33.75

2019-07-29 11:37:31

2019-07-24
未名湖畔的落叶

模型得分为80.51,本次获得实时奖励奖金为9

2019-07-24 10:54:42

2019-06-06
NLP-Learner

模型得分为88.87,本次获得实时奖励奖金为147.5

2019-06-06 10:46:49

2019-05-25
唱跳RAP打篮球

模型得分为87.58,本次获得排名奖奖金为375

2019-05-25 15:00:02

2019-05-06
唱跳RAP打篮球

模型得分为87.58,本次获得排名奖奖金为225

2019-05-06 15:00:02

2019-04-30
唱跳RAP打篮球

模型得分为84.32,本次获得实时奖励奖金为36

2019-04-30 17:50:36

讨论
500字
表情
发送
删除确认
是否删除该条评论?
取消 删除
$vue{item.user_name}

$vue{item.title} $vue{item.title}

$vue{items}
$vue{item.like_count}
$vue{item.comment_counts}
$vue{item.comment_counts}
阅读 $vue{item.views}

这里还没有内容哦

挑战者大赛 官方交流群

我的记录

你还没有任何提交记录喔...

  • 参赛流程
  • 常见问题

第一步:参赛选手从FlyAI官网选择比赛报名,需下载样例代码

下载的项目中不包含数据集,运行main.py会自动下载调试数据集

本地调试根据不同数据集会提供10%~100%数据,全量数据提交到GPU后会自动更新替换

下载样例代码,解压后在样例代码上编写自己的模型代码,压缩后再在上传代码位置进行上传,就可以查看自己得分。

第二步:本地代码调试

本地配置Python3.5以上的运行环境,并安装项目运行所需的Python依赖包 app.json是项目的配置文件

在main.py中编写神经网络,没有框架限制

在prediction.py测试模型是否评估成功

main.py中需在class Main(FlyAI) 类中实现自己的训练过程

第三步:提交到GPU训练,保存模型

本地调试完成之后,提交代码到GPU,在全量数据上训练模型,保存最优模型。

提交GPU的方式有:网站在线提交。

第四步:评估模型,获取奖金,实时提现

GPU训练完成后,会调用prediction.py中的predict方法进行评估,并给出最后得分

高分的参赛选手,可实时获取奖金,通过微信提现

Q:如何获得奖金?

A:超过项目设置的最低分,根据公式计算,就可以获得奖金。

Q:比赛使用什么框架?

A:比赛支持常用的机器学习和深度学习框架,比如TensorFlow,PyTorch,Keras,Scikit-learn等。

Q:怎么参加比赛,需不需要提交csv文件?

A:FlyAI竞赛平台无需提交csv文件,在网页上点击报名,下载项目,使用你熟练的框架,修改main.py中的网络结构和数据处理,在prediction.py中进行加载模型及预测。将代码文件压缩为.zip格式,文件大小不超过10M,之后在网站进行在线提交就可以了。

Q:比赛排行榜分数怎么得到的?

A:参加项目竞赛必须实现 prediction.py 中的predict方法。调用模型得出评分。

Q:平台机器什么配置?

A:目前每个训练独占一块V100显卡,显存10G。

Q:本地数据集在哪?

A:可以本地使用ide运行 main.py 下载数据。

Q:FAI训练积分不够用怎么办?

A:目前GPU免费使用,可以进入到:我的积分,通过签到和分享等途径获得大量积分。

Q:离线训练代码不符合规范问题?

A:main.py中可以使用args.EPOCHS和args.BATCH。