耶鲁文本转SQL

分享给好友

2020-03-26 20:00:00
开始提交

2020-04-27 20:00:00
最终提交结束

自由训练

奖金池 ¥ 3000
参赛权限提示

当前赛题需能力值达到 $vue{itemranking} 才可以正常提交训练哦~

当前赛题仅允许 600 能力值以下的新手可以正常提交训练哦~

报名参赛

下载当前代码

您可使用自己熟悉的编辑器实现算法并通过命令行
提交任务到FlyAI云端训练。确认下载体验吗?

$vue{upDataType ? '上传样例压缩包' : '上传代码压缩包' }

请将代码文件压缩为zip格式,文件大小不超过10M 提示:请确认删除"data"⽂件夹后进行上传操作

将文件拖拽至此处或点击此处选择文件

$vue{complete < 99 ? '上传中' : '上传完成'} $vue{complete}

$vue{fileName}
线上GPU运行环境:
FlyAl推荐如下配置,如有问题可手动添加或修改!

GPU环境

深度学习框架

其它依赖

提交
提交

提交确认

设置好参数后点击“确定“发布GPU训练任务

EPOCHS

BATCH SIZE

绑定你的微信账号

用于本地环境登录和实时接收训练通知

打开微信,使用扫一扫功能分享给好友

绑定你的微信账号

用于本地环境登录和实时接收训练通知

温馨提示

$vue{csv_msg}

知道了
提交结果文件

$vue{csvName == '' ? '仅支持上传 CSV 格式的文件' : csvName+' 上传中...'}

$vue{csvName}上传成功
取消 确认提交

提交成功

系统正在测评您的结果文件,

您可通过右侧【我的提交-查看记录详情】进行查看

知道了
  • 赛事介绍
  • 竞赛排行榜
  • 讨论($vue{comment_count})
  • 学习资源

$vue{item.rank_name}

大赛简介

本赛题主要是英文文本转SQL任务,要求参赛者建立准确的模型识别自然语言意图达到数据的准确查询。本数据集是由11名耶鲁学生注释的大规模数据,它由200个数据库中的10,181个问题和5,693个唯一复杂SQL查询组成,其中多个表覆盖138个不同的域。

参赛须知

参赛时间:2020.03.26 20:00:00-2020.04.27 20:00:00

参赛方式

  • 下载FlyAI样例模版进行本地调试并提交到云端使用免费GPU进行模型训练获得最终成绩得分。

参赛选手说明

  • 参赛人员身份信息需保证真实、有效,大赛主办方仅将个人信息用于赛事数据授权及颁奖使用
  • 欢迎海内外的在校学生,算法工程师和所有AI爱好者参与
  • 本次竞赛报名形式:以个人形式本地提交作品线上审核,并且以最终提交算法得分作为唯一有效成绩
  • 在比赛截止日期前,团队中成绩最高分作为本团队的最终成绩
  • 报名成功后请加入FlyAI竞赛交流群,一起学习进步!重要通知也将在群内发布,不要错过哦

比赛作品说明

  • 参赛选手需要配合组委会对比赛作品的有效性与真实性进行验证
  • 不同团队/个人,提交相似结果文件,取消双方所有人员参赛资格
  • 多开小号报名、提交,一经发现将取消参赛资格
  • 禁止使用外部链接下载代码替换本项目代码
  • 比赛过程中,通过脚本获取比赛数据,成绩无效
  • 使用线上测试集进行训练或者使用非官方提供的外部数据进行训练,成绩无效
  • 使用的预训练模型需为FlyAI官方审核通过的模型,使用非官方验证预训练模型,成绩无效
  • 提交的代码具备可解释性并且其它开源框架可复现
  • 所有相似代码将一律不通过审核!!情况多次出现者封号处理
  • 如有发现利用非正常手段作弊行为,奖金一律不发放。之前所获得奖金金额官方有权收回,情节严重者封号处理
  • 提交代码即视为阅读并同意以上比赛作品说明

大赛奖项设置

奖项说明:

奖项设置 获奖人数 奖金额度说明(按最终得分评判)
冠军奖 1人 1500元奖金 + 1000分钟Tesla-GPU云端训练时长
亚军奖 1人 800元奖金 + 500分钟Tesla-GPU云端训练时长
季军奖 1人 400元奖金 + 500分钟Tesla-GPU云端训练时长
第四名 1人 200元奖金
第五名 1人 100元奖金

奖励获取要求:

  • 上线时间:2020-03-27
  • 月排名奖结算时间:2020-04-27 20:00:00
  • 奖金获取标准:50<Score 根据排名获得奖金
  • 排名奖发放完毕,前5名参赛者需提供文档格式赛题解决思路和15分钟以上的PPT答辩视频(FlyAI提供模版);审核完毕后,将陆续将竞赛奖金发放至您的FlyAI账户;

赛事主题和数据说明

赛题描述

从IT时代进入到DT时代之后,数据库被视为互联网企业服务最重要的资源。数据库每天存储了大量的生产运营数据,而我们每天也会时时刻刻与数据库进行交互。 一般情况下查询数据库的数据需要使用专业的SQL语句进行查询,这样的查询效率很缓慢,同时对非专业人士来讲门槛太高,即使目前有相关的条件筛选等交互查询界面,但对使用的边界性有一定的限制。使用 NL2SQL 的技术方案,缩短用户与数据库之间的距离,用户可以更自由地表达自己的查询意图,同时减轻目前技术方案的繁琐、开发者的繁琐工作。 本赛题主要是英文文本转SQL任务,要求参赛者建立准确的模型识别自然语言意图达到数据的准确查询。本数据集是由11名耶鲁学生注释的大规模数据,它由200个数据库中的10,181个问题和5,693个唯一复杂SQL查询组成,其中多个表覆盖138个不同的域。

数据来源

TextSQL

数据描述

由于需要提交代码作品在云端进行训练,参赛数据集不对外开放。仅提供调试数据。

字段说明:

文件名 字段名称 字段类型 备注 样例
train.csv sql_data string sql数据 文本
table_data string table数据 文本
sql string 需要预测的sql 文本
validation.csv sql_data string sql数据 文本
table_data string table数据 文本
sql string 需要预测的sql 文本

评审标准

算法输入输出格式

系统评估时,要求参赛者必须在predict方法中接收到输入和评估返回的结果输出,格式如下所示。

输入字段:

{
    "sql_data": "文本",
    "table_data": "文本"
}

输出字段:

{
    "sql": "文本"
}

评审指标说明

  • 准确率(Accuracy):对于给定的测试数据集,预测正确的样本数与实际总样本数之比
  • True,表示预测正确的样本数数量
  • Total Number of Samples,表示实际总样本数数量
  • 计算公式如下:

比赛常见问题说明

Q:比赛使用什么框架?

  • 比赛支持常用的机器学习和深度学习框架,比如TensorFlow,PyTorch,Keras,Scikit-learn、MXNet等。

Q:怎么参加比赛,需不需要提交CSV文件?

  • FlyAI竞赛平台提供免费云端GPU资源,报名后可以使用自己熟练的框架,修改main.py中的网络结构和processor.py中的数据处理;仅部分赛题支持CSV方式提交,请仔细阅读参赛方式相关内容。

Q:比赛排行榜分数怎么得到的?

  • 参加项目竞赛必须实现prediction.py中的load_model和predict方法。系统使用这些方法评估模型算出评分。
超过 50分 的成绩会在48小时内更新到排行榜,不要着急哦!
第三名

sakuranew

1500.00

batch数据为500,循环次数为32次,通过在线上环境完成训练,模型最优精度评分为76.13。

2020-04-27 15:07:44

1500.00

76.13

大神经验
第三名

Honay, King

batch数据为64,循环次数为25次,通过在线上环境完成训练,模型最优精度评分为27.32。

2020-04-27 13:25:37

27.32

第三名

FlyAI小助手

batch数据为32,循环次数为1次,通过在线上环境完成训练,模型最优精度评分为0.00。

2020-03-26 20:37:04

0.00

4

变向怪杰

batch数据为128,循环次数为50次,通过在线上环境完成训练,模型最优精度评分为0.00。

2020-03-27 16:54:48

0.00

5

酸叽叽

batch数据为64,循环次数为30次,通过在线上环境完成训练,模型最优精度评分为0.00。

2020-03-27 17:25:24

0.00

6

咖啡猫爱美丽

batch数据为64,循环次数为30次,通过在线上环境完成训练,模型最优精度评分为0.00。

2020-03-27 21:55:39

0.00

7

alwaysbetter

batch数据为64,循环次数为1次,通过在线上环境完成训练,模型最优精度评分为0.00。

2020-03-28 10:47:58

0.00

8

Violety

batch数据为64,循环次数为30次,通过在线上环境完成训练,模型最优精度评分为0.00。

2020-03-28 12:13:56

0.00

9

ai1575436938

batch数据为64,循环次数为30次,通过在线上环境完成训练,模型最优精度评分为0.00。

2020-03-28 17:47:04

0.00

10

炫云

batch数据为64,循环次数为30次,通过在线上环境完成训练,模型最优精度评分为0.00。

2020-03-28 17:47:56

0.00

11

乐乐乐

batch数据为64,循环次数为30次,通过在线上环境完成训练,模型最优精度评分为0.00。

2020-03-29 20:30:11

0.00

12

玖月初识

batch数据为64,循环次数为30次,通过在线上环境完成训练,模型最优精度评分为0.00。

2020-04-01 16:01:56

0.00

13

乔Tutu

batch数据为64,循环次数为30次,通过在线上环境完成训练,模型最优精度评分为0.00。

2020-04-01 20:00:33

0.00

14

吴彦祖

batch数据为500,循环次数为32次,通过在线上环境完成训练,模型最优精度评分为0.00。

2020-04-02 16:23:05

0.00

15

wmqian

batch数据为64,循环次数为30次,通过在线上环境完成训练,模型最优精度评分为0.00。

2020-04-02 22:07:46

0.00

16

Albert chen

batch数据为64,循环次数为30次,通过在线上环境完成训练,模型最优精度评分为0.00。

2020-04-04 19:18:48

0.00

17

小泽1571734307

batch数据为64,循环次数为30次,通过在线上环境完成训练,模型最优精度评分为0.00。

2020-04-05 22:25:40

0.00

18

Optimus Prime

batch数据为64,循环次数为30次,通过在线上环境完成训练,模型最优精度评分为0.00。

2020-04-06 10:54:34

0.00

19

flyai会员1586156878

batch数据为64,循环次数为30次,通过在线上环境完成训练,模型最优精度评分为0.00。

2020-04-06 15:10:29

0.00

20

123abc

batch数据为64,循环次数为30次,通过在线上环境完成训练,模型最优精度评分为0.00。

2020-04-08 09:09:03

0.00

21

newboy112233

batch数据为64,循环次数为30次,通过在线上环境完成训练,模型最优精度评分为0.00。

2020-04-08 17:35:13

0.00

22

flyai会员1586852882

batch数据为64,循环次数为30次,通过在线上环境完成训练,模型最优精度评分为0.00。

2020-04-14 16:33:29

0.00

23

AIislook

batch数据为64,循环次数为30次,通过在线上环境完成训练,模型最优精度评分为0.00。

2020-04-17 10:40:52

0.00

24

Lynnzm

batch数据为64,循环次数为30次,通过在线上环境完成训练,模型最优精度评分为0.00。

2020-04-28 17:35:02

0.00

25

树泉

batch数据为64,循环次数为30次,通过在线上环境完成训练,模型最优精度评分为0.00。

2020-05-01 16:23:15

0.00

26

flyai会员1591228291

batch数据为64,循环次数为30次,通过在线上环境完成训练,模型最优精度评分为0.00。

2020-06-04 07:56:50

0.00

27

AndrewYq

batch数据为64,循环次数为30次,通过在线上环境完成训练,模型最优精度评分为0.00。

2020-10-27 10:23:56

0.00

28

eleve

batch数据为64,循环次数为30次,通过在线上环境完成训练,模型最优精度评分为0.00。

2020-11-29 14:52:08

0.00

29

F.

batch数据为64,循环次数为30次,通过在线上环境完成训练,模型最优精度评分为0.00。

2021-05-10 22:21:28

0.00

30

Sྂcྂoྂtྂtྂ

batch数据为64,循环次数为30次,通过在线上环境完成训练,模型最优精度评分为0.00。

2021-09-30 10:23:27

0.00

讨论
500字
表情
发送
删除确认
是否删除该条评论?
取消 删除
$vue{item.user_name}

$vue{item.title} $vue{item.title}

$vue{items}
$vue{item.like_count}
$vue{item.comment_counts}
$vue{item.comment_counts}
阅读 $vue{item.views}

这里还没有内容哦

挑战者大赛 官方交流群

我的记录

你还没有任何提交记录喔...

  • 参赛流程
  • 常见问题

第一步:参赛选手从FlyAI官网选择比赛报名,需下载样例代码

下载的项目中不包含数据集,运行main.py会自动下载调试数据集

本地调试根据不同数据集会提供10%~100%数据,全量数据提交到GPU后会自动更新替换

下载样例代码,解压后在样例代码上编写自己的模型代码,压缩后再在上传代码位置进行上传,就可以查看自己得分。

第二步:本地代码调试

本地配置Python3.5以上的运行环境,并安装项目运行所需的Python依赖包 app.json是项目的配置文件

在main.py中编写神经网络,没有框架限制

在prediction.py测试模型是否评估成功

main.py中需在class Main(FlyAI) 类中实现自己的训练过程

第三步:提交到GPU训练,保存模型

本地调试完成之后,提交代码到GPU,在全量数据上训练模型,保存最优模型。

提交GPU的方式有:网站在线提交。

第四步:评估模型,获取奖金,实时提现

GPU训练完成后,会调用prediction.py中的predict方法进行评估,并给出最后得分

高分的参赛选手,可实时获取奖金,通过微信提现

Q:如何获得奖金?

A:超过项目设置的最低分,根据公式计算,就可以获得奖金。

Q:比赛使用什么框架?

A:比赛支持常用的机器学习和深度学习框架,比如TensorFlow,PyTorch,Keras,Scikit-learn等。

Q:怎么参加比赛,需不需要提交csv文件?

A:FlyAI竞赛平台无需提交csv文件,在网页上点击报名,下载项目,使用你熟练的框架,修改main.py中的网络结构和数据处理,在prediction.py中进行加载模型及预测。将代码文件压缩为.zip格式,文件大小不超过10M,之后在网站进行在线提交就可以了。

Q:比赛排行榜分数怎么得到的?

A:参加项目竞赛必须实现 prediction.py 中的predict方法。调用模型得出评分。

Q:平台机器什么配置?

A:目前每个训练独占一块V100显卡,显存10G。

Q:本地数据集在哪?

A:可以本地使用ide运行 main.py 下载数据。

Q:FAI训练积分不够用怎么办?

A:目前GPU免费使用,可以进入到:我的积分,通过签到和分享等途径获得大量积分。

Q:离线训练代码不符合规范问题?

A:main.py中可以使用args.EPOCHS和args.BATCH。