耶鲁文本转SQL

分享给好友

2020-03-26 20:00:00
开始提交

2020-04-27 20:00:00
最终提交结束

自由训练

奖金池 ¥ 3000
参赛权限提示

当前赛题需能力值达到 $vue{itemranking} 才可以正常提交训练哦~

当前赛题仅允许 600 能力值以下的新手可以正常提交训练哦~

报名参赛
  • 赛事介绍
  • 竞赛排行榜
  • 讨论($vue{comment_count})

绑定你的微信账号

用于本地环境登录和实时接收训练通知

打开微信,使用扫一扫功能分享给好友

绑定你的微信账号

用于本地环境登录和实时接收训练通知

温馨提示

$vue{csv_msg}

知道了
提交结果文件

$vue{csvName == '' ? '仅支持上传 CSV 格式的文件' : csvName+' 上传中...'}

$vue{csvName}上传成功
取消 确认提交

提交成功

系统正在测评您的结果文件,

您可通过右侧【我的提交-查看记录详情】进行查看

知道了

大赛简介

本赛题主要是英文文本转SQL任务,要求参赛者建立准确的模型识别自然语言意图达到数据的准确查询。本数据集是由11名耶鲁学生注释的大规模数据,它由200个数据库中的10,181个问题和5,693个唯一复杂SQL查询组成,其中多个表覆盖138个不同的域。

参赛须知

参赛时间:2020.03.26 20:00:00-2020.04.27 20:00:00

参赛方式

  • 方式一:
  • 在线查看样例根据FlyAI样例模版实现算法并使用云端免费GPU进行模型训练获得最终成绩得分
  • 方式二:
  • 下载FlyAI样例模版进行本地调试并提交到云端使用免费GPU进行模型训练获得最终成绩得分,在本地进行代码调试的教程请查看[文档中心]

参赛选手说明

  • 参赛人员身份信息需保证真实、有效,大赛主办方仅将个人信息用于赛事数据授权及颁奖使用
  • 欢迎海内外的在校学生,算法工程师和所有AI爱好者参与
  • 本次竞赛报名形式:以个人形式本地提交作品线上审核,并且以最终提交算法得分作为唯一有效成绩
  • 在比赛截止日期前,团队中成绩最高分作为本团队的最终成绩
  • 报名成功后请加入FlyAI竞赛交流群,一起学习进步!重要通知也将在群内发布,不要错过哦

比赛作品说明

  • 参赛选手需要配合组委会对比赛作品的有效性与真实性进行验证
  • 不同团队/个人,提交相似结果文件,取消双方所有人员参赛资格
  • 多开小号报名、提交,一经发现将取消参赛资格
  • 禁止使用外部链接下载代码替换本项目代码
  • 比赛过程中,通过脚本获取比赛数据,成绩无效
  • 使用线上测试集进行训练或者使用非官方提供的外部数据进行训练,成绩无效
  • 使用的预训练模型需为FlyAI官方审核通过的模型,使用非官方验证预训练模型,成绩无效
  • 提交的代码具备可解释性并且其它开源框架可复现
  • 所有相似代码将一律不通过审核!!情况多次出现者封号处理
  • 如有发现利用非正常手段作弊行为,奖金一律不发放。之前所获得奖金金额官方有权收回,情节严重者封号处理
  • 提交代码即视为阅读并同意以上比赛作品说明

大赛奖项设置

奖项说明:

奖项设置 获奖人数 奖金额度说明(按最终得分评判)
冠军奖 1人 1500元奖金 + 1000分钟Tesla-GPU云端训练时长
亚军奖 1人 800元奖金 + 500分钟Tesla-GPU云端训练时长
季军奖 1人 400元奖金 + 500分钟Tesla-GPU云端训练时长
第四名 1人 200元奖金
第五名 1人 100元奖金

奖励获取要求:

  • 上线时间:2020-03-27
  • 月排名奖结算时间:2020-04-27 20:00:00
  • 奖金获取标准:50<Score 根据排名获得奖金
  • 排名奖发放完毕,前5名参赛者需提供文档格式赛题解决思路和15分钟以上的PPT答辩视频(FlyAI提供模版);审核完毕后,将陆续将竞赛奖金发放至您的FlyAI账户;

赛事主题和数据说明

赛题描述

从IT时代进入到DT时代之后,数据库被视为互联网企业服务最重要的资源。数据库每天存储了大量的生产运营数据,而我们每天也会时时刻刻与数据库进行交互。 一般情况下查询数据库的数据需要使用专业的SQL语句进行查询,这样的查询效率很缓慢,同时对非专业人士来讲门槛太高,即使目前有相关的条件筛选等交互查询界面,但对使用的边界性有一定的限制。使用 NL2SQL 的技术方案,缩短用户与数据库之间的距离,用户可以更自由地表达自己的查询意图,同时减轻目前技术方案的繁琐、开发者的繁琐工作。 本赛题主要是英文文本转SQL任务,要求参赛者建立准确的模型识别自然语言意图达到数据的准确查询。本数据集是由11名耶鲁学生注释的大规模数据,它由200个数据库中的10,181个问题和5,693个唯一复杂SQL查询组成,其中多个表覆盖138个不同的域。

数据来源

TextSQL

数据描述

由于需要提交代码作品在云端进行训练,参赛数据集不对外开放。仅提供调试数据,可通过使用本地调试的方式获取调试数据集。本地调试和提交指南请查看[文档中心]

字段说明:

文件名 字段名称 字段类型 备注 样例
train.csv sql_data string sql数据 文本
table_data string table数据 文本
sql string 需要预测的sql 文本
validation.csv sql_data string sql数据 文本
table_data string table数据 文本
sql string 需要预测的sql 文本

评审标准

算法输入输出格式

系统评估时,要求参赛者必须在predict方法中接收到输入和评估返回的结果输出,格式如下所示。

输入字段:

{
    "sql_data": "文本",
    "table_data": "文本"
}

输出字段:

{
    "sql": "文本"
}

评审指标说明

  • 准确率(Accuracy):对于给定的测试数据集,预测正确的样本数与实际总样本数之比
  • True,表示预测正确的样本数数量
  • Total Number of Samples,表示实际总样本数数量
  • 计算公式如下:

比赛常见问题说明

Q:比赛使用什么框架?

  • 比赛支持常用的机器学习和深度学习框架,比如TensorFlow,PyTorch,Keras,Scikit-learn、MXNet等。

Q:怎么参加比赛,需不需要提交CSV文件?

  • FlyAI竞赛平台提供免费云端GPU资源,报名后可以使用自己熟练的框架,修改main.py中的网络结构和processor.py中的数据处理;仅部分赛题支持CSV方式提交,请仔细阅读参赛方式相关内容。

Q:比赛排行榜分数怎么得到的?

  • 参加项目竞赛必须实现prediction.py中的load_model和predict方法。系统使用这些方法评估模型算出评分。

$vue{item.rank_name}

超过 50分 的成绩会在48小时内更新到排行榜,不要着急哦!
第三名

提供者:sakuranew

batch数据为500,循环次数为32次,通过在线上环境完成训练,模型最优精度评分为76.13。

PyTorch

SQLNet

2020-04-27 15:07:44

76.13

大神经验
第三名

提供者:Honay, King

batch数据为64,循环次数为25次,通过在线上环境完成训练,模型最优精度评分为27.32。

PyTorch

SQLNet

2020-04-27 13:25:37

27.32

第三名

提供者:FlyAI小助手

batch数据为32,循环次数为1次,通过在线上环境完成训练,模型最优精度评分为0.00。

PyTorch

SQLNet

2020-03-26 20:37:04

0.00

4

提供者:变向怪杰

batch数据为128,循环次数为50次,通过在线上环境完成训练,模型最优精度评分为0.00。

2020-03-27 16:54:48

0.00

5

提供者:酸叽叽

batch数据为64,循环次数为30次,通过在线上环境完成训练,模型最优精度评分为0.00。

2020-03-27 17:25:24

0.00

6

提供者:咖啡猫爱美丽

batch数据为64,循环次数为30次,通过在线上环境完成训练,模型最优精度评分为0.00。

2020-03-27 21:55:39

0.00

7

提供者:chenfengshf

batch数据为64,循环次数为1次,通过在线上环境完成训练,模型最优精度评分为0.00。

PyTorch

sqlnet

2020-03-28 10:47:58

0.00

8

提供者:Violety

batch数据为64,循环次数为30次,通过在线上环境完成训练,模型最优精度评分为0.00。

2020-03-28 12:13:56

0.00

9

提供者:ai1575436938

batch数据为64,循环次数为30次,通过在线上环境完成训练,模型最优精度评分为0.00。

2020-03-28 17:47:04

0.00

10

提供者:炫云

batch数据为64,循环次数为30次,通过在线上环境完成训练,模型最优精度评分为0.00。

2020-03-28 17:47:56

0.00

11

提供者:乐乐乐

batch数据为64,循环次数为30次,通过在线上环境完成训练,模型最优精度评分为0.00。

2020-03-29 20:30:11

0.00

12

提供者:玖月初识

batch数据为64,循环次数为30次,通过在线上环境完成训练,模型最优精度评分为0.00。

2020-04-01 16:01:56

0.00

13

提供者:乔Tutu

batch数据为64,循环次数为30次,通过在线上环境完成训练,模型最优精度评分为0.00。

2020-04-01 20:00:33

0.00

14

提供者:吴彦祖

batch数据为500,循环次数为32次,通过在线上环境完成训练,模型最优精度评分为0.00。

PyTorch

SQLNet

2020-04-02 16:23:05

0.00

15

提供者:wmqian

batch数据为64,循环次数为30次,通过在线上环境完成训练,模型最优精度评分为0.00。

2020-04-02 22:07:46

0.00

16

提供者:Albert chen

batch数据为64,循环次数为30次,通过在线上环境完成训练,模型最优精度评分为0.00。

2020-04-04 19:18:48

0.00

17

提供者:小泽1571734307

batch数据为64,循环次数为30次,通过在线上环境完成训练,模型最优精度评分为0.00。

2020-04-05 22:25:40

0.00

18

提供者:Optimus Prime

batch数据为64,循环次数为30次,通过在线上环境完成训练,模型最优精度评分为0.00。

2020-04-06 10:54:34

0.00

19

提供者:flyai会员1586156878

batch数据为64,循环次数为30次,通过在线上环境完成训练,模型最优精度评分为0.00。

2020-04-06 15:10:29

0.00

20

提供者:123abc

batch数据为64,循环次数为30次,通过在线上环境完成训练,模型最优精度评分为0.00。

2020-04-08 09:09:03

0.00

21

提供者:王鹏1572336692

batch数据为64,循环次数为30次,通过在线上环境完成训练,模型最优精度评分为0.00。

2020-04-08 17:35:13

0.00

22

提供者:flyai会员1586852882

batch数据为64,循环次数为30次,通过在线上环境完成训练,模型最优精度评分为0.00。

2020-04-14 16:33:29

0.00

23

提供者:AIislook

batch数据为64,循环次数为30次,通过在线上环境完成训练,模型最优精度评分为0.00。

2020-04-17 10:40:52

0.00

讨论
500字
表情
每日优质讨论奖励 20FAI
发送
每日优质讨论奖励 20FAI
删除确认
是否删除该条评论?
取消 删除

挑战者大赛 官方交流群

我的记录

你还没有任何提交记录喔...

使用指南

  • windows客户端
  • windows命令行
  • Mac/Linux

1.进入代码编辑页下载当前代码

2.本地解压缩代码包文件,双击执行 flyai.exe 程序

第一次使用需要使用微信扫码登录 杀毒软件可能会误报,点击信任该程序即可

3.开启 FlyAI-Jupyter 代码调试环境

运行flyai.exe程序,点击"使用jupyter调试"按钮自动打开jupyter lab 操作界面

运行 run main.py 命令即可在本地训练调试代码

如果出现 No Model Name "xxx"错误,需在 requirements.txt 填写项目依赖

4.下载本地测试数据

运行flyai.exe程序,点击"下载数据"按钮,程序会下载100条调试数据

5.提交训练到GPU

运行flyai.exe程序,点击"提交GPU训练"按钮,代码将自动提交到云端GPU进行训练

返回sucess状态,代表提交离线训练成功,训练结束会以微信和邮件的形式发送结果通知

项目中有新的Python包引用,必须在 requirements.txt 文件中指定包名,不填写版本号将默认安装最新版

更多参赛帮助请查看文档中心

1.进入代码编辑页下载当前代码

2.打开运行,输入cmd,打开终端

Win+R 输入 cmd

3.使用终端进入到项目的根目录下

cd path\to\project

4.开启 FlyAI-Jupyter 代码调试环境

在终端执行命令 flyai.exe ide 打开调试环境(第一次使用需要使用微信扫码登录)

操作过程有延迟,请耐心等待

运行 run main.py 命令即可在本地训练调试代码

如果出现 No Model Name "xxx"错误,需在 requirements.txt 填写项目依赖

5.提交训练到GPU

在FlyAI-Jupyter环境下运行 !flyai.exe train 将代码提交到云端GPU免费训练

返回sucess状态,代表提交离线训练成功,训练结束会以微信和邮件的形式发送结果通知

项目中有新的Python包引用,必须在 requirements.txt 文件中指定包名,不填写版本号将默认安装最新版

6.下载本地测试数据

首次成功执行本地调试命令后,将在本地代码包中自动生成"data"数据集文件夹

7.使用自己的Python环境

flyai.exe path=xxx 可以设置自己的Python路径

flyai.exe path=flyai 恢复系统默认Pyton路径

更多参赛帮助请查看文档中心

1.进入代码编辑页下载当前代码

2.使用终端进入到项目的根目录下

cd path\to\project

3.初始化环境登录

使用如下命令授权 flyai 脚本: chmod +x ./flyai

4.开启 Jupyter 代码调试环境

在终端执行命令 ./flyai ide 打开调试环境(第一次使用需要使用微信扫码登录) 操作过程有延迟,请耐心等待

运行 run main.py 命令即可在本地训练调试代码

如果出现 No Model Name "xxx"错误,需在 requirements.txt 填写项目依赖

或使用终端

执行下列命令本地安装环境并调试

./flyai test 注意:如果出现 permission denied 错误,需使用sudo运行

如果出现 No Model Name "xxx"错误,需在 requirements.txt 填写项目依赖

执行test命令,会自动下载100条测试数据到项目下

如果使用本地IDE开发,可以自行安装 requirements.txt 中的依赖,运行 main.py 即可

5.提交训练到GPU

在FlyAI-Jupyter环境下运行 !./flyai train 将代码提交到云端GPU免费训练 返回sucess状态,代表提交离线训练成功,训练结束会以微信和邮件的形式发送结果通知

或者在终端下使用 ./flyai train -b=32 -e=10

项目中有新的Python包引用,必须在 requirements.txt 文件中指定包名,不填写版本号将默认安装最新版

6.下载本地测试数据

首次成功执行本地调试命令后,将在本地代码包中自动生成"data"数据集文件夹

7.使用自己的Python环境

./flyai path=xxx 可以设置自己的Python路径

./flyai path=flyai 恢复系统默认Pyton路径

更多参赛帮助请查看文档中心