教育经历

中山大学
硕士 - 软件工程
2017.09 - 至今
武汉理工大学
本科 - 软件工程(排名 Top 3.45%)
2013.09 - 2017.06

工作经历

腾讯-SNG 内容平台部-应用研究岗(3 个月实习)
优化 QQ 看点的推送系统算法部分,工作包括模型算法和策略算法部分,目标是提升点击率、人数点击率、DAU(最终目标)、MAU 等。(工作内容及效果暂不公开
    2018.06 - 2018.09

    项目经历

    达观数据于 DataCastle 平台举办。希望对于给定匿名化的长文本的字和词的序列数据,预测其类别。评价指标使用的是 Macro-F1。
    • 在团队中负责子模型提分(提取特征、模型结构创新)、模型融合(Stacking 和 Blending 的集成策略)与最终的答辩展示
    • 最终成绩:分数 0.8047,冠军(1st/3216)
    • 赛后于 GitHub 开源解决方案,目前已获得 122 stars25 forks解决方案
    2018.07 - 2018.09
    腾讯广告算法大赛-相似人群拓展(初赛)
    腾讯举办。希望基于广告主提供的种子人群,自动计算出与之相似的扩展人群。对于给定的用户数据和广告数据,预测该用户是否属于该广告的种子人群。评价指标使用的是 AUC。
    • 只参与初赛,未参与复赛:负责数据分析,数据预处理,挖掘统计特征和表征特征,构建 LightGBM 模型(纯单模型方案)
    • 初赛成绩:排名 10th/1563 (Top 0.64%)
    • 赛后于 GitHub 开源解决方案【GitHub 代码
    2018.04 - 2018.05
    TalkingData 于 Kaggle 平台举办。希望利用用户和 App 广告的基础数据和用户的点击数据,预测本次点击是否是虚假流量,即:用户在本次点击后是否会下载该 App。评价指标使用的是 AUC。
    • 仅耗时 6 天且非全脱产,全程 solo
    • 提供的数据大约 10 G,有超过 1 亿个样本,亿级数据的处理和特征构建
    • 最终成绩:公榜分数 0.9813,私榜分数 0.9822,银牌
    • 赛后于 GitHub 和 Kaggle 开源解决方案,目前已获得 40 stars10 forksGitHub 代码】【Kaggle 方案
    2018.04 - 2018.05
    Conversation AI 于 Kaggle 平台举办。希望对于给定的维基百科的评论文本,预测文本的恶意类别。评价指标使用的是 AUC。
    • 全程 solo:挖掘 TFIDF 特征、统计特征,构造 LightGBM、LR 等传统模型;使用字和词的序列数据训练 TextCNN、GRU、LSTM 等深度学习模型
    • 最终成绩:公榜分数 0.9870,私榜分数 0.9866,铜牌
    2018.02 - 2018.03
    工业和信息化部联合皇包车举办。希望利用用户的信息数据和在 APP 中的行为数据,预测用户是否会在短期内购买精品旅游服务。评价指标使用的是 AUC。
    • 在团队中负责单模型的提分:挖掘基础特征、统计特征、交叉特征和基于序列数据的特征等,构建 LightGBM 模型
    • 最终成绩:分数 0.9727,优胜奖
    • 赛后于 GitHub 开源解决方案【GitHub 代码
    2018.01 - 2018.02
    大数据与计算智能大赛-企业经营退出风险预测
    中国计算机学会(CCF)联合量子数聚举办。希望利用中小型企业的基础数据与行为数据,预测该企业未来两年是否因经营不善而退出市场。评价指标使用的是 AUC。
    • 在团队中负责单模型的提分:挖掘基础特征、统计特征和交叉特征等,构建 XGBoost 模型
    • 复赛 B 榜单模型分数在团队中最优,单模型分数 0.6930
    • 最终成绩:A 榜分数 0.6945,排名 3rd/569,B 榜分数 0.6947,排名 9th/569 (Top 1.58%)
    • 赛后于 GitHub 开源解决方案,目前已获得 51 stars36 forksGitHub 代码
    2017.10 - 2017.12
    大数据与计算智能大赛-让 AI 当法官(初赛)
    中国计算机学会(CCF)联合明略数据举办。希望利用法律案件的案情文本,预测该案件所处的罚金额度范围(初赛)。评价指标使用的是 Micro-F1。
    • 初赛 solo,未参加复赛:对文本数据进行分词和去除停用词等预处理操作,挖掘词性特征和统计特征等,基于 stacking 构建融合模型
    • 比赛中只提交了 2 次,便达到分数 0.4503
    • 初赛成绩:A 榜分数 0.4503,排名 5th/415,B 榜分数 0.4573,排名 7th/415 (Top 1.68%)
    • 赛后于 GitHub 开源解决方案,目前已获得 122 stars62 forksGitHub 代码
    2017.10 - 2017.11
    一个集成了 SpringBoot、MyBatis 和 Spring Security OAuth 的 REST 的后端框架,旨在解决真实情况中配置繁杂的问题。
    • 唯一负责人:需求、研发、文档和开源
    • 组件高内聚低耦合,提供性能监控与资源保护,注重代码风格
    • 开源后收到良好的反响,目前已获得 291 stars144 forksGitHub 代码
    2016.11 - 2017.03
    武汉政府与武汉理工大学的合作项目,旨在为武汉地铁施工提供预警管理。
    • 核心程序员:负责与产品经理的需求对接,判断需求的合理性与可行性,量化研发工作,独立完成各个模块的实现
    • 基于 Spring + SpringMVC + MyBatis 构建低耦合高内聚的后端架构,独立完成风险、隐患、整改、公告、日报和周报等多个消息模块的后端研发
    2016.05 - 2016.10
    安赛斯基因分析系统
    安赛斯公司的生物信息分析平台,旨在让医学专家能更灵活精确地分析基因突变信息。
    • 核心测试人员(白盒+黑盒):负责理解需求后编写测试用例,对研发人员的程序进行白盒和黑盒测试
    • 黑盒测试:使用自动化测试技术,编写测试用例脚本,实现自动化测试
    • 白盒测试:检查研发人员的代码,识别代码中的漏洞
    2015.07 - 2015.09

    荣誉奖项

    CHIP 2018 - 平安医疗科技智能患者健康咨询问句匹配大赛季军
    2018.11
    “达观杯”文本智能处理挑战赛冠军(排名:1st/3216
    2018.09
    Kaggle - TalkingData AdTracking Fraud Detection Challenge 银牌
    2018.05
    Kaggle - Toxic Comment Classification Challenge 铜牌
    2018.03
    第二届智慧中国杯“精品旅游服务成单预测”优胜奖
    2018.02
    武汉理工大学优秀本科毕业生
    2017.04
    国家奖学金(排名:1st/203
    2016.11
    校一等奖学金、校优秀学生干部-标兵级(排名:1st/203
    2016.11
    美国大学生数学建模竞赛 Honorable Mention Award(二等奖)
    2016.04
    第七届蓝桥杯程序设计大赛 Java 组 A 组省二等奖
    2016.03
    校一等奖学金、校三好学生(排名:2nd/203
    2015.11
    校三等奖学金、院三好学生
    2014.11

    个人技能

    • 英语等级:CET-6,能无障碍流畅阅读英文学术论文、技术文档
    • 编程语言:Python, Java, C/C++, Matlab, HTML/CSS/Javascript
    • 机器学习:掌握常用的机器学习方法原理,例如:逻辑回归、支持向量机、决策树等
    • 数据挖掘:熟悉 NumPy, Pandas, scikit-learn, XGBoost, LightGBM 等常用数据挖掘算法库
    编程语言掌握情况:
    Python
    Java
    C/C++
    Matlab
    HTML/CSS/Javascript

    研究方向

    数据挖掘、机器学习和自然语言处理