参赛准备
# ABC 赛题准备
# A 题偏向物理/工程类
- 专业性较强,往往有标准答案,非本专业不建议选择
- 需要更具物理定理使用微分方程和偏微分方程模型
- 神经网络/遗传算法等求较优解的启发式算法一般不适用
# B 题题型不定
# C 题偏向经管/运筹/统计/数据分析类
- 赛题比较开放易读懂
- 运筹优化类问题一般没有严格最优解
- 数据往往需要自己找
# 检索技巧
# 完全匹配搜索:查询词的外边加上双引号 “”
# 标题包含关键词:查词前加上intitle:
# 查询词后空格再输入 filetype:文件格式(doc/pdf)
# 查询词后面加空格后加减号与关键字
例如:线性规划 filetype:pdf -百度文库
# 查文献
# 知网
先看硕博士论文
按照被引率排序
使用高级检索:
# 谷歌学术
# Open Access Library
# 找数据
# 优先在知网,谷歌学术等平台搜索
# 国家统计局
最权威,最全面的资料
其他国家部门网站大多都有数据分页
# awesome-public-datasets
github 上门的一个项目,包含了经济、地理、能源、教育等所有你想到的领域的数据
awesome-public-datasets (opens new window)
# EPSDATA 平台
不仅有数据,有大量数据分析处理过的数据结果,收费的,可以申请 7 天的免费使用
# 数据预处理
# 缺失值
- 缺失太多:例如调查人口信息,发现 “年龄” 这一项缺失了 40%,就直接把该项指标删掉
- 最简单处理:均值,众数插补
- Newton 插值法: 根据公式,构造近似函数,补上缺失值,普遍适用性强 适用赛题:热力学温度、地形测量
- 样条插值法: 用分段光滑的曲线去差值,光滑意味着曲线不仅连续,还有连续的曲率 适用赛题:零件加工、水库水流量,没有突变的数据
# 异常值
样本中明显和其他数据差异很大的数据,例如:一群人的身高数据中有 3 米 2 的
正态分布 原则: 数值分布在 中的概率为 ,其中 为平均值, 为标准差 如果数据值不在 内,我们认为是异常值 使用题目:总体符合正态分布,例如:人口数据、测量误差、生产加工质量、考试成绩等
画箱型图
把数据从小到大排序,下四位数 是排 的数值,上四分位数 是排第 的数值 四分位距 也就是排名第 的减去第 的数值 正态分布类似,设置一个合理区间,在区间之外的就是异常值 一般来说,设置 内为正常值 适用题目:普遍适用
# 建模全过程
# 什么是模型?
打开《大学物理》,里面的某一节,就是一个建模过程
- 有理论基础
- 有推导过程
- 有最终结果
- 以文字描述、数学公式、图像表格展现出来
你需要学会如何开车,但是暂时还不需要学会造车修车的原理!
- 比赛开始后先查文献,一切以现有的他人成果为基础
- 看不懂原理没关系,把论文 ”编写“ 出来就行
整篇论文,很多思路、模型等都是从参考文献和书籍搬过来的
# 建模论文
# 一篇完整的数模论文
- 内容摘要(最重要)、问题重述、模型假设、符号说明、模型建立与求解(最长)、模型的优缺点与改进的方法、参考文献和附录
# 摘要:最重要
阅读完摘要,就知道论文研究的问题、用了什么方法、求得了什么结果,以及每一部分的大致步骤
# 问题重述
将题目简述一遍即可,并不重要。注意不要复制粘贴,避免查重
# 模型假设和符号说明
好的假设能让你事半功倍
例如某一年太阳投影的问题,影子长度与地球公转也有关系,但地球公转的对影长的影响远远小于自转的,可以在模型假设里说明 ”忽略公转对影长的影响“
符号说明将论文中定义的重要符号
# 模型的建立
一组公式,和对公式中每个变量的解释,就是一个模型
先查阅资料,看着资料,用自己的话复述一个简单的模型,再根据题目中的约束条件去一步步修改模型,把题目中的变量带入到模型中去
# 模型的求解
例如:上文我们所建立的最短路模型,查阅资料可知单元最短路径的常用算法是 Dijkstra 算法,那么模型的求解过程可以把资料上的用自己话复述一遍:
需要注意的是,必须根据赛题解释清楚 ”起始点“ 在本问题中究竟是什么、算法里的 ”节点“ 在本题中的实际意义是什么、最短路径意味着什么
# 不同小问
并不是针对题目的每一问都要建立一个模型
如果没小问之间具有相似性,仅仅是增加了约束条件的话,完全可以全文建立一个模型,再针对每一小问进行模型改进
# 模型的优缺点与改进办法
这一部分不是必须的,可以简单分析一下前文模型的优缺点,若没有改进方法也可以不写
结合查到的文献,分析正文中模型常用再上面哪种问题,又与本文所求解的问题有何区别
# 参考文献
格式一定要规范
知网检索结果右侧有引用按钮,打开后复制即可
# 附录
附录里要写出正文中求解时用到的代码
一定不要把网上搜到的代码直接复制粘贴
把查到的代码里变量名换一换就不会被查重
# 论文
# 整体排版
各级标题与正文层次分明
- 一般标题级别不超过三级
- 正文中文字体设置宋体、英文 Times New Roman
正文排版紧凑,看起来充实,没有大片空白
- 避免图片过大导致出现大片空白,且不要留有空行
表格与图片
- 表格用标准的三线表
- 表的标题放在表的上方,图名放在图的下方
公式编辑
- 推荐 mathpix,或者用 word 的公式编辑器
- 公式需要解释每个变量的意义,重要的公式后面带有编号
# 标题怎么写
基于 XXX 模型的 XXX 问题研究
读完标题,就能知道本文建的是上面模型
- 简明扼要,符合规范,便于检索
- 尽量使用大家都知道的词语
避免出现公式、非公知公用的缩写
字数限制在一行内
基于 XXX 模型/算法 的 XXX 问题研究
- XXX 模型就是正文里的核心模型
- XXX 问题就是赛题的中心词
- 不要使用过多的修饰词
# 摘要怎么写
基本要求
- 摘要是对论文的概括总结
- 让评阅老师读完摘要就知道本文解决的问题,建立的模型和求解结果
注意事项
- 不要加图或表格
- 控制在 3/4 页到一页,字数大约 800~1100
# 开头段
本文主要研究了 XXX 问题。根据 XXX,利用 XXX 模型/方法,求解出 XXX
- 第一句:说清楚研究的问题
- 第二局:说清全文采用的模型/算法、采取的操作
- 开头段不要写详细的求解结果
# 中间段模板
针对问题一,考虑/根据 XXX,...,建立 XXX 模型/利用 XXX 方法,... 求解出 XXX
一定要写清楚结果!!!
- 优化类、预测类和物理类的题目,要明确写清数值
- 要求提供建议或评价的题目,要明确写清结论和数据依据,但不要有表格,数据过多可说明数据见附录
# 总结
如果写完后摘要超过一页了,可以不写
不要重复累赘前面写过的内容
写一些本文的特色、自夸的词语
# 关键词
关键词一般 个
使用的算法和模型、大家都知道的专业词语、问题的关键词
中间以空格分开