在进行作业批改的项目中,当前项目度过了第一个阶段(攒pipeline),进入了使用VLM来提高准确率或者降低链路复杂程度的阶段。
其中有一个衍生的问题,就是要对习题的文档图像进行布局理解,抽取出整体框(叫whole_box),其中特殊的情况就有
- 跨栏、跨页,或者又跨栏又跨页,此外,叠加上下分段的情况
- 竖版、横板等
- 表格、图片等
- 单栏、双栏、三栏等
虽然横板的多栏,可以在拍照提交的时候限制用户拍摄单栏(从而等价于竖版单栏),但是在扫描打印批改一体机的场景下,用户可能会上传多栏的文档图像。为此保留横版本多栏的情况,只是优先级降低。
当前标注的数据已经能够支撑训练出较好的效果,除此之外,我仍然想探究一些能力的涌现的问题(测试集的特点不在训练集之内),比如:
- 训练了单栏 VS 训练了单栏、双栏 –> 测试三栏、四栏,效果是否有显著差异?
- 训练了跨页 VS 训练了跨页、跨栏 –> 测试又跨栏又跨页 + 分段,效果是否有显著差异?
能力的涌现,可能是模型学到了不变的特征,或者说学到了更通用的特征,从而能够更好地泛化到训练集中没有出现过的情况。如果实验数据支撑了,说明训练集的设计是合理的。此外,可以对不同训练后模型的推理过程,打开attention map等,进行分析,看看模型到底学到了什么。期望这里能得到一个论文。目前的实验还在进行中,后续会更新结果。
💬 发表新评论