商品货架陈列监测 岗位:模型开发 2019.02.14至今
项目目标:通过超市货架照片,检测目标商品(劲酒)陈列是否符合要求。
项目采用了YOLOv3网络架构,标注了6种劲酒的约1300张含有3000个劲酒的瓶子图片。为了加速数据标注,引入在少量数据上训练的弱模型辅助标注,通过弱模型来完成第一阶段的货架上商品检测,再由人工提高标注box精度并给出目标商品具体类别。由于标注图片量少,采用迁移学习的方式,截取在COCO上训练完成的YOLO模型的特征提取部分的权值。为了防止过拟合使用了数据扩增技术。
AR**魔瓶(APP)** 岗位:模型开发 2018.10-2019.01.20
项目目标:手机对着桌上瓶子拍摄,屏幕里面瓶子能够伴随着音乐跃动起来。
我负责这个项目的第一个步骤,把属于每个瓶子的像素分别抓取出来。项目基于Tensorflow、Keras框架,利用了Mask RCNN模型,标注了16类瓶子的约500张图片、1000个瓶子。骨架网络为ResNet101并基于此构建特征金字塔。因为标注的类别较少,模型基于COCO训练的权值继续训练,并保持骨架网络和RPN网络权值不变。为了把瓶子分割与分类网络融为一体,修改了MaskRCNN头部分类分支,使得瓶子的掩模能够对应多个瓶子类别,减小了头部掩模分支开销以及云端服务器模型切换开销。
最终能够使得图片中瓶子的所有像素都被抓取出来,分割边缘与真实瓶身边缘差异在+1像素。在服务器P100 GPU上处理速度为9-10FPS(图片大小为640*1280)。
咩咩大作战(APP) 岗位:模型开发 2018.06-2018.09
项目目标:嵌入饮料识别功能,使用户能利用现实中饮料来饲养宠物,增强交互。
项目利用MobileNet,以支持前端模型推理。中一共拍摄了约1400张50个类别的瓶子图片,为了能够有较强的特征提取子,采用在ImageNet上训练的权值并随机初始化最后一层。第一阶段只训练最后一层,待稳定之后再在整个网络上微调,在Ti1080上整个过程用时约6h。为了能动态增加瓶子类别而无需从头训练,修改了权值加载方式,把最后全连接层的权值也进行加载,先以小步幅优化新类别,再优化所有类别,最后整个网络微调。这种方式使得增加类别的训练时间缩短为1h。项目模型训练采用了keras框架、部署使用TensorFlowSharp框架。在App内使用一张图片推理用时约0.3s。
道路三维点云分类 岗位:模型开发 2016.07.01-2016.10
项目目标:对道路三维点云进行分类,分出其中的杆状物类别。
我主要负责完成随机森林和SVM模型的研究以及一些随机森林、朴素贝叶斯的代码实现。此外构建模型结果评估系统,通过此系统自动将一些评估指标输出。