围绕钢铁/轨道表面缺陷检测开展文献调研，覆盖 EDRNet、EMINet、DACNet、CSEP、TSERNet、MINet、MCNet、NaDiNet 等缺陷检测与分割模型。

结项汇报聚焦“基于混合精度训练与昇腾 NPU 适配的 OCINet 模型优化研究”，梳理 PVTv2 编码器、SalReasoner 解码器及 CCIM/CSIM/CPIM 交互模块。

使用 PyTorch autocast 与 GradScaler 进行 AMP 混合精度训练，缓解本地 GPU 显存压力，为 8GB 显存条件下的训练与调参提供可行方案。

完成 ONNX 导出、ATC 转 OM、Ascend310B4 推理部署和 pyACL 批量推理脚本，实现从模型到国产化推理环境的工程验证。

Snapshot

验证数据

2086训练数据规模训练日志记录 Rail/2086 数据集加载成功，batch size 16，共 131 个 batch。

4.678s/张CPU 基线推理嵌入式 cpu.txt 记录 965 张数据集中前 30 张样本的 CPU 平均推理时间。

0.305s/张NPU / OM 推理ocinet.txt 记录 Ascend310B4 上 OM 模型推理，两个测试集日志均约 0.305 秒/张。

3.28 FPSNPU 日志 FPSpyACL 推理日志记录 NPU 测试 FPS 约为 3.28。

Timeline

推进过程

2024围绕钢铁表面缺陷检测与钢轨缺陷分割方向进行论文调研，建立项目问题域和模型对比基础。

2025理解并整理 OCINet 的 U 型结构、PVTv2 编码器、SalReasoner 解码器及多尺度交互模块。

2025 - 2026引入 AMP 混合精度训练流程，使用 autocast / GradScaler 处理显存瓶颈与训练稳定性问题。

2026.04完成本科生创新项目结项汇报，主题为 OCINet 模型优化与国产化适配。

2026在华为/昇腾开发环境中完成 ONNX 到 OM 的模型转换，并基于 pyACL 完成 Ascend310B4 推理验证。

Methods