OCR识别模型的输出一般存在一定数目的识别错误,且很难再在识别模型端提升效果,因此利用NLP技术进行文本纠错至关重要。
文档理解(版面分析/表格检测/表格结构解析)方法及数据
现有的版面分析聚焦在版面的各个item的检测定位,但是进一步的文档理解进展缓慢,特别是table的结构识别(行列、单元格),因此这里汇总了这方面的主要工作。
OCR(文档预处理--矫正/去噪/畸变/去光照)方法总结
通用文档识别精度往往受到用户上传误操作带来的图像质量差(光照不均,形状畸变,污渍噪声、扭曲等)的影响,因此需要一定的图像预处理操作提升模型输入的图像质量。
conda/pip/linux软件源替换提高软件下载速度
本文主要提供好用的软件源地址配置。
自动超参搜索之NNI工具使用
本文主要介绍如何搭建Microsoft的NNI工具环境以及使用NNI进行Mnist分类任务的超参数搜索。
Trtserver(Triton)使用示例
本文主要介绍如何搭建Microsoft的NNI工具环境以及使用NNI进行Mnist分类任务的超参数搜索。
TensorRT安装并使用简述
本文主要简要介绍TensorRT的环境搭建及如何使用。
COCOAPI 评价指标解析及功能改进
本文主要解析目标检测中常用的COCOAPI工具计算mAP的过程,以及增加相关功能用于更好的提供模型优化的方向。
OCR数据生成之SynthText场景文本
自然场景的文字识别的数据生成至关重要,可以大量降低人工标注的成本,这里详细介绍SynthText的安装和使用,并生成自己的bg数据集对应的图片以及优化引入生成垂直文本的功能。
深度强化学习DRL从入门到放弃
本文主要整理深度强化学习的相关内容。