12 lines
484 B
Markdown
12 lines
484 B
Markdown
# OCR
|
|
|
|
基于深度学习的文字识别提取标记
|
|
- 由于当前没有较优的语言分类识别方案, 使用四倍算力换精度
|
|
- 当前支持 英文 中文 日文 韩文 俄文 的识别
|
|
- 去除纯数字和单字符以及置信度低于80的文字
|
|
- 数据转json存储于mysql web_images 每张图像对应的 text 字段
|
|
- 文字以空格分隔合并为字符串加入 Elasticsearch 索引
|
|
|
|
勿使用 paddleocr==2.9.1 存在顯存泄漏問題, 應使用 paddleocr==2.7.3
|
|
|