2024-11-19 15:36:01 +08:00
2023-12-01 02:39:13 +08:00
2023-12-02 02:41:36 +08:00
2023-12-08 19:23:56 +08:00
2024-11-19 15:36:01 +08:00
2023-12-05 03:10:46 +08:00
2024-11-19 14:03:17 +08:00

OCR

基于深度学习的文字识别提取标记

  • 由于当前没有较优的语言分类识别方案, 使用四倍算力换精度
  • 当前支持 英文 中文 日文 韩文 俄文 的识别
  • 去除纯数字和单字符以及置信度低于80的文字
  • 数据转json存储于mysql web_images 每张图像对应的 text 字段
  • 文字以空格分隔合并为字符串加入 Elasticsearch 索引
Description
基于深度学习的文字识别提取标记
Readme 130 KiB
Languages
Python 100%