泰迪杯全国数据挖掘挑战赛 OCR (CNN) OCR() CNN % 92.1% 15% 90%. Viterbi. OCR..,,,,,

Similar documents
untitled

\\Lhh\07-02\黑白\内页黑白1-16.p

引 言 今 年 4 月, 一 部 由 赵 薇 首 次 执 导 的 电 影 致 青 春 选 在 了 高 校 毕 业 季 期 间 上 映, 这 部 电 影 作 为 赵 薇 研 究 生 期 间 的 毕 业 作 品, 经 过 几 年 的 打 造 终 于 与 观 众 见 面 该 部 电 影 的 剧 本 改 编

Microsoft Word 李若鶯.doc

一 课 程 负 责 人 情 况 姓 名 吴 翊 性 别 男 出 生 年 月 基 本 信 息 学 位 硕 士 职 称 教 授 职 务 所 在 院 系 理 学 院 数 学 与 系 统 科 学 系 电 话 研 究 方 向 数 据 处 理 近 三 年 来

报 告 1: 郑 斌 教 授, 美 国 俄 克 拉 荷 马 大 学 医 学 图 像 特 征 分 析 与 癌 症 风 险 评 估 方 法 摘 要 : 准 确 的 评 估 癌 症 近 期 发 病 风 险 和 预 后 或 者 治 疗 效 果 是 发 展 和 建 立 精 准 医 学 的 一 个 重 要 前

Microsoft Word 定版

摘要

<4D F736F F D205F FB942A5CEA668B443C5E9BB73A740B5D8A4E5B8C9A552B1D0A7F75FA6BFB1A4ACFC2E646F63>

第一页为封面

第三章 国内外小组合作学习的应用情况

穨2-08.doc

nary pattern, LBP).,,.,,. Krizhevsky [1] ILSVRC-2012,, SIFT.,, Lopes [2],, Extended CohnKanade (CK+) [3].,,,, CK+ : 1), Wild,. 1.,. 1 Fig. 1 CK

【附件:社群─申請表】(社群層級) 【四-四-五-1】

Microsoft Word - 口試本封面.doc

摘 要 張 捷 明 是 台 灣 當 代 重 要 的 客 語 兒 童 文 學 作 家, 他 的 作 品 記 錄 著 客 家 人 的 思 想 文 化 與 觀 念, 也 曾 榮 獲 多 項 文 學 大 獎 的 肯 定, 對 台 灣 這 塊 土 地 上 的 客 家 人 有 著 深 厚 的 情 感 張 氏 於

Microsoft Word - A doc

Microsoft Word - A _ doc

推荐电子学习报ZhiShi

清 华 大 学

國立中山大學學位論文典藏.PDF

Microsoft Word - 1-編者的話

女性健美保健(中).doc

1 两 种 混 合 光 纤 放 大 器 结 构 设 计 框 图 的 比 较 目 前 国 内 外 市 场 上 所 使 用 的 混 合 光 纤 放 大 器 均 是 EDFA 和 RFA 的 简 单 叠 加 ( 如 图 1 所 示 ), 增 益 为 EDFA 增 益 和 RFA 增 益 之 和, 其 ED

Construction of Chinese pediatric standard database A Dissertation Submitted for the Master s Degree Candidate:linan Adviser:Prof. Han Xinmin Nanjing

家装知识(六)

Microsoft Word - A _ doc

鷹 架 寫 作 教 學 對 於 提 升 國 小 學 生 描 述 能 力 之 行 動 研 究 摘 要 本 研 究 採 取 行 動 研 究 的 方 法, 旨 在 運 用 鷹 架 的 策 略 提 升 學 生 描 述 能 力 以 花 花 國 小 六 年 級 七 班 三 十 五 個 學 生 作 為 研 究 對

2006中國文學研究範本檔

243X徐华博

symmetrical cutting patterns with various materials for visual designing; ii. This part combined costumes, bags and oilpaper umbrellas with the tradit

致 谢 本 论 文 能 得 以 完 成, 首 先 要 感 谢 我 的 导 师 胡 曙 中 教 授 正 是 他 的 悉 心 指 导 和 关 怀 下, 我 才 能 够 最 终 选 定 了 研 究 方 向, 确 定 了 论 文 题 目, 并 逐 步 深 化 了 对 研 究 课 题 的 认 识, 从 而 一

2014 年 11 月 总 第 251 期 主 办 单 位 : 中 国 科 学 院 自 动 化 研 究 所 CONTENTS 中 国 科 学 院 自 动 化 研 究 所 所 刊 卷 首 语 赠 人 一 片 云 1 科 研 动 态 与 学 术 交 流 自 动 化 所 人 脸 识 别 技 术 在 首 届

(Microsoft Word -

中 國 學 研 究 期 刊 泰 國 農 業 大 學 บ นทอนเช นก น และส งผลก บการด ดแปลงจากวรรณกรรมมาเป นบทภาพยนตร และบทละคร โทรท ศน ด วยเช นก น จากการเคารพวรรณกรรมต นฉบ บเป นหล

1 119 Clark 1951 Martin Harvey a 2003b km 2

现代人的健康生活方式

兩岸青年人國際觀比較分析

清  华  大  学

Chn 116 Neh.d.01.nis

Microsoft Word - 05張政偉

University of Science and Technology of China A dissertation for master s degree Research of e-learning style for public servants under the context of

The frame research on the management system of Chinese herbal medicine A Dissertation Submitted for the Master s Degree Candidate:Han Feng Tutor: Prof

1 科 学 谋 划, 有 序 促 进 扶 贫 工 作 的 持 续 发 展 1.1 科 学 定 位, 精 准 发 现 地 方 的 需 求 按 照 国 家 生 态 功 能 区 的 划 分, 库 伦 旗 属 重 点 生 态 保 护 开 发 区 这 里 生 态 环 境 优 良 特 色 作 物 资 源 优 势

Microsoft Word _4

郑州大学(下).doc

厨房小知识(六)

广 东 纺 织 职 业 技 术 学 院 发 展 党 员 公 示 制 实 施 办 法 关 于 推 荐 优 秀 团 员 作 为 党 的 发 展 对 象 工 作 的 意 见 后 勤 管 理 工 作 广 东 纺 织 职 业 技 术 学 院 新 引 进 教 职 工 周 转 房 管 理


游戏攻略大全(五十).doc

金融英语证书考试大纲


健康知识(二)

中南财经大学(二).doc

广西大学(一).doc

根据学校教学工作安排,2011年9月19日正式开课,也是我校迁址蓬莱的第一学期开学

山东大学(一).doc

2

主 编 : 杨 林 副 主 编 : 张 新 民 邹 兰 曹 纯 纯 周 秋 婷 李 雅 清 黄 囡 囡 评 审 顾 问 : 杨 林 张 新 民 评 审 : 张 新 民 邹 兰 曹 纯 纯 周 秋 婷 李 雅 清 黄 囡 囡 李 忆 萍 徐 如 雪 文 字 编 辑 : 曹 纯 纯 邹 兰 李 雅 清

最新文物管理执法全书(十四).doc

园林常识(二).doc

前 言 二 一 六 年 四 月 四 日, 兒 童 節, 誕 生 了 一 件 美 事 : 中 國 作 家 曹 文 軒 在 意 大 利 博 洛 尼 亞 國 際 童 書 展 榮 獲 國 際 安 徒 生 文 學 獎, 是 該 獎 創 設 六 十 年 來, 第 一 位 摘 桂 的 中 國 作 家, 意 義 重

湖 南 科 技 大 学

上海外国语大学(二).doc

2009 陳 敦 德

切 实 加 强 职 业 院 校 学 生 实 践 能 力 和 职 业 技 能 的 培 养 周 济 在 职 业 教 育 实 训 基 地 建 设 工 作 会 议 上 的 讲 话 深 化 教 育 教 学 改 革 推 进 体 制 机 制 创 新 全 面 提 高 高 等 职 业 教 育 质 量 在

鸽子(三)

兽药基础知识(四)

园林植物卷(十).doc

园林植物卷(十七).doc

临床手术应用(三)

家装知识(二十)

医疗知识小百科

家庭万事通(一)

國立中山大學學位論文典藏.PDF

Microsoft Word mpc-min-chi.doc

( ) 1

穨cwht.PDF

(Microsoft Word - outline for Genesis 9\243\2721\243\25529.doc)

Microsoft Word - om388-rnt _excl Items 16 & 38_ _final_for uploading_.doc

¨Æ·~½g¡ã¾·~¤ÀÃþ

公務員懲戒法實務及新制

大小通吃-糖尿病

游戏攻略大全(五十二).doc

第一章

<4D F736F F D20C4A3B0E520D3A2D3EFBFDAD3EFBBFABFBCD6D0D3A2D3EFC8FBD2F4D3EFD2F4CAB6B1F0B5C4B8C4BDF8D0CDB7BDB7A8D1D0BEBF2E646F63>

Microsoft Word - 专论综述1.doc

1 引言

可 愛 的 動 物 小 五 雷 雅 理 第 一 次 小 六 甲 黃 駿 朗 今 年 暑 假 發 生 了 一 件 令 人 非 常 難 忘 的 事 情, 我 第 一 次 參 加 宿 營, 離 開 父 母, 自 己 照 顧 自 己, 出 發 前, 我 的 心 情 十 分 緊 張 當 到 達 目 的 地 後

<4D F736F F F696E74202D20C6F3D2B5BCB0B2FAC6B7BCF2BDE92DD6D0D3A2CEC420C1F5B9FAD3B1205BBCE6C8DDC4A3CABD5D>

A VALIDATION STUDY OF THE ACHIEVEMENT TEST OF TEACHING CHINESE AS THE SECOND LANGUAGE by Chen Wei A Thesis Submitted to the Graduate School and Colleg

東莞工商總會劉百樂中學

Abstract Since 1980 s, the Coca-Cola came into China and developed rapidly. From 1985 to now, the numbers of bottlers has increased from 3 to 23, and

東方設計學院文化創意設計研究所

new Taiwanese children etc., it is imperative to build a new system of Primary Teachers training program, which is the system. It is the t


Microsoft Word - 周年報告0607_君_.DOC

一學就會,空間醫學實修大全

BP % 67.5% 17.8% 5.1% % 5.1% 1.5% 0.9% 17.8% 67.5% BP 2 BP28.5 1=

XML XML XMPP XML XML Schema XML XML,,, XML,

Transcription:

泰迪杯全国数据挖掘挑战赛 www.tipdm.org 第四届 泰迪杯 全国数据挖掘挑战赛 优 秀 作 品 作品名称 : 基于深度学习和语言模型的印刷文字 OCR 系统 荣获奖项 : 特等并获企业冠名奖 作品单位 : 华南师范大学 作品成员 : 苏剑林曾玉婷

泰迪杯全国数据挖掘挑战赛 www.tipdm.org OCR 2016 5 15 (CNN) OCR(). +.... CNN 140 99.7% 92.1% 15% 90%. Viterbi. OCR..,,,,,

泰迪杯全国数据挖掘挑战赛 www.tipdm.org Abstract In this article, we design a series of algorithm to extract features and position text. Next we use convolutional neural network to train a character recognition system. And then we use language model to improve recognition effect. Based to the above steps, we achieve a complete OCR (Optical Character Recognition) system. For feature extraction, we discover a new approach better than traditional way which is based on boundary detection and dilation-erosion. According to some fundamental assumptions, we gain excellent text features via grey clustering, layer decomposition, noise reduction, and so on. The features we gain can not only be use for text poistioning at step II, but also text recognition at step III. For text positioning, we integrate the feature patches via neighbor searching, and gain the features of single line texts. Then we use a statistic way to cut the single line into single character. Our result show that this way can work well even if Chinese and English mixed in the one line. And for optical recognition, we use convolutional neural network to build up our model for single character and train it with 1.4 milion samples produced by ourselves. Fortunately, we gain a good model which has a 99.7% train accurary, 92.7% test accurary, even a 90% accurary for the samples who has 15% noise. Finally, for the better result, we use language model to improve our work. We calculate the probability transition matrix from hundreds of thousands wechat articles, and use Viterbi algorithm to dynamicly produce the optimal result. Combined the above works, we gain a complete OCR system. And the result show that our system work well for the printed text recognition. Keywords OCR, feature extraction, text positioning, CNN, deep learning, language model

1 1 2 1 2.1................................................ 1 2.2................................................ 1 2.3................................................ 2 3 2 3.1............................................... 3 3.2................................................ 3 3.2.1........................................... 4 3.2.2......................................... 5 3.3................................................ 5 3.3.1.............................................. 6 3.3.2........................................... 6 3.3.3............................................ 8 3.3.4............................................ 8 3.3.5........................................... 9 4 9 4.1................................................ 10 4.1.1............................................... 10 4.1.2............................................... 10 4.1.3............................................... 11 4.2................................................ 11 4.2.1............................................ 12 4.2.2............................................ 12 4.2.3............................................ 12 5 12 5.1................................................ 12 5.2................................................ 13 5.3................................................ 13 5.4................................................ 14 5.5................................................ 15 5.5.1........................................... 15 5.5.2........................................... 16 3

6 16 6.1................................................ 16 6.2................................................ 17 6.2.1.......................................... 18 6.2.2 Viterbi........................................... 18 6.3................................................ 19 7 19 7.1................................................ 19 7.2................................................ 19 7.3................................................ 19 21

2 1 (Optical Character Recognition, OCR) OCR OCRABBYY FineReaderTesseract OCR. ABBYY FineReader ( ) OCR. OCR Tesseract OCR. Google Tesseract OCR. OCR. OCR OCR.. 2.1 2 1. 2. 3. 4. 5. 6... 2.2 聚类分解 特征提取 字定位 光学识别 语 模型 去噪池化 碎 整合 单字切割 样本构建 模型训练 测试检验 转移概率 动态规划 1: 1

2.3 3 2.3 CentOS 7 + Python 2.7. Numpy SciPyPandasPillowKerasTheano. 5.4. 3 OCR.. OCR. + + [1]. ().. 2. 2: 3... 3: 2

3.1 3 3.1 m n M m, n. RGB. RGB 3 4(a). Y = 0.299R + 0.587G + 0.114B (1)..... 2. x x r (2) x M r 2. [0, 255] x x M min 255 (3) M max M min M max, M min M. 4(b). 3.2 (a) 4: (b). 1. 40 254 255 2.. [0, 255]. 3

3.2 3. KMeans MeanShift.. 3.2.1 5 0.07 0.06 0.05 0.04 0.03 0.02 0.01 0.00 0 50 100 150 200 250 5:.. (kernel density estimation). Rosenblatt Parzen [2].. () ˆp(x) = 1 nh n ( ) x xi K h K(x). h 1 K(x) 1, x = 0 K (x) = 0, x 0 i=1. K(x) h x i x K ( x x i ). h h (bandwidth). h K(x) K(x). K(x) = 1 2π e x2 /2 (4) (5) (6). scott h 0.2. 6. 4

3.3 3 3.2.2 0.07 0.06 0.05 0.04 0.03 0.02 0.01 0.00 0 50 100 150 200 250 6: 6. x = 10, 57, 97, 123, 154 25, 71, 121, 142.. 3 5. 7 1 0. (a) 1 (b) 2 (c) 3 (d) 4 (e) 5 7: 5 () 2.1.. 3.3 2.1. 5

3.3 3 3.3.1. 8 8. 9. 3.3.2 1 2 4 5 1 2 3... 9:... ( 8: 8 1 ) 1 0 8.... 7(e) 7(d). = (7) [0.1, 0.9]. 5 10. 6

3.3 3 (a) 1 (b) 2 (c) 3 (d) 4 (e) 5 10: [0.1, 0.9] 7

3.3 3 3.3.3 5 5... 5 ()... 1. 2.. 11. 11: 11.. /. 3.3.4. = (8) 16. 8

4. 16... *.. 0. 1+- < 16 (9) 1 0. 1.. Google Tesseract OCR. 3.3.5.. 9 ( 3 12). 12:... 0.75( π/4). 4. 1 2. 9

4.1 4 4.1. 13.. 4.1.1 13:... () *.... 4.1.2 (x,y) (x,y ) S (w,z ) (w,z) S 14: 10

4.2 4 14 (x, y) (z, w). ( x+z, ) y+w 2 2. S S ( x + z (x c, y c ) = x + z, y + w y + w ) (10) 2 2 2 2 x 2 c + y 2 c. (x c, y c ). ( (x c, y c) = x c w x w x, y c z y ) z y 2 2 2 2 (11) d(s, S ) = [max(x c, 0)] 2 + [max(y c, 0)] 2 (12) *.. 4.1.3. 4. 15 15: 4.2.. 11

5 4.2.1. 16(a). (a) 16: (b). 16(b). 4.2.2 15. 0... 4.2.3. 1. 2. 1.2 3.. 1 60%2 1.2.. 7.1. 5. 5.1. 12

5.2 5.. 1. 2. MNIST 99% 3. () OCR. 5.2.. 1. 48 48 2. 3000 () 26 () 10 3062 3. 45 4. 5 (46 50) 2. 5%. 3062 45 5 2 = 1377900 5.3. MNIST 28 28. MNIST 17. 17 99%. 10 3062.. 13

5.4 5 原始图像 28x28 卷积层 1 32 个 3x3 卷积核 ReLu 函数激活 2x2 最 值池化 Dropout 0.25 卷积层 2 32 个 3x3 卷积核 ReLu 函数激活 2x2 最 值池化 Dropout 0.25 全连接层 隐藏层 128 神经元 ReLu 函数激活 Dropout 0.5 softmax 层 10 神经元 原始图像 48x48 卷积层 1 64 个 4x4 卷积核 17: MNIST ReLu 函数激活 2x2 最 值池化 Dropout 0.25 卷积层 2 64 个 4x4 卷积核 ReLu 函数激活 2x2 最 值池化 Dropout 0.25 全连接层 18: 隐藏层 1024 神经元 ReLu 函数激活 Dropout 0.5 softmax 层 3062 神经元 28x28 48x48. 18. RuLe x, x > 0 ReLu(x) = 0, x 0 sigmoidtanh [3][4] Dropout [5].. 5121024204840968192 1024.. 512 1024. 5.4 CentOS 7 (24 CPU+96G +GTX960 ) Python 2.7 Keras Theano GPU 1. Adam batch size 1024 30 700. (13) 1 Tensorflow. 14

5.5 5... 19. 5.5 3.0 2.5 2.0 1.5 1.0 0.5 Loss Acc 0.0 0.4 0 5 10 15 20 25 30 19: Loss() Acc(). Google OCR Tesseract. 5.5.1 1. 99.70% 140 99.85% 15 1: 1 99.7% state of the art 2 1.0 0.9 0.8 0.7 0.6 0.5 2 Arial unicode MS. 15

6 5.5.2 5 ( 30620 153100 ) 92.11%. 2. 82.83% 92.15% 92.65% 99.95% 92.97% 2: (5% ). 15%( 48 48 ) 3. 78.14% 85.34% 88.17% 99.81% 86.52% 3: (15% ) 87.59% 90%.. 6. OCR. 6.1.... 16

6.2 6 s 1 () W (s 1 ) 0.999960.00004 s 2 () W (s 2 ) 0.878380.121480.00012.. P (s 1 s 2 ) s 1 s 2. 10 145001 0 124267 1980 0018 20 P ( ) = 0 145001 = 0 P ( ) = 12426 145001 P ( ) = 0 = 0 P ( ) = 0 1980 0.99996 0.00004 0 1980 0.00005 0 0.00909 0 7 0.08570 P ( ) = 0.00005 145001 18 = 0 P ( ) = 0.00909 1980 0.08570 20: 0.12148 0.00012 0.87838 s 1, s 2 (14) f = W (s 1 )P (s 1 s 2 )W (s 2 ) (14) s 1, s 2.. 6.2 21 n s 1, s 2,..., s n f = W (s 1 )P (s 1 s 2 )W (s 2 )P (s 2 s 3 )W (s 3 )... W (s n 1 )P (s n 1 s n )W (s n ) (15) [6]. (1) P (s i s i+1 ) (2) P (s i s i+1 ) f. 17

6.2 6 第 个区域 第 个区域 第三个区域 第四个区域 W11 W21 W31 W41 W12 W13 W22 W23 21: 6.2.1 s i #s i s i, s i+1 #(s i, s i+1 ) P (s i s i+1 ) = #(s i, s i+1 ) (16) #s i. 3062 3062 3062.. #(s i, s i+1 ) = 0. P (s i s i+1 ) = 0. #(s i, s i+1 ) = 0 0.. ( 0 ) α( 1). 3. 160. 6.2.2 Viterbi s 1, s 2,..., s n Viterbi [6]. Viterbi Python. s i 1 s i 1 s i P (s i 1 s i ) P (s i s i+1 ). s i s i 1 s i. l 2. Viterbi O(n l 2 )l s i n. 3 T. W32 W33 W42 W43 18

6.3 7 6.3..... 4: Viterbi. 7.1 7.. OCR (1) (2).. box 1 1. 2 0. 1. 0.84 7.2 OCR..... 7.3 h. 19

7.3 7...... CNN+LSTM.. 20

[1] Gabor BP 2007 [2] https://zh.wikipedia.org/zh-cn/ [3] Xavier Glorot, Antoine Bordes, Yoshua Bengio ; Deep Sparse Rectifier Neural Networks [4] Alex Krizhevsky,Ilya Sutskever,Geoffrey E. Hinton ; ImageNet Classification with Deep Convolutional Neural Networks [5] Dropout: A Simple Way to Prevent Neural Networks from Overfitting [6] () 3 [7] () 26 21