第 34 卷 第 2 期 2004 年 4 月 吉 林 大 学 学 报 ( 工 学 版 ) Journal of Jilin University (Engineering and Technology Edition) Vol. 34 No.2 Apr.2004 文 章 编 号 : 1671-5497(2004 )02-0232 - 05 基 于 机 器 视 觉 的 驾 驶 员 嘴 部 状 态 检 测 方 法 施 树 明, 全 立 生, 王 荣 本, 童 兵 亮 ( 吉 林 大 学 交 通 学 院, 吉 林 长 春 130022) 摘 要 : 在 采 用 机 器 视 觉 对 驾 驶 员 进 行 驾 驶 行 为 监 测 时, 嘴 部 状 态 识 别 是 关 键 技 术 之 一 事 实 上, 驾 驶 员 在 正 常 驾 驶 说 话 及 打 哈 欠 ( 瞌 睡 ) 三 种 状 态 下 的 嘴 部 张 开 程 度 有 一 定 的 区 别 根 据 这 一 特 点, 作 者 利 用 Fisher 分 类 器 提 取 嘴 唇 的 轮 廓 和 位 置, 然 后 利 用 嘴 唇 区 域 的 几 何 特 征 作 为 特 征 值, 组 成 特 征 矢 量, 作 为 三 层 BP 神 经 网 络 的 输 入, 将 正 常 驾 驶 说 话 及 打 哈 欠 ( 瞌 睡 ) 三 种 不 同 精 神 状 态 作 为 输 出 试 验 结 果 表 明 : 该 网 络 可 快 速 有 效 地 识 别 驾 驶 员 的 嘴 部 状 态 关 键 词 : 驾 驶 行 为 监 测 ; 机 器 视 觉 ; Fisher 分 类 器 ; 特 征 提 取 ;BP 神 经 网 络 中 图 分 类 号 : U461. 91 ; TP242. 6 文 献 标 识 码 :A Driver mouth monitoring method based on machine vision SHI Shu-ming, ]IN Li-sheng,, 再 TANG Rong-ben, TONG Bing-liang ( 白 llege of Transportation,]ilin University, Changchun 130022, China) Abstract: When we use the machine vision to monitor the driving behavior of a driver, identifying the mouth state is one of the k 巳 y technologies. In fact, when a driver drives in a normal, talking or dozing state, hisl her mouth opening degree is quite different. Based on this fact, the driver mouth contour and locality were extracted by a Fisher classifier to form a mouth region geometric feature group as eigenvalues. The eigenvalu 巳 s made up an eigenvector as the input of a three-level BP neural network which might give the output in one of three above-mentioned spirit states. The experiment results show that this new method can monitor the driver mouth region accurately and quickly. Key words: driving behavior moni tor; machine vision; Fisher classifier; features extraction; BP neural network 人 们 说 话 时, 嘴 部 的 形 状 会 发 生 明 显 的 变 化 同 样, 当 人 们 处 于 疲 劳 状 态 或 打 瞌 睡 时, 嘴 部 也 会 变 大 因 此, 可 以 通 过 监 控 驾 驶 员 的 嘴 部 状 态 来 了 解 其 行 为 状 态, 为 安 全 驾 驶 提 供 必 要 的 辅 助 信 息 随 着 图 像 处 理 技 术 的 飞 速 发 展, 利 用 图 像 处 理 技 术 监 控 驾 驶 员 的 行 为 已 成 为 可 能 [1] 利 用 摄 像 机 持 续 不 断 地 观 察 驾 驶 员 嘴 部 的 张 合 情 况, 根 据 图 像 处 理 的 结 果 来 判 断 驾 驶 员 是 否 处 于 疲 劳 驾 驶 状 态, 具 有 重 要 的 研 究 价 值 作 者 给 出 了 基 于 机 器 视 觉 的 驾 驶 员 嘴 部 状 态 检 测 方 法 试 验 结 果 表 明, 该 网 络 可 快 速 有 效 地 识 别 驾 驶 员 的 嘴 部 状 态 收 稿 日 期 :2003-12-13. 基 金 项 目 : 国 家 自 然 科 学 基 金 资 助 项 目 (50175046); 教 育 部 科 学 技 术 研 究 重 点 资 助 项 目 (00037). 作 者 简 介 : 施 树 明 (1 965-), 男, 副 教 授, 工 学 博 士. E-mail:shishuming@jlu.edu.cn 通 讯 联 系 人 : 王 荣 本 (1 946 - ), 男, 教 授. 博 士 生 导 师. E-mail:wrb@jlu.edu.cn
第 2 期 施 树 明, 等 : 基 于 机 器 视 觉 的 驾 驶 员 嘴 部 状 态 检 测 方 法 233. 1 人 脸 和 嘴 的 定 位 脸 部 区 域 峭! 芹 l 乓 域 脸 部 区 域 经 过 对 人 脸 RGB 像 素 的 分 析, 发 现 人 脸 图 像 中 的 R G 两 分 量 符 合 二 维 高 斯 分 布 [1-3] 因 此, 可 通 过 这 两 个 分 量 确 定 人 脸 的 位 置 智 能 车 辆 课 题 组 在 参 加 2003 年 于 美 国 举 行 的 IEEE 智 能 车 辆 会 议 上 已 经 介 绍 过 人 脸 及 眼 睛 的 定 位 方 法 [4] 在 人 脸 定 位 的 基 础 上, 根 据 人 的 嘴 部 处 于 人 脸 下 半 部 分 的 特 征, 比 较 容 易 确 定 出 嘴 部 的 大 致 位 置, 如 图 1 所 示, 它 为 嘴 部 精 确 定 位 提 供 了 基 本 条 件 图 1 人 脸 及 嘴 部 定 位 图 Fig.l Location of driver face and mouth 2 人 嘴 形 状 位 置 的 确 定 由 于 嘴 唇 与 皮 肤 的 灰 度 差 别 不 大, 而 且 灰 度 信 息 更 容 易 受 到 光 照 条 件 人 脸 的 运 动 和 旋 转 变 化 等 影 响, 使 人 脸 图 像 中 嘴 唇 区 域 边 缘 往 往 不 明 显, 特 别 是 当 嘴 唇 内 部 的 阴 影 区 域 和 牙 齿 交 替 出 现 时, 嘴 唇 的 边 缘 变 得 更 加 模 糊 [5] 所 以 利 用 唇 色 和 肤 色 的 灰 度 和 边 缘 信 息 分 割 不 能 达 到 很 高 的 准 确 度 本 文 作 者 利 用 彩 色 信 息 进 行 人 嘴 形 状 位 置 的 确 定 研 究 发 现, 嘴 唇 的 主 要 颜 色 特 征 是 唇 色 相 对 肤 色 颜 色 较 红, 而 且 归 一 化 RGB 颜 色 对 光 照 和 人 脸 运 动 和 旋 转 具 有 不 变 性 [6] 因 此 利 用 颜 色 信 息, 采 用 模 式 分 类 技 术 分 割 嘴 唇 区 域, 可 以 克 服 灰 度 图 像 本 身 固 有 的 缺 点 由 于 Fisher 线 性 分 类 器 能 够 最 大 限 度 地 分 开 两 类, 且 其 学 习 是 离 线 处 理, 减 少 了 计 算 量, 采 用 Fisher 线 性 分 类 器 进 行 嘴 唇 区 域 分 割 2.1 Fisher 线 性 分 类 器 在 两 类 问 题 的 分 类 中, 例 如 区 分 嘴 唇 和 皮 肤, Fisher 线 性 分 类 器 能 够 寻 找 一 个 投 影 轴 ω 樨, 使 Fisher w T 5,w 准 则 函 数 fp( ω)=7el 值 最 大, 即 类 间 距 尽 可 能 大, 类 内 距 尽 可 能 小 将 颜 色 向 量 投 影 到 四 普 上 后, W '::>ww 颜 色 信 息 则 能 够 很 好 地 区 分 出 来 下 面 是 Fisher 分 类 器 的 样 本 训 练 步 骤 计 算 肤 色 和 唇 色 的 均 值 : 式 中 : 町 工 2 分 别 代 表 唇 色 肤 色 像 素 计 算 类 内 离 散 矩 阵 5 k 和 总 类 内 离 散 矩 阵 5w : TIIk == _~ ~x (k == L2) Il kx ε x, 5 k == 习 (x - 1Ilk)(X - 1Ilk)T 5 w 51 + 52 J 'i 飞, / (2) (3) 计 算 最 佳 Fisher 分 类 向 量 : 切 费 5-;.}(m1-1Il 2) (4) Z 取 颜 色 像 素 : 工 ==(r, g, b)t 其 中 r == R /( R + G + B), g == G (R + G + B), b == B /( R + G + B) 为 了 保 证 Fisher 分 类 器 的 稳 健 性, 训 练 采 用 不 同 人 分 别 在 不 同 光 照 条 件 和 不 同 说 话 状 态 下 的 30 I~l?i 人 脸 图 像 数 据 作 为 训 练 数 据, 用 于 动 标 定 唇 色 和 肤 色 像 素 ( 不 包 括 胡 须 牙 齿 等 非 肤 色 和 唇 色 像 素 ) 存 入 唇 色 和 肤 色 训 练 集, 然 后 采 用 上 述 方 法 进 行 训 练
. 234. 吉 林 大 学 学 报 ( 工 学 版 ) 第 34 卷 0.794 0.793 0.792 0.791 0.790 0.789 0.788 0.787 0 1000 2000 6000 利 用 得 到 的 投 影 轴 ω 祷, 按 下 式 : Y w 蕃 T x (5) 计 算 图 像 每 个 颜 色 像 素 ( 肤 色 唇 色 ) 的 Fisher 投 影 点, 得 到 样 本 Fisher 变 换 投 影 图, 如 图 2 所 示 从 图 2 可 看 出, 嘴 唇 和 皮 肤 差 距 明 显, 只 要 确 定 一 个 阔 值 Yo. 将 投 影 点 y 与 Yo 作 比 较, 便 可 将 肤 色 和 唇 色 区 分 出 来 在 本 文 中 : N lyl + N2 Y2 Yo = N 1 + N 2 (6) 式 中 : N 1, N 图 2 样 本 Fisher 变 换 投 影 图 2 分 别 为 两 类 样 本 的 个 Fig.2 Fisher transfo 口 卫 ing projection of sample 数 ; 川 Y2 分 别 为 两 类 样 本 投 影 值 的 均 值 利 用 求 出 的 Fisher 分 类 器, 将 图 1 中 嘴 部 区 域 进 行 变 换, 可 得 到 分 类 投 影 后 的 图 像, 如 图 3 所 示 2.2 嘴 部 轮 廓 确 定 根 据 人 脸 的 几 何 特 征 和 眼 睛 的 几 何 位 置 确 定 了 人 嘴 的 区 域, 从 图 3 可 以 看 出, 经 过 Fisher 投 影 变 换 后, 得 到 一 系 列 的 连 通 区 域, 这 些 区 域 包 括 肤 色 区 域 及 与 唇 色 颜 色 相 近 的 背 景 区 域 在 复 杂 的 背 景 下, 有 可 能 存 在 很 多 与 唇 色 相 近 的 非 唇 色 区 域 被 分 割 出 来 ( 如 鼻 孔 脸 部 肤 色 等 ) 为 消 除 噪 声 的 影 响, 首 先 对 分 割 出 来 的 唇 色 区 域 进 行 腐 蚀 或 膨 胀 操 作, 除 去 噪 声 对 唇 色 分 割 的 影 响, 然 后 通 过 图 像 连 通 成 分 标 示 ( 本 文 采 用 八 连 通 标 示 算 法 ). 最 后 对 分 割 出 来 的 连 通 区 域 进 行 大 小 和 长 宽 分 析, 通 过 水 平 投 影 和 垂 直 投 影 得 到 嘴 部 的 位 置 和 轮 廓, 如 图 4 所 示 3 4 5 6 脸 部 区 域 脸 部 下 半 区 域 图 3 经 过 Fisher 技 影 变 化 后 的 图 像 图 4 滤 波 后 的 图 像 Fig.3 Images after Fisher projection transformation Fig. 4 Sample imag 巳 s after filtering 1 2- 嘴 唇 颜 色 像 素 ;3 6 一 脸 部 区 域 ;4 5 一 脸 的 下 半 部 区 域 3 嘴 部 几 何 特 征 的 提 取 与 BP 网 络 分 类 器 3.1 嘴 部 几 何 特 征 的 提 取 人 嘴 在 说 话 ( 打 哈 欠 ) 与 正 常 情 况 下 的 外 形 有 明 显 的 区 别 说 话 时 尤 其 是 打 哈 欠 时, 嘴 部 张 开 较 大, 而 正 常 情 况 下, 嘴 部 基 本 闭 合 因 此, 可 以 利 用 这 些 特 征 进 行 嘴 部 状 态 的 检 测 研 究 中 发 现, 嘴 部 区 域 的 最 大 宽 度 W max 最 大 高 度 Hmax 能 够 表 征 嘴 部 的 张 开 程 度, 应 取 为 特 征 值 ; 上 嘴 唇 与 下 嘴 唇 之 间 的 高 度 Hm 在 说 话 和 不 说 话 时 也 有 明 显 不 同, 应 取 为 特 征 值 将 以 上 3 个 特 征 值 组 成 一 组 向 量, 即 可 描 述 出 不 同 状 态 下 的 嘴 部 几 何 特 征, 如 图 5 所 示 o
第 2 期 施 树 明, 等 : 基 于 机 器 视 觉 的 驾 驶 员 嘴 部 状 态 检 测 方 法. 235 将 获 得 的 能 够 描 述 驾 驶 员 行 为 状 态 的 嘴 部 区 域 几 何 形 状 特 征 参 数 组 成 一 个 特 征 向 量 Z, 即 可 作 为 下 一 步 判 别 分 类 的 输 入 向 量 : Z = ( W max, H max, H m) -'"1 X 2 x 3 输 入 层 隐 层 输 出 层 图 5 嘴 部 特 征 图 图 6 区 域 几 何 特 征 算 法 BP 网 络 结 构 Fig.5 Mouth features image Fig. 6 BP neural network structure based on regional geometric feature algorithm 3.2 BP 网 络 分 类 器 BP 神 经 网 络 是 应 用 最 普 遍 的 种 人 工 神 经 网 络, 目 前 其 应 用 实 例 约 占 神 经 网 络 应 用 实 例 的 80%, 已 成 为 人 工 神 经 网 络 的 经 典 代 表 [7]0 BP 神 经 网 络 已 经 成 功 地 用 于 图 像 处 理 模 式 识 别 自 动 控 制 等 领 域, 虽 然 其 存 在 着 训 练 时 间 长 易 陷 于 局 部 最 小 等 缺 点, 但 在 实 际 使 用 中 可 以 通 过 优 化 其 网 络 结 构 离 线 训 练 等 措 施, 提 高 其 使 用 性 能 [8] 因 此 作 者 采 用 BP 神 经 网 络 来 识 别 驾 驶 员 嘴 部 的 状 态 基 于 区 域 几 何 特 征 神 经 网 络 算 法 的 BP 网 络 为 3 层 结 构, 输 入 层 有 3 个 神 经 元, 分 别 代 表 驾 驶 员 嘴 部 的 不 同 几 何 尺 度 特 征 隐 层 有 10 个 神 经 元, 输 出 层 有 3 个 神 经 元, 代 表 驾 驶 员 嘴 部 的 3 种 不 同 状 态, 隐 层 的 传 递 函 数 为 Sigmoid 函 数 网 络 的 输 出 向 量 为 Yl=[l, O, O] Y 2 =[0, 1, 0] 飞 = [0, 0,1] 其 中 X 1 代 表 驾 驶 员 打 哈 欠 ;X 2 代 表 驾 驶 员 正 常 说 话 时 的 普 通 张 嘴 ;X 3 代 表 驾 驶 员 在 正 常 行 驶 状 态 时 的 嘴 唇 闭 合, 该 神 经 网 络 的 结 构 如 图 6 所 示 对 基 于 几 何 特 征 向 量 的 BP 神 经 网 络 进 行 训 练 时, 训 练 的 图 像 分 别 为 驾 驶 员 打 哈 欠 ( 张 大 嘴 ) 说 话 ( 普 通 张 嘴 ) 正 常 ( 嘴 部 闭 合 )3 种 状 态 的 图 像, 其 中 打 哈 欠 的 图 像 30 幅, 说 话 的 图 像 25 幅, 正 常 的 图 像 35 幅 训 练 时, 网 络 训 练 参 数 为 : 训 练 最 多 次 数 为 10 000 次 ; 误 差 平 方 和 指 标 为 0.02; 学 习 速 率 为 0.01 分 别 经 过 若 干 次 数 的 训 练, 均 收 敛 到 规 定 的 误 差 0.001 网 络 训 练 图 像 的 结 果 如 图 7 所 示, 由 图 看 出, 网 络 收 敛 速 度 很 快, 证 明 网 络 输 入 变 量 的 选 择 非 常 成 功 B K 间 艺 咽 Z F m - 的 g = 10 2 ~ 10 ~\ l - 二 二 二 二 二 二 - lodj 1000 1500 2000 Epoch 500 一 1500 2000 2500 Fig.7 图 7 嘴 部 特 征 网 络 训 练 图 Training r 巳 sults of neural network by differcnt mouth features
236 吉 林 大 学 学 报 ( 工 学 版 ) 第 34 卷 4 实 验 对 BP 神 经 网 络 训 练 结 束 后, 分 别 取 驾 驶 员 正 常 说 话 及 打 哈 欠 3 种 状 态 各 124 幅 驾 驶 员 脸 部 图 片 进 行 了 实 验, 识 别 成 功 率 在 87% 以 上 在 此 基 础 上, 又 进 行 了 实 际 的 识 别 跟 踪 实 验, 实 验 结 果 表 明 : 只 要 驾 驶 员 的 头 部 摆 动 不 是 非 常 剧 烈, 该 方 法 能 够 有 效 跟 随 嘴 部 区 域, 且 跟 踪 频 率 可 达 12 帧 Is, 因 此 完 全 可 以 满 足 实 际 需 要 实 验 中 也 发 现, 当 嘴 部 区 域 有 部 分 超 出 视 野 范 围 时, 不 能 实 现 正 确 判 断 ; 不 过, 当 嘴 部 区 域 重 新 全 部 出 现 在 视 野 中 时, 该 方 法 仍 能 恢 复 到 正 常 监 测 状 态 5 结 束 语 目 前, 由 于 驾 驶 员 人 为 因 素 导 致 的 交 通 事 故 逐 年 递 增 对 驾 驶 员 的 行 为 状 态 进 行 实 时 监 控, 当 驾 驶 员 打 瞌 睡 与 别 人 聊 天 时 给 出 警 告 是 解 决 该 问 题 的 较 好 方 案 作 者 给 出 的 基 于 机 器 视 觉 的 检 测 驾 驶 员 嘴 部 状 态 监 测 其 精 神 状 态 的 方 法, 具 有 实 时 性 好 等 特 点, 但 还 有 待 于 进 一 步 提 高 其 识 别 准 确 率 参 考 文 献 : [ 1 ] Y ANG J,LU W, W AIBE A. Shin-color modeling and adaptation[ R]. Pittsburgh: CMU - CS, 1997. [ 2 ] GONG Y, SAKAUCHI M. Detection of regions matching specified chromatic features [J]. Computer Vision and Image Understanding, 1995,61 (2) :263-269. [3] TURK M A,PENTLAND A. Face recognition using eigenfaces[z]. Proc IEEE Conf on Computer Vision and Pattern Recoginition, USA, 1991 [ 4 ] W ANG Rongben. A monitoring method of driver fatigue behavior based on machine vision[ Z]. Proceedings of the IEEE Intelligent Vehicl 巳 s Symposium' 03, Columbus, Ohio, 2003. [5] KAUCIC R, BLAKE A. Accurate, real-time, unadorned lip tracking[z]. Proc 6th lnt Conf Computer Vision, lndia, 1998. [6] DUCHNOWSKI P, HUNKE M, BUSHING D, MEIER U, WAIBEL A. Toward movement invariant automatic lipreading and speech recognition[z].proc Int Conf on Acoust Speech, Signal Processing,USA,1995. [ 7 ] FUKUDA Toshio, SHIBATA Takanori. Theory and applications of neural networks for industrial control sytems [J]. IEEE Transctions on lndustrial Electronics, 1992,39(6) : 472-489. [ 8 ] 徐 大 威, 李 伟, 何 永 保. 多 层 BP 网 络 的 研 究 及 应 用 [J] 信 息 与 控 制, 1995, 24( 增 刊 ) :588-596. ( 责 任 编 辑 张 祥 合 )