CSC 2523 Deep Learning in Computer Vision Winter 2016 Neural-based Image Question Answering Yunpeng Li Faculty of Information 2016.03.01
Question Answering Traditional Approaches Textual question answering tasks Semantic parsing Symbolic representation Deduction system Image Credit: Question Answering over Linked Data: Challenges, Approaches & Trends (Tutorial @ ESWC 2014)
Image Question Answering Multi-modal problem Image Representation QA Bed What is on the right side of the cabinet? Natural Language Processing Using both visual & natural language inputs
Image Question Answering Neural-based Approach CNN QA Bed What is on the right side of the cabinet? LSTM Both can be processed with deep neural networks
Neural-based Question Answering Architecture Malinowski et al. (2015). Ask your neurons: A neural-based approach to answering questions about images. In Proceedings of the IEEE International Conference on Computer Vision (pp. 1-9).
Neural-based Question Answering Architecture Malinowski et al. (2015). Ask your neurons: A neural-based approach to answering questions about images. In Proceedings of the IEEE International Conference on Computer Vision (pp. 1-9).
Neural-based Question Answering Architecture Malinowski et al. (2015). Ask your neurons: A neural-based approach to answering questions about images. In Proceedings of the IEEE International Conference on Computer Vision (pp. 1-9).
Neural-based Question Answering Training GoogleNet or AlexNet pretrained on ImageNet dataset Loss function: Cross entropy Malinowski et al. (2015). Ask your neurons: A neural-based approach to answering questions about images. In Proceedings of the IEEE International Conference on Computer Vision (pp. 1-9).
Result
Evaluation WUPS Similarity based on the depth of two words in WordNet WUP(curtain, blinds) = 0.94 WUP(carton, box) = 0.94 WUP(stove, fire extinguisher) = 0.82 The best weighted match between answer & truth WUPS @0.0 WUPS @0.9 Smaller threshold More forgiving metric Malinowski et al. (2015). Ask your neurons: A neural-based approach to answering questions about images. In Proceedings of the IEEE International Conference on Computer Vision (pp. 1-9). Malinowski, M., & Fritz, M. (2014). A multi-world approach to question answering about real-world scenes based on uncertain input. In Advances in Neural Information Processing Systems (pp. 1682-1690).
Evaluation Result DAQUAR dataset 12, 468 human question answer pairs on images of indoor scenes Malinowski et al. (2015). Ask your neurons: A neural-based approach to answering questions about images. In Proceedings of the IEEE International Conference on Computer Vision (pp. 1-9).
Evaluation Consensus How plausible are the ground truths? Malinowski et al. (2015). Ask your neurons: A neural-based approach to answering questions about images. In Proceedings of the IEEE International Conference on Computer Vision (pp. 1-9).
Exploring Models and Data for Image Question Answering Architecture 19-layer Oxford VGG ConvNet trained on ImageNet Frozen during training Ren et al. (2015). Exploring models and data for image question answering. In Advances in Neural Information Processing Systems(pp. 2935-2943).
Question Generation Generate question-answer pairs from image captions. Ren et al. (2015). Exploring models and data for image question answering. In Advances in Neural Information Processing Systems(pp. 2935-2943).
Question Generation Generate question-answer pairs from image captions. Ren et al. (2015). Exploring models and data for image question answering. In Advances in Neural Information Processing Systems(pp. 2935-2943).
Evaluation Image CNN LSTM Answer Image CNN LR Answer Question Question BOW 1. VIS+LSTM 3. IMG+BOW Image CNN Bi-LSTM Answer Average of the others Question 2. 2-VIS+BLSTM 4. FULL DAQUAR COCOQA 12, 468 human question answer pairs 117,684 auto-generated question answer pairs Ren et al. (2015). Exploring models and data for image question answering. In Advances in Neural Information Processing Systems(pp. 2935-2943).
Evaluation Overall Ren et al. (2015). Exploring models and data for image question answering. In Advances in Neural Information Processing Systems(pp. 2935-2943).
Evaluation Category Ren et al. (2015). Exploring models and data for image question answering. In Advances in Neural Information Processing Systems(pp. 2935-2943).
Evaluation
CSC 2523 Deep Learning in Computer Vision Winter 2016 这 个 模 板, 是 那 年 毕 业, 你 陪 我 一 起 做 的 快 两 年 过 去 了, 往 事 依 然 历 历 在 目, 我 们 却 变 了 好 多 可 我 还 是 好 想 回 到 那 年 的 时 光, 想 时 间 在 我 们 身 上 停 住, 我 们 可 以 一 直 好 好 地 走 下 去 或 许 是 我 太 自 负, 从 来 没 相 信 过 有 一 天 你 真 的 会 离 开 所 以 只 顾 着 埋 头 奋 斗, 为 了 我 们 的 未 来, 却 忽 视 了 给 你 当 下 的 幸 福, 忘 记 浇 灌 我 们 的 感 情, 没 有 让 你 感 受 到 我 是 多 么 深 深 地 爱 着 你, 让 你 一 颗 炽 热 的 心, 慢 慢 地 变 冷 现 在 我 终 于 明 白 了 你 想 要 的 是 什 么, 明 白 了 该 如 何 去 爱, 却 已 经 失 去 了 那 个 我 爱 的 你 可 是, 假 如 没 有 这 一 次 变 故, 我 也 不 会 有 机 会 审 视 自 己, 只 知 道 如 以 前 一 样 待 你 这 次 发 生 的 一 切 给 了 我 一 个 机 会, 可 以 提 升 爱 的 能 力, 成 为 一 个 更 完 美 的 情 人 谢 谢 你 教 会 我 如 何 去 爱, 只 是 很 遗 憾 辜 负 了 你, 委 屈 了 你 Thank You! 你 曾 跟 我 说 过 对 未 来 的 设 想, 热 恋, 由 于 异 地 而 隔 阂, 你 说 自 己 没 有 毅 力 坚 持, 会 离 开 我, 又 在 明 白 之 后 回 来 捡 我, 我 以 前 一 直 以 为 你 只 是 在 表 达 自 己 的 不 安, 只 会 哄 哄 你 现 在 已 然 走 到 了 第 四 个 阶 段, 我 只 能 希 望 一 切 都 如 你 所 料, 希 望 下 个 阶 段 尽 快 到 来 到 那 一 天, 我 会 重 新 点 燃 你 心 中 的 爱 意, 救 赎 我 们 的 爱 情 我 愿 相 信, 我 们 共 有 的 不 安 分 的 灵 魂, 会 带 你 我 走 过 千 山 万 水, 最 终 回 到 彼 此 的 身 边 如 果 分 开 不 是 为 了 别 离, 那 么 一 定 是 我 们 错 过 了 一 些 重 要 的 课, 需 要 你 我 一 起 补 我 接 受 这 份 考 验, 只 愿 命 运 可 以 眷 顾 你 我, 下 一 次, 在 对 的 时 间 对 的 地 点, 让 我 们 遇 上 最 好 的 彼 此 到 了 那 一 天, 我 会 紧 紧 抱 住 你, 再 也 不 分 开 了 一 生 短 暂, 只 能 和 最 爱 的 人 一 起 渡 过 L.J. 我 好 想 你 L.Y.P. Yunpeng Li Faculty of Information 2016.03.01