Learning Semantic Concepts and Order for Image and Sentence Matching笔记

日期：2020-10-06 浏览：84 评论：0

核心提示：SCO模型阅读笔记论文：Learning Semantic Concepts and Order for Image and Sentence Matching发表会议：CVPR2018作者：一、为什么看？好多关于图像-文本检索的文章，但是大多数都忽略了图像的语义顺序，当语义顺序被忽略时，会造成检索不准确，图像和文本的语义完全相反。看点：图像的语义顺序如何构建应用：于跨模态图像-文本检索二、论文思路图像语义之间存在差距，特别是像素级图像缺乏语义信息。本文提出语义增强图像和句子匹配模型，来通

SCO模型阅读笔记

论文：Learning Semantic Concepts and Order for Image and Sentence Matching
发表会议：CVPR2018
作者：

一、为什么看？

好多关于图像-文本检索的文章，但是大多数都忽略了图像的语义顺序，当语义顺序被忽略时，会造成检索不准确，图像和文本的语义完全相反。
看点：图像的语义顺序如何构建
应用：于跨模态图像-文本检索

二、论文思路

图像语义之间存在差距，特别是像素级图像缺乏语义信息。本文提出语义增强图像和句子匹配模型，来通过学习语义概念和用一个正确的顺序语义顺序提高图像表示。

给定一张图像，用多区域多标签CNN预测语义概念，包括对象、属性、动作；
由于区域没有顺序，如何给这些语义概念排序，将全局上下文和语义概念融合；
对应的句子用LSTM生成，并且对融合后的句子进行监督，对比相似度。

疑问？

为什么要提取语义概念？
语义概念是图像与句子匹配的基本内容，像素级无法完成；

为什么不直接用图像描述？
图像描述和匹配是有区别的，图像匹配重点实在细粒度上找最相似的。图像描述体现在语义上，它不一定能够捕获到图像的细节。

为什么不从语义概念上直接学习语义顺序？
不同的顺序就有不同的意义，语义上有意义但可能是错误的顺序。

三、具体工作

句子表示学习：
一个完整的句子包括名词、动词和形容词，分别对应语义概念中的对象、动作和属性。对于一个句子，语义相关词的概念本质上表现为句子的顺序性。
采用传统的LSTM来捕获语义相关的词和构建语义顺序。

图像的语义概念提取：
目前存在的数据集中，只有图像和匹配的句子。数据集不能提供对象、属性和动作的信息。所以必须用多区域多标签的CNN进行预测。（被faster R-CNN取代） 预测语义概念等价于多标签分类问题。

只挑选句子中的名词、形容词、动词和数字，删除同一语义相关的词，忽略频率低的词。

图像语义顺序学习
使用图像全局上下文为参考和句子生成为监督。
图像全局上下文
将全局上下文和语义概念全部叠加在一起，不可取。因为语义概念和全局是的重要性是不相同的。

生成的句子为监督

损失函数：

打赏

所有权利归属于原作者，如文章来源标示错误或侵犯了您的权利请联系微信13520258486

更多>最近资讯中心

更多>最新资讯中心

0 条相关评论

• STM32+IR2104S的H桥电机驱动电路详解	• 树莓派做平衡小车(一)之无屏幕开机
• 大气中谱线的各种增宽效应的形成机制及特点	• Wimax和Bluetooth
• 西门子plc s-7 1200驱动伺服电机方法	• STM32完成一个简单程序的编译及proteus完成一个

• Esp8266天猫精灵_RGB灯_非点灯平台	• STM32F103 串口1和串口3对发数据配合蓝牙模块
• TMS570学习【1】了解什么是TMS570	• 新闻稿 \| Qt公司收购froglogic公司以巩固市场领
• [Java]SpringBoot2整合mqtt服务器EMQ实现消息订	• 苹果群控投屏同步操作原理及运用的平台APP分享

• Esp8266天猫精灵_RGB灯_非点灯平台	• STM32F103 串口1和串口3对发数据配合蓝牙模块
• TMS570学习【1】了解什么是TMS570	• 新闻稿 \| Qt公司收购froglogic公司以巩固市场领
• [Java]SpringBoot2整合mqtt服务器EMQ实现消息订	• 苹果群控投屏同步操作原理及运用的平台APP分享
• STM32查询式按键输入[直接用寄存器]	• Ubuntu系统 USB设备端口绑定
• 2021-04-14 第四次按键输入实验	• Flutter扫码功能完美实现