《视觉问答：理论与实践》 - 台灣·大書城 - Qi Wu[吴琦]，Peng Wang[王鹏 ]，Xin W - 电子工业出版社

	登入帳戶　 \|　訂單查詢　 \|　購物車/收銀台(0)　\|　在線留言板　 \|　付款方式　 \|　聯絡我們　 \|　運費計算　 \|　幫助中心　\|　加入書簽
		會員登入新用戶註冊

HOME

新書上架

暢銷書架

好書推介

2023年度TOP

香港／國際用戶

最新/最熱/最齊全的簡體書網

品種：超過100萬種書，正品正价，放心網購，悭钱省心

送貨：速遞 / 物流，時效：出貨後2-4日

『簡體書』视觉问答：理论与实践

書城自編碼： 4014422
分類：簡體書→大陸圖書→計算機/網絡→计算机理论
作者： Qi Wu[吴琦]，Peng Wang[王鹏 ]，Xin W
國際書號(ISBN)： 9787121475313
出版社：电子工业出版社
出版日期： 2024-07-01

頁數/字數： /
書度/開本： 32开釘裝：平塑勒

售價：NT$ 602

我要買件

** 我創建的書架 **
未登入.

新書推薦：

《海外中国研究·王羲之：六朝贵族的世界（艺术系列）》
售價：NT$ 811.0

《唐宋绘画史全彩插图版》
售價：NT$ 449.0

《 “御容”与真相：近代中国视觉文化转型（1840-1920）》
售價：NT$ 505.0

《鸣沙丛书·大风起兮：地方视野和政治变迁中的“五四”（1911～1927）》
售價：NT$ 454.0

《海洋、岛屿和革命：当南方遭遇帝国（文明的另一种声音）》
售價：NT$ 485.0

《铝合金先进成型技术》
售價：NT$ 1214.0

《英雄之旅：把人生活成一个好故事》
售價：NT$ 398.0

《分析性一体的涌现：进入精神分析的核心》
售價：NT$ 556.0

建議一齊購買：

NT$ 556
《函数式设计：原则、模式与实践 [美] 罗伯特 · C. 马丁》

NT$ 704
《程序员进阶之路：缓存、网络、内存与案例》

NT$ 556
《指标体系与指标平台：方法与实践数势科技大数据技术标准推进委员会》

NT$ 515
《数学思维1：逻辑与数（原书第7版）》

NT$ 556
《思维整洁之道：编写与头脑合拍的卓越代码》

NT$ 407
《信息学奥赛高分训练秘笈（实战篇）》

內容簡介：

视觉问答任务要求机器根据指定的视觉图像内容，对单轮或多轮的自然语言问题进行作答。其本质上是一个多学科的研究问题，涉及计算机视觉、自然语言处理、知识表示与推理等。本书共5 部分，第1 部分介绍在计算机视觉和自然语言处理领域广泛使用的基本方法和技术，包括卷积神经网络、序列建模和注意力机制等。本书将视觉问答分为图像和视频方法。第2 部分将图像视觉问答进一步分为五类，即联合嵌入、注意力机制、记忆网络、组合推理和图神经网络。此外，概述基于图像的其他视觉问答任务，例如基于知识的视觉问答、视觉问答的视觉和语言预训练。第3 部分讨论基于视频的视觉问答及其相关模型。第4 部分讨论与视觉问答相关的高级任务，包括具身视觉问答、医学视觉问答、基于文本的视觉问答、视觉问题生成、视觉对话和指代表达理解，它们是视觉问答任务的扩展。第5 部分对该领域进行总结和展望，讨论视觉问答领域的未来研究方向。

關於作者：

吴琦，澳大利亚阿德莱德大学高级讲师（副教授），博士生导师，澳大利亚青年学者基金获得者 (Australian Research Council DECRA Fellow)，澳大利亚机器人视觉研究中心（ACRV）vision-language课题组组长，澳大利亚科学院罗素奖获得者。吴琦博士于2015年在英国巴斯大学获得博士学位，致力于计算机视觉领域研究，尤其关注于计算机视觉-自然语言相关领域的研究。吴琦博士在CVPR，ICCV，ECCV， NeurIPS， TPAMI等多个国际会议和期刊发表论文七十余篇，吴琦博士亦担任TPAMI，IJCV，TIP，CVPR，NIPS，ACL等学术期刊会议审稿人以及ICCV2021 领域主席。

目录
第1 章简介..................................................................1
1.1 视觉问答的动机........................................................1
1.2 人工智能任务中的视觉问答...........................................4
1.3 视觉问答类别..........................................................5
1.3.1 数据分类驱动......................................................6
1.3.2 任务分类驱动......................................................7
1.3.3 其他..............................................................7
参考文献.....................................................................8
第1 部分基础理论
第2 章深度学习基础......................................................15
2.1 神经网络...............................................................15
2.2 卷积神经网络..........................................................17
2.3 循环神经网络及变体...................................................18
2.4 编码器-解码器结构....................................................20
2.5 注意力机制.............................................................20
2.6 记忆网络...............................................................21
2.7 Transformer 网络和BERT............................................22
2.8 图神经网络.............................................................24
参考文献.....................................................................25
第3 章问答基础知识......................................................27
3.1 基于规则的方法........................................................27
3.2 基于信息检索的方法...................................................28
3.3 问答的神经语义解析...................................................29
3.4 问答知识库.............................................................29
参考文献.....................................................................30
第2 部分图像视觉问答
第4 章经典视觉问答......................................................35
4.1 简介....................................................................35
4.2 数据集..................................................................36
4.3 生成与分类：两种回答策略...........................................40
4.4 联合嵌入...............................................................40
4.4.1 序列到序列编码器-解码器模型......................................40
4.4.2 双线性编码模型....................................................43
4.5 注意力机制.............................................................45
4.5.1 堆叠注意力网络....................................................45
4.5.2 分层问题-图像协同注意力..........................................47
4.5.3 自底向上和自顶向下的注意力.......................................49
4.6 记忆网络...............................................................51
4.6.1 改进的动态记忆网络...............................................51
4.6.2 记忆增强网络......................................................52
4.7 组合推理...............................................................54
4.7.1 神经模块网络......................................................55
4.7.2 动态神经模块网络..................................................56
4.8 图神经网络.............................................................58
4.8.1 图卷积网络........................................................58
4.8.2 图注意力网络......................................................60
4.8.3 视觉问答图卷积网络...............................................62
4.8.4 视觉问答图注意力网络.............................................63
参考文献.....................................................................66
第5 章基于知识的视觉问答..............................................71
5.1 简介....................................................................71
5.2 数据集..................................................................72
5.3 知识库..................................................................74
5.3.1 数据库百科........................................................74
5.3.2 ConceptNet........................................................74
5.4 知识嵌入...............................................................75
5.4.1 文字对矢量表示法..................................................75
5.4.2 基于BERT 的表征.................................................78
5.5 问题-查询转换.........................................................79
5.5.1 基于查询映射的方法...............................................79
5.5.2 基于学习的方法....................................................81
5.6 查询知识库的方法.....................................................82
5.6.1 RDF ..............................................................82
5.6.2 记忆网查询........................................................83
参考文献.....................................................................84
第6 章视觉问答的视觉和语言预训练..................................88
6.1 简介....................................................................88
6.2 常规预训练模型........................................................89
6.2.1 ELMo .............................................................89
6.2.2 GPT ..............................................................89
6.2.3 MLM .............................................................90
6.3 视觉和语言预训练的常用方法.........................................93
6.3.1 单流方法..........................................................94
6.3.2 双流方法..........................................................96
6.4 视觉问答及其下游任务微调...........................................98
参考文献.....................................................................101
第3 部分视频视觉问答
第7 章视频表征学习.....................................................·105
7.1 人工标注的局部视频描述符...........................................105
7.2 数据驱动的深度学习的视频特征表示.................................107
7.3 视频表征的自监督学习................................................109
参考文献.....................................................................110
第8 章视频问答...........................................................·112
8.1 简介....................................................................112
8.2 数据集..................................................................112
8.2.1 多步推理数据集....................................................113
8.2.2 单步推理数据集....................................................116
8.3 使用编码器-解码器结构的传统视频时空推理.........................118
参考文献.....................................................................123
第9 章视频问答的高级模型.............................................·126
9.1 时空特征注意力........................................................126
9.2 记忆网络...............................................................129
9.3 时空图神经网络........................................................130
参考文献.....................................................................132
第4 部分视觉问答高级任务
第10 章具身视觉问答...................................................·137
10.1 简介...................................................................137
10.2 模拟器、数据集和评估标准..........................................138
10.2.1 模拟器...........................................................138
10.2.2 数据集...........................................................140
10.2.3 评估指标.........................................................141
10.3 语言引导的视觉导航................................

書城介紹　 \|　合作申請　\|　索要書目　 \|　新手入門　\|　聯絡方式　 \|　幫助中心　\|　找書說明　 \|　送貨方式　\|　付款方式	台灣用户　\|　香港/海外用户

megBook.com.tw
Copyright (C) 2013 - 2024 （香港）大書城有限公司　All Rights Reserved.