全文总字数:6450字
1. 研究目的与意义(文献综述)
随着科学技术的发展与进步,互联网存储水平和计算机运算能力都经历了一个巨大的飞跃,用户通过各种智能设备,能够实时快速地在互联网上共享各类图像资源。当提取到一幅图像时,如何准确又高效地对其进行描述和应用等一系列问题已成为工业界和学术界堕待解决的问题。用户是通过计算机提取的图像中所表达的一系列环境信息、抽象信息、逻辑信息等感知图像。计算机描述图像时不仅仅关注于图像中的物体识别,更要关注图像中各物体之间的相互联系,并且使用逻辑清晰的语言描述图像。因此,本文的主要目的在于利用机器学习等方法,对给定的图像内容以及蕴含的信息以及逻辑关系进行清晰精准的描述。
在当今社会,图像已经逐渐成为信息的主要载体,据统计,在人类接受的各类信息中70%为图像信息。所以,作为传递信息的重要媒介,图像信息是非常重要的。图像的描述与处理对科学技术的发展具有深远的意义。图像描述在基于内容的图像检索、医学图像分析、辅助导盲、新闻自动化、军事安全等方面发挥重大的作用。目前的研究进展,仅限于对图像的场景、人物以及整体内容进行描述与说明,还远远不能称之为图像的理解。真正意义上的图像描述在于用更高级的语言去理解图像更深层次的意义以及逻辑关系,让机器模拟人更好的进行人机交互。因此,进一步的研究发展图像描述技术,对航天业、军事业、金融业以及生活中的方方面面都具有极其重要的意义。
2. 研究的基本内容与方案
此次论文研究目的主要为使计算机生成的图像描述语句尽可能地贴合用户所希望达到的描述要求。因此,在该目的的基础上讨论该问题的两个主要研究方向:一是如何在提取图像后,如何使计算机更准确地利用图像特征来指导描述语句的生成;二是如何让计算机模型生成的自然语句更加通顺自然,更符合人类语言的语法规则与习惯。目前,大多数团队的研究重心主要在第一条,其通常的解决方案是设计不同地图像识别器应用于图像描述模型中,以便于多维度、多层次地采集图片所蕴含的信息。本文的研究目标主要是从第二个方向入手,基于给定的图像,编写程序实现基于深度网络对图像的文字简单描述。
本文研究的主要内容是在介绍和分析了广泛应用于图像描述模型中的关键技术基础上,设计和实现一个新的基于空间注意力机制和自注意力机制的图像描述模型,并最终根据该模型在MSCOCO数据集上的评估结果来验证上述方案的正确性。在模型的设计部分,本文首先分析目前主流的图像描述漠型总体的框架结构及其存在的不足,然后介绍本文提出的模型的总体框架结构,最后分别介绍模型Encoder模块和Decoder模块的详细设计。其中Decode模块选用的是一个长短期记忆(LSTM)网络。在模型实现的部分,本文则是分别介绍了模型开发的软件环境、模型的数据输入模块的实现,以及与模型设计部分相对应的Encode模块和Decode模块的实现,最后此部分还对上述各个模块进行了模块测试。在最后模型的训练和评估的部分,本文介绍了模型在MSCOCO数据集上训练的相关细节,展示了模型在数据集上评估的结果,并根据该结果对模型做了横向比较。
图像描述(Image Caption)是一个融合计算机视觉、自然语言处理和机器学习的综合问题,它类似于翻译一副图片为一段描述文字。该任务对于人类来说非常容易,但是对于机器却非常具有挑战性,它不仅需要利用模型去理解图片的内容并且还需要用自然语言去表达它们之间的关系。除此之外,模型还需要能够抓住图像的语义信息,并且生成人类可读的句子。
3. 研究计划与安排
第1周—第3周 搜集资料,撰写开题报告;第4周—第5周 论文开题;第6周—第12周 撰写论文初稿;第12周—第15周 修改论文;第16周 论文答辩
4. 参考文献(12篇以上)
[1] 刘宇. 基于深度学习的图像描述模型的设计与实现[D].哈尔滨工业大学,2018.
[2] Yang Nan;Nan Lin;Zhang Dingyi;Ku Tao.Research on image interpretation based on deep learning[J].Infrared and Laser Engineering.2018,第47卷(第2期):P18-25.
[3] 张大千. 基于深度神经网络的图像描述系统设计与实现[D].华中科技大学,2016.
以上是毕业论文开题报告,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。