<kbd id='h9xg8iix'></kbd><address id='h9xg8iix'><style id='h9xg8iix'></style></address><button id='h9xg8iix'></button>

              <kbd id='blunbvyd'></kbd><address id='blunbvyd'><style id='blunbvyd'></style></address><button id='blunbvyd'></button>

                      <kbd id='1upep74u'></kbd><address id='1upep74u'><style id='1upep74u'></style></address><button id='1upep74u'></button>

                              <kbd id='d5l2pzs1'></kbd><address id='d5l2pzs1'><style id='d5l2pzs1'></style></address><button id='d5l2pzs1'></button>

                                      <kbd id='9s2fro1z'></kbd><address id='9s2fro1z'><style id='9s2fro1z'></style></address><button id='9s2fro1z'></button>

                                              <kbd id='jxtetxj5'></kbd><address id='jxtetxj5'><style id='jxtetxj5'></style></address><button id='jxtetxj5'></button>

                                                      <kbd id='tdkyvewa'></kbd><address id='tdkyvewa'><style id='tdkyvewa'></style></address><button id='tdkyvewa'></button>

                                                          威尼斯官网

                                                          深度学习与问答系统

                                                          日期: 2018-10-26 11:20:43 / 人气: 267

                                                          1. 什么是QA系统

                                                          QA系统用于回答人们以自然语言形式提出的问题aaa,其在互联网、通信及医疗等领域获得显著的成功aaaa。

                                                          2. QA的分类

                                                          QA系统依据回答语料可以分为两类aaaaa。

                                                          第一类aaaaa,常见的纯文本形式(网络文档、问答社区内容、搜索引擎结果、百科数据等)aaa。

                                                          第二类aaaaa,知识图谱(近年涌现大规模图谱:WolframAlpha, Google Knowledge Graph, Freebase等aaaa,为基于图谱的QA提供保障)aaaa,通常以RDF三元组的形式结构化表示aaa。由于结构化的特点aaaaa,QA系统的结果可比纯文本更精确和简练aaa。大知识图谱保证威尼斯官网覆盖率aaa。

                                                          3. 系统架构

                                                          QA系统分为三层架构模型:实体层(底层)、语言层、应用层aaaaa。

                                                          实体层(底层):为上层模型提供最基础的计算单元aaaaa。包括了语义社区搜索、语义消歧义和同现网络模块aaaa;

                                                          语言层(中间层):作为连接实体层和应用层的桥梁aaaaa,包含了具有一定语义信息的短文本aaaa;

                                                          应用层(最上层):集成的QA系统aaa。包括了问题模板和深度学习模块aaaa。

                                                          4. 实体层模型研究

                                                          4.1 语义社区搜索

                                                          标题取为词林搜索可能更合适aaa,说白了就是节点为词语的复杂网络aaaa,边为词之间的关系aaaa,以此模型即可找到一个单词所在的社区aaa,以及单词之间的相似度aaaaa。

                                                          同一个语义社区的两个词有很高的相似度aaaa,相似度的定义为两个词的共同邻居个数aaaaa。(语义社区的划分文中没有说到aaaaa,不过既然都说了是社区估计会用到一些社区发现的算法吧)

                                                          4.2 语义消歧

                                                          这里给出了一幅图aaaa,用颜色把同一个意思的词语连接在一起构成封闭的图(内部可以有子图)aaaaa。

                                                          5. 语言层模型研究

                                                          5.1 动词语义模板

                                                          据动词与名词间相关性aaa,提出动词语义模板的理论aaaa。包括概念化的动词模板(如verb $cConcept)、固定化的动词模板(如verb $iObject)aaaa。

                                                          动词语义模板用来对语言实体做概念化的处理aaaaa,所以需要有通用性和特殊性的特征aaaa。基于信息论的最小描述距离理论aaa,我们提出了满足上述两个特征(通用性、特殊性)的动词语义模板(见公式):argmin∑pP(p)L(p)

                                                          补充:最小描述长度(MDL)aaa,该原理是 Rissane 在研究通用编码时提出的aaaaa。其基本原理是为节省在保存一组给定的实例数据时的存储空间aaa,采用某种模型对其进行编码压缩aaaaa,再保存被压缩编码的数据aaaa。同时aaa,为确保之后可正确恢复被压缩的实例数据aaaaa,将所用模型也保存起来aaa。所以需保存数据长度(比特数)等于被压缩的实例数据的长度aaaaa,加上保存模型所需数据长度aaa,将该数据长度称为总描述长度aaaaa。最小描述长度aaaaa,即MDLaaa,其原理要求选择时总是描述长度最小的模型aaaaa。

                                                          6. 应用层模型研究

                                                          应用层包含两部分(问题模板、深度学习aaaaa,见上面的三层架构图)aaa。QA系统从问题中通过语言实体识别(用问题模板解决aaa,将问题中的实体转化为对应概念)、语言模板提取、预知索引建立并最终查找到问题的答案aaa。

                                                          从上图看aaaa,还是建立(或者分析出对应的)知识图谱关系aaa,找到问题所对应的类别(问题模板)aaaa,知道哪一类的问题aaaaa,然后根据图谱关系的关键词找到答案(属性)aaaaa。

                                                          6.1 问题模板怎么从实体找到对应属性aaaa?

                                                          我们提出基于概率图的方法aaaaa,使得问题答案跟预测答案接近(如图)aaa。总结下:首先通过问题的实体识别得到实体aaaaa,然后对问题概念化得到对应的问题模板aaa,再根据模板找到对应属性aaa,最后根据属性查找值aaa。

                                                          7. 基于知识图谱的QA研究

                                                          首先aaaaa,深度学习适合做实体属性查找aaa,主要因为它对序列性的问题有天然优势(这个主要说的是RNN或者LSTM吧)aaaa,一般此类QA问题都是序列性的aaaa。

                                                          7.1 CNN

                                                          如图为最简单的CNN网络aaa,最下层即为问题的实体提取层(每个单词输入的形式是向量空间模型VSMaaaaa,比方图中就是长度为15K的VSM)aaa,首先将连续的问题序列化为单个的实体aaaa。然后aaaa,对各个实体进行卷积运算和最大池化aaa。最后获取概率最大的Inbinding(看不懂这个词)aaaaa,由此得到实体属性值(实体属性值就是比方“姓名”这个属性对应的值)aaa。同时aaaaa,提出了能更好理解问题上下文的双向LSTM模型aaa。

                                                          7.2 基于知识图谱的QA + DL

                                                          为了增强CNN的特性aaaa,又提出了与CNN类似的模型aaaaa,其包含3个CNN网络(接受问题输入)aaaaa,每个网络独立进行属性的预测aaaaa,最后获得最大的均方根值(说白了就是计算Cost吧)aaa。最后三个类型(Answer Path、Answer Type、Answer Context)的网络(接受输入)分别与这三个网络的另外一个知识图谱的输入(也是对应三个路径)进行结合(通过点积aaa,对应类型点积)aaaaa,得到三个类型的结果aaa,在进行拼接(估计是根据答案生成的模板)aaa,最后得到答案和一个分数aaaa。

                                                          与单个CNN相比aaaa,多个CNN除了具有Answer Path属性外aaaa,还增加了Answer Context和Answer Type的属性aaa。其中aaa,Answer Context表示候选答案周围的信息aaa,Answer Type则表示候选答案的类型aaaaa。

                                                          8. 对QA系统的思考

                                                          对于QA系统aaaa,现面临的问题:

                                                          缺乏高质量的训练数据集aaaaa。比如只有3778个网络问题的QA对aaa,而对于QALD(Question Answering over Linked Data)则只有100个QA对aaaaa;

                                                          知识图谱本身的数据不完善aaa;

                                                          基于知识图谱的QA具有的有限的联系且准确的答案的属性aaa,而基于IR-based的QA具有无限的联系且模糊的答案的属性aaaa,将两个模型进行结合得到更广且更准确的问题答案是正在着力研究的问题aaa。


                                                          来源:机器不学习


                                                          现在致电 0755-88820392 OR 查看更多联系方式 →