第13届全国计算机支持的协同工作与社会计算学术会议

青年论坛一

面向知识图谱的自然语言问答研究

邹磊

(排名不分先后)

摘要:自然语言问答(QA)是指利用各种技术和数据对用户提出的自然语言问题直接给出问题答案。QA任务根据所依赖的数据形态可以分成三类, 分别是基于知识库的问答(KB-QA)、基于文档的问答(DB-QA)和社区问答(C-QA)。本次报告主要关注面向知识图谱的问答系统。 知识图谱是目前知识库的一种常见的表达形式,是以图形(Graph)的方式来展现“实体”、实体“属性”,以及实体之间的“关系”。近年来随着大数据, 人工智能等概念与技术的兴起,知识图谱和KB-QA相关的研究工作和工业应用逐渐引起重视。例如由Amazon收购的EVI系统(原名为TrueKnowledge), 就是一种面向开放领域的结构化知识的问答系统。Facebook定义的Facebook Social Graph,用于连接社交网络的用户,用户分享的照片,电影,评论; 在所构建的Social Graph基础上,Facebook推出了Graph Search(图搜索)功能,即将用户的自然语言问题,转化为面向Social Graph上的图搜索问题, 从而回答用户的自然语言问题。另外越来越多的chatbot(聊天机器人)产品中也引入了面向知识图谱的问答功能,使得chatbot和人交互时用户可以获得更多知识方面的回答。 IBM的Watson系统在参加智力问答节目《危险边缘》(Jeopardy)的比赛时,也同样采用DBpedia和Yago知识图谱数据来回答某些自然语言问题。 本次报告主要介绍目前学术界和工业界面向知识图谱问答的主要关键技术和我们组在面向知识图谱的自然语言问答系统方面的工作gAnswer。

报告人简介:邹磊,北京大学计算机科学技术研究所教授、国家自然科学基金委优秀青年基金项目获得者,北京大学大数据科学研究中心主任助理。 目前的主要研究领域包括图数据库,RDF知识图谱,尤其是基于图的RDF数据管理。邹磊及其团队构建了面向海量RDF知识图谱数据(超过100亿三元组规模)的开源图数据库系统。 邹磊已经发表了30余篇国内外学术论文,包括数据库领域国际顶级期刊/会议论文(SIGMOD,VLDB等)近20余篇;其论文被引用超过1200多次(根据Google Scholar的统计),单篇最高被引用298余次。 邹磊获得2009年中国计算机学会优秀博士学位论文提名奖和2014年中国计算机学会自然科学二等奖(排名第一)。

青年论坛二

推荐算法的泛化能力研究

李东胜

(排名不分先后)

摘要:推荐系统目前广泛应用于各类与人们日常生活息息相关的信息系统中,如电子商务、社交网络、内容服务、生活服务等。 近年来,基于矩阵分解方法的协同过滤算法成为当前推荐系统中最流行的推荐算法之一。在真实的推荐系统中,由于训练数据异构、稀疏并且噪声大,矩阵分解方法难以训练出具有较强泛化能力的模型,导致模型在测试数据上的准确性较差。 针对上述问题,本报告重点介绍下述三个工作:1)一种稳定的矩阵分解算法来降低矩阵分解算法的uniform stability bound,能够提升推荐算法的泛化能力和准确性(相关成果发表在ICML 2016); 2)可降低矩阵分解算法期望误差的推荐方法,通过动态调节样本的权重来降低矩阵分解算法的期望误差界(相关成果发表在AAAI 2017); 3)一种混合秩矩阵分解算法,用不同低秩矩阵近似的混合模型来刻画用户-物品评分矩阵,实现了目前在MovieLens和Netflix这两大公开数据集上迄今为止最高的推荐准确性(相关成果发表在NIPS 2017)。

报告人简介:李东胜,男,IBM中国研究院高级研究员。2012年毕业于复旦大学,获得计算机软件与理论专业博士学位。2016-2018年连续3年获得IBM杰出技术成就奖(IBM Outstanding Achievement Award), 并3次获得IBM发明成就奖 (IBM Invention Achievement Award)。担任AAAI 2017和AAAI 2018的PC Member,担任NIPS, AAAI, IJCAI, Neurocomp等知名会议和期刊的审稿人。 一直从事推荐算法的研究,近年来在信息推荐的知名国际会议和期刊发表论文20余篇(其中在ICML、NIPS、SIGIR、WWW、AAAI、IJCAI等CCF A类会议上发表论文7篇),获得发明专利2项,软件著作权1项,申请国际专利10余项。

青年论坛三

面向软件Bug的群智软件工程

江贺

(排名不分先后)

摘要:基于互联网的软件开发支持工具产生了海量的具备大数据特征的软件开发数据,为群智软件工程带来了新的挑战和机遇。 围绕软件Bug仓库数据,本报告重点介绍Bug仓库知识化和Bug仓库智能化两大主题。在Bug仓库知识化中,介绍Bug报告自动生成技术、Bug冗余数据处理、基准实例构建与求解。 在Bug仓库智能化方面,重点分析Bug报告智能分派技术、新需求Bug推荐参考代码技术等。

报告人简介:江贺,1980年生,男,汉族,大连理工大学教授、北京理工大学兼职教授、国家优秀青年科学基金获得者。 目前主要研究兴趣为智能软件工程。先后在IEEE系列汇刊(TSE, TKDE, TSMCB, TCYB,TSC), ECJ,中国科学等期刊及ICSE,SANER等国际会议发表论文70余篇,在科学出版社出版专著一部。 2013年获得大连市五一特等奖章。2013年入选教育部新世纪优秀人才计划。2014年指导博士生获得中国计算机学会优秀博士学位论文奖(CCF优博)。 2016年获得东软-NASAC青年软件创新奖。2017年获得国家自然科学基金优秀青年科学基金资助。

青年论坛四

Data-Assisted Evolutionary Algorithms

陈伟能

(排名不分先后)

摘要:演化计算和群体智能方法,是通过模拟自然界中群体的智能现象和行为来求解问题的一类方法。 由于它不依赖于待解问题的数学模型特性,在解决复杂的优化问题时具有独特的优势,为解决大数据环境下的复杂搜索和优化问题提供了一条新的可行途径。 本报告将阐述演化计算和群体智能方法在大数据环境中面临的主要挑战,介绍数据驱动的演化计算方法的发展,着重从算法设计的角度介绍我们在相关领域的探索, 并讨论这些方法的在实际工程领域的应用。

报告人简介:陈伟能,华南理工大学计算机科学与工程学院教授,博士生导师,国家优秀青年科学基金获得者、广东省自然科学杰出青年基金获得者、首批“广东特支计划”科技创新青年拔尖人才、广州市珠江科技新星、英国皇家学会Newton Fund基金获得者, 获第十六届霍英东青年教师奖二等奖,IEEE CIS(计算智能学会)2016年度杰出博士学位论文奖(全球评选1篇),2012年度中国计算机学会(CCF)优秀博士学位论文奖。 现任中国计算机学会人工智能与模式识别专业委员会委员,IEEE广州分会副主席,多次获邀出任IEEE WCCI等领域内重要国际会议的程序委员会委员。 主要研究方向是计算智能、运筹优化与云计算,已发表国际期刊和国际会议论文80余篇,其中IEEE Transactions长文20余篇,主持国家自然科学基金等国家、省部级科研项目8项,是科技部重点领域(机器智能)创新团队的核心成员。

青年论坛五

取之于民,用之于民:一次群智感知实践

刘亮

(排名不分先后)

摘要:本报告将介绍一种城市中利用手机拍照实现的细粒度空气质量监测方法。依据摄像头的成像原理,我们发现照片能见度与空气中尘霾浓度之间存在相关性,并利用机器学习方法建立起量化模型。 具体来说,我们采用群智感知的方式,激励手机用户在空气质量站点附近收集了50000多张照片作为训练集。对于每张照片,在非天空部分提取dark channel特征,然后使用CNN进行模型训练,进而利用LSTM对天气数据进行训练,联合两个模型,实现PM2.5的准确估计。 基于此,我们开发了一款手机APP,可通过多个用户使用形成的无意识协作,实现城市空气质量的细粒度监测。

报告人简介:刘亮,北京邮电大学计算机学院教授、博士生导师、副院长,国家自然科学基金优秀青年基金获得者。2009年在北京邮电大学获博士学位,曾在美国TAMU进行访问研究。 研究方向为物联网、智能感知网络。主持和参与多项国家自然科学基金、国家973/863项目和企业研发项目。 在IEEE Trans./Journal、INFOCOM、ICC、Globecom等刊物和会议上发表论文100多篇。担任期刊Frontiers of Computer Science、China Communication编委、International Journal of Distributed Sensor Networks客座编辑;INFOCOM、ICC、Globecom等著名学术会议程序委员;10多个重要国际学术刊物的评阅人。 曾获中国计算机学会优秀博士学位论文奖、ACM Beijing Rising Star Award。

青年论坛六

在线社交媒体分析与挖掘

沈华伟

(排名不分先后)

摘要:近年来,以微博、微信等为代表的在线社交媒体逐渐成为人们发布、传播和获取信息的主要媒介。社交媒体汇聚了大量的用户关系数据和信息传播数据,为分析和研究人类社会活动提供了弥足珍贵的数据资源。 社交媒体中数据多源异构、个体间关系繁杂、信息传播突发等特点给社交媒体分析提出了科学技术挑战。分析社交网络的结构规律、挖掘用户行为的固有模式、探索网络信息传播的内在机理、研究高效的社交网络分析与网络信息传播预测方法,有利于提升对在线社交媒体的科学认知水平和有效利用能力。 报告将从网络结构分析、网络表达学习、网络信息传播预测等几个方面介绍报告人近几年在在线社交媒体中的信息传播预测方面的研究成果。

报告人简介:沈华伟,博士,中国科学院计算技术研究所研究员,中国中文信息学会社会媒体处理专委会副主任。研究方向为网络科学和社会计算。先后获得过CCF优博、中科院优博、首届UCAS-Springer优博、中科院院长特别奖、入选首届中科院青年创新促进会、中科院计算所“学术百星”。 2013年在美国东北大学进行学术访问。2015年被评为中国科学院优秀青年促进会会员(中科院优青)。获得国家科技进步二等奖、北京市科学技术二等奖、中国电子学会科学技术一等奖、中国中文信息学会钱伟长中文信息处理科学技术一等奖。 出版个人专/译著3部,在网络社区发现、信息传播预测、群体行为分析、学术评价等方面取得了系列研究成果,在Science、PNAS等期刊和WWW、SIGIR、CIKM、WSDM、AAAI、IJCAI等会议上发表论文80余篇,引用2200余次。 担任PNAS、IEEE TKDE、ACM TKDD等10余个学术期刊审稿人和WWW、CIKM、WSDM等20余个学术会议的程序委员会委员。

青年论坛七

大数据群体计算

李国良

(排名不分先后)

摘要:大数据问题所固有的规模繁杂性、高速增长性、形式多样性、价值密度低等特点为传统计算处理方法带来了严峻的挑战。一方面,大数据的规模繁杂性和高速增长性带来了海量计算分析的需求; 另一方面,形式多样性和价值密度低等特点使得大数据计算任务高度依赖复杂认知推理技术。针对大数据计算中海量计算分析和复杂认知推理需求并存的技术挑战,基于人机协作的群体计算是有效的解决途径。 大数据群体计算是一种新型计算模型,其目的是通过整合互联网上大量用户和计算资源来处理现有计算技术难以解决的大数据问题。本报告将介绍大数据群体计算的研究现状、面临的挑战、发展趋势,以及介绍本人提出的人机协作的群体计算模型、质量感知的计算方法、资源可控的计算理论。

报告人简介:李国良,清华大学计算机系长聘副教授。主要研究方向为大数据挖掘与分析,群智计算。在数据库、数据挖掘、信息检索领域的顶级会议和期刊上发表论文100余篇,他引5000余次,入选爱思唯尔2014-2016年中国高被引学者榜单。主持国家优秀青年基金、青年973、自然基金重点等项目。 获得了VLDB Early Career Research Contribution Award(VLDB杰出青年贡献奖,亚洲唯一一位)、IEEE TCDE Early Career Award(IEEE 数据工程领域杰出新人奖,亚洲唯一一位)、青年长江学者、国家万人计划青年拔尖人才、计算机学会青年科学家奖等奖项。 担任VLDB Journal、IEEE TKDE、IEEE Data Engineering Bulletin、ACM Transactions on Data Science, ACM Data and Information Quality (JDIQ)、FCS、Elsevier Big Data Research编委,多次担任SIGMOD、VLDB、KDD、ICDE、WWW、IJCAI、AAAI等会议的程序委员会委员。 获得过数据库领域重要国际会议CIKM’17最佳论文奖、DASFAA’14的最佳论文提名奖、APWeb’14最佳论文奖、EDBT’13大数据比赛冠军。获电子学会科技进步一等奖(2017年,第六完成人),教育部自然科学奖二等奖(2013年,第四完成人)、计算机学会自然科学奖二等奖(2013年,第一完成人)。

青年论坛八

基于无监督学习的文本管理与近似搜索

杨晓春

(排名不分先后)

摘要:文本是数据的主要表示形式之一。有效的文本管理与搜索作为基础技术支撑,在Web搜索、生物序列匹配、模式匹配等方面起着重要的作用。 报告将涉及到以下几个方面:(1)基于短语挖掘的索引构建,(2)近似文本搜索,(3)短语嵌入。

报告人简介:杨晓春教授现任职于东北大学计算机科学与工程学院,计算机科学系系主任。她于2001年于东北大学获得博士学位。 中国计算机学会学术工委委员。 是国家优秀青年基金获得者,入选科技部万人计划、教育部新世纪优秀人才,霍英东教育基金会青年教师基金优秀课题获得者, 入选辽宁省百千万人才百人层次。 主要研究兴趣包括:文本数据管理与分析,时序数据管理,数据质量管理,数据隐私保护等。 作为项目负责人支持17项国家与省部级项目,先后在ACM SIGMOD, VLDB, ICDE, AAAI, IJCAI, ACM Trans. on Database Systems, IEEE Trans. on Data Engineering等发表多篇高水平论文, 撰写专著2部。获得美国国家发明专利授权1项,国家发明专利2项。 获省部级奖2项,国际会议最佳论文奖3项,全国会议最佳论文奖4项。