多媒体信号与智能信息处理实验室
实验室概况:
多媒体信号与智能信息处理实验室采用包括统计模式识别、机器学习、数据挖掘等海量数据处理技术,研究数据和信息的认知、理解、以及有效管理和利用。2015年起,实验室开始聚焦智慧医疗研究领域,将自然语言理解、知识工程、数据挖掘和图像分析技术应用到医学领域,积极开展全科辅助诊断和专科辅助诊疗的研究工作。
全科诊断能力和面向基层的辅诊系统
医疗文本理解对自然语言处理技术提出了严峻挑战。针对语义表征和推理建模中语义粒度、推理尺度和层次建模三个关键难点,我们提出了基于上下文自注意力机制的多粒度语义张量表征模型CAMSE,以实现医学文本多种粒度的语义表征;提出了包含关键点推理、局部上下文推理和全局证据链推理的跨尺度推理学习模型Med3R,以实现基于跨尺度信息的推理;提出基于张量图和图内与图间双消息传递的多图融合技术TensorGCN,以实现层次化推理模型的构建。学术成果发表在《自然.通讯》,AAAI和ACL等重要期刊和学术会议上。
2017年,实验室研发的“智医助理”机器人参加国家执行医师考试临床笔试测试,属全球首次,获得456分的好成绩,不仅大幅度超越360分的及格线,而且超过当年96.3%的人类考生。2017年11月16日,新华社内参快讯以“我国机器人“医生”通过执业医师考试属全球首次”为题予以报道(刊号3466);2018年3月,《MIT Technology Review》专门介绍了这一成果。
在此基础上我们研发了“智医助理”全科辅诊系统。2018年3月2日在安徽合肥庐阳双岗社区卫生中心首次上线;随后得到安徽民生工程的支持,在四县一区(天长县,阜南县,金寨县,凤阳县和合肥双岗区)开展规模化试点。对基层常见病的诊断,首选正确率超过85%,5候选覆盖率超过96%。2019年智能辅诊系统的推广被列入安徽省政府工作报告。目前,已经在全国二十个省市200个区县2万个基层医疗机构和社会卫生中心应用,服务超过一亿居民,显著提升了基层诊疗的质量和规范性。
电子病历智能质检技术
电子病历汇聚了诊疗过程的全面信息,是医院诊疗质量、服务水平和管理能力的全面体现。但目前病历质控缺乏有效手段,主要依靠主观评价,抽检比例很低,质量规范难以得到有效落实。电子病历的智能质检是指利用机器学习、知识图谱、医学自然语言处理、数据挖掘和统计分析等前沿技术,对住院病历、门诊病历、医技报告等电子病历数据的完整性、规范性、一致性、时效性、合理性等进行全方位检查和校验,发现并定位问题发生的位置,并将相应错误信息和处理建议推荐给临床医生或病案室医生,协助医生发现和解决电子病历中存在的问题,提高电子病历的书写质量,从而提高临床诊疗水平。电子病历智能质控能力可以分为三个层次即形式质检、内容质检和内涵质检,分别对应于书写形式规范、文本字内容正确、医学逻辑合理。要具备这三个层次的质控能力,其核心是对电子病历进行全方位、深层次的内容分析智能化理解,利用深度学习、知识工程、大数据等人工智能技术实现病历数据的精细结构化、术语规范化、内涵解析、疾病编码、手术编码、机器诊断合理性判断。
实验室基于国际前沿技术研发了电子病历智能质控系统,其质控能力已可覆盖病案首页、入院记录、病程记录、手术记录、抢救记录、出院记录、死亡记录等全电子病历章节内容,根据质控能力的不同划分有病历内容完整性、病历书写规范性、病历内容合理性、病历书写时效性、病情描述一致性、诊疗合理性、编码正确性7大类共700多项质检能力。智能病历质检系统能实现了全量化、自动化、智能化的电子病历质量检查,可显著减少人力投入,节约成本;对促进全国电子病历规范化,提高电子病历整体质量将发挥重要作用。
专科辅助诊疗技术
与多家知名医院开展合作,在多个科室方向面向临床问题开展深入研究,取得了一系列成果。积极探索利用人工智能技术处理形态各异的临床数据和复杂多变的临床问题。
与北医三骨科合作,基于全脊柱DR影像的脊柱解剖结构分析,引入多任务学习和部位相关性提高锥体检测精度。
与同仁医院合作,引入医学和声学知识采集双体位语音信号,实现了针对阻塞性睡眠呼吸障碍患者的快速筛查和严重程度分类;通过提取其鼾声和实时体位状态,实现呼吸暂停事件的实时预测。
与解放军总医院超声科合作,基于多模态超声图像和报告,引入深度对齐和融合算法,实现淋巴节正常、良性和恶性分类,并进一步实现超声报告的自动生成。
与北京大学口腔医院合作,提出了针对口腔X光根尖片的级联结构进行牙位识别算法,以及可摘局部义齿的自动设计方法。
与中科大附一院放疗科合作,研究基于深度学习的临床靶区自动勾画算法,提出面积感知的重加权策略和循环迭代的标签修正策略,提高应用于宫颈癌放疗靶区勾画的算法精度。
面对医疗图像分析问题,提出了针对医学分类任务的神经网络参数初始化方法和数据增强方法;引入标签质量评价模块以及过拟合控制模块来缓解标签噪声对分割任务的影响;提出同时从像素级和图像级蒸馏有效监督信息的噪声容忍学习框架以提升对带噪标签的鲁棒性。
基于图神经网络与多视图对比学习框架,融合药物在化学与相互作用网络中的表示,提取药物表征以精准预测全新的药物间相互作用;提出了一种可解释的药物数据增强方法,得以在药物表示学习中使用相同的数据训练得到更鲁棒的分子表示。使用所提出的方法预训练的分子表示在多种下游预测任务中取得了比有监督学习更好的性能。
实验室主任吴及,是清华大学电子工程系副系主任,长聘教授,博士生导师。1996年和2001年在清华大学电子工程系获得工学学士和博士学位,2013年至2015年在美国佐治亚理工学院担任访问学者。主要从事人工智能,机器学习,自然语言处理,模式识别,数据挖掘等领域的研究工作。从2006起担任清华-讯飞联合实验室主任,2019年起担任清华大学精准医学研究院临床大数据中心主任,2020年起担任清华大学智慧医疗研究院副院长,现在为IEEE高级会员,中国语音产业联盟技术工作组组长。
吴及教授承担国家重点研发计划,863,国家自然科学基金,工信部电子发展基金等多项国家科研项目。参加的项目“智能语音交互关键技术及应用开发平台”于2011年获国家科技进步二等奖。负责的项目“面向海量语音数据的识别、检索和内容分析技术及其应用”获2016年度北京市科学技术奖一等奖。2018年起担任国家“数字诊疗装备研发”专项项目“大众医疗健康医学人工智能管理服务模式”项目负责人。已在Nature Communications, IEEE TASLP,AAAI,ACL等重要学术期刊和学术会议上发表论文近一百五十余篇。
实验室负责人:
吴及教授
联系方式:
[email protected]
实验室网站:
http://msiip.tsinghua.edu.cn/
机器视觉与手术导航实验室
实验室概况:
机器视觉与手术导航实验室致力于机器视觉的研究并将其应用于医学手术导航,研究内容包括立体成像、三维重建、三维测量、立体定位、增强现实与可视化等,主要应用于骨肿瘤手术导航、肿瘤的精准放疗等。实验室已和积水潭医院、北医三院进行了长期合作,得到了包括国家自然科学重点基金在内的多个基金支持,研究成果已在TPAMI、TMI、ICCV、CVPR等期刊或会议发表。
实验室负责人:
张利教授
联系方式:
[email protected]
计算成像与视觉智能实验室
实验室概况:
Sigma Lab(tSinghua vIsual intelliGence and coMputing imAging),探索以人工智能、物理光学、光电计算和机器视觉等交叉的成像新模型,建立光电计算光场成像新架构,揭示显微、宏观和远观的成像极限性能,致力于动态光场感知、光场智能重建和光场智能处理的研究。构建了国际首个大场景多对象复杂关系的十亿像素视频数据平台PANDA,为探索人工智能新理论与新算法提供了数据基础,在ICCV, CVPR等举办国际挑战赛。
实验室负责人:
方璐,清华大学副教授、博士生导师。本科毕业于中国科大电子工程系,博士毕业于香港科技大学电子与计算机工程系。相关工作发表在Nature系列子刊, IEEE TPAMI, Engineering,中国科学等期刊,和CVPR, ICCV和ICCP等会议。获中国电子学会科技进步一等奖、MIT TR 35中国区科技创新青年。任IEEE TIP和IEEE TMM期刊编委。
联系方式:
[email protected]
实验室主页:
www.luvision.net
极光实验室
实验室概况:
AuroraLab隶属于清华大学电子工程系,直属于媒体大数据认知计算研究中心,以说话人识别(声纹识别)相关技术、音频事件检测和知识图谱等为研究领域,针对跨模态多语言感知与认知智能的理论、技术与方法展开研究。
研究方向:
n说话人识别是通过语音判断说话人身份的生物特征识别技术,其相关任务包括语音防伪、说话人标记和语种识别等。语音承载了多维属性信息,包括语音内容、说话人身份、语言种类和情绪健康等。说话人识别有两个主要难点:1)如何抑制语音内容、信道传输和背景噪声等干扰;2)如何有效将语音各属性信息解耦。随着语音合成、语音转换等技术的日益进步,伪造语音与自然语音的相似度越来越高。区分伪造语音和自然语音,对网络内容安全等具有重要应用意义。
n音频事件检测(场景分析)的研究对象是音频。该类问题的难点通常在于:1)音频事件复杂多样、差异巨大;2)某些音频事件或场景出现概率极低,如何在缺少目标样本或目标样本数量极低的条件下建模;3)如何解耦相互重叠的音频事件;4)音频时间(场景)标注往往没有语音识别标注那么精细,弱监督学习,甚至无监督学习,也是音频事件检测(场景分析)的挑战性问题。
知识图谱是大规模语义网络,把复杂知识通过数据挖掘与处理、认知计算和图形绘制显示出来,让计算机具有解释与推理能力,已成为知识驱动智能共性技术。知识图谱的研究包括数据获取、图谱构建、管理与应用等方面。实验室在实体关系抽取、实体对齐等方面已有一定的研究,并逐步深化。预训练是通过无监督数据提取数据的内在特征。预训练模型通常作为种子模型,通过目标任务上有监督数据微调,可更好的解决与语音相关的各种任务,如主题分类、关键词检测、防伪检测、说话人识别、音频事件检测等。
合作单位有国家自然科学基金、中国移动通信有限公司、华为公司、淘宝(中国)公司、公安部物证鉴定中心、腾讯公司等,部分项目名称如下:
基于信息几何的说话人标记方法研究
个人信息挖掘的价值制约机制和隐私保护策略
富媒体通信引入的新型多媒体不良信息过滤识别技术研究与应用
说话人标记技术开发项目
声纹识别技术开发
刑侦领域的声纹鉴定和反电信诈骗
复杂环境下语音数据的说话人识别及关键词检索
智能语音评测及相关技术研究(声纹方向)
网络语音防伪检测
实验室负责人:
何亮副研究员
联系方式:
[email protected]
视觉计算实验室
实验室概况:
实验室主要从事3D成像、视觉检测、医疗数据、智能人机交互(机械臂、机器狗)智能系统等领域的研究工作。与国内外企业具有广泛深入的合作,研究成果广泛应用与产业界。与康奈尔,伦敦大学等国外著名高校联系紧密,鼓励博士生在读期间参与国际交流机会(国际会议、交换国外访问等活动)。
研究方向:
3D成像、视觉检测、医疗数据、智能人机交互(机械臂、机器狗)智能系统等。
实验室负责人:
王贵锦教授,博士生导师,主讲“数字图像处理“、”模式识别“课程,是IEEE多媒体系统和应用技术专委会委员,公安部证件防伪重点实验室学术委员、曾任IEEE Signal Processing Magazine等多个顶级学术期刊副编委。在国内外顶级期刊会议上发表文章百余篇,其中SCI 60余篇,国际会议/期刊最佳论文4篇,applied optics封面文章一篇,google引用近3000次,发明专利授权30余项。获2019年国家科技进步二等奖,获2018年纽伦堡国际发明展金奖2项,获2018年电子学会科技发明一等奖,获2016年人工智能学会“吴文俊”科技进步一等奖,2016年山东省科技进步二等奖,主导制定报批国家标准2项。
联系方式:
[email protected]
下一代网络技术及应用实验室(NGN)
实验室概况:
实验室以中国教育与科研网络CERNET/CERNET2为平台,长期从事网络体系结构、网络信息智能处理、网络安全和网络文本情感计算、推荐系统和知识图谱等技术等研发。现有教授2人,博士后2人,博士生和硕士生30多人。先后完成了国家自然基金委的重点项目和面上项目;科技部973、863、重点研发专项等科研项目40余项。已在Science(Eletters)、Nature SR、IEEE Tran. ACM Tran.、中国科学等国内外著名期刊和AAAI、ACL等重要国际会议发表学术论文300多篇;取得了一系列重要理论和技术成果,获得5项科技成果奖励。研发了多项应用系统在国家重要部门得到应用。
研究方向:
实验室以中国教育与科研网络CERNET/CERNET2为平台,长期从事网络体系结构、网络信息智能处理、网络安全和网络文本情感计算、推荐系统和知识图谱等技术等研发。
实验室负责人:
黄永峰,研究员,计算机系统结构博士,博士生导师,首届全国网络安全优秀教师,信息认知与智能系统研究所副所长。IEEE Senior Member;ACM SIGWEB中国分会副主席;中国高科会人工智能+教育专委会副主任;中文信息学会开源情报技术专委会副主任等。多年来一直从事互联网及其信息安全理论与技术的研究和教学工作。
遥感研究室
实验室概况:
遥感研究室长期从事卫星遥感图像处理与空间信息应用方面的研发工作。项目团队在针对卫星遥感图像处理的深度学习、迁移学习、稀疏表达、字典学习等理论与应用方法研究方面具有雄厚的技术积累;在遥感图像空间与光谱超分辨率重建、遥感图像缺失信息恢复、多源遥感图像融合与复合分析、高光谱图像处理与应用、复杂背景下的目标检测、海面异常检测等领域具有多年的研究、开发与工程应用经验。项目团队于2009-2013年主持了“第二次全国湿地资源调查”8个省级单位的技术支撑工作,2016-2017年主持了“全国重点省份泥炭沼泽碳库调查”3个省级单位的技术支撑工作,提出了基于卫星遥感数据的湿地区划判读流程和技术体系,开发了相关应用软件系统。2016年曾研发过“超高空飞艇对地观测系统”,实现了大跨度、高机动、高重访周期的流域综合动态监测能力;2019年曾研发了“基于深度学习的甲状腺结节超声图像分类系统”,实现了高精度、高可靠的甲状腺结节自动检测与良恶性分类;2021年完成了“溢油、藻类污染等海面光谱异常检测体系”的研发工作,可实现对各类海面光谱异常的自动检测。
近年来,实验室共承担国家自然科学基金、国家863计划、国家科技支撑计划等国家级科研项目20余项,在TIP与TGRS等本学科顶级期刊、ICASSP、ICIP等本学科顶级国际会议上发表学术论文近百篇,获国家发明专利16项,获省部级等科技奖励5项。
研究方向:
项目团队在针对卫星遥感图像处理的深度学习、迁移学习、稀疏表达、字典学习等理论与应用方法研究方面具有雄厚的技术积累;在遥感图像空间与光谱超分辨率重建、遥感图像缺失信息恢复、多源遥感图像融合与复合分析、高光谱图像处理与应用、复杂背景下的目标检测、海面异常检测等领域具有多年的研究、开发与工程应用经验。
实验室负责人及成员:
孙卫东教授、马洪兵研究员
联系方式:
(1) 孙卫东教授:
电子邮箱:
[email protected]
,手机电话:13301033643
(2) 马洪兵研究员:
电子邮箱:
[email protected],手机电话:18610096522
语音处理与机器智能实验室
研究方向
:
语音处理(语音识别与对话、自然语言处理)以及机器学习基础理论(特别是概率图模型理论及应用),以建设强泛化人机对话及知识助理系统为抓手,迈向强人工智能!
- 承担国家自然科学基金、863等国家级项目,教育部、信产部、中国移动、国家电网等部委和国家企业项目,以及Intel、IBM、Panasonic、Toshiba、Apple等国际合作,研究成果受到学术界和工业界广泛认可。
- 在TPAMI、TASLP、ICLR、UAI、AISTATS、AAAI、ICASSP、ACL、EMNLP、电子学报等重要学术期刊和会议发表论文近百篇,并多次获奖(863评测2003、信产部评测2004、国家广电创新大赛2021、NCMMSC2005、ISCSLP2018等)。
- 实验室因材施教,培养同学在高起点做高水平的工作,指导获得校级、国内及国际学术相关获奖10余项。
实验室负责人
及成员:
欧智坚副教授,肖熙
副
教授,孙甲松副教授
联系方式:
[email protected]
实验室主页:
http://oa.ee.tsinghua.edu.cn/ouzhijian
语音与音频技术实验室
实验室概况:
语音与音频技术实验室(Speech and Audio Technology Lab, SATLab)隶属于清华大学电子工程系。实验室致力于研究大数据背景下的语音、音频、听觉信息处理的理论与方法及其应用。从语音中识别和分析出“谁”在“什么时间”、“什么地点”、“什么场景”、“说什么”和“做什么”,并通过语义理解和意图分析,辅助进行决策。主要研究方向为语音识别与分析(包括语音识别、关键词检索、语种识别、声纹识别、情感识别等)、音频识别与分析(包括音频检索、音频事件检测、音频场景识别等)、音乐与声学信号处理,机器学习等。
实验室牵头承担了自然科学基金重点项目、国家重点研发课题等多个国家项目和企事业单位项目。并在多项语音技术方面国际最权威的评测中获得佳绩,具体包括:
2009年,NIST语种识别评测,30秒核心测试,国际第三
2010年,MIREX哼唱检索评测,国际第一
2012年,NIST说话人识别评测,带噪电话核心测试,国际第五
2016年,NIST关键词识别评测,公开测试,国际第三
2015年,NIST关键词识别评测,公开测试,国际第一
2017年,NIST语音分析评测,关键词检测,国际第二;连续语音识别,国际第三;语音活动检测,国际第四
2019年,DCASE声学场景识别与音频事件检测评测,弱监督音频标注任务,国际第二
2019年,NIST语音分析评测,语音活动检测,国际第一;关键词检测,国际第二;连续语音识别,国际第三
2020年,NIST语音分析评测,语音活动检测,国际第一;关键词检测,国际第一;连续语音识别,国际第二
2020年,IARPA语音识别评测,共10个语种,4个国际第一,6个国际第二
实验室负责人:
张卫强副教授
联系方式
:[email protected]
实验室主页:
http://web.ee.tsinghua.edu.cn/satlab
智能图文与机器视觉实验室
实验室概况:
智能图文与机器视觉实验室前身是智能图文与信息处理研究室视频组(CV-AI Lab),隶属于清华大学电子工程系。实验室研究领域包括人工智能、机器学习和计算机视觉等,主要研究方向包括人脸识别与行人再识别、物体检测与图像语义描述、多模态协同机器人、多文种文字检测与识别等。
1.人脸识别与行人再识别研究
在人脸识别研究中,2018年在国际权威人脸检测测试库FDDB取得国际第一。研究成果已经应用在贵州六盘水市公安局。在行人再识别研究中,2015年行人再识别研究成果被《麻省理工学院技术评论》高度评价。建立并公开了三个本领域权威测试行人数据集iLIDS-VID、Market1501、MARS。到目前为止,成为本领域标准测试集,三个数据集已经有超过13600次的下载量。
2.物体检测与图像语义描述研究
在物体检识别与分类研究中,取得了多个公开数据集上多项指标领先的成果,提出了基于领域适应大规模检测方法,实现ImageNet上所有类别物体(ImageNet 2009 Release:10447类)大规模物体检测。在图像检索研究中,大幅度提升了图像检索中视觉匹配的精确度,在主要图像检索标准测试集上均达到了国际领先水平。在图像理解和图像语义描述研究中,研究方向包括图像语义描述,图像问答(VQA)等。图像语义描述研究包含面向通用场景的语义描述,及面向特定场景的描述(如表情描述),在图像语义描述准确性和多样性上均取得了国际领先水平。
3.多模态协同机器人研究
多模态协同机器人研究致力于研究与人在共同空间、近距离、协同工作的机器人,实现多模态人机物交互。研究的核心技术包括通用物体检测,语音识别与NLP,视觉图像的多模态语义理解,目标物体位姿估计与抓取点确定,视觉与触觉力反馈融合的物体抓取,持物移动中的平衡策略等。目前研究构建了面向人机交互短语命令的语音识别原型系统引擎,实现由语音指令控制的机器人物体抓取系统。
4.多文种文字检测与识别研究
多文种文字检测与识别研究对于基于内容的互联网海量图像与视频信息检索等应用具有重要意义。相关研究内容包括基于多尺度时空信息分析的深层神经网络建模、半监督迁移学习等,显著提升了多文种场景文字和手写文字的识别性能。技术成果荣获ICPR2020及ICDAR 2017阿拉伯文视频图像文字检测与识别竞赛冠军,并荣获ICDAR 2019 Best Student Paper Runner-Up Award、DAS 2016 Best Paper Award、SPIE DRR 2015 Best Student Paper Award。
实验室获得了包括973、863、国家自然科学基金、教育部博士点基金、国家科技支撑计划等多个国家项目支持,并取得出色成果。实验室在国际重要期刊IEEE和学术会议发表论文逾200余篇,其中近年发表IEEE Trans等顶级期刊18篇,CVPR/ICCV /ECCV 三大顶会30篇,其他顶会16篇,AAAI oral 1篇。谷歌单篇引用逾2400次。申请发明专利15项。获2008年国家科技进步二等奖1项、获2006北京市科学技术一等奖1项,获2019年吴文俊人工智能科学技术自然科学奖,2019年公安部科学技术奖,DAS最佳论文 1篇,ICPR最佳论文 1篇,2017年度中国人工智能学会优秀博士论文奖,2020年度中国图像图形学会优秀博士论文奖。
实验室负责人及成员:
王生进教授;彭良瑞副研究员;李亚利助理研究员;博士后4名。
联系方式:
[email protected]
智能图文与健康信息处理实验室
实验室概况:
清华大学智能图文与健康信息处理研究室隶属于清华大学电子工程系,也是北京信息科学与技术国家研究中心的一部分。
前身由丁晓青教授创建于上世纪90年代初,研究方向首先聚焦文字识别领域,致力于赋予计算机像人一样认字的能力,解决我国信息化过程中的关键问题。创立TH-OCR品牌及系列产品,从汉字发展到十几种文字识别,从印刷文字发展到手写文字识别,从内容识别到笔迹鉴别,从电脑软件到嵌入式系统,实现了全面覆盖。获国家科技进步二等奖2次(2003年、1999年)、三等奖1次(1992年),与国内外多家知名公司开展了技术授权和研究合作,如微软、腾讯、百度、阿里云、华为、三星等。
从2000年开始,开展以人脸识别为代表的生物特征识别研究,并迅速获得研究突破,从2004年开始获得多项国际竞赛最佳成绩,主要有:FRVT2006、ICPR2004、国家863人脸识别认证评测等。创立TH-ID品牌及系列产品,以深圳罗湖口岸通关项目为代表,使人脸识别在国内成功实现了大规模商业应用。TH-ID生物特征识别技术获国家科技进步二等奖(2008年)。
在无生命目标识别获得成功并充分沉淀技术创新的基础上,刘长松带领团队面向国家重大需求和人民对提高身体健康水平的迫切需要,围绕非接触人体生理信号测量关键问题开展人体健康主动识别,努力探索有生命的对象,初步构建了TH-Health健康识别研究体系。实现实时、无创、精准、客观化身体健康测量与监控。具体研究内容包括:以光学为基础的人体生理信号测量、舌诊/面诊人工智能技术、声光电干预技术以及中医客观化传承平台。
研究室注重理论和实践相结合的培养模式,兼备深厚的理论基础和强力的研发能力,激励原创探索。以解决国家重大需求、解决实际问题为导向,力争实现科研成果的广泛应用。培养发现和解决未知问题的能力,培养电子、计算机软硬件实践及动手能力。
研究方向:
主要研究方向包括:文字识别、生物特征识别、人体健康信息识别监控和调节、中医人工智能、智能硬件系统。
TH-Health中医人工智能传承平台
实验室负责人:
刘长松副教授
联系方式:
FIT楼1-502,010-62772368,
[email protected]
实验室主页:
www.thocr.org