主题:自动构建多样化、高质量的图像数据集
时间:4月25日(周四)15:00-16:30
地点:11号楼705
主讲人:张健
主讲人简介:
张健,副教授,博士生导师,现任教于悉尼科技大学(UTS)信息工程学院。1982年于华东师范大学获得电子工程学士学位,1994年于弗林德斯大学获得计算机科学硕士学位,1999年于新南威尔士大学信息技术和电气工程学院获得博士学位。
1997年,加入摩托罗拉悉尼研究中心(Motorola labs),担任视觉信息处理实验室高级研究员,之后升任为主任研究员和视觉通信研究组主任。2004年,加入澳大利亚国家信息通讯技术中心(NICTA),担任多媒体和视频通讯研究室负责人。2011年,加入悉尼科技大学信息工程学院全球大数据中心,担任多媒体和数据分析研究室主任,研究方向包括图像处理、计算机视觉、模式识别、多媒体和社会媒体内容管理、视频内容理解、视频编码和通信。同时与多个知名机构开展合作研究项目,包括微软研究院、IBM研究院、诺基亚研发中心、华为美国分公司。
张健教授目前担任IEEE Transactions on Multimedia副主编,曾任(2009-2015)IEEE Transactions on Circuits and Systems for Video Technology (T-CSVT)副主编。同时是International Conference on Multimedia and Expo (ICME 2012) 大会主席,2014 IEEE Visual Communications and Image Processing (IEEE VCIP 2014) 技术委员会主席。
讲座摘要:
人工标注的图像数据集已被证明是高层次图像语义理解的关键,并不断地推动着特征的设计和模型的发展。然而,构建人工标注图像数据集的过程既费时又费力。为了消除人工标注的过程,我们提出了一种新的自动化图像数据集构建框架。我们的目标是对给定的查询从网络自动化地收集多样且准确的图像。具体来说,我们将噪声文本元数据和噪声图像数据的滤除分别转化为多视角和多示例学习的问题。为了验证我们提出方法的有效性,我们构建了一个100个类别的图像数据集。实验表明通过使用我们的方法所生成的数据在多个任务上(如图像分类、交叉数据集泛化和目标检测)都具有显著的性能增益,我们所提出的方法也优于现有的弱监督和网络监督的方法。
参会人员:0638太阳集团无教学任务的教师和研究生,欢迎感兴趣的师生参加!