企业生态|喜马拉雅“耳朵经济”背后的音频技术 – IT资讯
自研全景声和场景音效技术,给耳朵做SPA
为了打造最佳的全景声听觉效果,喜马拉雅联手华为采用了AudioVivid(菁彩声)空间音频方案,支持包括电影院、有声剧场、音乐厅在内的不同场景渲染模式,实现声音版“3D电影”的效果。
除了全景声外,珠峰实验室采用多种前沿算法和动态编程组合封装技术,根据内容特性及不同音频波段分析,专业匹配有声读物,上线了十余款场景音效,包括剧院混响、人声独享、恐怖悬疑、现场环境、深沉抒情等,营造多元声音场景,还原真实声效氛围。要想让优质的音效能流畅运行在手机上,我们做了大量的推理加速工作,比如模型量化、剪枝、知识蒸馏等,从而大幅提升算力保障用户听感。
喜韵音坊有声小说创作工具,AI都是你的配角
喜韵音坊是珠峰实验室原创的网页版音频创作工具,它通过TTS技术帮助主播实现与AI共同创作音频节目。工欲善其事必先利其器,该工具不但能自动拆章、自动识别小说角色、批量合成,还能让AI给主播演配角、实现零成本一个人整台戏的多音色演播。
喜韵音坊的多种精修功能(重音、连读、停顿、语速等)配合人机结合的生产模式,让AI作品进一步媲美真人,约2个月就诞生几十部百万播放、3部千万播放“AUGC”优质有声小说作品。
万声具象――3D美型虚拟人直播和捏脸平台
喜马拉雅珠峰实验室已经迈向多模态AIGC,图像视频领域也可以整活了!技术上,喜马拉雅的虚拟人支持真人语音或TTS多样化驱动口唇和面部表情;内容形态上,离线视频生成、在线直播都可支持;人物形象方面,3D、卡通、二次元都可定制,原创捏脸乐此不疲。
实时变声,你的声音可以美化
不同于传统的变声,AI 变声是基于深度学习的声音转换(Voice Conversion)技术来实现的,可以实现任意发音人的音色定制,极大程度保留原始音色的特点。目前已有30余音色供使用,并已研发小说、新闻、亲子、广告、评书、商财、科普、历史、娱乐、情感、社科、助手12种风格,只需5分钟语料,就可以在1小时内完成模型建设,实现超快速音色定制。
― 企业介绍 ―
喜马拉雅2022年成立珠峰智能实验室,定位于新一代音视频和智能语音交互技术,产品以及产业探索。研究方向包括多模态AIGC、 语音合成、变声、智能审核、AI文稿、全景声、虚拟人、信号处理、智能音效等音视频以及智能语音交互等技术领域。我们致力于探索全栈音视频领域前沿技术,用AI赋能创作者、用户和行业伙伴,使内容生产降本增效、使内容体验生动有趣,实现在文旅、电商、教育、金融、娱乐、车联网等全方位多领域深度合作。
― 关于互动体验区 ―
本次大会期间,在场地二层中心地带安排了精彩纷呈的互动环节,其中面积最大的互动体验区,囊括了目前最热门的八大AI领域的代表项目:
AI芯片、AI数据、AI大模型、AIGC、元宇宙、智能机器人、智能出行、智慧健康
本次互动体验区搭建面积近千平方米,共有数十家国内外代表性的AI企业携代表性项目参与,旨在为到场观众提供全面体验AI最新能力的体验和经验,深入体会人工智能技术的精彩能力和美好前景。欢迎前来体验!
大会二层喜马拉雅互动体验区效果图(拟)
―― 2023全球人工智能开发者先锋大会 ――
由世界人工智能大会组委会、上海市人才工作领导小组办公室、上海市经济和信息化委员会、中国(上海)自由贸易试验区临港新片区管理委员会共同指导,上海市人工智能行业协会和上海临港经济发展(集团)有限公司共同主办的2023全球人工智能开发者先锋大会(GAIDC)将于2023年2月25日―26日在上海举行。
GAIDC始于WAIC上海人工智能开发者大会,历经三年发展沉淀,全面迭代升级。本届大会主题为“向光而行的AI开发者”,以AI开发者为核心,为AI开发者带来产业之光、科技之光、未来之光。
大会在上海最早迎接日出的地方――临港,通过论坛、团聚、学习赛、项目路演、人才交流、书友会、互动体验等多个板块,聚焦专业前沿内容,联合超过20家国内外开源组织、开发者社区,力邀全球技术大牛、导师大咖和AI开发者共同线下参与,同时与上千万专业开发者线上互动交流,营造自由活泼氛围。
大会将通过会中及会后全年持续运营人工智能开发者生态,让人才引领科技创新,创新吸引金融助力,金融推动产业发展,产业促进人才成长。
联络指南
媒体合作联系人:
党赞
13301885111
sandy.dang@sh-aia.com
论坛联系人:
张非易
17316400301
feiyi.zhang@sh-aia.com
互动体验区联系人:
刘建衢
13301889788
domi.liu@sh-aia.com
人才活动联系人:
王立军
13301889126
lijun.wang@sh-aia.com
扫码关注大会公众号报名预约