云知声推出山海多模态大模型，支持实时文本生成

近日，云知声方面宣布推出山海多模态大模型。据了解，该模型通过整合跨模态信息，可输入文本、音频、图像等指令，并实时生成文本、音频和图像的任意组合输出，带来实时多模态拟人交互体验。

具体而言，在实时秒回方面，山海多模态大模型的语音交互功能与现实对话中人类的响应时间相似，用户几乎感知不到延迟，可为用户提供流畅的使用体验。此外，山海语音交互功能支持对话随时打断，用户可在对话中灵活插话、无需等待，使交互过程自然且不受阻碍。

情绪感知方面，山海多模态大模型经过智能语音技术的加持，可通过语音文本来判断用户情绪，还能捕捉用户语音的语气、节奏、音调等变化，从而更准确地感知用户情绪状态，并给予适当的情感反馈和情感支持。

语音切换上，山海多模态大模型在对话中不仅可模仿人类停顿、呼吸等自然语言特征，甚至可模仿笑声等副语言元素，从而提升对话交互的真实感、沉浸感，还可根据用户的个性化需求自由切换音色，增强对话的生动性和趣味性。同时基于云知声声音克隆技术，该大模型可全面学习用户的音色、风格，并复刻还原用户声音，打造用户专属声音。

此外，山海多模态大模还可借助摄像头“看见”周围环境，实现精准识别，即从场景理解分析到物体信息描述。而对于目标物体上的文字，该模型可识别基础的OCR文字，并可结合图像和文字提供易于理解的总结。

图像创意生成方面，经过图像生成技术的加持，山海多模态大模可根据用户指令快速创建视觉内容，并深入理解用户对背景的日常化要求，通过图像编辑和优化技术提供符合个性化需求的定制画面，确保满足用户的创意和展示需求。同时基于多模态交互能力，该大模型可根据不同的场景和需求，模拟出各种人物性格和对话风格。

据云知声方面透露，后续还将拓展其实时语言翻译、面部情绪分析等更深入的多模态能力，全方位满足用户工作、社交、娱乐等多样话需求。

公开资料显示，云知声是一家专注物联网人工智能服务公司，于2012年6月成立，并随后在2016年开始建立Atlas AI基础设施，2023年5月发布山海大模型。

【以上内容转自“三易生活网”，不代表本网站观点。如需转载请取得三易生活网许可，如有侵权请联系删除。】