智谱 GLM 团队推出新一代基座大模型 GLM-4-Plus,视频通话功能实测

   日期:2024-09-01     来源:网络整理    作者:二手钢材网    浏览:282    评论:0    
核心提示:开通视频通话功能后,记者的手机就通过摄像头成为了“现场解说员”,例如当摄像头面对客厅,AI立刻说出了“我看到了灰色的瓷砖,这是一个白色的柜子,下面放着很多双鞋。

自演示GPT-4o的音视频交互功能以来,这是国内首个正式开放相同功能的大型模型厂商,该功能目前支持内测,在获得内测资质后,新京报贝壳财经记者第一时间进行了实际测试。

能准确识别物体和品牌,但反应速度有待提高

今年 5 月,GPT-4o 演示了连接人类情绪的语音助手可以识别人类情绪并进行音频和视频交互。

智普此次推出的GLM-4-Plus明显有与GPT-4o一较高下的野心,即便在视频演示中,也采用了与之前相同的展示方式,三名测试人员,两男一女,坐在沙发上,用手机与智普清研APP进行交互。

在演示中,测试人员拿出一张纸,画了一条蛇的简笔画,并加上了几个“脚”,AI随即表示,这可能代表着“画蛇添足”这个成语。

取得测试资质后,贝壳财经记者发现,通过点击智扑清研APP交互界面右下角的小电话图标,然后点击视频通话,即可启动该功能。

开启视频通话功能后,记者的手机通过摄像头变成了“现场解说员”。比如,当镜头对着客厅时,AI立刻说:“我看到了灰色的瓷砖,这是白色的柜子,下面放着好多双鞋子。”当镜头对着浴室时,AI立刻认出了洗衣机,甚至连品牌都认出来了,“这是西门子洗衣机,滚筒是黑色的,机身是白色的。”

记者发现,这项功能特别适合盲人出行,因为当你打开智朴清眼APP的这项功能,举起手机出门时,AI就能描述出路上看到的一切:“这是一栋楼的入口(其实是出口),路边有很漂亮的花,旁边有个邮箱。”如果你直接指着某个东西问问题,AI也能给出答案,“你指的是一组绿色的储物柜,上面挂着黄色的牌子写着丰巢,里面是寄存快递的地方。”

记者与智扑清妍APP视频通话功能交互截图。

当记者将镜头转向自己时,AI也给出了评价,“你的头发很乱,好像刚起床一样,身上穿着一件粉色的T恤,上面有白色的字。”

不过,记者在测试过程中也发现了一些不足。比如,与测试视频中GTP-4o展现的“毫秒级”反应相比,该AI的反应速度略慢,在互动过程中有时需要等待其回答。而且如果记者打断其回复,它可能会重复同一句话,并不像与真人对话那么自然。

基地大模型升级将通过“小步快进”不断迭代

值得注意的是,智普的GLM-4V-Plus模型还能理解和分析持续一段时间的视频,可见其具备时间感知能力。比如,看完一段篮球比赛视频后,如果你问“绿衣球员在干什么?这段视频的精彩瞬间发生在哪一秒?”,AI会给出精准的答案,“绿衣球员在场上运球投篮,精彩瞬间在第4秒,球员跳起将球投进篮筐。”

此外,GLM-4-Plus利用大量模型辅助构建高质量合成数据,提升模型性能;并利用PPO有效提升模型推理(数学、代码算法题等)性能,以更体现人类的偏好。

记者通过实际测试发现,相比于周围环境的实时讲解,智朴清言APP在专业辅助方面表现更佳。比如,你可以直接将手机摄像头对准一篇英文文章,让它直接语音翻译内容,或者直接拍下问卷内容,让它帮忙分析题目,辅助学习。

此外,即便是在音视频功能上,AI也展现出了一定的长文阅读能力。比如,当记者将镜头对准余秋雨《文化之旅》中《白发苏州》这一页时,AI立刻总结出这一页的内容,“这段话赞美苏州,说它历史悠久,园林古建筑多,让人感受到宁静与历史的韵味。作者觉得苏州就像是中国历史上的一篇散文。”

记者与智扑清妍APP视频通话功能交互截图。

神奇的是,智铺清颜APP还具备记忆功能,当贝壳财经记者第二次开启音视频通话功能时,它立刻向记者打招呼,“下午好,有没有想过之前我们聊过的苏州?那个美丽的地方给你留下了什么印象?”

智普表示,该模型将以开放平台的形式推出,提供国内首个通用视频理解模型API。“青眼通过小步走、不断迭代,力争让大模型技术更好地赋能更多用户。”

该公司表示,随着开源模型、开放平台模式的普及,将不断推动AI的力量惠及更多人,为千行百业带来持续的创新变革,加速通用人工智能时代的到来。

新京报贝壳财经记者 罗轶丹

赵琳 校对

 
打赏
 
更多>同类资讯

0相关评论
推荐热播视讯

推荐视频

    Copyright © 2017-2020  二手钢材网  版权所有  
    Powered By DESTOON 皖ICP备20008326号-2