Skip to content

Latest commit

 

History

History
54 lines (32 loc) · 1.29 KB

case1.md

File metadata and controls

54 lines (32 loc) · 1.29 KB

指令

"请把灯光调亮一些,大概到百分之七十的亮度。" "现在感觉有点冷,能不能把室内温度调高到25度?" "我要出门了,帮我启动安防监控系统。" "晚上想看电影,把家庭娱乐模式打开吧。" "感觉灯光太亮了,把智能照明关闭吧。" "我想听听轻音乐,打开娱乐模式,播放轻音乐。" “我想看看微信上有什么新消息。” “打开小红书,看看有什么流行趋势。” “我想用淘宝购物。” "我准备去睡觉了,关闭所有智能家居设备。"

评分

Baichuan/Baichuan2-Turbo (9.6)

Moonshot/moonshot-v1-8k (9.6)

OpenAI/ChatGPT4 (9.5)

ByteDance/Skylark-chat (9.2)

Tencent/ChatPro (9.2)

Minimax/abab6-chat (9)

Ali/qwen-turbo (8.6)

Zhipu/glm-4 (8.6)

OpenAI/gpt-3.5-turbo (8.6)

Minimax/abab5.5-chat (8.6)

Baidu/ERNIE-Bot-4 (8)

Ali/qwen-plus (7)

Lingyi/yi-34b-chat-0205 (7)

Baidu/ERNIE-Bot-turbo (6.6)

Zhipu/chatGLM_turbo (6)

Xunfei/Spark3.5 (6)

Xunfei/Spark3.1 (6)

Lingyi/yi-vl-plus (6)

Summary

  1. 注意:大型语言模型的响应基于概率性预测,因此并不保证每次都一致。只有通过广泛的测试用例和多次测试,才能更准确地评估模型的性能。