测试 Yi-1.5-9B-Chat 模型指令跟随和使用外部工具的能力

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 300 天前的主题，其中的信息可能已经有所发展或是发生改变。

今天休假，所以我闲来无事到Huggingface网站逛了一圈，本来只是想看看是否有什么新动态。但没想到，一进去就发现了 Yi 团队低调发布了Yi-1.5的模型，其中包括6B 、9B 和 34B的基础模型以及 Chat 模型。

去年的 Yi 模型在Huggingface上可是火过一段时间的，我对它的旧模型也做过测试，对它的性能表现印象非常深刻。要知道当时 Yi 和 Yi 的各种微调模型，可是霸榜了好一段时间！

恰好前段时间，我对Llama-3-8B和Phi-3-mini模型进行了测试。首先，我为这些模型添加了代码解释器，以评估它们的任务分解和代码编写能力。其次，我为它们添加了本地知识库、搜索引擎和 Function Calling 工具，测试模型在多种工具情境下，自动选择合适工具并正确调用的能力。

测试的最终结果，Llama-3-8B和Phi-3-mini模型在添加了代码解释器后，任务分解和代码编写能力还是不错的，经过一些试错，可以基本完成任务。不过第二大项测试就不行了，Phi-3-mini 模型几乎完全无法自动选择合适的工具，并进行正确的调用。Llama-3-8B 模型要好一些，前面几项测试在多试几次的情况下可以成功，但最后一项提交修理单，则是完全无法成功，有点让人失望。

今天，我就对Yi-1.5-9B-Chat模型进行同样的测试，探探它的水平如何！

一、添加代码解释器，测试任务分解和代码编写能力

这次依然使用我自己编写的代码解释器 keras-llm-interpreter，整个测试包含三项任务：多代理的经典任务，让模型绘制 Tesla 和 Apple 今年的股票价格曲线并显示。 让模型画一只粉色的小猪并显示。 让模型读取本地的一个文件，制作成词云图片并显示。

首先，让我们看看第一项任务：模型绘制 Tesla 和 Apple 今年的股票价格曲线并显示

在加载 Yi-1.5-9B-Chat 模型并开启代码解释器 keras-llm-interpreter 之后，布置任务给模型：Please plot Tesla and Apple stock price YTD from 2024.

如预期一样， Yi-1.5-9B-Chat 模型很好的完成了任务，它首先安装库 yfinance ，第二步编写代码从雅虎财经上下载了 TSLA 和 AAPL 的股票数据；第三步使用 plt 绘制了股票价格趋势图型，最后通过检查结果结束了任务。

第二项任务，让模型画一只粉色的小猪并显示

布置任务给模型：Please use Python language to draw an image of a pink pig and display it.

Yi-1.5-9B-Chat 模型也是一次就完成了这个任务，但是这只猪嘛...哎...

第三项任务，模型读取本地文件 wordcloud.txt ，制作成词云图片并显示

wordcloud.txt 中是指环王故事内容的一部分，首先还是布置任务给模型：Please create a word cloud image based on the file "D:\wordcloud.txt" and display it.

模型首先编写代码并读取了文件内容，最后编写代码制作词云并显示，可以说完成的非常不错！

总结：Yi-1.5-9B-Chat 模型在开启了代码解释器特性后，能够按照步骤分解任务内容，并且按照每一步骤编写代码并执行，最后检查任务的输出结果。Yi-1.5-9B-Chat的任务完成度和Llama-3-8B是查不多的，Phi-3-mini模型比它们 2 个则要差一些。

接下来，我打算使用Yi-1.5-9B-Chat 模型来构建一个 PS5 的智能客服代理。这个代理首先由Yi-1.5-9B-Chat 来驱动，对客户的输入进行语义理解之后，可以智能选择工具箱中的工具来为客户服务并解决问题。

我们为智能客服代理配备如下的工具：