AutoArena
用于使用大型语言模型评审员自动化对比评估生成式人工智能系统的开源工具。
AutoArena 介绍
这是什么 AutoArena?
AutoArena 是一个开源工具,旨在使用大型语言模型(LLM)评审员自动化进行生成式人工智能系统的一对一评估。它允许用户快速且准确地生成排行榜,比较不同的 LLM、RAG 配置或提示变体。用户可以微调自定义评审员以满足其特定需求。AutoArena 通过自动化的一对一评判,促进对 LLM、RAG 系统和生成式人工智能应用的可信评估。
如何使用 AutoArena?
使用命令 `pip install autoarena` 在本地安装 AutoArena。定义您的输入(用户提示)和输出(模型响应),来自您的生成式人工智能系统。然后,使用该工具通过 LLM 评审员运行一对一评估,以排名您的系统。可在 autoarena.app 的 AutoArena 云端与团队成员协作。
为什么选择 AutoArena?
如果你想要一个真正高效、简单可靠的工具,AutoArena 是你的选择,它让工作更轻松、更快速。
AutoArena 功能特点
AI Developer Tools
- ✓使用大型语言模型评审员自动化进行一对一评估
- ✓生成排行榜以比较 LLM、RAG 配置和提示变体
- ✓微调自定义评审员
- ✓计算 Elo 分数和置信区间
- ✓与 GitHub 集成实现 CI/CD
- ✓支持并行化、随机化和速率限制处理
常见问题
价格
开源版
无限制访问基于 Apache-2.0 许可的 AutoArena 应用。适用于学生、研究人员、爱好者和非营利组织。自托管。
专业版
包含开源版的所有功能。支持在云端 autoarena.app 上进行团队协作。访问微调过的评审模型,其偏好投票准确率比基础基础模型 API 高出超过 10%。提供两周免费试用。
企业版
包含专业版的所有功能。支持在您的 AWS、GCP、Azure 或内部基础设施上私有本地部署。支持单点登录(SSO)和企业访问控制。优先处理功能请求、错误修复和产品路线图协作。提供企业发票和支付选项。







