AI实战平台

Real-World AI Arena:真实场景的AI最佳实践榜

简介

Real-World AI是一个开源项目,专注寻找真实场景的AI最佳实践,也就是回答两个问题:

- 我这个场景的问题如何用AI解决,如何快速落地验证效果?

- 什么样的解决方案是最好/最适合我的?

我们尝试通过“擂台”(Arena)的形式评选每个真实场景的最佳实践(SOTA),基于开源社区和开放生态力量,让AI更快落地每个行业。

近期热点

1-2日搭建业务看板或网站演示版本

亮点:业务需求变动频繁,如何快速搭建可用业务看板Demo?我们看看目前的最佳实践属于哪家。

快速入门

我们选取真实场景中常见AI应用类别主题的最佳实践,包括:

  • 1.服务类:专业知识问答、智能导航等

  • 2.管理类:业务看板生成、业务指标预测与优化等

  • 3.营销类:宣传文案撰写、海报设计等

  • 4.风控类:核心风险信息提取(如财报)、异常风险指标检测等

  • 5.运营类:数字员工搭建、调研报告撰写等

同时,也根据不同行业的需求分成行业主题,包括但不限于:金融、能源化工、教育、智慧城市、技术研发等

图片1.png

最佳实践擂台Arena

图片2.png

我们以“擂台”(Arena)的方式评选每个具体场景的最佳实践,每个“擂台”代表一个真实场景的AI应用挑战,如“两天内搭建一个业务看板及网站demo”。

我们会根据真实场景的需求和反馈,持续寻找和评选该场景下的“擂主”,即最佳实践(SOTA)。

各个擂台及其最佳实践详见下表。

想要分享您自己的最佳实践,加入人工智能方案开源建设中,欢迎投稿与反馈:https://realworld-ai.io/zh/arena/

擂台名称 本周擂主 验证状态 亮点 行业类别 应用类别 简要描述 技术类别 攻擂中
一周搭建企业级智能调研报告生成系统Demo 私部署版:Claude Code + DeepSeek V4 Pro + StepSearch 已验证 一周构建1个包含资料搜集、知识整合、报告生成功能的智能调研系统Demo 信息技术,金融贸易,科研教育 服务,运营,管理 输入研究主题、关键词,按预设模板输出调研文档。 大语言模型(LLM),自然语言处理(NLP),智能体(Agent) 私部署版:Hermes Agent + MiMo V2.5 Pro/GLM 5.1/Kimi K2.6/Qwen 3.6+ Metaso
两天搭建业务看板及网站Demo 云端版:Lovable + Kimi K2.5 + Claude Code 已验证 0技术门槛1-2日内搭建出1个有基础互动能力的业务看板或网站Demo 全场景适用 服务,运营,营销 与智能体交互,将文字构思转换为可视化、可交互的网页Demo。 可视化与设计,智能体(Agent) 云端版:Lovable + DeepSeek V4 Pro/GLM 5.1/Kimi K2.6/Qwen 3.6/Minimax M2.7 + Claude Code
一周搭建文档审核与风控Demo 私部署版:LangChain + GLM 5+ Pydantic + unstructured + Faiss 已验证 一周构建1个完整性检查与风险评估的文档解析系统Demo 信息技术,金融贸易,能源制造,行政管理 风控,管理,运营 输入PDF或Word文件,进行标题一致性、章节完整度检查,评估关键项的风险,输出结果报告。 自然语言处理(NLP),智能体(Agent) 私部署版:LangChain + DeepSeek V4 Pro/GLM 5.1/Kimi K2.6/Minimax M2.7/Qwen 3.6 + Pydantic + unstructured + Faiss
两天半搭建企业级简要演示视频 私部署版:Claude Code + Claude Opus 4.6 + FFmpeg + FunASR + PaddleSpeech 已验证 最快2.5日内生成1个企业级产品或功能简要演示视频 信息技术,金融贸易,科研教育 服务,营销 录制视频素材(含语音),自动生成含新语音、字幕、配乐的介绍视频。 语音与音频,自然语言处理(NLP),计算机视觉(CV) 私部署版:OpenClaw + DeepSeek V4 Pro/MiMo V2.5 Pro/GLM 5.1/Kimi K2.6/Qwen 3.6 + FFmpeg + Qwen3-ASR + Qwen3-TTS
一周搭建儿童教育趣味应用Demo 私部署版:BISHENG + GLM 5 已验证 一周搭建一个儿童教育应用Demo 科研教育,文化体育 服务 用大模型自动生成脑筋急转弯并与用户进行问答。 自然语言处理(NLP) 私部署版:BISHENG + DeepSeek V4 Pro/GLM 5.1/Kimi K2.6/Qwen 3.6/Minimax M2.7
一周搭建长时间序列预测系统Demo(能源领域) 私部署版:Autogluon + Neuralforecast + EMTSF 已验证 一周用低代码快速构建并验证一个面向能源领域的长时间序列预测系统Demo 能源制造 运营,风控 输入能源场景指定特征的历史序列数据,输出未来长时间段内多个时间节点的预测值。 统计机器学习,大语言模型(LLM),运维(测试&监控) 寻找攻擂者
一周搭建智能文档翻译系统Demo 私部署版:Gemini CLI + Gemini 3.1 Pro 已验证 一周快速构建1个智能文档翻译Demo 全场景适用 服务,运营,管理 批量输入待翻译原文文本,输出译文。 大语言模型(LLM),自然语言处理(NLP),智能体(Agent),MCP工具 Claude Code + DeepSeek V4 Pro/MiMo V2.5 Pro/GLM 5.1/Kimi K2.6/Qwen 3.6
一天构建一个多合同交叉校验的智能合同法审系统Demo 私部署版:BISHENG 验证中 一天搭建出基于要素抽取与跨合同规则校验、可配置与溯源的智能合同法审系统Demo 金融贸易 风控 输入同一项目下多份合同及相关佐证材料,输出结构化的审核结果与风险点定位说明 大语言模型(LLM),智能体(Agent),数据治理 寻找攻擂者
一周搭建高精度通用目标检测系统Demo(能源&农林领域) 私部署版:Ultralytics YOLO (YOLO 11)+ Triton + Perf Analyzer 验证中 一周构建1个高精度、含数据流闭环、具备自进化能力的通用目标检测系统Demo 信息技术,能源制造,农林牧渔 运营,管理,风控 输入一张待检图像,输出该图中目标检测物的矩形框位置(bounding box)及对应的类标签(class label) 计算机视觉(CV),运维(测试&监控),数据治理 寻找攻擂者
SQL语言智能生成(NL2SQL)的通用实践 私部署版:XiYan-SQL(QwenCoder-32B) 验证中 快速搭建一个大模型,通过对话生成SQL脚本 信息技术 服务 将用户以自然语言描述的查询需求转换为SQL查询语句。 大语言模型(LLM),数据治理,自然语言处理(NLP) 私部署版:Agentar-Scale-SQL(Agentar-Scale-SQL-Generation-32B)
一周搭建对话式功能推荐助手Demo(AI领域) 私部署版:Coze + GLM 5 验证中 一周基于低代码构建一个具备主动追问与推荐能力的对话式助手Demo 信息技术,科研教育 服务,运营 输入想查询的解决方案关键词或描述,1~3轮追问后,返回精准AI工具推荐。 智能体(Agent),大语言模型(LLM),自然语言处理(NLP),知识图谱(KG) 私部署版:Coze + DeepSeek V4 Pro/GLM 5.1/Kimi K2.6/Minimax M2.7/Qwen 3.6
一周构建智能信贷报告生成系统Demo 私部署版:LangChain + GLM 5 验证中 一周低代码构建具备多源数据整合、合规校验、信贷报告一键生成能力的银行智能信贷系统Demo 金融贸易 服务,运营 输入多源数据,根据自定义模板输出信贷报告 大语言模型(LLM),智能体(Agent) 私部署版:LangChain + DeepSeek V4 Pro/GLM 5.1/Kimi K2.6/Minimax M2.7/Qwen 3.6 + Pydantic + unstructured + Faiss
一周构建单条全国产业链图谱 私部署版:LangChain + GLM 5 验证中 一周低代码完成单条全国产业链图谱全流程构建 金融贸易,能源制造 服务,运营 输入目标产业名称,构建该产业链全国图谱,对图谱进行挖掘与分析并可视化呈现 大语言模型(LLM),知识图谱(KG),自然语言处理(NLP),智能体(Agent),可视化与设计 私部署版:LangChain + DeepSeek V4 Pro/GLM 5.1/Kimi K2.6/Minimax M2.7/Qwen 3.6 + Pydantic + unstructured + Faiss
敬请期待……