determined.ai的介绍
Determined AI 是一个基于开源的深度学习训练平台,旨在帮助企业和研究人员提高机器学习模型的开发和训练效率。它提供了一个灵活、高效的环境,用于加速深度学习模型的训练过程,特别是在处理大规模数据集和复杂模型时。
【LLMOps】open-webui的介绍
Open-WebUI 是一款开源的、用于生成式人工智能模型交互的用户界面(UI)框架,旨在帮助开发者、研究者和企业快速部署和访问各种AI应用,特别是与生成式AI(如GPT、图像生成模型等)相关的应用。
以下是 Open-WebUI 的一些主要特点和功能:
1. 开源与社区驱动
Open-WebUI 是开源项目,意味着开发者可以自由地修改、定制和贡献代码。它得到了社区的大力支持,提供了大量的文档和教程,方便开发者快速上手。
2. 多模型支持
Open-WebUI 支持多种生成式AI模型,可以与各类流行的预训练模型(如 OpenAI GPT、Stable Diffusion、Llama 等)进行集成。开发者可以选择适合自己应用场景的模型,并在界面中轻松切换和测试。
3. 易于定制的用户界面
Open-WebUI 提供了灵活的前端框架,开发者可以根据需求定制界面布局和设计风格。它支持插件扩展功能,可以添加新的组件和交互方式,满足不同业务的需求。
【大模型工具】Ollama 介绍
Ollama 是一款面向企业和开发者的人工智能平台,专注于帮助用户快速构建和部署生成式AI应用。它的目标是简化AI应用的开发流程,并使之更易于集成和使用。
Ollama的主要特点包括:
【LLM评估】LLM 评估指标:终极 LLM 评估指南
尽管对于任何希望交付强大的 LLM 应用程序的人来说,评估大型语言模型 (LLM) 的输出都是必不可少的,但 LLM 评估对许多人来说仍然是一项艰巨的任务。无论您是通过微调来提高模型的准确性,还是增强检索增强生成 (RAG) 系统的上下文相关性,了解如何为您的用例开发和决定适当的 LLM 评估指标集对于构建坚不可摧的 LLM 评估管道都是必不可少的。
本文将教您有关 LLM 评估指标的所有知识,并附上代码示例。我们将深入探讨:
- 什么是 LLM 评估指标,如何使用它们来评估 LLM 系统,常见的陷阱,以及是什么让优秀的 LLM 评估指标变得优秀。
- 对 LLM 评估指标进行评分的所有不同方法,以及为什么 LLM-as-a-judge 最适合 LLM 评估。
- 如何使用 DeepEval (⭐https://github.com/confident-ai/deepeval) 实现并决定在代码中使用的适当的 LLM 评估指标集。
您准备好阅读这份长长的清单了吗?让我们开始吧。
(更新:如果您正在寻找评估 LLM 聊天机器人/对话的指标,请查看这篇新文章!)
【LLM架构】用于评估LLM生成内容的指标列表
评估方法衡量我们的系统性能如何。对每个摘要进行人工评估(人工审查)既费时又昂贵,而且不可扩展,因此通常会辅以自动评估。许多自动评估方法试图衡量人类评估者会考虑的文本质量。这些品质包括流畅性、连贯性、相关性、事实一致性和公平性。内容或风格与参考文本的相似性也可能是生成文本的重要质量。
下图包括用于评估LLM生成内容的许多指标,以及如何对其进行分类。
LLM护栏项目
https://github.com/NVIDIA/NeMo-Guardrails
NeMo Guardrails是一个开源工具包,用于轻松地将可编程护栏添加到基于LLM的会话系统中。
https://github.com/guardrails-ai/guardrails
为大型语言模型添加护栏。
https://github.com/truera/trulens
Evaluation and Tracking for LLM Experiments
- 阅读更多 关于 LLM护栏项目
- 登录 发表评论
评估大型语言模型(LLM):准确评估的标准度量集
Large Language Models (LLMs) are a type of artificial intelligence model that can generate human-like text. They are trained on large amounts of text data and can be used for a variety of natural language processing tasks, such as language translation, question answering, and text generation.
Evaluating LLMs is important to ensure that they are performing well and generating high-quality text. This is especially important for applications where the generated text is used to make decisions or provide information to users.
如何评估LLM:一个完整的度量框架
Over the past year, excitement around Large Language Models (LLMs) skyrocketed. With ChatGPT and BingChat, we saw LLMs approach human-level performance in everything from performance on standardized exams to generative art. However, many of these LLM-based features are new and have a lot of unknowns, hence require careful release to preserve privacy and social responsibility. While offline evaluation is suitable for early development of features, it cannot assess how model changes benefit or degrade the user experience in production.
基于语义搜索和LLM的问答模型有效性评价
The question answering system, that is based on semantic search and LLM currently one of the most popular application of LLM functionality. But what after we build it? How to evaluate the work of QnA system?
LLM评估指标:LLM评估所需的一切
Although evaluating the outputs of Large Language Models (LLMs) is essential for anyone looking to ship robust LLM applications, LLM evaluation remains a challenging task for many. Whether you are refining a model’s accuracy through fine-tuning or enhancing a Retrieval-Augmented Generation (RAG) system’s contextual relevancy, understanding how to develop and decide on the appropriate set of LLM evaluation metrics for your use case is imperative to building a bulletproof LLM evaluation pipeline.