MetaGPT概念
概念
完成本教程后,您将能够:
- 理解MetaGPT的代理和环境概念
- 代理如何相互交互以及多代理协作可能是什么样子
其目的是提供对概念的直观和简化的解释,以便用户有进一步探索教程系列的背景。在我们力求清晰的同时,我们也认识到简化可能会产生不准确或遗漏。因此,我们鼓励更多地浏览后续文档,以获得完整的理解。
如果您想先动手编写代码,也可以跳到Agent101。
如果您想要更严格的解释,请查看我们的论文。
代理
学术界和工业界对“代理人”一词提出了各种定义。粗略地说,一个代理人应该能够像人类一样思考或计划,拥有记忆甚至情感,具备与环境、其他代理人和人类互动的特定技能。在综合考察中,代理人本身就是一个复杂的系统。
在我们看来,我们将代理人想象成一个环境中的数字有机体,其中
- 阅读更多 关于 MetaGPT概念
- 登录 发表评论
QLoRA——如何在单个GPU上微调LLM
Python示例代码介绍(ft.Mistral-7b)
本文是关于在实践中使用大型语言模型(LLM)的更大系列文章的一部分。在上一篇文章中,我们看到了如何使用OpenAI对LLM进行微调。然而,这种方法的主要限制是,OpenAI的模型隐藏在其API后面,这限制了我们可以使用它们构建什么以及如何构建。在这里,我将讨论一种使用开源模型和QLoRA来微调LLM的替代方法。
微调是指我们采用现有的模型,并根据特定的用例对其进行调整。这是最近人工智能创新爆发的关键部分,催生了ChatGPT等。
尽管微调是一个简单(强大)的想法,但将其应用于LLM并不总是那么简单。关键的挑战是LLM在计算上(非常)昂贵(即它们不能在典型的笔记本电脑上进行训练)。
例如,70B参数模型的标准微调需要超过1TB的内存[1]。就上下文而言,A100 GPU具有高达80GB的内存,所以你(最多)需要十几张这样的20000美元的卡!
虽然这可能会让你构建自定义人工智能的梦想破灭,但现在还不要放弃。开源社区一直在努力使使用这些模型的建筑更容易访问。从这些努力中产生的一种流行方法是QLoRA(量化低秩自适应),这是一种在不牺牲性能的情况下微调模型的有效方法。
【大语言模型】LLM提示简介
我们如何与LLM进行有效沟通?
除非你已经完全脱离了社交媒体和新闻中的喧嚣,否则你不太可能错过大型语言模型(LLM)带来的兴奋。
[大语言模型] Mistral 7B 模型介绍
Mistral人工智能团队很自豪地发布了Mistral 7B,这是迄今为止最强大的语言模型。
Mistral 7B 简述
Mistral 7B是一个7.3B参数模型,它:
- 在所有基准测试中均超过Llama 2 13B
- 在许多基准测试中表现超过Llama 1 34B
- 接近CodeLlama 7B的代码性能,同时保持良好的英语任务
- 使用分组查询注意力(GQA)进行更快的推理
- 使用滑动窗口注意力(SWA)以较小的成本处理较长的序列
- 我们将在Apache 2.0许可证下发布Mistral 7B,它可以不受限制地使用。
- 下载它并在任何地方(包括本地)使用我们的参考实现,
- 使用vLLM推理服务器和skypilot在任何云(AWS/GCP/Azure)上部署它,
- 在HuggingFace上使用。
Mistral 7B很容易在任何任务中进行微调。作为演示,我们提供了一个针对聊天进行微调的模型,它的性能优于Llama 2 13B聊天。
【LangChain】使用LangChain(而非OpenAI)回答有关文档的问题
如何使用Hugging Face LLM(开源LLM)与您的文档、PDF以及网页中的文章进行对话。
最后,这是第一步。我已经到处找了好几个月了。
所有的文章、教程和youtube视频都只教你如何使用OpenAI做事。但老实说,这相当令人沮丧。首先,所有人工智能模型的基础都来自学术界:其次,我不敢相信,当有一个大社区在幕后工作时,我们被迫去做事情。
在这里,我将展示如何在不使用OpenAI的情况下使用免费的Google Colab笔记本与任何文档交互(我将在这里介绍文本文件、pdf文件和网站url)。由于计算的限制,我们将使用Hugging Face API和完全开源的LLM来利用LangChain库与我们的文档交互。
作为指南的简介
我对文本生成背后的技术很感兴趣,作为一名工程师,我想进行实验。但作为一个人和一名教师,我认为了解人工智能的工具和思考工具更重要。
我强烈建议你阅读詹姆斯·普朗基特的精彩文章《论生成人工智能与不自由》。引用他的话:
技术真的是我们经常想象中的中立工具吗?即技术是我们发明然后决定如何使用的东西吗?
【privateGPT】使用privateGPT训练您自己的LLM
了解如何在不向提供商公开您的私人数据的情况下训练您自己的语言模型
使用OpenAI的ChatGPT等公共人工智能服务的主要担忧之一是将您的私人数据暴露给提供商的风险。对于商业用途,这仍然是考虑采用人工智能技术的公司最大的担忧。
很多时候,你想创建自己的语言模型,根据你的数据集(如销售见解、客户反馈等)进行训练,但同时你不想将所有这些敏感数据暴露给OpenAI等人工智能提供商。因此,理想的方法是在本地训练自己的LLM,而无需将数据上传到云。
如果你的数据是公开的,并且你不介意将它们暴露给ChatGPT,我有另一篇文章展示了如何将ChatGPT与你自己的数据连接起来:
【LLM】微调我的第一个WizardLM LoRA
根据特定用例调整LLM的行为
之前,我写过关于与Langchain和Vicuna等当地LLM一起创建人工智能代理的文章。如果你不熟悉这个话题,并且有兴趣了解更多,我建议你阅读我之前的文章,开始学习。
今天,我将这个想法向前推进几步。
首先,我们将使用一个更强大的模型来与Langchain Zero Shot ReAct工具一起使用,即WizardLM 7b模型。
其次,我们将使用LLM中的几个提示来生成一个数据集,该数据集可用于微调任何语言模型,以了解如何使用Langchain Python REPL工具。在这个例子中,我们将使用我的羊驼lora代码库分支来微调WizardLM本身。
我们为什么要这样做?因为不幸的是,大多数模型都不擅长在Langchain库中使用更复杂的工具,我们希望对此进行改进。我们的最终目标是让本地LLM使用Langchain工具高效运行,而不需要像我们目前需要的那样进行过多提示。
总之,以下是本文的部分:
【LLM 】7个基本的NLP模型,为ML应用程序赋能
在上一篇文章中,我们已经解释了什么是NLP及其在现实世界中的应用。在这篇文章中,我们将继续介绍NLP应用程序中使用的一些主要深度学习模型。
【LLM】人工智能应用构建的十大预训练NLP语言模型
在人工智能领域,自然语言处理(NLP)被广泛认为是阅读、破译、理解和理解人类语言的最重要工具。有了NLP,机器可以令人印象深刻地模仿人类的智力和能力,从文本预测到情感分析再到语音识别。
什么是自然语言处理?
【LLM】2023年大型语言模型培训
2022年底,大型语言模型(LLM)在互联网上掀起了风暴,OpenAI的ChatGPT在推出5天后就达到了100万用户。ChatGPT的功能和广泛的应用程序可以被认可为GPT-3语言模型所具有的1750亿个参数
尽管使用像ChatGPT这样的最终产品语言模型很容易,但开发一个大型语言模型需要大量的计算机科学知识、时间和资源。我们撰写这篇文章是为了让商业领袖了解:
- 大型语言模型的定义
- 大型语言模型示例
- 大型语言模型的体系结构
- 大型语言模型的训练过程,
这样他们就可以有效地利用人工智能和机器学习。
什么是大型语言模型?
大型语言模型是一种机器学习模型,它在大型文本数据语料库上进行训练,以生成各种自然语言处理(NLP)任务的输出,如文本生成、问答和机器翻译
大型语言模型通常基于深度学习神经网络,如Transformer架构,并在大量文本数据上进行训练,通常涉及数十亿个单词。较大的模型,如谷歌的BERT模型,使用来自各种数据源的大型数据集进行训练,这使它们能够为许多任务生成输出。
如果您是大型语言模型的新手,请查看我们的“大型语言模型:2023年完整指南”文章。