【LLM】大型语言模型:2023年完整指南
Figure 1: Search volumes for “large language models”
近几个月来,大型语言模型(LLM)引起了很大的轰动(见图1)。这种需求导致了利用语言模型的网站和解决方案的不断开发。ChatGPT在2023年1月创下了用户群增长最快的记录,证明了语言模型将继续存在。谷歌对ChatGPT的回应Bard于2023年2月推出,这也表明了这一点。
语言模型也为企业带来了新的可能性,因为它们可以:
【NLP】2023年改变人工智能的前六大NLP语言模型
【LLM】大型语言模型综述论文
今天我将与大家分享一篇精彩的论文。这项调查提供了LLM文献的最新综述,这对研究人员和工程师来说都是一个有用的资源。
为什么选择LLM?
当参数尺度超过一定水平时,这些扩展的语言模型不仅实现了显著的性能改进,而且还表现出一些小规模语言模型(如BERT)所不具备的特殊能力(如上下文学习)。
为了区分参数尺度的差异,研究界为显著大小的PLM(例如,包含数百亿或数千亿个参数)创造了“大型语言模型”(LLM)一词。
特别是,这里的研究人员关注LLM的四个主要方面,即预训练、适应调整、利用和能力评估。此外,他们还总结了开发LLM的可用资源,并讨论了未来方向的剩余问题。
近年来现有大型语言模型(大小大于10B)的时间表。他们用黄色标记开源LLM。
现有LLM的预训练数据中各种数据源的比率。
【LLM】大型语言模型综述
【LLM】Free Dolly:推出世界上第一个真正开放的指令调谐LLM
两周前,我们发布了Dolly,这是一个大型语言模型(LLM),经过不到30美元的训练,可以展示类似ChatGPT的人机交互(又称指令跟随)。今天,我们将发布Dolly 2.0,这是第一个开源的指令遵循LLM,它对授权用于研究和商业用途的人工生成指令数据集进行了微调。
Dolly 2.0是一个基于EleutherAI pythia模型家族的12B参数语言模型,专门针对Databricks员工众包的新的、高质量的人工生成指令跟踪数据集进行了微调。
我们正在开源Dolly 2.0的全部内容,包括训练代码、数据集和模型权重,所有这些都适合商业使用。这意味着任何组织都可以创建、拥有和定制功能强大的LLM,这些LLM可以与人对话,而无需为API访问或与第三方共享数据付费。
【LLM】自主GPT-4:从ChatGPT到AutoGPT、AgentGPT、BabyAGI、HuggingGPT等
LangChain和LlamaIndex集成趋势后,GPT-4的新兴任务自动化和人工智能代理
ChatGPT和LLM技术的出现是革命性的。这些最先进的语言模型席卷了世界,激励开发人员、爱好者和组织探索集成和构建这些尖端模型的创新方法。因此,LangChain和LlamaIndex等平台如雨后春笋般涌现,以简化集成并促进新应用程序的开发。
随着我们继续集成ChatGPT和LLM,我们看到越来越多的自主任务和代理利用GPT-4的功能。这些发展不仅增强了处理集成不同系统的复杂任务的能力,还突破了我们使用自主人工智能所能实现的极限。
在Jupyter笔记本中使用Python语言链在Mac上运行GPT4All
在过去的三周左右时间里,我一直在关注本地运行的大型语言模型(LLM)的疯狂开发速度,从llama.cpp开始,然后是alpaca,最近是(?!)gpt4all。
在那段时间里,我的笔记本电脑(2015年年中的Macbook Pro,16GB)在修理厂里呆了一个多星期,直到现在我才真正有了一个快速的游戏机会,尽管我10天前就知道我想尝试什么样的东西,而这在过去几天才真正成为可能。
根据这个要点,以下脚本可以作为Jupyter笔记本下载 this gist.
【langchain】在单个文档知识源的上下文中使用langchain对GPT4All运行查询
In the previous post, Running GPT4All On a Mac Using Python langchain in a Jupyter Notebook, 我发布了一个简单的演练,让GPT4All使用langchain在2015年年中的16GB Macbook Pro上本地运行。在这篇文章中,我将提供一个简单的食谱,展示我们如何运行一个查询,该查询通过从单个基于文档的已知源检索的上下文进行扩展。
I’ve updated the previously shared notebook here to include the following…
基于文档的知识源支持的示例查询
使用langchain文档中的示例进行示例文档查询。
【ChatGPT】提示设计的艺术:使用清晰的语法
探索清晰的语法如何使您能够将意图传达给语言模型,并帮助确保输出易于解析
这是与Marco Tulio Ribeiro共同撰写的关于如何使用指导来控制大型语言模型(LLM)的系列文章的第一部分。我们将从基础知识开始,逐步深入到更高级的主题。
在这篇文章中,我们将展示清楚的语法使您能够向LLM传达您的意图,并确保输出易于解析(如保证有效的JSON)。为了清晰和再现性,我们将从开源的StableLM模型开始,无需微调。然后,我们将展示相同的想法如何应用于像ChatGPT/GPT-4这样的微调模型。下面的所有代码都可以放在笔记本上,如果你愿意的话可以复制。