大语言模型

【DeepSeek】15个DeepSeek和Chatgpt提示，帮你向任何人销售任何东西

developer.chat

3 February 2025

提示 #1：SPIN销售的解决方案销售方法
"利用SPIN销售技巧（情境、问题、影响、需求回报）来识别客户痛点并提供量身定制的解决方案。通过提问揭示客户需求，提出解决方案来解决特定问题，并强调解决方案的好处和价值主张。输入：列出客户可能提出的常见反对意见或障碍。给出这个答案后，请询问我提供的定制输入，然后基于这些输入运行提示。"

【观点】Anthropic的研究提供了一个清新且理性的关于AI的视角

developer.chat

3 February 2025

Anthropic的研究提供了一个清新且理性的视角……

Anthropic的研究强调以实际应用和用例为导向的解决方案，尽可能简单，同时注重可解释性、可观察性和可检查性。

它警告不要在不了解其内部工作原理的情况下采用某些框架，因为这可能导致意想不到的行为。

尽管AI代理有其用处，但它们并非总是最佳解决方案——工作流往往更加合适。

有些公司可能推销特定的框架来销售其技术堆栈，而忽视最佳实践，或者在实现业务目标时妥协，未选择最优化和最合适的路径。

他们的主要观察是，最成功的实施往往避免使用复杂的框架或专业库，而是倾向于选择简单、可组合的模式。

在使用大型语言模型（LLM）时，他们建议从最简单的解决方案开始，只有在必要时才增加复杂度。

有时候，这意味着根本不构建代理系统，因为这些系统通常通过牺牲延迟和成本来换取更好的任务执行效果，而这一权衡应该仔细考虑。

【观点】Meta的Yann LeCun预测，在五年内将出现“AI架构的新范式”，并且将迎来“机器人技术的十年”。

developer.chat

3 February 2025

Meta的首席AI科学家Yann LeCun表示，在未来三到五年内，将会出现“AI架构的新范式”，这一新范式将远远超越现有AI系统的能力。

LeCun还预测，未来几年可能是“机器人技术的十年”，AI与机器人技术的进步将结合起来，释放出一种新的智能应用类别。

在周四的达沃斯“技术辩论”环节上，LeCun表示，目前我们所拥有的“AI范式”——即生成式AI和大型语言模型（LLM）——实际上并未达到太多的能力。它们确实有用，但在许多方面仍存在局限。

LeCun说道：“我认为当前[LLM]范式的使用寿命相对较短，可能只有三到五年。我认为五年后，没有人会再把它们作为AI系统的核心组件使用，至少不会像现在这样使用。我认为……我们将会看到一种新的AI架构范式的出现，这种架构可能没有当前AI系统的局限。”

这些“局限”阻碍了机器实现真正智能的行为，LeCun解释道，主要有四个关键原因：缺乏对物理世界的理解；缺乏持久记忆；缺乏推理能力；缺乏复杂的规划能力。

“LLM实际上无法做这些事情，”LeCun说。“所以，在接下来的几年里，AI将会经历另一次革命。我们可能得改变它的名字，因为它可能不再像今天我们理解的那样是生成式的。”

“世界模型”

【LLM架构】用于评估LLM生成内容的指标列表

developer.chat

24 January 2025

评估方法衡量我们的系统性能如何。对每个摘要进行人工评估（人工审查）既费时又昂贵，而且不可扩展，因此通常会辅以自动评估。许多自动评估方法试图衡量人类评估者会考虑的文本质量。这些品质包括流畅性、连贯性、相关性、事实一致性和公平性。内容或风格与参考文本的相似性也可能是生成文本的重要质量。

下图包括用于评估LLM生成内容的许多指标，以及如何对其进行分类。

Phi-3 Mini是一款3.8B参数、重量轻、最先进的开放式模型

developer.chat

25 April 2024

Phi-3 Mini

Phi-3 Mini是一个3.8B参数、轻量级、最先进的开放模型，使用Phi-3数据集进行训练，包括合成数据和过滤后的公开网站数据，重点关注高质量和推理密集的属性。
该模型经过了一个后期训练过程，其中包括监督微调和直接偏好优化，以确保精确的指令遵守和稳健的安全措施。
当根据测试常识、语言理解、数学、代码、长上下文和逻辑推理的基准进行评估时，Phi-3 Mini-4K-Instruction在参数不到130亿的模型中展示了稳健和最先进的性能。

预期用途

主要使用案例

该模型旨在以英语进行商业和研究用途。该模型为需要1）内存/计算受限环境2）延迟受限场景3）强推理（尤其是数学和逻辑）4）长上下文的应用程序提供了用途
我们的模型旨在加速对语言和多模式模型的研究，用作生成人工智能功能的构建块。

litellm：使用OpenAI格式调用所有LLM API。

developer.chat

31 March 2024

Call all LLM APIs using the OpenAI format. Use Bedrock, Azure, OpenAI, Cohere, Anthropic, Ollama, Sagemaker, HuggingFace, Replicate (100+ LLMs)

docs.litellm.ai/docs/

Call all LLM APIs using the OpenAI format [Bedrock, Huggingface, VertexAI, TogetherAI, Azure, OpenAI, etc.]

LiteLLM manages:

【大语言模型】LLM提示简介

developer.chat

3 March 2024

我们如何与LLM进行有效沟通？

除非你已经完全脱离了社交媒体和新闻中的喧嚣，否则你不太可能错过大型语言模型（LLM）带来的兴奋。

阅读更多关于【大语言模型】LLM提示简介
登录发表评论

【大语言模型】用这3种索引方法改进RAG管道

pgmr.cloud

9 February 2024

【大语言模型】如何用Whisper转录音频：2023年综合指南

developer.chat

20 January 2024

在当今快节奏的数字世界中，将口语转换为书面文本已成为专业人士和个人的宝贵工具。无论你是记录采访的记者、记录讲座的学生，还是记录会议的商业专业人士，准确转录音频的能力都至关重要。进入由OpenAI最先进的Whisper模型提供支持的音频API，这是语音转文本技术领域的游戏规则改变者。

音频API包含两个强大的端点：转录和翻译。这些都建立在Whisper大v2模型的基础上，该模型以擅长处理各种语言任务而闻名。这个工具不仅仅是将音频转录成文本；它还能够将各种语言的口语翻译成英语。无论您是处理播客、重要的商务电话还是多语言会议，Audio API都能满足各种需求。

在深入探讨如何使用这项尖端技术的细节之前，重要的是要注意几个关键方面。API目前支持高达25 MB的文件上载，可容纳常见的音频格式，如mp3、mp4、mpeg、mpga、m4a、wav和webm。这种灵活性确保了大多数标准音频文件可以在不需要fr转换的情况下轻松处理。

Whisper是开源的。基于大规模弱监督的鲁棒语音识别：https://github.com/openai/whisper

[大语言模型] Mistral 7B 模型介绍

developer.chat

20 January 2024

Mistral人工智能团队很自豪地发布了Mistral 7B，这是迄今为止最强大的语言模型。

Mistral 7B 简述

Mistral 7B是一个7.3B参数模型，它：

在所有基准测试中均超过Llama 2 13B
在许多基准测试中表现超过Llama 1 34B
接近CodeLlama 7B的代码性能，同时保持良好的英语任务
使用分组查询注意力（GQA）进行更快的推理
使用滑动窗口注意力（SWA）以较小的成本处理较长的序列
我们将在Apache 2.0许可证下发布Mistral 7B，它可以不受限制地使用。
下载它并在任何地方（包括本地）使用我们的参考实现，
使用vLLM推理服务器和skypilot在任何云（AWS/GCP/Azure）上部署它，
在HuggingFace上使用。

Mistral 7B很容易在任何任务中进行微调。作为演示，我们提供了一个针对聊天进行微调的模型，它的性能优于Llama 2 13B聊天。

阅读更多关于 [大语言模型] Mistral 7B 模型介绍
登录发表评论

订阅大语言模型

热门内容

今日:

总体:

最近浏览：

标签（标签）

【DeepSeek】15个DeepSeek和Chatgpt提示，帮你向任何人销售任何东西

【观点】Anthropic的研究提供了一个清新且理性的关于AI的视角

【观点】Meta的Yann LeCun预测，在五年内将出现“AI架构的新范式”，并且将迎来“机器人技术的十年”。

【LLM架构】用于评估LLM生成内容的指标列表

Phi-3 Mini是一款3.8B参数、重量轻、最先进的开放式模型

Phi-3 Mini

预期用途

主要使用案例

litellm：使用OpenAI格式调用所有LLM API。

【大语言模型】LLM提示简介

【大语言模型】用这3种索引方法改进RAG管道

【大语言模型】如何用Whisper转录音频：2023年综合指南

[大语言模型] Mistral 7B 模型介绍

Mistral 7B 简述

标签（标签）

Search

Phi-3 Mini

预期用途

主要使用案例

Mistral 7B 简述