【LLM架构】用于评估LLM生成内容的指标列表
developer.chat
24 January 2025
评估方法衡量我们的系统性能如何。对每个摘要进行人工评估(人工审查)既费时又昂贵,而且不可扩展,因此通常会辅以自动评估。许多自动评估方法试图衡量人类评估者会考虑的文本质量。这些品质包括流畅性、连贯性、相关性、事实一致性和公平性。内容或风格与参考文本的相似性也可能是生成文本的重要质量。
下图包括用于评估LLM生成内容的许多指标,以及如何对其进行分类。