首页 > 试题广场 >

评测长上下文能力时,为避免模型靠"猜测泛化"蒙对,常见的高

[单选题]
评测长上下文能力时,为避免模型靠"猜测/泛化"蒙对,常见的高质量题型设计是?
  • 在长文中埋入多个相似实体/数值,要求定位并做跨段整合(needle / multi - hop)
  • 提问"这段话大意是什么"
  • 把短文重复10遍凑成长文
  • 测模型能输出多少token

这道题你会答吗?花几分钟告诉大家答案吧!