推出HealthBench

作者AI Flare 2025-05-262025-05-27

HealthBench 是一个用于评估医疗保健领域 AI 的新型评估基准，它在现实场景中评估模型。它在 250 多位医生的参与下构建，旨在为医疗保健中的模型性能和安全提供一个共享标准。

作者AI Flare 2025-05-26

我们将用基于OpenAI o3的版本替换现有的基于GPT-4o的Operator模型。API版本将继续基于4o…

作者AI Flare 2025-05-262025-05-27

Transformer 对自然语言处理 (NLP) 和计算机视觉 (CV) 的变革性影响是不可否认的。它们的扩…

作者AI Flare 2025-05-26

距离TechCrunch Disrupt 2025门票高达900美元的优惠活动仅剩48小时——第二张门票可享9…

作者AI Flare 2025-05-262025-05-27

我们看到开发者们用Gemini 2.5 Pro创造了令人惊叹的成果，因此我们决定提前几周发布更新版本，以便开发…

作者AI Flare 2025-05-26

Gemini 2.5 Pro 继续受到开发者的喜爱，被认为是最佳的编码模型，而 2.5 Flash 也随着新的…

作者AI Flare 2025-05-26

伦理决策是人类判断的关键方面，而大型语言模型 (LLM) 在决策支持系统中的应用日益广泛，因此需要对其道德推理…

类似文章