GPT-4 在根据 MRI 报告预测最终诊断方面与神经科医生一样准确
对于最终诊断,GPT-4 的准确率达到 74%,而放射科医生的预测准确率在 65% 到 79% 之间。然而,当神经科医生撰写报告时,GPT-4 的准确率攀升至 80%,而放射科医生撰写的报告的准确率仅为 60%。 值得注意的是,GPT-4 在鉴别诊断方面的准确率明显优于放射科医生,达到 94%。相比之下,放射科医生的最高准确率为 89%。无论哪个提供商撰写报告,鉴别诊断都是一致的。 作者指出,他们的研究是 GPT-4 首次受到实际临床放射学报告的挑战。 “之前的大多数研究都表明 GPT-4 在诊断中的实用性,但这些在很大程度上依赖于假设环境,例如学术期刊的测验或考试问题,”该组织指出。 “这种方法可能会导致认知偏差,因为制定成像结果或考试问题的个人也拥有答案。” 相比之下,使用真实的临床报告来测试法学硕士可以更深入地了解其准确性以及它们在临床环境中的表现。该小组表示,他们的发现表明了 GPT-4 的合法临床潜力。 作者写道:“这项研究令人鼓舞的结果需要对法学硕士在众多医学领域和成像模式中的准确性进行进一步评估。”这种探索的最终目标是为开发更通用、更可靠、更可靠的方法铺平道路。以及强大的医疗保健工具。” 1727855862 #GPT4 #在根据 #MRI #报告预测最终诊断方面与神经科医生一样准确 1970-01-01 00:00:00
GPT-4 比医生更善于解释 IR 程序
GPT-4 提供了对腹腔穿刺、胸腔穿刺、端口放置、CT 引导下活检、透析导管放置、超声引导下活检、肾造瘘管放置、胆道引流、血栓切除术和动脉栓塞术的回应。医生将其中九种回应评为完全合适,一种(动脉栓塞术)评为比较合适。 非临床参与者的评估略有不同。与穿刺、透析导管置入、血栓切除术、超声引导下活检和肾造瘘管指导相关的反应被评为优秀的占 57%,被评为良好的占 43%,而动脉栓塞和胆汁引流指导被评为优秀的占 28.6%,被评为良好的占 71.4%。 LLM 的胸腔穿刺术、端口放置和 CT 引导活检说明对于非临床医生来说是最难理解的,因此评分比其他的更差。 令人鼓舞的是,GPT-4 说明的可读性被评为远高于目前可用的患者教育材料。该小组指出,与 radiologyinfo.org 提供的信息相比,GPT-4 提供的答案的阅读水平更合适。 “简化语言以满足患者的理解水平可能有助于改善健康结果,”该组织写道。“从本质上讲,将法学硕士融入临床环境是一种可能的策略,可以在动态发展的社会中提高健康结果,并充分考虑到可能影响患者对其健康状况理解的无数因素。” 该小组建议未来的工作应侧重于法学硕士使用不同语言和方言提供医学信息的能力。 1725544920 #GPT4 #比医生更善于解释 #程序 1970-01-01 00:00:00
科大讯飞董事长称最新的 AI Spark 4.0 模型可与 GPT-4 Turbo 媲美,强调完全自给自足 · TechNode
中国人工智能公司科大讯飞周四 揭开 该公司发布了最新版本的人工智能模型 Spark 4.0,并与 OpenAI 的 GPT-4 Turbo 进行了对标,称尽管在编码和多模式能力方面有所落后,但它在五个方面的表现均优于这家美国公司最先进的模型。 为什么重要: 科大讯飞表示,Spark 4.0 专门在与电信巨头华为联合打造的自主计算平台上进行训练,这可以看作是一个信号,尽管美国对中国获取最先进芯片施加了限制,但中国的人工智能产业已进入自给自足的新阶段。 细节: 这家总部位于合肥的公司终于兑现了在 2024 年上半年将其 Spark 模型升级到 GPT-4 水平的承诺,这距离做出承诺已经过去了八个月。然而,在周四的活动中,董事长刘庆峰承认,一旦 GPT-5 发布,差距将“再次扩大”,可能达到一年以上,因为它的参数规模更大、训练时间更长,而且使用的数据量也增加了。 刘教授表示:“既要科学理性地认识中美两国在法学硕士领域的综合差距,也要有信心迅速赶上,确保不出现代沟。” 自今年 1 月份发布 Spark V3.5 模型以来,海外开发者已有超过 40 万名基于该模型构建产品,累计使用人数达到 702 万。 作为一项重要升级,科大讯飞Spark应用及其桌面版均增加了一项名为“个人空间”的功能,基础模型专门用于生成符合个人个性的个性化内容。该机制的前提是用户可以输入自己的工作、学习和生活信息,或积累足够的与人工智能机器人的对话记录以增强学习。 语境: 科大讯飞宣布其Spark 4.0模型在八个国际主流测试集中排名第一,而竞争对手阿里巴巴同一天也获得了这家全球知名开源平台的认证 拥抱脸 百度凭借Qwen-2荣登全球开源大模型榜首,Meta的AI模型则位居第二。 有关的 Cheyenne Dong 是一名科技记者,现居上海。她报道电子商务和零售、人工智能和区块链。通过电子邮件联系她:cheyenne.dong[a]technode.com。Cheyenne Dong 的更多作品 1719800199 #科大讯飞董事长称最新的 #Spark #模型可与 #GPT4 #Turbo #媲美强调完全自给自足 #TechNode […]
Anthropic 的新 AI 挑战 GPT-4 和 Gemini
Anthropic 推出了其最新型号 Claude 3.5 Sonnet,该型号有望在各种任务上匹敌或超越 OpenAI 的 GPT-4 和谷歌的 Gemini。这款新模板已在网页和 iOS 上向 Claude 用户提供,Anthropic 也正在向开发人员提供该模板。Claude 3.5 Sonnet 将定位为 Anthropic 系列中的中级型号,其最小型号使用 Haiku 名称,中型型号使用 Sonnet 名称,旗舰型号使用 Opus 名称。 该公司声称 Claude 3.5 Sonnet 的性能优于 3 Opus,基准测试显示其优势相当大。新型号的速度显然也是其前代产品的两倍。Anthropic 声称 Claude 3.5 Sonnet 将更擅长编写和翻译代码、管理多步骤工作流程、解释图表和表格以及从图像转录文本。这款全新改进的 Claude 显然也更善于理解幽默,并且可以更人性化地书写。 除了新模板,Anthropic 还推出了一项名为 Artifacts 的新功能。借助 Artifacts,人们将能够查看并交互向 Claude 发出的请求的结果:如果您要求模型设计某些东西,它现在可以显示他创建的内容并允许您直接在应用程序中对其进行编辑。如果 Claude 写了一封电子邮件,您可以在 Claude 应用程序中对其进行编辑,而不必将其复制到文本编辑器中。Artifacts 似乎是 Claude 长期愿景的标志。Anthropic 一直表示,它主要关注企业。 […]
Nvidia 的“Nemotron-4 340B”模型重新定义了合成数据生成,可与 GPT-4 相媲美
是时候庆祝引领 AI 发展的杰出女性了!立即提名您身边的杰出领导者,获得 VentureBeat 的 AI 女性奖,截止日期为 6 月 18 日。了解更多 英伟达 通过发布“Nemotron-4 340B”这是一系列开创性的开放模型,旨在彻底改变用于训练大型语言模型 (LLM) 的合成数据生成。这一发展标志着人工智能行业的一个重要里程碑,因为它使各个行业的企业能够创建功能强大、特定领域的 LLM,而无需大量且昂贵的真实世界数据集。 该模特一直以神秘的化名“六月聊天机器人“ 在 LMSys.org 聊天机器人竞技场,现已被正式确定并推出,在人工智能界引起了不小的轰动。 Nemotron-4 340B:无与伦比的性能和多功能性,适用于合成数据生成 Nemotron-4 340B 系列包括 根据, 指导, 和 报酬 模型,形成了一个用于生成高质量合成数据的综合管道。Nemotron-4 340B 在训练中使用了惊人的 9 万亿个 token,拥有 4,000 个上下文窗口,并支持 50 多种自然语言和 40 种编程语言,其表现远超其竞争对手,包括 Mistral 的 混合-8x22B,人类的 克劳德·桑奈特、Meta 的 骆驼3-70B, Qwen-2,甚至可与GPT-4的性能相媲美。 Nemotron-4 340B 最引人注目的方面之一是其商业友好的许可。 松舒布拉·马宗达高级深度学习研究工程师在 X.com 的一篇文章中强调了这一点,他表示:“该许可证具有商业可行性。是的,你可以使用它来生成你想要的所有数据。” […]
如何在 PHP 中使用 GPT-4 API?
在第一篇文章中了解如何通过 PHP 安装和使用 OpenAI API。 然后我们将了解如何使用 API 的第一个功能通过 GPT-4 执行提示。 接下来的其他文章将介绍(甚至)更高级的功能…… 逐步推进的议程: 使用 OpenAI API 的软件包和技术先决条件 为了使用 OpenAI API 并能够执行提示,我们将使用该包 这个包与框架无关。 在本文的“进一步”部分,您可以找到专用于 Symfony 或 Laravel 的软件包的链接。 为了能够使用这个包,在撰写本文时,您需要一个至少允许运行的环境 PHP 8.1。 与任何自重的 PHP 包一样,安装是通过 Composer 通过以下命令完成的: composer require openai-php/client 检索 OpenAI API 密钥 使用 OpenAI API 不是免费的。 您需要创建一个帐户 创建帐户是免费的。 但是,您需要在您的帐户中预存积分 ($) 才能使用该 API。 提示的费用根据所使用的模型、发送的数据量、接收的数据量等而有所不同。 因此,给出成本的概念是很复杂的。 但无论如何,我们可以估计一次平均提示的成本约为 1 […]
财务分析的未来:新研究表明 GPT-4 将如何颠覆该行业
6 月 5 日,我们将重返纽约,与高管领导合作,探索全面的方法,以审核不同组织的 AI 模型的偏见、绩效和道德合规性。点击此处了解如何参加。 来自 芝加哥大学 已经证明,大型语言模型 (LLM) 可以进行财务报表分析,其准确度可与专业分析师相媲美,甚至超过专业分析师。该研究结果发表在题为“使用大型语言模型进行财务报表分析”可能会对未来的财务分析和决策产生重大影响。 研究人员测试了 GPT-4(OpenAI 开发的最先进的 LLM)在分析公司财务报表以预测未来收益增长方面的性能。值得注意的是,即使只提供标准化、匿名的资产负债表和没有任何文本背景的损益表,GPT-4 的表现也能够胜过人类分析师。 “我们发现 LLM 的预测准确度与经过严格训练的最先进的 ML 模型的性能相当,”作者写道。“LLM 的预测并非源于其训练记忆。相反,我们发现 LLM 可以生成有关公司未来表现的有用叙述见解。” 芝加哥大学研究人员的一项研究发现,OpenAI 的 GPT-4 模型在预测企业收益方面的表现优于人类分析师,准确率达到 0.604,F1 得分达到 0.609。研究人员使用了一种新颖的方法,即提供结构化财务数据和“思路链”提示来指导 AI 的推理。(来源:芝加哥大学) 思路链提示模拟人类分析师的推理 一项关键创新是使用“思路链”提示引导 GPT-4 模拟金融分析师的分析过程,识别趋势、计算比率并综合信息以形成预测。GPT-4 的这个增强版本在预测未来收益方向方面实现了 60% 的准确率,明显高于人类分析师预测的 53-57% 范围。 VB 活动 人工智能影响之旅:人工智能审计 6 月 5 日,我们将重返纽约,与高层领导交流,深入探讨审核 AI 模型的策略,以确保公平、最佳性能和跨不同组织的道德合规性。确保您能参加这场仅限受邀者参加的独家活动。 请求邀请 研究人员总结道:“综合起来,我们的研究结果表明,法学硕士可能在决策过程中发挥核心作用。”他们指出,法学硕士的优势可能源于其广泛的知识库和识别模式和商业概念的能力,即使在信息不完整的情况下,也能够进行直觉推理。 芝加哥大学的研究人员通过向 GPT4 […]
GPT-4 自信地在放射学考试中挣扎
当专家以不同的时间间隔重复他们的实验并微调他们的提示时,GPT-4 仍然难以跟上学生的表现。 即使经过微调,GPT-4 的答案也没有改善。 事实上,当重复问题时,超过 25% 的情况下它会改变答案,而准确性却没有提高。 GPT-4 确实准确地诊断了许多危重病症,但未能识别出几种致命的病症,例如主动脉瘤破裂。 尽管准确性有所波动,但大型语言模型对超过 80% 的答案都表现出很高的置信度,无论它们是否正确。 该研究的通讯作者、纽约石溪大学医院的首席放射科住院医师 David L. Payne 及其同事表示,他们的研究结果表明,类似的大型语言模型虽然可能非常有用,但“需要持续监测以确保其在临床环境中的可靠性” ”。 “通用(和狭义)人工智能放射学系统的临床实施者应该谨慎行事,因为可能会出现虚假但自信的响应,以及随着时间的推移输入相同的情况下输出的高度可变性。” 1714231125 #GPT4 #自信地在放射学考试中挣扎 1970-01-01 00:00:00
OpenAI 的 GPT-4 可以自主利用 87% 的一日漏洞
OpenAI 的 GPT-4 大语言模型可以在无需人工干预的情况下利用现实世界的漏洞, 新研究 伊利诺伊大学厄巴纳-香槟分校的研究人员发现。 其他开源模型,包括 GPT-3.5 和漏洞扫描器,无法做到这一点。 大型语言模型代理(基于 LLM 的先进系统,可以通过工具、推理、自我反思等采取行动)在 GPT-4 上运行,成功利用了国家研究所提供的 87% 的“一日”漏洞标准和技术描述。 一日漏洞是指那些已被公开披露但尚未修补的漏洞,因此仍然容易被利用。 研究人员在 arXiv 预印本中写道:“随着法学硕士变得越来越强大,法学硕士代理人的能力也越来越强。” 他们还推测,其他模型的相对失败是因为它们“在工具使用方面比 GPT-4 差得多”。 研究结果表明,GPT-4 具有自动检测和利用扫描仪可能忽略的一日漏洞的“新兴能力”。 UIUC 助理教授兼研究作者 Daniel Kang 希望他的研究成果能够用于防守环境; 然而,他意识到这种能力可能为网络犯罪分子提供一种新兴的攻击模式。 他在一封电子邮件中告诉 TechRepublic,“我怀疑,当 LLM 成本下降时,这会降低利用一日漏洞的障碍。 以前,这是一个手动过程。 如果法学硕士变得足够便宜,这个过程可能会变得更加自动化。” GPT-4 在自主检测和利用漏洞方面有多成功? GPT-4可以自主利用一日漏洞 GPT-4 代理能够自主利用 Web 和非 Web 一日漏洞,甚至是在模型知识截止日期 2023 年 11 月 26 日之后在常见漏洞和暴露数据库中发布的漏洞,展示了其令人印象深刻的功能。 请参阅:GPT-4 备忘单:GPT-4 是什么以及它有什么功能? […]
他们发现 GPT-4 在了解 CVE 详细信息后可以利用零日漏洞
马德里,四月 25 日 (传送门/EP)- 一组研究人员发现 GPT-4 能够 识别安全漏洞 无需外部人工协助,此外,还可以通过了解常见漏洞和暴露 (CVE) 来利用零日漏洞。 伊利诺伊大学香槟分校(美国)的研究人员进行的一项研究表明,大型语言模型(LLM)已经 执行具有恶意目的的行动的巨大潜力 如果他们为此目的而被操纵。 在存储库中共享的一项研究中 ArxivRichard Fang、Rohan Bindu、Akil Gupta 和 Daniel Kang 承认,之前发表的研究表明这些模型能够自主入侵网站。 然而,他们澄清说,这些研究 “仅限于简单的漏洞。” 因此,这所大学的专家选择编译一个由 15 个漏洞组成的数据集,这些漏洞在漏洞列表中被归类为严重严重性和常见暴露,以展示由 GPT-4 驱动的代理如何针对它们采取行动。 根据他们的研究,该模型最先进的迭代能够自主地利用不同系统中的安全漏洞,也就是说,无需 依靠外部人力援助。 以至于 GPT-4 能够利用其中 87% 的漏洞,而 LLM GPT-3.5 在任何情况下都无法利用这些漏洞,而 LLM GPT-3.5 的扫描仪则无法利用这些漏洞。 ZAP 和 Metasploit 开源漏洞。 然而,他们一致认为这是可能的,因为这些缺陷有完整的 CVE 描述,GPT-4 利用了这些缺陷。 因此,如果没有这些附加信息,该模型只能利用 7% 的漏洞。 其中一位研究人员 […]
