IT之家新闻今天(11 月 8 日)发表了科技媒体 Ars Technica 的一篇博文,报道称一项新研究表明,人工智能模型在社交媒体上极易被发现,而它们的致命弱点是它们实际上“太有礼貌”。来自苏黎世大学、阿姆斯特丹大学、杜克大学和纽约大学的研究人员最近发表了一份联合报告,发现人工智能模型由于过于友好和情绪化的语气,很容易在社交媒体互动中暴露自己的身份。研究人员开发的自动分类器在 Twitter/X、Bluesky 和 Reddit 三大平台上进行了测试,在识别 AI 生成的响应方面具有 70% 至 80% 的高精度。这意味着,如果您在网上发现异常礼貌的回复,那么您很可能正在与一个人工智能机器人打交道,它试图融入人群但失败了。为了量化人工智能和人类语言之间的差距,本研究引入了一个新的框架领导了“计算图灵测试”。与依赖人类主观判断的传统图灵测试不同,该框架使用自动分类器和语言分析来准确识别机器生成和人类编写的内容的特定特征。苏黎世大学研究小组负责人 Nicolo Pagán 表示,即使相关模型经过校准,其输出在语气和情感表达上仍与人类文本存在显着差异。这些深层情感信号已成为识别人工智能的可靠依据。这项研究的主要发现是所谓的“有毒特征暴露”。该团队测试了 9 个大型开源语言模型,包括 Llama 3.1、Mistral7B、Deepseek R1 和 Qwen 2.5。相关研究当被要求对社交媒体上真实用户的帖子做出回应时,这些人工智能模型无法达到人类帖子中常见的随意负面情绪或自发情绪表达的水平。横跨所有三个在测试平台上,A 对 I 生成的内容的“毒性”分数(攻击性或负面情绪的衡量标准)始终显着低于真实的人类反应。为了弥补这一缺点,研究人员尝试了各种优化策略,例如提供例句和执行上下文搜索,以使句子长度和词汇量等结构指标更接近人类。然而,尽管这些结构性差异已经减少,但情绪基调上的根本差异仍然顽固地存在。这表明,教人工智能变得不像人类那么友好可能比让它变得更聪明更困难。 IT主页附参考地址
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)已上传并发布受到网易好用户的关注。是一个社交媒体平台,仅提供信息存储服务。