视觉大模型遭遇滑铁卢:首个中国古文字OCR评测基准开源
顶尖的人工智能不仅要能看懂屏幕上跳动的现代代码,也需要读懂三千年前龟甲上的刻痕。据OSCHINA报道,腾讯混元大模型、SSV数字文化实验室等机构联合多所高校与故宫博物院,正式推出了“Chronicles-OCR”。这是业界首个完整覆盖汉字“七体之变”演化轨迹的中国古文字感知评测基准。 为了真实反映大模型的识别能力,该数据集由领域专家进行了多层级交叉标注,包含 2800 张严格平衡的高质量图像。针对甲骨文、金文、篆书等古早字体,团队采用了单字级的精细标注;而对于隶、楷、行、草等成熟字体,则采用了保留原始阅读顺序的序列级转写。 项目团队基于该基准设计了四个层层递进的核心任务,严格将大模型的“视觉感知”与“语义推理”解耦开来。在对包括GPT-5、Gemini 3.1 Pro、Claude Opus 4...
Google AI Studio 移动应用正式登陆 Google Play,支持预注册
应用强调“一次对话成就下一个创意”,支持语音或文字输入描述想法,AI 即可自动生成原型、创建专业图标并设计界面。无需编程基础,用户可轻松制作个性化膳食规划器、会议笔记工具或聚会游戏等实用小程序。 该应用在 Google I/O 大会前夕推出,体现了 Google 推动 AI 工具普惠化的战略意图,显著降低了普通用户和非专业开发者的创作门槛。 行业分析认为,这将进一步激发移动端 AI 创意工具的爆发式增长。 根据Similarweb数据,ChatGPT网页端流量份额一年内从77.6%降至53.7%,而谷歌Gemini则从7.3%飙升至26.7%,实现逆势增长。这反映了AI聊天机器人市场竞争格局的剧烈变化和用户偏好的多样化,其他对手如Anthropic的Claude也在趁机抢占市场。 iOS27 将为Siri推出独立App, 采用类聊天机器人界面 苹果2026年WWDC前夕,记者马克·古尔曼透露iOS27中Siri将以独立应用形态回归,代号“Rave”,这是15年来首次。新版Siri升级为全天候智能体,采用类似ChatGPT的聊天界面,支持对话历史、文件上传和内容置顶,并与灵动岛深度整合,
光学模组成智能眼镜「隐形胜负手」!韩国初创LetinAR获 1850 万美元融资
光学模组成智能眼镜「隐形胜负手」!韩国初创LetinAR获 1850 万美元融资 这不是科幻概念片,而是最快今年就会在欧洲道路上落地的真实场景。而它,只是智能眼镜进化浪潮中的一个早期缩影。 过去几年,科技巨头们早已悄悄(有时也不那么悄悄)押注这条赛道:Meta 从 2023 年起持续迭代 AI 赋能的 Ray-Ban 眼镜;谷歌正在构建 Android XR 生态;苹果入局传闻不断;上周还有消息称,三星将于 7 月在伦敦 Galaxy Unpacked 活动上,联手 Gentle Monster 发布首款AI 智能眼镜。中国阵营同样动作频频,华为、阿里、小米等都在加速布局。 市场数据印证了这股热潮。据 Omdia 统计,2025 年全球 AI 眼镜出货量飙升至 870 万台,同比增长超 300%;分析师预测,今年这一数字将突破 1500 万台。 当整机品牌争相卡位,上游供应链也在悄然卡位。韩国初创企业 LetinAR 就是其中之一——这家成立近十年的公司,专注攻克智能眼镜最核心的难题:如何让光学模块既轻薄省电,又能呈现清晰锐利的画面。 最近,LetinAR 刚完成 1850 万美元新一
国资入场!月之暗面新一轮 20 亿美元融资步入尾声
国内大模型独角兽企业月之暗面(Kimi)的最新股东名单发生重大变更。除了此前已有的互联网大厂与产业基金之外,多家实力雄厚的国资机构及央企巨头已正式出现在其股东名册中。 本次新加入的背景方包括国智投、北京人工智能基金等多家国资机构,以及三大运营商之一的中国移动。这标志着月之暗面在资本结构上完成了关键的整合,成功获得了国家队算力与资金层面的双重加持。 伴随着国资与央企的入局,月之暗面近期正在进行的 20 亿美元(折合人民币约136. 25 亿元)巨额融资已经进入了最后的收尾阶段。这也是继今年前两月密集完成三轮融资后,公司在资本市场上的又一次大动作。 在不到半年的时间里,月之暗面的累计融资额已经超过了 39 亿美元。其最新估值相比于去年 11 月份的 43 亿美元,在短短数月内疯狂翻了 4 倍有余,一举成为国内大模型创业公司中累计融资金额最多的企业。 在资本层面高歌猛进的同时,月之暗面在产品与技术研发上也迎来了新的突破。基于其Kimi K2...
加量不加价!Anthropic旗下Claude两款主力AI工具迎来重磅升级
加量不加价!Anthropic旗下Claude两款主力AI工具迎来重磅升级 大模型独角兽Anthropic近日在社交平台宣布,对其现有的AI工具链进行大刀阔斧的性能升级。本次调整的核心聚焦于广受好评的视觉创作工具以及专门面向程序员的代码利器,旨在通过大幅度放宽限制来提升用户的实际创作效率。 除了视觉工具的额度翻倍,针对软件开发者的命令行代码工具Claude Code也迎来了重要调整。系统内置的快速模式(Fast Mode)现在已将底层大模型默认切换为更先进的Opus 4.7。 开发人员只需在终端中简单地输入“/fast”指令,即可一键激活该高速配置。官方测试数据显示,在该模式下,新模型的运行响应速度可以直接飙升至此前的2. 5 倍。 由于具备极高的吞吐效率,该快速模式主要服务于高频、即时性的交互式工作。无论是快速迭代代码修改、实时捕获并调试系统漏洞,还是处理时间要求极度紧张的突发开发任务,它都能提供有力的算力支持。 在费用收取方面,Opus 4. 7 在快速模式下的定价与此前的4...
Alexa+ 上线按需播客功能 想听啥自己点!
本周一,Amazon 正式宣布 Alexa+ 迎来重磅更新:支持按需生成播客节目。这项名为「Alexa Podcasts」的新功能,即日起面向美国用户开放测试。用亚马逊的话说,它的目标很直接——「把你感兴趣的任何话题,几分钟内变成一期专属播客」。 使用门槛低到几乎没有:用户只需对 Alexa+ 说一句「帮我做个关于 XX 的播客」,不用上传资料、不用写脚本、更不用提前规划。AI 会自动研究主题、搜集信息、生成内容大纲,并快速反馈这期节目大概会讲什么。用户还能随时调整时长、语调、内容侧重,像搭积木一样定制属于自己的音频内容。 确认无误后,Alexa+ 会用 AI 生成的主播声音完成播报。节目制作完成后,用户会通过 Echo Show 设备或 Alexa App 收到通知;所有生成的播客也会自动保存在 App 的「Music」和「More」栏目中,方便随时回听、反复回味。 它标志着 Alexa+ 正在从「回答问题、控制家电」的传统语音助手,悄然进化为「懂你兴趣、能创内容」的个性化 AI 创作伙伴。当语音交互遇上内容生成,智能音箱的边界,正在被重新定义。 AI 主播的声音是否足够自然?自动生
AI眼镜进入城市服务场景,蚂蚁GPASS上线城市伴游功能
继乌镇峰会期间“桐小乌”在乐奇AI眼镜上的应用落地后,蚂蚁自研的智能终端可信连接技术框架GPASS正进一步拓展应用边界。近期,基于该技术的城市伴游功能已在乐奇AI眼镜新版本中正式上线。 作为首个接入该服务的城市文旅官方智能体,“杭小忆”的入驻标志着“镜游杭州”项目进入实际运行阶段。该项目由杭州文旅、支付宝与乐奇联合打造,旨在探索AI与城市文旅服务的结合方式。后续,城市伴游功能还将逐步接入更多城市专用文旅智能体。 三是优化交互方式。基于语音、图像与位置信息的综合识别能力,系统可在特定场景下主动提供提示与讲解,无需唤醒词即可开启对话,过滤环境噪音和无关意图。从以往的被动响应,转向更加连续的交互体验。 业内人士认为,城市伴游功能的上线,显示出AI眼镜正从单一设备形态向具体应用场景延伸。以文旅为代表的服务领域,有望成为相关技术规模化落地的重要方向之一。 腾讯混元大模型联合故宫博物院等机构推出“Chronicles-OCR”,这是业界首个覆盖汉字“七体之变”演化轨迹的古文字感知评测基准。数据集由专家多层交叉标注,包含2800张图像,旨在测试AI对甲骨文等古文字的识别能力,推动人工智能理解汉字从龟
加量不加价!Anthropic 宣布 Claude Design 套餐上限翻倍
加量不加价!Anthropic 宣布 Claude Design 套餐上限翻倍 此次更新直击专业用户的痛点。作为 Anthropic 于今年4月推出的重磅视觉工具,Claude Design 凭借对话式生成设计、原型构建及多源导入等功能备受瞩目,但此前受制于上下文额度,复杂项目常面临中断困境;本次针对 Pro、Max、Team 及 Enterprise 全套套餐的 Token 上限翻倍,将彻底解放长上下文的连续迭代能力。 与此同时,面向开发场景的 Claude Code 快速模式在接入 Opus4.7后,其交互响应速度最高可提升至原有的2.5倍,能更高效地支撑代码快速修改、实时调试等高时效性任务。 在计费与资源管理上,Anthropic 保持了高度的商业克制与透明度。Opus4.7与此前 Opus4.6在快速模式下的定价完全一致,均维持在每百万输入 Token30美元、输出150美元,且全量覆盖100万 Token 的上下文窗口,费率不随上下文长度而变动。此外,两款模型在快速模式下共享相同的速率限制池,企业与开发者无需担心额外的配置成本。 加量不加价!Anthropic旗下Claude
#1xAI 发布全新CLI工具Grok Build,助力开发者编码更高效!
xAI 发布全新CLI工具Grok Build,助力开发者编码更高效! Grok Build 的定位是一个智能开发助手。与传统命令行工具不同,它不仅仅是执行简单命令的工具,而是具备理解开发者意图的能力。该工具可以分析项目结构,编写代码,调试错误,并自动化重复性的开发任务,极大地提高了开发效率。 xAI 表示,通过这一早期测试版,他们将根据用户的反馈不断改进底层模型和产品体验。这一过程将确保 Grok Build 处于快速迭代之中,其功能和性能都将随着用户的使用逐步优化。xAI 希望能够通过这种方式,满足开发者对智能化工具日益增长的需求。 根据目前公开的信息来看,Grok Build 的目标是与 Cursor、Claude Code 等现有 AI 编程工具竞争。然而,Grok Build 通过深度集成 Grok 模型的能力,力求在开发工作流领域中脱颖而出。xAI 在其社交媒体平台上也提到,Grok Build 将为开发者提供一个新的选择,让他们能够利用 AI 的力量来自动化开发流程。 面对日益竞争激烈的 AI 编程工具市场,Grok Build 的推出为开发者提供了更多选择,使他们能够接
#2腾讯云:部分DeepSeek模型升级及切换安排公告
腾讯云宣布了关于其智能体开发平台 DeepSeek 模型的重要升级消息。根据官方公告,从 2026 年 5 月 22 日 10:00 起,DeepSeek-V3-0324(含专属并发)、DeepSeek-V3.1-Terminus 和 DeepSeek-R1-0528(含专属并发)这三款旧版模型将停止支持调用。这意味着,当前使用这些模型的用户需要及时进行切换,以确保其服务的持续性和稳定性。 为了更好地满足用户需求,腾讯云将推出新的模型版本,确保在效果、推理时延等方面都能达到或超过旧版本的性能。这次模型的升级不仅是为了提升技术水平,也是为了为用户提供更高效、便捷的服务体验。 腾讯云宣布,其智能体开发平台的两款核心大模型Hy3preview和DeepSeek-V4-Pro将于2026年5月27日10:00结束免费公测,转为商业化运营。此后,系统将根据实际模型调用量按量计费。开发者与企业用户需及时调整策略,以应对即将到来的收费模式。 腾讯云宣布 Hy3 preview 与 DeepSeek-V4-Pro 模型免费公测将结束,转为商用 腾讯云宣布,其智能体开发平台中的Hy3 preview和
#3腾讯 Q1 业绩超预期,AI研发投入达到 225.4 亿元
5 月 13 日,腾讯控股发布了 2025 年第一季度的财报,显示出强劲的增长势头。报告中提到,腾讯在 AI 领域取得了显著突破,研发投入达到 225.4 亿元,同比增长了 19%。此外,资本开支也达到了 319.4 亿元,同比增长 16%。这一系列投资为腾讯在技术创新和产品研发上提供了有力支持。 在营收方面,腾讯第一季度实现了 1964.6 亿元的收入,同比增长 9%。在剔除新 AI 产品的影响后,Non-IFRS 经营利润达到 756.3 亿元,同比增长 9%;如果考虑 AI 产品影响,Non-IFRS 经营利润同比增长更是达到了 17%,总额为 844 亿元。同时,自由现金流也达到了 567 亿元,展现了腾讯良好的现金管理能力。 腾讯重组后的 AI 研发团队对 AI 基础设施进行了全面优化。新搭建的 Hy3 preview 模型表现出色,自 4 月 28 日以来在 OpenRouter 的 token 消耗量排行榜中稳居前列,并在结束限免期后连续三周保持周榜和总榜的第一名。这表明腾讯在 AI 技术上已形成强大的市场竞争力。 在未来的规划中,腾讯针对 AI 技术制定了清晰的发展路线
#4GPT-5.5才发三周,5.6已在内测!OpenAI与Anthropic补贴大战同日开打,开发者坐收渔利
GPT-5.5才发三周,5.6已在内测!OpenAI与Anthropic补贴大战同日开打,开发者坐收渔利 三周前GPT-5.5刚落地,GPT-5.6的消息已经提前炸出来了。 知名爆料人Leo透露,GPT-5.6目前开发进度已全速推进,首批内部检查点在过去几天已启动测试,下个月很可能就会正式露面。更有意思的是,有人从OpenAI内部Codex日志里扒出了rollout mapping的痕迹——大部分调用还是指向GPT-5.5,但有一条记录赫然落在了GPT-5.6身上。换句话说,Codex环境里可能已经在偷偷用它跑测试了。内部代码名也被顺带曝光:ember-alpha和beacon-alpha。 爆料人Chetaslua同步透露,本周四OpenAI将在Codex上线"ultrafast模式",响应速度直接提升2到3倍,专门为延迟敏感型任务设计。与此同时,Image Arena排行榜上以+242分断档领先的gpt-image-2,也在同步推进A/B测试更新。 这不是第一次了。今年3月GPT-5.4发布时,/fast模式已经实现了1.5倍加速;GPT-5.3-Codex-Spark借助Cere
#5买家AI改图恶意“仅退款”,平台秒批仲裁逼得新店老板心凉退店
买家AI改图恶意“仅退款”,平台秒批仲裁逼得新店老板心凉退店 河北辛集市的无花果树种植户张先生,上个月满怀希望地在某直播电商平台开了一家新店,售卖自家培育的无花果苗。然而网店才刚刚卖出 12 单,他就意外收到了一份“仅退款”申请,对方声称收到的果苗已经干枯死亡。 买家随申请附上了一张叶片全黄、毫无生机的树苗照片,以此要求退款。张先生有着多年的种植经验,他一眼就识破了这张照片是利用AI技术伪造出来的“假证据”。 张先生表示自己一直坚持带盆发货且保证盆土湿润,从发货到买家签收全程仅仅耗时两天。按照苗木的生长规律,自然缺水枯萎至少需要五到七天,且树苗叶片会发皱下垂,绝不可能像照片中那样快速枯黄。 为了维护自身权益,张先生果断驳回了申请并主动协商退货退款,不料买家随后申请了平台介入。令人心寒的是,即便张先生极力拿出专业常识辩解,平台依旧凭着那张AI伪造的图片,在短短几分钟内就判定买家胜诉。 这笔 45 元的“仅退款”订单,让满委屈的张先生彻底对该平台失去了信心,一气之下直接启动了退店流程。这起事件也揭示了当前AI生成图像泛滥、网购恶意碰瓷难以精准鉴别的新痛点。 针对日益猖獗的AI造假行为,国家
内容创作专业级真人反向COS AI水果——蹭爆款热点两天破3500万播放5.4K查看攻略
借助AI水果短剧的全球爆火热度,真人模仿AI水果角色拍摄搞笑COS视频,快速涨粉,通过流量变现、带货或接广告赚钱。 记住里面的主要角色:葡萄、火龙果、香蕉、茄子、苹果、蓝莓、洋葱公主 感受一下原版那种"魔性、狗血、建模奇怪"的风格,这就是你要模仿的感觉 没有头套的角色可以用彩绘涂脸代替(比如把脸涂成火龙果的颜色) 视频剪辑时加上《Камин》这首俄语歌(就是AI水果剧的固定背景音乐) 标题可以写:"真人版AI水果来了!""我们也出轨了?"之类的趣味文案 这个案例完美诠释了"蹭热点"的低成本高回报逻辑。创作者几乎零技术门槛,只需买几个魔性头套、拉上朋友一起玩,就能借助AI水果短剧的现成热度实现病毒式传播。最聪明的地方在于,它不是生硬地复制原版,而是加入了"人类反向模仿AI"的反差感和自嘲精神,让观众既有熟悉感又有新鲜感。这种"热点套热点"的玩法,值得所有想做短视频的人学习——不一定要原创,跟对风口就是生产力。 腾讯混元大模型联合故宫博物院等机构推出“Chronicles-OCR”,这是业界首个覆盖汉字“七体之变”演化轨迹的古文字感知评测基准。数据集由专家多层交叉标注,包含2800张图像,
内容创作专业级AI二创萌系IP“咕咕嘎嘎”:从流量爆款到实物变现的全流程路径28.1K查看攻略
AI二创萌系IP“咕咕嘎嘎”:从流量爆款到实物变现的全流程路径 利用AI工具将已有游戏角色或热梗二创为软萌形象,通过社交平台持续发布治愈系短视频积累流量(一个月15亿播放),最终通过售卖周边手办及广告分成实现变现。 主要门槛在于对AI工具的熟练使用以及对“萌点”和“情绪价值”的精准把控。 找一个大家已经知道的游戏角色。就像文本里的“小企鹅”其实是把游戏里的女管理员换了个样子。 选一个好听又洗脑的声音,比如“咕咕嘎嘎”这种模仿小宝宝说话的声音。 画出形象:使用AI绘图工具,把角色变成圆滚滚、软绵绵的小萌物。要让大家一看就觉得“哇,好想抱抱它”。 动起来:使用AI视频生成工具,让这个小企鹅说话、走路或者跳舞。 让它去体验生活:比如今天让它当卖煎饼果子的小摊主,明天让它变成被中介欺负的打工人。 卖好玩的东西:当大家都很喜欢它时,联系厂家做成小挂件、抱枕或者手办放在网上卖。就像文中所说,一个手办就能卖出5000多份。 接广告:像腾讯等大公司可能会找这个小IP合作,这时候就能收广告费啦。 这是一个非常典型的“AI赋能+情绪经济”的成功案例。咕咕嘎嘎的成功并非偶然,它精准地捕捉了现代人压力大、需要
内容创作专业级借势 AI “龙虾风暴”:小红书 OpenClaw 安装教程高收藏变现案例35.3K查看攻略
借势 AI “龙虾风暴”:小红书 OpenClaw 安装教程高收藏变现案例 抓住 AI 圈 “养龙虾” 热潮,针对 OpenClaw 部署门槛高的痛点,制作保姆级安装教程发布在小红书,靠高收藏 / 点赞涨粉,后续通过付费咨询、定制部署等变现。以小红书博主“栗氪聊AI”发布了一篇零基础安装教程,短短几天在小红书获赞2.2万,收藏量4万。 有 AI 技术基础、能清晰拆解操作步骤的技术博主,或愿意花时间研究 OpenClaw 部署的 AI 爱好者,无需高颜值但需有耐心讲解操作。 中等。需先掌握 OpenClaw 部署的核心操作,能看懂基础报错提示,讲解时需把技术步骤转化为小白能理解的语言。 第一步:吃透 OpenClaw 部署全流程(先自己学会再教别人) 先下载 OpenClaw 开源项目,尝试在飞书 / 电脑端部署,记录每一步操作(比如打开哪个页面、输入什么指令)。 刻意踩坑并记录解决方案:比如环境配置报错、API 调用失败的原因,把这些 “踩坑血泪史” 整理成笔记。 确定教程形式:选图文(更易收藏),用手机截图 + 文字说明,每一步配清晰截图(比如飞书工作台页面、代码输入界面)。 再讲部
内容创作专业级利用 OpenClaw 自动化搭建 SaaS 封装工具,实现日入 200 美金的复利业务59.2K查看攻略
利用 OpenClaw 自动化搭建 SaaS 封装工具,实现日入 200 美金的复利业务 中等偏低(不需要深厚的编程功底,但需要具备一定的逻辑思维和基础的 AI 工具调优能力)。 就像雇佣员工前要告诉他服务谁一样。你需要详细告诉 OpenClaw:你的客户是谁?他们有什么烦恼?比如:“我的客户是想用 AI 却不会部署服务器的小白”。方向越细,AI 干活越准。 AI 有时候会胡言乱语,因为他不知道最新的消息。你需要收集你这个行业里最厉害、最准确的文章或文档,做成一个大文件“喂”给 AI。这样它写出的内容和提供的服务就会非常专业,不像机器人。 利用 OpenClaw 封装功能。别人用 AI 需要买服务器、写代码,你直接用 AI 帮他们把这些麻烦事做成一个“网页按钮”。用户点一下就能用,他们自然愿意为了“省事”按月给你付钱。 这是一个非常典型且先进的“一人公司”案例。其成功的核心不在于技术多牛,而在于商业路径的清晰:先通过 AI 自动化解决最难的“流量问题”,再通过降低技术门槛来提供“确定性价值”。 案例中的大佬非常冷静,他没有死磕转化率,而是先跑通从“流量获取”到“产品交付”的闭环。这种“
内容创作专业级AI“邪修”构图法:用AI样片指导实拍,小红书轻松获赞3万+40.8K查看攻略
AI“邪修”构图法:用AI样片指导实拍,小红书轻松获赞3万+ 摄影新手、旅行爱好者、小红书内容创作者、不会摆姿势/构图的普通人 - 就像拍一张干净的背景图,不要有人挡住镜头,天空、建筑、花草都可以 - 打开AI软件(比如豆包的AI功能),点“上传图片”,选中你刚拍的风景照 - 在输入框里写:“请在这个风景里加一个真人模特,站在这里(用手指图上位置),穿红色裙子,手拿咖啡杯,笑得自然,要有电影感” - 点“生成”,等1分钟,AI会变出几张带人物的完美照片,选一张最漂亮的 - 把AI生成的照片给朋友看:“你站这里,我站那里,手这样摆,头歪一点”,像玩过家家一样摆好 - 拍完选最好看的一张,写上“AI帮我找的机位太绝了!”发小红书,容易获赞涨粉 腾讯混元大模型联合故宫博物院等机构推出“Chronicles-OCR”,这是业界首个覆盖汉字“七体之变”演化轨迹的古文字感知评测基准。数据集由专家多层交叉标注,包含2800张图像,旨在测试AI对甲骨文等古文字的识别能力,推动人工智能理解汉字从龟甲刻痕到现代代码的完整演变。 光学模组成智能眼镜「隐形胜负手」!韩国初创LetinAR获 1850 万美元融