• 全国 [切换]
  • 二维码
    错改网

    手机WAP版

    手机也能找商机,信息同步6大终端平台!

    微信小程序

    微信公众号

    当前位置: 首页 » 行业新闻 » 热点新闻 » 正文

    用AI教AI可行吗?

    放大字体  缩小字体 发布日期:2025-07-23 12:50:18   浏览次数:1  发布人:cda3****  IP:124.223.189***  评论:0
    导读

    图源:pixabay导读:如何在不同的工作场景中使用人工智能?这是当今时代的人们热烈讨论的一个话题。亚马逊云科技上海人工智能研究院院长张峥认为,要更好地应用人工智能,理解其工作原理非常必要。然而,曾经设计过上海纽约大学计算机导论课程的他,也发现专业教材门槛过高,传统的教学设计过于陈旧,人工智能的教与学亟需更新。在过去半年,张峥做了一个小试验,他与机器大模型合作共同设计了一门课:LLM4LLM,以问


    图源:pixabay

    导读:

    如何在不同的工作场景中使用人工智能?这是当今时代的人们热烈讨论的一个话题。

    亚马逊云科技上海人工智能研究院院长张峥认为,要更好地应用人工智能,理解其工作原理非常必要。然而,曾经设计过上海纽约大学计算机导论课程的他,也发现专业教材门槛过高,传统的教学设计过于陈旧,人工智能的教与学亟需更新。

    在过去半年,张峥做了一个小试验,他与机器大模型合作共同设计了一门课:LLM4LLM,以问答的方式让人工智能来做多层次的人工智能教学,希冀为人工智能的学习与普及开创一条新的路径。

    用AI教AI,这是可能的吗?以下是张峥关于这门课的设计思路、实践与思考。

    张峥|撰文

    2016年我还在上纽大,组织了一个跨学科研究项目,召集了一群神经科学家和计算机科学家,主题是探索人脑和机器学习模型的异同。项目开始时,我向神经科学家们提了一个看似简单的问题:"当我们看到一个苹果时,怎么说出'这是一个苹果'?大脑中发生了什么?有哪些回路在工作?"我以为这个问题几个小时就能搞清楚。结果,他们讨论了整整一个月,最终得出的结论是:大脑很复杂。我想说,这个我也知道啊。

    人的复杂就在于,永远讲不清楚自己。

    2025年,DeepSeek R1的发布完美抢镜春节档,将AI从技术圈的小众话题推向了全民视野。街头巷尾,茶余饭后,无人不谈大模型:大模型到底是什么?有多厉害?

    那么,今天的大模型强大到能说清楚自己吗?

    SAIXIANSHENG

    AI领域局外人的困惑

    AI时代降临的速度之快、影响之深,让大家没有足够的思想准备。这个话题不仅在计算机领域热议,认知科学、神经科学、人类学、历史学、法律界、投资界等各个领域都在各自讨论、争论、举办研讨会。

    在这些场合和文章里,我经常能读到耳熟能详的AI词汇,可是我的观察是,很多不同领域的发言都建立在对AI了解不够深入的基础上。

    我可以出几道题:

    ·关于维度:"人类用语言交流,大模型用低维向量……" ——12288(GPT-3的工作维度)是"低"维度吗?

    ·关于预测:"和我们人类不一样,大模型的预训练只是做下一个词的预测而已,只是数据超级大……" ——next-token预测本质上在做什么?为什么如此重要?只是因为方便在大数据上训练吗?

    ·关于推理:那些"推理"模型的飞跃,只是因为"萝卜加大棒"的强化学习吗?

    ·关于"混合专家"模型:"大模型像人类学习的一种方式是集成了多个专家在网络中"——这里的"专家"是指什么?

    这些问题并非故意刁难,十几年前我从系统研究转到机器学习时,第一个问题就困惑了我很久:我们难道不是生活在一个只有4个维度的时空世界里吗?文本作为一个序列,难道不是一维的吗?

    我认为不同领域的专家在讨论AI影响时,还是需要掌握一些最基本的AI通识。

    SAIXIANSHENG

    实践者的盲区

    如果说外界对于AI的理解不够深入是因为跨行业的门槛太高、学习成本太高,AI从业者群体的问题则是另一回事。因为大模型能力的强大,很多工作实质性地变成了提示词工程。而很多研究型的实习生,虽然能把Transformer的公式倒背如流,但对大模型中用了哪些模块以及这些模块的必要性经常说不清楚。

    可惜的是,虽然到处都能找到关于大模型的论文、教材和科普材料,但都存在这样那样的问题:要么过于技术化,充满数学公式和代码细节,让非专业人士望而却步;要么过于浅显,只停留在概念介绍层面,无法满足真正想要深入理解的需求。在这两个极端之间,似乎缺乏有弹性的中间地带。

    SAIXIANSHENG

    用AI教AI的元实验

    普及AI通识是个新问题,却也代表了AI时代教育的一般性问题:教什么?怎么教?怎么学?

    我和上纽大的计算机院长Nasir Memon教授很熟,经常喝酒聊天,教育改革是其中一个常聊的话题。上纽大的计算机导论课程是我在2014年加入时从头设计的,据说很受欢迎,其中的机器学习部分内容因此也有十多年历史,相当老旧。今年3月,Nasir挑战我说:"暑期班还要教,你不满意,有什么办法?"

    这促使我启动了一个元实验——用AI教AI。

    “用AI教AI”,听上去非常像一个递归陷阱——就像让镜子照镜子一样。但其可能性来自这一两年我平时阅读论文习惯的变化。

    在前AI时代,一篇好文章的细读要花不少时间,我的一个烦恼是会被技术细节困住。即便有些问题身边的同事能解答,我也经常存疑跳过,原因有二:不想打扰别人,以及——说实话——不好意思暴露无知。

    去年这个时间点AI还有大量幻觉问题,把文章扔进AI进行对话,经常会把人带到沟里去。现在最新的模型幻觉问题显著减少,可以深度讨论、在提问中实时补充论文之外的必要知识,特别有用的论文再把原文读一遍,效率非常高。

    换句话说,“让AI教AI”这个元实验的可行性建立在两个重要前提上:存在准确可靠的学术资料供AI参考,以及AI本身足够靠谱不会胡说八道。

    在这个前提下,用AI教学有明显超越人类教师的优点:

    ·AI具有超强的适应性。它可以根据学习者的背景调整解释方式,提供不同深度的答案,举出各种类比,实时回应困惑和问题。

    ·AI的教学无限耐心。它不会因为反复提问而厌倦,不会因为问题简单而不耐烦,也没有任何情绪化反应,因此可以破解学习者"不好意思问"的心理障碍。

    3.1设计理念

    有了前面的分析和个人体验,我开始着手设计这个"LLM4LLM"的课程。其中比较重要的设计理念是以下这些:

    ·多层次自适应。能适应三类学习者:通识学习者(注重概念理解和直觉建立)、技术实践者(需要看到代码实现和工程细节)、理论研究者(关心数学基础和前沿进展)。

    ·端到端。除了教学内容,也要评估和反馈。通过pre-prompt设定期望,session prompt引导探索,post-prompt进行多维度评分,形成完整的学习循环,让AI能够感知学习效果并动态调整教学策略。

    ·第一性原理驱动。从"为什么"开始,再讲"是什么"、"怎么做"。思维方式的训练要远比知识本身更重要。

    ·启发式教学。模仿苏格拉底对话风格,培养学生批判性思考和提问能力。但与传统不同的是,我们鼓励学生反向提问,打破师生界限,让学习变成真正的双向交流。

    ·走必要的捷径。不拘泥于大模型发展的历史轨迹,从第一性原理重构叙事线条。历史很有趣,但课程的目标是让学习者建立正确的概念框架,而不是重走研究者踩过的坑。如果学习者想了解历史,可以在对话中直接问,但这不应该成为课程设计的主框架。

    ·保持开放,支持动态自我更新。AI领域变化太快,大模型的基础研究仍在实时进行,我们要能实时收纳新内容、更新错误,成为一门具有自我更新能力的"活"的课程。另一个重要方面是能吸纳新的教学方式,关于这点我在后面讨论课程局限时会专门分析。

    3.2课程结构与内容概览
    整个课程采用渐进式设计,包含14个主题会话,围绕从基础预测到高级推理的3个核心模块展开,系统涵盖64个知识点——这些都是理解大型语言模型的关键概念,同时也是现代机器学习的部份分代表性理论基础。大部分知识点都用三层学习架构,适配不同背景的学习者需求,并配备30+个交互式可视化工具,将抽象的技术概念转化为直观的学习体验。 .

    模块内容架构

    Module 1:词预测与嵌入基础(5个会话, 27个知识点)
    核心问题:为什么简单的下一词预测能够产生如此强大的语言理解能力?

    从最直观的统计语言建模开始,引导学习者深入理解预测的本质机制。我们以易于理解的N-gram模型为起点,让学习者直观体验基于词表和词频的预测方法及其固有局限性,从而自然地引出神经网络方法的必要性。这一模块是理解大模型在向量空间工作原理的关键基础——不深入理解词嵌入(embedding)的概念和机制,就无法真正掌握大型语言模型的工作原理。通过逐步构建从离散符号到连续向量表示的认知桥梁,为后续的复杂架构学习奠定坚实基础。

    Module 2: Transformer架构与训练(4个会话, 15个知识点
    核心问题Transformer是怎么练成的?

    这是课程的核心模块。我们摒弃传统的历史发展路径(RNN→LSTM→Attention),而是从用户熟悉的关键词搜索体验出发,以"生成式搜索引擎"的概念作为理解Transformer的切入点。通过这个直观的类比,我们系统阐释Transformer架构中注意力机制和前馈网络的设计逻辑,然后循序渐进地整合其他关键技术组件。这种从第一性原理出发的教学方法,最终引导学习者完整构建出一个可运行的大型语言模型,真正做到知其然且知其所以然。

    Module 3:推理与对齐(5个会话, 22个知识点
    核心问题推理能力是如何从简单预测中涌现的?强化学习在其中扮演什么关键角色?

    聚焦于当前最前沿的研究话题:大模型如何从基础的模式匹配演进为具备复杂推理能力的智能系统。深入探讨强化学习在这一转变过程中的核心作用机制,思考过程的"暗数据"的发掘在其中的关键作用,以及人类反馈如何指导模型行为的对齐过程。

    知识点分层


    每个知识点都标注了适用层次:(C) Core Concepts- 适合所有学习者的概念理解,(I) Implementation- 需要基础编程背景(Python)的实现细节,(T) Theory- 数学和理论基础。C类适配AI通识教育,先实践(I)再理论(T)的顺序是基于以下的考量:数学公式虽然深入、精准,但远不如可以跑的代码直观,而且大模型编程的技术,可以倒逼理论型研究者不要只在公式里绕圈,而是要有动手做实验的能力。

    学习过程:简单三步法

    首先选择一个前沿聊天机器人(我测试了Claude、GPT、Gemini、Grok,以及初步试用了DeepSeek),一个比较重要的要求是对长上下文的支持。然后采用结构化的三步教学流程:

    ·加载pre-prompt建立学习框架和AI教学规则;

    ·打开某个session prompt开始围绕核心问题的引导式学习;

    ·最后加载post-prompt进行多维度的学习效果评估和下一步建议。

    每个主题会话都是一个完整的学习单元,可以按自己的节奏进行,支持暂停续学和知识点间的自由跳转。如果学习者只对某个知识点感兴趣,也可以通过对话直接切入。

    整个过程支持即时语言切换——无论何时,学习者都可以用中文、英文、日文等任何语言发出请求,AI会立即适配,真正实现无语言障碍的学习体验。这个功能纯属意外发现。当时我正在向一位希腊教授演示,演示进行到一半,我突然好奇心发作:"Please teach this in Greek!" AI二话不说就切换了。那一刻我们俩都愣住了,然后笑着说,这大概是历史上第一门真正的世界语课程。

    从哲学问题先开始

    大家当然可以按模块顺序学习,但我设计了一个特别的“哲学书签”路径:先从最后一课(Session 3.4)开始,凭直觉回答那些关于AI智能、理解和意识的哲学问题,学完所有技术内容后再回到3.4,再讨论一遍同样的问题。这就像给自己对智能的认知做了个“before-after”对比——没有标准答案,但有更深刻的思考。

    以经典的“中文房间”问题为例:哲学家Searle提出了一个思想实验——想象一个不懂中文的人被关在房间里,房间里有一本详细的规则手册,告诉他如何根据收到的中文字符来输出相应的中文回复。从外面看,这个房间似乎'理解'中文,但房间里的人其实完全不知道这些符号的含义。Searle以此论证:仅仅按规则操作符号并不等于真正的理解,因此计算机也不可能真正理解语言。

    但当你理解了LLM的工作原理后,可以用全新的视角审视这个问题:房间里不是一个无知的人在查规则表,而是有数十亿个'小人'(神经元),它们传递、加工和转换的不是无意义的符号,而是在向量空间中编码了真实语义关系的词汇表示。这种分布式的语义处理是否构成了一种新形式的'理解'?

    也许你会发现,中文房间论证本身可能基于了过于简化的假设。第一,它假设输入的是离散的'字符'而非连续的语义表示;第二,它假设处理单元是单一的'人'而非分布式的神经网络。当这两个假设都不成立时,整个论证的基础就变得可疑了。事实上,推翻这两个隐蔽的假设使得⼈脑和类脑更接近而不是相反。

    很多经典的哲学问题——从意识的本质到智能的定义——在学习完AI的工作原理之后,都值得重新审视。

    3.3课程局限与改进方向
    这个课程有几个需要持续改进的方面,这些挑战既体现了当前技术的局限,也给将来的AI教育提供了一些参考。

    教学方法的挑战。苏格拉底式的不断提问虽然能激发深度思考,但也可能让学习者感到疲惫和被"审问"的压力,特别是对那些习惯被动接受知识的学习者。目前我们鼓励学生注意节奏,不要每次学太多,更重要的是用主动反问来打破这种单向的质疑模式,但这种平衡仍需要更精细的调控。

    更关键的是个性化教学适配的难度。一方面是层次差异难以弥合:某些核心概念(如embedding的高维语义空间)在纯概念层面很难真正理解,不涉及代码实现和数学推导就容易流于表面,但对于非技术背景的学习者,这些内容又可能过于复杂。另一方面是反馈整合机制的问题:AI目前的一个大问题是"谄媚"倾向,我做过一个测试:在整个学习会话中只说'你来告诉我',完全不参与思考,然后用post-prompt评估。结果AI大方地给了我及格分数。这让我意识到,AI可能是世界上最好脾气的老师,但也可能是很不靠谱的评估者。换句话说,如果无法有效识别真实的学习状态并据此调整后续的教学策略,个性化学习就会完全失效。

    单一形式的局限。语言能力是人类能力中相当晚涌现出的能力,而就像科普作家、记者Ed Yong在“An Immense World”(《感官的巨大世界》)一书中提到的,人类在视觉能力上在动物界是可以称王的。但是,即使用母语阅读文字也会很快感到疲惫——若全部基于聊天机器人,阅读纯文字和代码,时间一长还是很累。目前我们通过31+个静态可视化工具来缓解这个问题,但这还远远不够。短期内,我们需要更丰富的交互式媒体内容;长期来看,理想的解决方案是让AI根据学习者的具体困难生成个性化的动态讲解——当你对某个概念困惑时,AI能实时生成针对性的动画演示,配上语音解说,随时给你竖起一块小黑板。

    顺便说一下,测试中有不少AI会热情地说“我给你画个图解释一下吧”——千万别答应。我在pre-prompt中已经明确要求优先使用现有的可视化资源,因为目前AI的绘画水平基本上停留在'灵魂画手'阶段,看了只会更困惑。

    验证覆盖的不足。课程包含64个知识点和数千种可能的对话路径,而目前的测试主要局限于设计者自己的体验和少数试用者的反馈。这种"作者测试作品"的模式显然不够充分。理想的验证方案应该包括:用零知识的大模型作为"学生模型",让它与"教师模型"进行完整的学习对话,然后设计标准化测试来评估各个知识点的掌握程度。

    同时,AI领域的快速发展意味着内容需要持续更新——我们设计了一个让LLM自主收集新研究并提出内容修改建议的机制,但这套动态更新系统还没有经过实战检验。

    人类教师角色的重新定位。这或许是最根本也最复杂的挑战。"LLM4LLM"代表了教学模式光谱的一个极端:完全自主学习。但在现实中,更可能的情况是各种混合模式——教师可以使用全部或部分材料来设计传统课程,让学生先自学某些知识点再进行课堂讨论,或者在传统教学中穿插AI对话环节。我的直觉是,最有效的方式可能是将AI自学和人际讨论结合起来。毕竟,我自己最有创意的想法往往来自与同事们的讨论,这门课程本身的制作就很说明了这一点。

    如何利用好AI来做课程改革是一个非常重要的问题。但问题是,当前的学术体系并不鼓励教学创新。研究型教师的职业发展主要看研究成果,教学创新在评价体系中的地位大概相当于餐厅里的装饰品——有更好,没有也不影响"主菜"。所以一旦课程设计完成,很少有人愿意投入精力持续改进教学方法。显然,这是一个制度性挑战。


    3.4开发的故事
    我们在“43天的开发周期中,在24个不同的日子里提交了代码,平均每个活跃日进行6.4次提交,总共增加了19,419行代码,删除了9,014行,整体变更接近3万行”(引号中数据由GPT的Codex工具调研完成),这还不包括30+个交互式可视化工具的开发工作。

    这里的"我们",指的是我与Claude、GPT的协作。因为白天还有研究院的工作,我只能在晚上和周末加班,这样强度的工作没有AI工具的加持,在以前是不能想象的。一般情况下我得设计完模块和主题,以及知识点,相当于搭建好脚手架,然后让Claude生成prompt,在Claude和GPT上做测试,其中花时间最多的是建立学习框架和AI教学规则的Pre-prompt,如果不仔细调试的话,这些聊天机器人经常会不遵守知识点的顺序,实际上我现在也不能保证它们不会横跳(当然学生总是可以提示它回到知识点来)。

    当然,这也解释了为什么前面提到的测试覆盖和验证工作相对有限——一个人的精力终究是有限的,即使有AI助手。

    正因如此,我们欢迎各种形式的贡献。无论是内容完善、错误修正、新的可视化工具,还是测试反馈和教学实践经验分享,都将帮助这个项目变得更加完善。

    SAIXIANSHENG

    镜像中的智能——AI教育中不可缺失的“I”

    我认为

    AI 的通识教育必须包括对 "I" ,也就是人类智能的部分,否则是不完整的。从这个角度来看,这个课程还缺了一大半。

    但是我认为这门课程设计时背后的三个基本原理——信息的分布式表示、注意力与模式检索、目标导向的学习——不仅解释了AI系统的运作机制,同时也反映了人类认知的基本方面。关于智能,我属于“智能与基质无关派”(intelligence is substrate independent)——智能体要在一个复杂动态的世界中'卷',用硅基还是碳基来实现并不重要。

    但是硅基智能(AI)从碳基智能(我们)的轨迹中学习,毕竟没有走漫长的演化路线,结构不同并不意外。几年前我强烈相信AI的打造必须要从类脑开始,现在基本放弃了这样的信条,不过依然相信有借鉴的必要,只是必须有选择性。

    当我们用心理学家Kahneman的System 1和System 2框架来审视这个问题时,跨物种的对比变得格外有趣。人类的System 1(快速、直觉、自动的思维)对应着LLM的即时预测能力,而System 2(慢速、理性、需要努力的思维)则对应着推理模型的思维链条。两者都在解决同样的根本问题:如何在有限的计算资源下,既要快速响应环境,又要处理复杂的推理。

    实现方式的差异同样引人深思。比如脑科学的研究表明人类的语言处理主要来自两个脑区的协作(Broca区负责语法和语言产出,Wernicke区负责语义理解),而大模型则是通过重复执行attention-FFN块来实现语言理解。然而,在这些截然不同的架构背后,我们却发现了惊人的功能相似性——比如预测(脑科学中的predictive coding),比如注意力机制,这些根本模块似乎是智能系统筛选相关信息的通用解决方案。

    来源:赛先生

    原标题:张峥:用AI教AI可行吗?

    编辑:凉渐

    转载内容仅代表作者观点

    不代表中科院物理所立场

    如需转载请联系原公众号


     
    (文/匿名(若涉版权问题请联系我们核实发布者) / 非法信息举报 / 删稿)
    打赏
    免责声明
    • 
    本文为昵称为 cda3**** 发布的作品,本文仅代表发布者个人观点,本站未对其内容进行核实,请读者仅做参考,如若文中涉及有违公德、触犯法律的内容,一经发现,立即删除,发布者需自行承担相应责任。涉及到版权或其他问题,请及时联系我们154208694@qq.com删除,我们积极做(权利人与发布者之间的调停者)中立处理。郑重说明:不 违规举报 视为放弃权利,本站不承担任何责任!
    有个别老鼠屎以营利为目的遇到侵权情况但不联系本站或自己发布违规信息然后直接向本站索取高额赔偿等情况,本站一概以诈骗报警处理,曾经有1例诈骗分子已经绳之以法,本站本着公平公正的原则,若遇 违规举报 我们100%在3个工作日内处理!
    0相关评论
     

    (c)2008-现在 cuogai.com All Rights Reserved.