第19期--天山胜利隧道
一、刊首图
世界最长的高速公路隧道“天山胜利隧道”本周贯通,长达22.13公里,汽车要在里面开20分钟。它连接了被天山隔断的南疆和北疆
二、时事新闻
NVIDIA RTX 5090搭载了最新的NVIDIA Blackwell架构,这是NVIDIA为提升图形计算能力而推出的新一代GPU架构。相比前代的Ada Lovelace架构,Blackwell在性能、功耗效率、以及AI计算方面都有显著提升。
英伟达宣布将于5月推出名为“Project Digits”的个人AI超算,起价3000美元。该设备大小类似Mac Mini,配备GB10 Grace Blackwell超级芯片,能够运行最多2000亿参数的AI模型,支持最多128GB统一内存和4TB NVMe存储。通过连接两个单元,能够处理最多4050亿参数的模型。Project Digits基于Linux操作系统,预装NVIDIA AI软件栈,适用于开发者和AI研究人员,提供本地开发、测试和部署功能。
OpenAI于1月23日发布了“Operator”智能体,能通过上网为用户完成任务,如订餐、购物和预订票务。它将结合GPT-4的视觉和推理能力,能通过截图和浏览器交互,自动执行任务,遇到隐私信息时暂停等待用户确认。目前已给美国地区的ChatGPT Pro用户推送了该功能,但该智能体仍是研究预览版,功能有限。
三、技术文章
1、Qwen2.5-LLM:扩展大型语言模型的边界(中文)
阿里通义千问官方发布的文章,其中有关于Qwen2.5大模型介绍、与其他模型的推理效果对比。
2、哈工大SCIR发布珠算-SQL(中文)
珠算-SQL是由SCIR实验室开发的Text-to-SQL系统,旨在将自然语言查询自动转换为SQL查询,支持多轮对话、自动领域迁移和多数据库检索,具备用户反馈纠正机制,提供高效精准的数据库交互体验,本文介绍了其技术路线。
四、开源组件
1、monolith
Monolith 是一个基于 TensorFlow 构建的大规模推荐模型深度学习框架,支持批量和实时训练及服务。
2、pathway
Pathway 是一个 Python ETL 框架,用于流处理、实时分析、LLM 管道和 RAG。尽管 Pathway 是用 Python 编写的,但它是由 Rust 引擎运行,从而实现多线程、多处理和分布式计算。
Qwen-Agent是一个开发框架,可用来开发Agent应用,充分利用基于Qwen模型的指令遵循、工具使用、规划、记忆能力。本项目也提供了浏览器助手、代码解释器、自定义助手等示例应用。
AgiBot World数据集诞生于智元自建的大规模数据采集工厂与应用实验基地,一方面为机器人大规模数据训练提供场地,另一方面真实复刻了家居、餐饮、工业、商超和办公五大核心场景,全面覆盖了机器人在生产、生活中的典型应用需求。
5、VITA
VITA是腾讯优图实验室推出的首个开源多模态大语言模型,支持同时处理视频、图像、文本和音频。它具备中英文双语理解与生成能力,提供无唤醒交互和音频打断等自然交互功能。论文地址
6、outlines
Outlines 是一个帮助用户简单稳定地使用 LLM 的 Python 库,支持基于正则表达式、JSON 和语法规则实现结构化输出。
一个基于LangGraph、FastAPI和Streamlit构建的完整工具集,旨在帮助开发者快速构建和运行AI代理服务。
MiniCPM-o系列模型可以以端到端方式,接受图像、视频、文本、音频作为输入,并生成高质量文本和语音输出。
RealtimeSTT是一个强大、高效、低延迟的语音转文本库,具有先进的语音活动检测、唤醒词激活和即时转录功能。
10、sharp
一个基于 libvips 的高性能 Node.js 图像处理库,支持对 JPEG、PNG、WebP、GIF 和 SVG 等格式的图像进行调整大小、格式转换、裁剪和旋转等操作。
11、Frappe Gantt
Frappe Gantt是一款开源的JavaScript 甘特图库,具有简洁的界面和丰富的交互功能。
12、SemHash
SemHash是一个轻量且灵活的工具,用于通过语义相似性来去重数据集。它结合了Model2Vec的快速嵌入生成和Vicinity的高效ANN相似性搜索,支持单数据集去重(例如,清理训练集)和多数据集去重(例如,确保测试集和训练集之间没有重叠)。
13、chonkie
一个专为 RAG 应用设计的轻量级文本分块库,它简单易用、速度快,能够按固定大小分割文本,支持多种分词器、向量模型和灵活的分块策略,适用于长文本处理、构建 RAG 应用等场景。
14、PyPSA
一个用于电力系统分析的 Python 库,专注于电力和多能源系统的建模与优化。它基于 Pandas、NumPy、GLPK、Cbc 等库,能够高效计算最优潮流优化(OPF)、线性和非线性电力流,并支持模拟各种电力和能源系统组件的功能。
15、DeepSeek-R1
DeepSeek发布DeepSeek-R1模型,并同步开源模型权重。据官方介绍,它在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩OpenAI o1正式版。技术报告
16、XGrammar
XGrammar 结合 LLM 推理引擎,它能够在端到端低延迟 LLM 服务中实现近乎零额外开销的结构化生成。
17、instructor
该项目是用于处理大语言模型结构化输出的 Python 库。它基于 Pydantic 实现了数据验证和类型注释,能够将 LLM 的结果转换为结构化数据,支持多种大语言模型服务,以及自动重试、流式响应等功能。
18、Unsloth
Unsloth可以比HuggingFace快2-5倍的微调Llama 3.3、Mistral、Phi-4、Qwen 2.5和Gemma等大语言模型,同时内存消耗减少80%。
KTransformers是一个由清华大学MADSys和Approaching.AI开发的开源框架,旨在优化大模型的本地推理体验,特别是支持DeepSeek-R1等MoE大型语言模型的高效运行。它的性能较llama.cpp大幅提升,尤其在Prefill阶段,速度提升高达27.79倍。
五、工具软件
1、EmojiClick(免费)
使用自然语言搜索 Emoji 符号。
2、AutoMouser(开源)
一个 Chrome 浏览器插件,将鼠标操作通过 AI 转为 Selenium Python 脚本。
3、OrbStack(免费)
OrbStack是一款专为macOS设计的快速、轻量级且易于操作的Docker容器工具,官方声称它比DockerDesktop速度更快。
4、code2prompt(开源)
Code2prompt是一个终端工具,能将代码库转化为单一的LLM提示,结合源码树结构,模板定制,以及令牌计数。
5、github-chinese(开源)
GitHub汉化的浏览器插件脚本,需要借助Tampermonkey去使用。GitHub 中文化插件 - GreasyFork 托管 - 发布版
6、BewlyBewly(开源)
BewlyBewly 是一个用于 BiliBili 的浏览器扩展,旨在通过重新设计 BiliBili 用户界面来提升用户体验。设计灵感来自于 YouTube、Vision OS 和 iOS,从而实现了更具视觉吸引力和用户友好性的界面。Chrome插件安装地址
7、Audiblez(开源)
这个工具可以将 Epub 电子书转成有声书,支持中文。
8、Music Tag Web(开源)
一款可以编辑歌曲的标题,专辑,艺术家,歌词,封面等元数据信息的Web工具。
9、DrissionPage(开源)
DrissionPage是一个基于Python的网页自动化工具,结合了浏览器自动化的便利性和requests库的高效率。它提供了三种页面对象:ChromiumPage、WebPage和SessionPage,分别适用于不同的使用场景,帮助开发者高效完成网页自动化任务。官方文档
10、PaSa(开源)
PaSa是字节跳动开源的由大型语言模型支持的高级论文搜索Agent。它可以自主地做出一系列决策,包括调用搜索工具、阅读论文、选择相关参考文献等,最终为复杂的学术查询获得全面准确的结果。官方试用
11、sshfs(开源)
这是一个基于 SFTP 协议的文件系统工具,可通过 SSH 协议将远程文件系统挂载到本地。它操作简单,仅需一条命令,即可像访问本地文件系统一样管理远程文件和目录,兼容 Linux、BSD 和 macOS 系统。
12、FileCodeBox(开源)
开源的文件快递柜工具,匿名口令分享文本,文件,像拿快递一样取文件。
13、upx(开源)
这是一款开源的可执行文件压缩工具,支持多种可执行文件格式(Windows、Linux、macOS)。它拥有出色的压缩比(50-70%),压缩后的文件可直接运行,适用于程序分发和大规模存储的场景。
14、SamWaf(开源)
一款完全开源的轻量级 Web 应用防火墙,支持私有化部署,提供 Bot 检测、URL 白名单、CC 防护、自定义防护规则等功能,适用于小型企业、工作室和个人网站。
15、bunster(开源)
该项目是一个 Shell-to-Go 转译器(Transpiler),原理是先把 Shell 脚本转换为 Go 代码,然后利用 Go 工具链将其编译为二进制可执行文件,弥补了传统 Shell 脚本在性能、可移植性和安全性方面的不足。
16、Repomix(开源)
Repomix是一个专门用于将整个代码库打包成单一的、AI友好的文件。这个工具可以让开发者轻松地将他们的代码库提供给大语言模型进行分析和处理。官方试用
17、nginx-proxy(开源)
该项目可以自动为 Docker 容器提供 Nginx 反向代理服务。它能够实时监听 Docker 容器的启动和停止事件,自动为每个 Docker 容器配置 Nginx 反向代理,无需手动干预,极大简化了容器环境下的 Nginx 配置流程。
18、KubeSphere(开源)
KubeSphere是在Kubernetes之上构建的面向云原生应用的分布式操作系统,完全开源,支持多云与多集群管理,提供全栈的IT自动化运维能力,简化企业的DevOps工作流。它的架构可以非常方便地使第三方应用与云原生生态组件进行即插即用的集成。
19、KubeKey(开源)
KubeKey是基于Go语言开发的轻量级安装工具,它提供了一种灵活、快速、方便的方式来安装Kubernetes、Kubernetes和KubeSphere,以及相关的云原生附加组件,它也是扩展和升级集群的有效工具。此外,它还支持定制离线包,方便用户在离线环境下快速部署集群。
20、AigcPanel(开源)
AigcPanel是一个简单易用的一站式AI数字人系统,小白也可使用。 支持视频合成、声音合成、声音克隆,简化本地模型管理、一键导入和使用AI模型。
21、Voice-Pro(开源)
AI 语音工具,具有多种功能(语音识别、翻译、语音克隆、文本转语音),属于 Whisper 模型的 Web UI。
22、在线焰火模拟器(免费)
网页模拟焰火绽放效果的在线工具。
23、maybe(开源)
一个开源的金融应用项目,旨在提供一个灵活且易于扩展的金融服务平台。该项目支持多种金融操作,包括但不限于资产管理和交易处理。它的设计理念是模块化和可插拔,使得开发者可以轻松地集成和扩展功能。
24、Timeshift(开源)
Linux 的时光机器,定期对文件系统生成增量快照,可以返回到指定时点。
25、bisheng(开源)
bisheng 是一个开放的 LLM 应用 DevOps 平台,专注于企业场景,已被大量行业领先组织和财富 500 强企业使用。
六、学习资源
1、从零训练微型语言模型MiniMind(中文)
从零开始训练小型语言模型,这不仅是一个微型语言模型的实现,更是一份入门 LLM 的教程,旨在降低学习和上手 LLM 的门槛。它提供了从数据预处理到模型训练、微调和推理的全流程代码和教程。最小模型仅 0.02B 参数,可在普通 GPU 上轻松运行。
2、Foundations-of-LLMs(中文)
内含《大模型基础》开源书籍,该书是由浙江大学 DAILY 实验室开源的大语言模型教材,内容涵盖传统语言模型、大语言模型架构演化、Prompt 工程、参数高效微调、模型编辑、检索增强生成等方面。项目内还有LLM方向的 经典论文、Arxiv前沿论文 的收集。
3、Cheat Sheets for Developers(英文)
一份专为开发者准备的快速参考手册,旨在为开发者提供简洁、直观的速查表,内容涵盖多种编程语言、框架、Linux命令和数据库等。
4、zh-style-guide(中文)
技术文档写作规范指南,旨在为中文技术文档的语言风格、结构样式、内容元素、标点符号、格式排版等方面提供参考规范。在线阅读
5、DeepSeek的提示库(中文)
DeepSeek官方文档里提供的一些特定场景需求的Prompt,可以参考它来写出高质量的提示词。
6、awesome-systematic-trading(中文)
一个精心整理的系统化交易资源列表,包括库、包、策略、书籍和教程。旨在帮助用户找到、开发和运行系统化交易(量化交易)策略所需的各种资源。
7、人类的最后考试(英文)
今年1月份,两家美国AI公司推出了一个测试集,包含3000道各种学科的题目。据他们说,只要AI模型通过了这个测试集,就表明AI智力已经超过了人类,也就是达到了AGI的水平,所以起名为“人类的最后考试”。截止2月3日,AI模型取得的最佳成绩是26.6%的正确率。
七、生活经验
1、梁文锋专题访谈
DeepSeek V3是来自杭州的量化基金公司幻方量化,一经发布,它就引起了国际范围的轰动。目前,它在大模型排行榜排名第7,在前十名里面,只有它是开源模型。它的训练成本很低,估计只有Meta的Llama 3.1 405B模型的1/11,而后者的效果还不如它。这也就是说,DeepSeek 找到了高效使用硬件、提高模型效果的方法。下面是幻方量化创始人梁文锋在专题访谈里说过的一些话:
- 我们要做的不是生成式 AI,而是通用人工智能 AGI。前者只是后者的必经之路,AGI 会在我们有生之年实现。
- 任何 AI 公司(短期内)都没有碾压对手的技术优势,因为有 OpenAI 指路,又都基于公开论文和代码,大厂和创业公司都会做出自己的大语言模型。
- 在颠覆性的技术面前,闭源形成的护城河是短暂的。即使 OpenAI 闭源,也无法阻止被别人赶超。我们把价值沉淀在团队上,我们的同事在这个过程中得到成长,积累很多know-how,形成可以创新的组织和文化,就是我们的护城河。
- 我们不会闭源。我们认为先有一个强大的技术生态更重要。
- 当前阶段是技术创新的爆发期,而不是应用的爆发期。大模型应用门槛会越来越低,创业公司在未来20年任何时候下场,也都有机会。
- 过去很多年,很多的中国公司习惯了别人做技术创新,拿过来做应用变现,自己等着摩尔定律从天而降,躺在家里18个月就会出来更好的硬件和软件。我们的出发点,就不是趁机赚一笔,而是走到技术的前沿,去推动整个生态发展。中国也要逐步成为贡献者,而不是一直搭便车。
- 大部分中国公司习惯 Follow,而不是创新。中国创新缺的不是资本,而是缺乏信心以及不知道怎么组织高密度的人才。我们没有海外回来的人,都是本土的。前50名顶尖人才可能不在中国,但也许我们能自己打造这样的人。
- 我们每个人对于卡和人的调动是不设上限的。如果有想法,每个人随时可以调用训练集群的卡无需审批。同时因为不存在层级和跨部门,也可以灵活调用所有人,只要对方也有兴趣。
- 我们选人的标准一直都是热爱和好奇心,所以很多人会有一些奇特的经历,很有意思。很多人对做研究的渴望,远超对钱的在意。
- 我们在做最难的事。对顶级人才吸引最大的,肯定是去解决世界上最难的问题。其实,顶尖人才在中国是被低估的。因为整个社会层面的硬核创新太少了,使得他们没有机会被识别出来。我们在做最难的事,对他们就是有吸引力的。
- 中国产业结构的调整,会更依赖硬核技术的创新。很多人发现过去赚快钱很可能来自时代运气,现在赚不到了,就会更愿意俯身去做真正的创新。
- 我是八十年代在广东一个五线城市长大的,我的父亲是小学老师,九十年代,广东赚钱机会很多,当时有不少家长觉得读书没用。但现在回去看,观念都变了,因为钱不好赚了,连开出租车的机会可能都没了。一代人的时间就变了,以后硬核创新会越来越多,因为整个社会群体需要被事实教育,当这个社会让硬核创新的人功成名就,群体性想法就会改变,我们只是还需要一堆事实和一个过程。
大公司的问题是,没有信仰,没有信心,人太杂。
- 首先是信仰,梁老板本人很有信仰,他相信AGI一定会达成,而且是有限的时间内可以达成,这个AGI一定是稀疏的,这份信仰传播给每一个下属。相比之下,字节领导对AGI的信仰不足,没有明确的判断,也不会把信仰传递到下属(人太多了,也传播不过来)。
- 第二个是信心,字节大部分情况下都在服务于OKR,业务最重要,如果对于业务没有明确好处的东西,大家会表现出没有信心,不愿意深挖。换言之,在字节很难抗住因为探索一件事情而没有产出的压力。我观察和我一起进字节的同学,做事非常仔细谨慎,一心一意服务业务,不敢越雷池半步。
- 第三个,人太杂,很难统一军心,很多时候别人做的东西自己也不关心,甚至会有人暗地使绊子。DeepSeek里则是大家有一种莫名的一致性,大家都是老板的粉丝,都信老板的话,平时谈话也都是自己哪里比友商强,哪里可以改进,整体氛围非常巩固军心,相互之间是促进关系。相比之下,我在字节看到了一些组的合并,合并的过程是先赛马再强行整合,大家相互敌对,浪费人力,浪费时间,浪费信仰,浪费资源,最后两败俱伤,把原本可以有领先机会的东西再次搞落后。
南美洲的亚马逊河是世界第二长的河流,仅次于非洲的尼罗河。但是,这条河却是唯一一条没有任何桥梁的世界主要河流,原因如下:
- 首先,每年的雨季,亚马逊河都会泛滥,河流的宽度会从旱季的5公里变成50公里,很难造桥,变成下图所示的样子。
- 其次,亚马逊河沿岸人烟稀少,只有很少几个城镇。最大一个城市的人口只有50万,不存在前往河对岸的强烈需求。
- 最后,亚马逊河两岸都是原始森林,并没有现成道路。如果造桥就需要砍伐大量森林,修建引桥和公路,环境代价很大。
4、有利息的工作
银行存款有利息,存得越久,利息越多。工作也是一样,也有利息,如果今年的工作可以节省明年或未来的工作时间,就是一份有利息的工作。工作有利息,意味着你未来的工作时间会变少,多出来的时间,就可以去做别的事情,创造更多的价值。这提示我们:
- 不要轻易更换工作领域,否则以前积累的利息就作废了。只有在同一个工作领域,才可能产生长期积累,以前的工作为以后打基础,最终产生巨大的利息。
- 在职业生涯的早期,积累效果最好,最容易产生复利。开始积累越晚,产生复利就越少。
- 有些劳动没有积累效果,不会产生利息,比如重复性的机械劳动(快递、咖啡店员、门卫……),你明年还是要重复做这些事情。
- 最好的人生策略就是,找到你深感兴趣、可以长期做下去的领域,在上面投入大量的工作时间(包括质量和数量),然后随着年龄增长,享受以前工作的复利。
八、闲情逸趣
九、数字与言论
1、保护海底光缆不出事是不可能的,你唯一能做的就是建立大量冗余,在不同位置铺设数十根光缆可能比保护它们更便宜。——Hacker News
2、摩尔定律预测,芯片性能大约每年会翻一番。但是,AI 芯片的发展速度比这快得多。今天我们发布的 GB200 NVL72 芯片,运行 AI 推理的速度,比去年的上一代 H100 快了30倍,比10年前的芯片快了1000倍。我们正在超越摩尔定律,AI 适用超级摩尔定律。——黄仁勋
3、人的智力高低,未来不会像现在这样重要,AI 可以弥补人的智力。提出正确问题的能力,在未来比找到答案的能力更重要。——Sam Altman
4、我从未想到会被公司解雇,因为我的表现总是高于公司的期望。后来我明白了,在裁员期间,你是谁、你做什么似乎并不重要,在大多数情况下,裁员的决定是由那些不认识你的人做出的,对公司来说,我只是 Excel 表格中的一行。——《裁员改变了我》
5、我们越忙碌,就越能敏锐地感受到自己在生活,对生活也就越有想法。——康德,德国哲学家
6、程序员们不再互相提问,AI 回答了大部分问题。—— AI的数周相当于人类的几十年,自大模型问世后,StackOverflow日益冷清
7、有一句老话:创意很廉价,执行才是一切。然而,AI 颠覆了这个说法,执行现在很廉价,整个开发时间和交付速度的概念都不同了。未来属于那些有想法、还能动手去做的人。——Geoffrey Huntley、