第15期--跳跃吧北极狐
一、刊首图
大黄鸭之父费洛伦泰因·霍夫曼的新作 跳跃吧!北极狐 近日亮相上海苏河湾万象天地。作为霍夫曼至今最大的艺术作品,该约7层楼高的快闪装置由国产新能源汽车品牌“极狐汽车”共同打造。据悉,北极狐装置的全身“毛发”使用了约38万张泰威克环保纸张,通过手工粘贴的方式,展现出蓬松效果,并同步传递着“人·车·自然和谐共生”的理念。
二、时事新闻
2023年12月底,微软的Copliot出iOS客户端了,在美区Apple Store下载(国区未上架),不需要登录,即可免费使用GPT-4,不过使用该应用时需要开代理(建议全局代理,我一开始使用规则分流告知不支持地区)。另外,安卓也有该客户端,也能免费使用GPT-4。
著名的开源路由器操作系统 OpenWrt,为了庆祝项目20周年,将推出了一款自己设计的路由器,价格低于100美元,特点是刷机刷不死。
Sora是一种扩散模型,能够一次生成整个视频或扩展视频的长度,关键之处在于一次生成多帧的预测,确保画面主体即使暂时离开视野也能保持不变,支持生成长达60s的高清视频。OpenAI表示,正在教AI理解和模拟运动中的物理世界,目标是训练模型来帮助人们解决需要现实世界交互的问题,根据文本提示生成视频,仅仅是整个计划其中的一步。对于Sora当前存在的弱点,OpenAI也不避讳,指出它可能难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系。
该模型还没有正式发布,目前只有一些受邀的艺术家设计师电影工作者可以体验,这几个网站收集示例和对应的提示词:SoraPrompts、SoraHub、Sora Videos
三、技术文章
1、embeddings 是什么意思(英文)
GPT 模型的基础是一种叫做 embeddings 的技术,用来将文本转换成向量,从而可以计算出文本之间的相似度。
2、2024年AIGC应用层发展十大趋势(中文)
工业和信息化部的统计数据显示,1-10月份,我国软件和信息服务业务收入98191亿元,同比增长13.7%。整个行业的增长率要远高于同期GDP的增长率。大模型、AIGC是当前全球数字经济发展的热点和趋势,也是人工智能重要的核心技术。
3、2023年前端技术盘点与展望(中文)
腾讯云开发者公众号与腾讯 MoonWebTeam 前端团队联合推出的长篇技术报告。
4、Python 变快的9个技巧(英文)
本文介绍9个让 Python 代码变得更快的小技巧。
5、怎样系统的学习 AI 绘画(中文)
一个面向无AI绘画基础人群的 Stable Diffusion 入门教程。
6、开发者需要知道 GPU 知识(英文)
AI 大量使用 GPU 运算,本文介绍开发者需要知道的 GPU 知识,前半部分是概念,后半部分是 GPU 编程。
7、黄仁勋斯坦福大学演讲(中文)
2024年3月初,英伟达CEO黄仁勋回到母校美国斯坦福大学,进行了两次演讲,讲述了自己的经历和对 AI 的看法。
8、如何管理多个 Git 身份(英文)
Git 使用时,需要指定用户名和邮件地址。本文教你一种简单的方法,不同的项目自动切换 Git 身份。
四、开源组件
苹果公司开源的多模态 LLM 模型,它可以分析和识别图像上的信息,并以此给出作答。
RAG是一种将外部知识融入语言模型生成中的方法。RAGatouille库允许训练和研究最先进的RAG系统。它简化了研究人员的工作,使其能够更轻松地构建检索管道,并将其应用于语言生成领域。
一种能在配备单个消费级 GPU 的个人电脑上运行的快速大型语言模型 (LLM) 推理引擎。论文地址
4、nitro
Nitro是一款高效的C++推理引擎,为边缘计算提供动力,特别适用于Jan。它轻便且可嵌入,非常适合产品集成。压缩后的Nitro二进制文件大小仅约3MB,并且几乎不需要或只需最少的依赖项(例如GPU必须的CUDA环境),使其非常适合任何边缘计算/服务器部署。
网易有道开源的知识库问答引擎 QAnything,包括专门优化的自研的 embedding 和 rerank 模型,微调后的 LLM,优化后的推理代码,向量数据库,以及一个立即上手可用的前端。所有的算法模型(包括 7B 大模型+embedding/rerank+OCR)占用显存不超过 16G。
6、vllm
vLLM 是一个高吞吐量、内存高效的语言模型推理和服务引擎,它的目标是为每个人提供简便、快捷、经济的LLM 服务。vLLM 能够高效地管理注意力键值内存,优化CUDA 内核,并且能够处理连续的输入请求,这使得它的服务吞吐量处于行业领先地位。
7、gpupixel
高性能跨平台实时美颜滤镜库。这是一个用 C++11 编写的高性能图像和视频处理库,内置基于 GPU 的美颜特效滤镜,效果可以达到商业级别水平。支持磨皮、美白、瘦脸、大眼等特效,适用于 iOS、macOS 和 Android 平台。
一个Python代码压缩库,用于将Python源代码转化为其最紧凑的表示形式。
谷歌开源的 C++ 基础库。这是一个在 Google 内部被广泛应用的 C++ 公共库,它提供了一系列高质量、可靠、高效的基础模块,其中包括字符串处理、并发、时间、STL 容器、测试、日志等实用函数。
10、bpmn-js
专注于流程图的可视化和编辑组件。该项目提供了直观的拖拽式创建和编辑流程图的功能,可用于构建业务流程管理、决策流可视化和低代码平台。
11、theatre
一个用于创建 Web 动画的 JavaScript 库。该项目是带图形用户界面的 Web 动画编辑器,能对任何 JavaScript 变量进行动画处理。它不仅支持处理 three.js 或其他 3D 库对象的动画功能,还能利用 React 等库对 HTML/SVG 进行动画处理。
12、phidata
一个使用函数调用构建AI助手的工具包。 它不仅可以帮助开发者更快地构建AI助手,还可以通过模块化设计轻松扩展其功能。
13、sglang
SGLang是一个为大语言模型(LLMs)设计的结构化生成语言,它允许用户更快速、更可控地与LLMs交互。
14、GPT-SoVITS
一个开源的TTS项目,只需要1分钟的音频文件就可以克隆声音,支持将汉语、英语、日语三种语言的文本转为克隆声音,训练速度快,效果较好。
15、VoiceCraft
VoiceCraft是一个由德克萨斯大学奥斯汀分校研究团队开源的神经编解码器语言模型,专注于零样本语音编辑和文本到语音合成。
16、tugraph-db
支付宝背后的分布式图数据库。是由蚂蚁集团和清华大学共同研发的高性能分布式图数据库,支持事务处理、TB 级大容量、低延迟查找和快速图分析等功能。
Stable Cascade是Stability AI开发的基于Würstchen架构的新一代文生图模型,Stable Cascade采用三阶段方法,非常容易在消费类硬件上进行训练和微调。官方声称,相对于业界熟悉的 SDXL,全新的 Stable Cascade 模型在性能及生成内容质量上均有所提升。
18、TensorRT-LLM
NVIDIA TensorRT-LLM 是一个开源库,可加速和优化NVIDIA AI 平台上最新大型语言模型(LLM) 的推理性能。
19、Qwen1.5
Qwen1.5是阿里研发的通义千问系列开源大模型,该系列包括Base和Chat等多版本,开源了0.5B、1.8B、4B、7B、14B、72B等型号。
20、grok-1
Grok-1是由马斯克的 xAl 公司开发的大语言模型,是一个混合专家(MoE)模型,拥有 3140 亿参数,使其成为目前参数量最大的开源大语言模型。Grok-1的开发和训练过程遵循了开源的原则,其权重和网络架构已经公开,基于Apache 2.0许可,允许用户自由地使用、修改和分发,用于个人和商业用途。模型地址
21、LWM
大世界模型 (LWM)是一种通用的大上下文多模态自回归模型。它使用 RingAttention 在包含各种长视频和书籍的大型数据集上进行训练,能够理解并生成语言、图像和视频。
22、yolov9
YOLOv9已于2024年2月份发布,出自YOLOv7作者,其主要破解的就是数据通过深度网络传输时丢失的问题,具体来说就是“信息瓶颈和可逆函数”。论文地址
23、gocv
基于 OpenCV 的 Go 语言计算机视觉库,让开发者可以使用 Go 语言调用 OpenCV 库,具有支持多平台、OpenCV 4+ 和 GPU 硬件加速等特性。
24、TripoSR
TripoSR是stability与 Tripo AI 合作发布了 TripoSR,这是一种快速 3D 对象重建模型,其灵感来自于 LRM 最近的工作:单图像到 3D 的大型重建模型。这种新的图像转 3D 模型旨在满足娱乐、游戏、工业设计和建筑专业人士日益增长的需求,并提供用于可视化详细 3D 对象的响应式输出。
25、decimal
解决小数精度问题的 Go 库。该项目旨在解决浮点数类型在计算过程中,可能出现的精度丢失问题。它提供了一个名为 Decimal 的数据类型,支持常见的加法、减法、乘法和除法运算,保证结果不会丢失精度,同时还提供了四舍五入、取整和序列化等功能。
26、flow-builder
一个高度可定制的流式流程引擎,可以灵活定制节点类型以及不同类型的节点展示和节点表单等。官方文档及在线体验
27、langchain4j
Java版本的LangChain,它可以简化 AI/LLM 功能集成到 Java 应用程序中的难度。
28、axolotl
Axolotl 是一款旨在简化各种大语言模型微调的工具,为多种配置和架构提供支持。
Transformer Debugger 是OpenAI 对齐团队开发的一种工具,旨在支持对小体量语言模型的特定行为进行检查。通过展示LLM的神经元、注意力机制和自编码器的激活情况,为开发者提供对模型行为的直观理解。
30、OOTDiffusion
一个高度可控的虚拟模特服装试穿开源工具,OOTDiffusion可以根据不同性别和体型自动调整服装,可控试穿参数,自然融合与逼真效果。在线体验
31、cosmopolitan
让 C 成为构建一次,可随处运行的语言。这个工具可以将 C 语言编写的程序,编译成可无缝运行在多种操作系统上的可执行文件。它采用自包含式二进制文件的设计,能够将程序所有依赖打包进可执行文件中,实现真正的跨平台运行,支持 Windows、macOS 和 Linux 等主流操作系统。
微软开源的反向代理工具包。该项目是微软团队用 C# 开发的一个提供核心代理功能的工具库,可作为库和项目模板,用于创建反向代理服务器的项目,内含简单的反向代理服务器示例项目。
五、工具软件
1、chatbot-ui(开源)
Chatbot UI 是一个用于 AI 模型的开源聊天 UI。
2、cocopilot-gpt(开源)
这个项目提供了一个快速简便的方式来使用cocopilot to chatgpt4。
3、Copilot-GPT4-service(开源)
作者发现 Github Copilot Chat 的底层是调用 ChatGPT 接口,因此做了这个工具。它可以将 ChatGPT 请求转换为 Github Copilot Chat 的请求。只要拥有 Github Copilot 账号,就能无限制使用 ChatGPT 的 GPT-4 模型。
4、jan(开源)
Jan 是 ChatGPT 的开源替代品,可在本地计算机上离线运行。
5、OpenVoice(开源)
自2023年5月以来,OpenVoice一直在为myshell.ai提供即时语音克隆功能。直到2023年11月,全球用户已经使用了数千万次语音克隆模型,并见证了该平台上用户数量的爆炸性增长。
6、cmd-wrapped(开源)
这个工具可以读取你的命令行操作的历史记录,生成一份年度总结。支持 Zsh 和 Bash,并可指定年份。
7、SuperCopy(免费)
一个浏览器插件,用来解除网页限制(比如禁用右键),然后复制网页内容。
8、海豹D2C(免费)
一款 Figma/MasterGo 的插件,将设计稿导出为 React、Vue、RN、微信小程序代码。
9、STranslate(开源)
Windows 桌面软件,支持文本翻译和离线 OCR。
10、Imgae matting(开源)
基于开源模型的在线抠图,支持人像和物体抠图,可以 docker 运行 ,无需 GPU。
11、Gemini-OpenAI-Proxy(开源)
这个工具可以起一个服务,将 OpenAI 的 API 调用转为 Gemini Pro API 的 API 调用,从而可以使用现有的 ChatGPT 客户端,体验 Gemini Pro。
12、openai-signup-tool(开源)
基于浏览器方案的OpenAI注册机,可用于批量注册账号。
13、ComfyUI(开源)
ComfyUI是一个开源的基于图形界面Workflow可视化引擎,用于Stable Diffusion。它提供一个用户友好的图形界面,可以将多个Stable Diffusion模型及其Hypernetwork组合成一个完整的工作流(Workflow),实现自动化的图像生成和优化。
14、restic(开源)
一款强大的开源备份工具。该项目提供了简单、快速、安全的开源备份解决方案。它无需繁琐的配置,即可轻松完成备份和恢复操作。采用增量备份策略,备份数据经过加密和压缩处理,保障数据安全且节省空间,支持灵活的存储选择,包括本地磁盘和云存储。可设置自动备份时间,确保数据得到定期的备份保护。
15、iHateRegex(开源)
一个收集常用正则表达式的资源库,并通过可视化帮助理解。在线访问
16、dockge(开源)
一个美观、易用的 Docker Compose 管理平台。该项目提供了一个 Web 界面,用于管理 docker-compose.yaml 文件。它开箱即用、界面设计精美,支持交互式编辑 compose.yaml 文件、更新 docker 镜像,以及启动、停止、重启、删除 docker 等操作。
17、network_proxy_flutter(开源)
支持手机端的免费抓包工具。该项目是采用 Flutter 开发的抓包工具,可用于拦截、检查和重写 HTTP(S) 流量。它支持扫码连接、域名过滤、请求重写等功能,适用于 Windows、macOS、Linux、Android 和 iOS 平台。
18、KeepingYouAwake(开源)
防止 Mac 进入睡眠状态的工具。这一个小型的菜单栏实用工具,可以让 Mac 电脑在预设的时间内或永久不进入睡眠模式,适用于 macOS 10.13 或更高版本。
19、StreamDiffusion(开源)
该项目能以惊人的速度生成 AIGC 图像,单张 RTX4090 显卡可达 100 张/秒。它通过流批处理简化数据处理,采用残差无分类器(RCFG)减少计算冗余,随机相似性过滤器提高 GPU 利用率,并通过优化 IO 队列实现并行处理。同时,利用多种模型加速工具,实现爆炸式地提升 AIGC 图像速度。
20、winlator(开源)
一个安卓 App,让安卓手机可以运行 Windows 应用程序。
21、croc(开源)
局域网内的文件互传工具,可以安全地将文件从一台计算机发送到另一台计算机。
22、chatgpt-on-wechat(开源)
基于大模型搭建的微信聊天机器人,同时支持微信、企业微信、公众号、飞书、钉钉接入,可选择GPT3.5/GPT4.0/Claude/文心一言/讯飞星火/通义千问/Gemini/GLM-4/LinkAI,能处理文本、语音和图片,访问操作系统和互联网,支持基于自有知识库进行定制企业智能客服。
23、campus-imaotai(开源)
i茅台app自动预约平台,基于Springboot和Vue实现,项目的代码质量不高,有不少bug,还加了影响观感的水印,但核心功能是可以用的。
24、hiddify-next(开源)
一款开源免费跨平台的代理工具,支持多种代理协议,可作为Clash的替代品。
25、Keep Screen On(免费)
打开这个网页,就可以让电脑屏幕保持常亮,对 PC、Mac、Android、iOS 均有效。
26、lobe-chat(开源)
一个开源的、高性能的聊天机器人框架,为开发者提供了强大的工具和功能,以便快速且有效地创建和部署聊天机器人。支持一键部署私人 ChatGPT/LLM 网页应用程序。
27、3x-ui(开源)
Xray面板,支持多协议多用户的到期日、流量和IP限制(Vmess & Vless & Trojan & ShadowSocks & Wireguard)
28、LightMirrors(开源)
一个开源的软件包缓存镜像站工具,用于在内网加速软件包下载和镜像拉取,目前支持 DockerHub、PyPI、PyTorch、NPM 等镜像缓存服务,需要自己架设。
29、images(开源)
一个缓存和调整图像尺寸的服务。这个项目是用 C++ 编写的图像处理服务,使用了 Nginx、libvips 和 Cloudflare 等技术。它具备调整图像大小和加速访问的功能,支持多种图像格式,包括 JPEG、PNG、BMP、GIF、TIFF、WebP、PDF 和 SVG 等。
30、AutoPrompt(开源)
AutoPrompt是一个旨在提升和完善实际使用场景中提示语的优化框架,它通过自动生成高质量、详细的、针对用户意图的提示语,并通过迭代过程精细化地优化提示语,减少手动工作量,有效解决提示语的敏感性和固有模糊性问题。
31、Shell(开源)
一款强大的 Windows 上下文菜单管理工具。这项目是一个用于管理 Windows 文件资源管理器上下文菜单的程序。简单来说,就是扩展了 Windows 右键菜单的功能。该工具免费、开源、无广告、轻巧,支持所有文件系统对象,如文件、文件夹、桌面和任务栏。它提供了一系列提升效率的功能,包括拷贝文件地址、快速打开目录、终端打开、自定义外观以及复杂的嵌套菜单等。
32、puter(开源)
Puter是一个先进的开源桌面环境,运行在浏览器中,旨在功能丰富、速度异常快、高度可扩展。它可以用来构建远程桌面环境,或作为云存储服务、远程服务器、网站托管平台等的接口。
33、windows(开源)
Docker 容器里运行 Windows 系统,可选择 Win7,Win10,Win11 等,支持自动激活,还支持远程桌面连接。
34、Virustotal(免费)
软件病毒检测引擎,可以上传文件进行扫描,也可以指定需要扫描的文件或网址。
35、AirFly(开源)
机场订阅一键生成IP代理池,目前工具只支持v2rayN格式的机场订阅链接,暂不支持Clash的订阅,请自行转换。
36、briefsky(开源)
一个开源的天气预报前端,可以接入各种天气数据源。
37、ruoyi-vue-pro(开源)
芋道快速开发脚手架,基于 Spring Boot + MyBatis Plus + Vue & Element 实现的后台管理系统 + 微信小程序,支持 RBAC 动态权限、数据权限、SaaS 多租户、Flowable 工作流、三方登录、支付、短信、商城、CRM、ERP 等功能。
38、full-stack-fastapi-template(开源)
一个全栈的现代网页应用模板。使用了FastAPI、React、SQLModel、PostgreSQL、Docker、GitHub Actions、自动HTTPS等技术。
39、Open-Sora(开源)
Open-Sora项目由Colossal-AI团队发起,旨在通过开源一套完整的AI驱动视频生成工具,降低视频创作的门槛,加速创意的实现。Open-Sora采用了最先进的Diffusion Transformer模型,这是一种基于深度学习的生成模型,能够生成连贯、清晰且具有高度自然性的视频内容。
40、MediaCrawler(开源)
小红书笔记评论爬虫、抖音视频评论爬虫、快手视频及评论爬虫、B 站视频评论爬虫、微博帖子评论爬虫。
41、Snap.Hutao(开源)
这是一款专为 Windows 平台设计的原神工具箱,支持多账号切换、自定义帧率上限、祈愿记录、成就管理、签到奖励、查询角色资料、养成计算器等功能。它不对游戏客户端进行任何破坏性修改,只为改善原神桌面端玩家的游戏体验。
42、focalboard(开源)
开源的项目管理和团队协作工具。这是一款开源、多语言、自托管的项目管理工具,兼容了 Trello 和 Notion 的特点。它支持看板、表格和日历等视图管理任务,并提供评论同步、文件共享、用户权限等功能。该工具还提供了适用于 Windows、macOS、Linux 系统的客户端。
43、keepassxc(开源)
一款开源、安全、跨平台的密码管理器。该项目是采用 C++ 开发的免费、离线、无广告的密码管理工具,它提供了简洁直观的用户界面,可轻松管理各种应用/网站的账号密码,支持多平台、浏览器插件、自动填充、密码生成等功能。
44、aspoem(开源)
现代化的古诗词学习网站。这是一个更加注重阅读体验和 UI 的诗词网站,采用 TypeScript、Next.js、Tailwind CSS 构建。它拥有简洁清爽的界面和好看的字体,提供了古诗词的拼音、注释、译文以及移动端适配、搜索和一键分享等功能。
45、teleport(开源)
一款 Go 写的企业级开源堡垒机。一个专为基础设施提供连接、身份验证、访问控制和安全审计的平台,它支持对内网的 Linux 服务器、Kubernetes 集群、Web 应用、PostgreSQL 和 MySQL 数据库的安全访问。该平台采用自动下发证书的方式进行认证,无需在目标机器上管理密码和 SSH Key。此外,用户可以方便地使用 ssh、mysql、kubectl 等远程连接工具,轻松接入受管理的资源。
46、BLEUnlock(开源)
使用蓝牙设备解锁你的 Mac 电脑。这款工具是可以在 macOS 上实现通过蓝牙设备解锁/锁定电脑。使用该工具时,蓝牙设备无需安装任何应用程序。当蓝牙设备靠近 Mac 电脑时,可以解锁屏幕并唤醒电脑;而当蓝牙设备远离时,自动锁定屏幕并暂停播放音乐/视频。支持 iPhone、Apple Watch、蓝牙耳机等设备。
47、docker-android(开源)
运行在 Docker 容器里的 Android。这是一个 Android 模拟器的 Docker 镜像,支持 Android 9-14 版本、VNC(远程桌面)、ADB(Android 调试桥)、日志查看等功能,适用于 Android 客户端测试和调试等场景。
48、LunarLink(开源)
一个基于 Web 的接口自动化测试平台,可以快速编写和运行接口自动化测试用例。
49、ollama(开源)
Ollama是一个开源的大型语言模型服务工具,它帮助用户快速在本地运行大模型,可搭配 open-webui 使用。
50、devika(开源)
Devika 是一个先进的AI 软件工程师,能够理解高层次的人类指令、将其分解成步骤、研究相关信息,并编写代码以实现给定目标。它利用大型语言模型、规划和推理算法、以及网页浏览能力,智能化地开发软件。
51、ChatRTX(免费)
Chat with RTX 简称 ChatRTX,通过检索增强生成和 NVIDIA TensorRT-LLM 加速技术,可为 RTX 助力的 Windows PC 带来运行于本地的生成式 AI 功能。
52、MoneyPrinterTurbo(开源)
只需提供一个视频主题或关键词 ,就可以全自动生成视频文案、视频素材、视频字幕、视频背景音乐,然后合成一个高清的短视频。
六、学习资源
1、大规模语言模型:从理论到实践(中文)
复旦大学MOSS团队写的书。本书将介绍大语言模型的基础理论包括语言模型、分布式模型训练以及强化学习,并以Deepspeed-Chat框架为例介绍实现大语言模型和类ChatGPT系统的实践。PDF下载
2、自然语言处理导论(中文)
复旦大学MOSS团队写的书。自然语言处理是计算机科学领域和人工智能领域的重要研究方向之一,旨在探索实现人与计算机之间用自然语言进行有效交流的理论与方法,本书可以使读者对于自然语言处理有更加系统性且全面的了解。PDF下载
3、RAG-Survey(英文)
复旦大学的一个检索增强生成RAG的技术趋势调查仓库,介绍了基本概念与理论,同时提供了相关前沿论文。
4、generative-ai-for-beginners(英文)
微软的12节关于生成式AI课程,每一节都涵盖了生成式AI原理和应用开发的关键点。
5、qtrvsim(英文)
面向教育的 RISC-V CPU 模拟器。这是一个采用 Qt 实现的 RISC-V CPU 模拟器,由捷克理工大学计算机学院开发。
6、PDF-Explained(中文)
《PDF Explained》一书的非官方中文翻译版,内容由浅入深介绍了如何构建简单的 PDF 文件,以及 PDF 运算符、书签、超链接、注释、加密等高级特性。
7、3D 生物模型(英文)
这个网站提供2000多种生物的 3D 模型。
8、iOS 应用开发教程(英文)
斯坦福大学2023年学年的一个英文课程,包含讲课视频和课件。
9、大模型推理过程可视化(英文)
左侧是模型结构总览图,包括模型的整体架构以及构成模型的组件。选择模型整体或某个组件时,右侧可通过鼠标进行交互,并且显示对应详细信息。在线体验
10、linux-tutorial(中文)
一个Linux中文教程,主要包含Linux命令、Linux运维、软件运维、Docker等内容。电子书在线阅读
11、reactjs-interview-questions(英文)
该项目涵盖了一系列 React 相关的面试问题和答案,内容涉及基础知识、组件、状态管理、生命周期以及性能优化等方面。
12、Fast Al(英文)
Fast Al的课程是由连续两年 kaggle 赛事冠军的 Jeremy Howard 和 Rachel Tomas 联合创办,旨在让更多人能接受深度学习的课程,是完全免费的。
13、Real-Time-Rendering-4th-CN(中文)
这是《Real-Time Rendering》第四版的中文翻译版,该书是实时渲染领域的经典之作,非常适合从事游戏开发、3D 图形、VR/AR 等领域的开发者学习。
14、awesome-generative-ai-guide(英文)
一个集中存放生成式人工智能相关资源的开源仓库,包括最新研究论文、面试题库、课程材料等。
七、生活经验
“拉格朗日点”指的是受到地球和太阳引力相等的位置。处于这个位置的飞行器,不需要耗费能源,就可以长期停留。这样的位置一共有五个。“拉格朗日点”并没有军事价值,而且每个点其实都是一个巨大的区域,但是美国国会议员要求,美国要抢在中国前面,占据所有的拉格朗日点。
2、巴拿马运河危机
南美洲和北美洲的陆地是连在一起的。为了方便美国西海岸到东海岸的海运,20世纪初美国人在中美洲挖了一条巴拿马运河。巴拿马运河是太平洋与大西洋之间最短的海路,终年货轮不断。但是,去年下半年开始,巴拿马运河发生了旱灾。由于气候变暖,运河水位下降,大型船只无法通行了,只有等到下雨时水位上升才行。下图中,运河底部的树枝都露出水面了,可见水位下降得多严重。远处就是一艘大型集装箱轮船,被困在运河里面了。
当年,选择巴拿马这个地点开挖运河,不仅因为它是中美洲最窄的地方,还因为它有一系列天然湖泊,可以利用,能够节省大量工程量。这些天然湖泊如今没有足够的淡水注入,水位日益下降。这导致巴拿马运河的严重堵塞,船只排成长队等待通过。这对美国的货物运输有很大影响。美国正在评估,是否要挖一条隧道,将淡水引入这些湖泊,以提高水位。但即使这样做,也是多年以后的事情了。在此之前,巴拿马运河将越来越难通过。
团队成员之间,经常会因为不同意见发生分歧。有些分歧,最终会达成一致意见;另一些分歧,谁也无法说服谁,难以达成一致。团队内部无法达成一致时,可能会出现四种决策方式。
[1] 方式一:我不同意,但一旦决策定了,我就会一起努力。
- 亚马逊创始人贝佐斯说:“当我跟一个主管反复讨论后,他不同意我的看法。虽然我不认为他正确,但我愿意陪他赌一把。我们认识几十年了,我觉得他可能比我更接近真相。其实我也不知道自己的决定是否正确,干脆照着下属的想法走。”
[2] 方式二:双方各退一步,互相“妥协”。
- 这种做法是在双方立场之间,找一个中间点作为决策。这个房间我认为12尺高,你认为11尺高,最后大家同意把它的高度定为11.5尺。这种决策方式很糟糕,因为11.5尺根本不是真相,只是因为找出真相需要耗费太多的能量,“妥协”让大家以一种节省能量的方式达成共识。真正可取的做法是,凡是可以找到真相的事情,都不应该妥协。
[3] 方式三:比谁更固执。
- 争论的双方进行持久战,最先坚持不下去的人就会投降。这种决策方式既没有得到真相,又大伤团队元气。所以,必须禁止这种方式,不允许用消耗对方的方式达成协议。
[4] 方式四:提供给上级,由上级决定。
- 这种方式可以外包决策过程,也不会伤害团队成员之间的感情。缺点是大家没有去尽力找寻真相,团队思想也没有真正达成统一。
总结:建议采用第一种决策方式“不同意、但尽力去做”。这种方式不一定是正确决策,但是对于企业来说,有一个速度问题:决策速度必须要快,不能拖延,团队要始终保持高速度。第一种决策方式,至少可以保证决策会在短时间内产生,把事情向前推进。
4、企鹅的脖子
企鹅圆滚滚的样子,让很多人以为它没有脖子。下面是博物馆的企鹅骨骼标本,可以看到,它不仅有脖子,而且很长。
5、服务器耗水
大型互联网公司都是用水大户,因为机房的服务器需要用水冷却。微软公司最近披露,它的2022年用水量比2021年猛增34%,增加了644万吨水,相当于2,500多个国际标准泳池的用水。外界认为,这是因为微软在2022年中,开始进行大量 AI 计算,从而增加了冷却用水。加州大学的研究团队估计,ChatGPT 每回答5 到50个问题,就需要用水500毫升。因此,AI 的发展将会加剧世界的用水紧张。
6、蜜蜂条形码
科学家研究蜜蜂,需要追踪每一只蜜蜂的行为,但怎样才能在一群蜜蜂中,分清谁是谁呢?科学家想到了一个绝妙的办法,在每一只蜜蜂身上,贴上一个简化的二维码。这种二维码的面积是2.1平方毫米(即边长不足1.5毫米),重0.6毫克,是工蜂重量的 0.7%,共可以表示2048只蜜蜂。科学家手动为每只蜜蜂贴上二维码,一共贴了1400只,然后在高速摄像机下就可以读到这些二维码,从而分辨出每一只的行为。
7、舌头鼠标
今年的拉斯维加斯“消费电子展” CES 上,展示了一款“舌头鼠标”。它使用牙套,将一块迷你触摸板固定在上颚,不需要用手,只用舌头就能控制鼠标。这个设备的原意是,方便手部损伤的或瘫痪的人士使用电脑,但后来发现,它在健全人中也有市场,机械师或外科医生可以用它控制电脑,同时腾出双手干其他事情。
“红绿灯倒计时读秒”功能背后的实现原理,那就是依赖过往车主的行驶启停规律,运用云端大数据算法推算出具体红绿灯读秒时间,甚至路口临时设置移动式红绿灯,虽然没有接电和接网,但高德地图依然会显示红绿灯倒计时状态。
9、无线摄像头的风险
美国明尼苏达州,最近抓到了一个高科技小偷,他连续犯下九起入室盗窃案。这些房子都装了无线摄像头,小偷设法让这些摄像头失效,然后再作案。他的伎俩其实很简单,就是一个 WiFi 干扰器。
无线摄像头依靠 WiFi,将拍到的影像保存到远程硬盘。如果存在大量的干扰信号,阻塞 WiFi 信道,即使摄像头拍到了影像,也无法保存,小偷就大摇大摆入室盗窃了。这个问题早就为人所知,但没有很好的解决办法,关键的监控摄像头最好使用有线连接。
10、木卫一
美国宇航局的朱诺号宇宙飞船,近距离地飞越了木星的卫星“木卫一”,最近距离不到1500公里。它发回了有史以来最清晰的木卫一照片,包含大量细节。人类第一次近距离看到,这颗太阳系活火山最多的天体。因为它靠木星太近,承受木星的巨大引力,导致内部地质活动剧烈,遍布活火山。
11、磁星
很多人的印象中,黑洞是宇宙最可怕的东西,会吞噬一切,没有东西可以逃出黑洞。但是,天文学家现在知道了,还有比黑洞更可怕的东西,那就是磁星。磁星其实很小,只有一个小城镇的大小,直径大概20公里左右。但是,它具有宇宙已知最大的磁场,距离它1000公里以内的所有物质,都会立刻被分解,而且是立刻被分解成原子。
地球的磁场强度,在北极测量的话,大约为半高斯,最大不超过1高斯。即使这么一点强度,就已经是太阳系里面磁场最强的行星了,足以在全世界驱动指南针。家里冰箱上的那种冰箱贴,磁场强度大约是地球磁场的100到200倍。太阳黑子的磁场强度约为4,000高斯,是太阳系中最强的。如果你曾经做过核磁共振的检查,那么你就亲身经历了大约10,000高斯的磁场。人类能够制造的最强磁场是几万高斯,没法再高了,再高就会破坏制造它们的设备。
磁星的表面磁场强度,大约为10的14次方到15次方的高斯,内部的磁场强度还要再大10倍。这就是说,磁星的磁场比地球强100亿倍。这么大的磁场,只要进入距离它1000公里的范围内,你就会立刻被分解成原子。因为磁力这时已经超过了将原子聚集在一起的分子力,强迫电子轨道跟磁场线一致。
典型的磁星直径只有20公里左右,但在这么小的体积内,它可以达到两倍于太阳的质量,使它们成为宇宙中已知密度最高的物体之一。一茶匙的磁星材料重约1亿吨,这么大的重量就会产生灾难性的引力坍缩,所以磁星的寿命都很短,只有10,000年左右。在整个生命周期内,它都会向外大量发射 X 射线。天文学家现在只知道大约24颗磁星,几乎都在银河系。因为它们的寿命很短,所以能够观测到的很少,天文学家估计仅在银河系内就有大约3000万颗死去的磁星。
12、冰岛火山爆发
冰岛火山最近爆发,拍到的卫星照片令人惊叹:银白的大地上燃起一朵火焰。
13、英国的灯塔
下图是英国所有的灯塔,每一个发光的点,就是一个灯塔。
14、AI没有护城河
去年上半年,一份谷歌内部报告泄漏,据说是某个研究员写给谷歌高管的。当时,谷歌内部正在讨论,如何应对 OpenAI 公司的 ChatGPT。这个研究员提出自己的看法,题目就叫做《AI 没有护城河》。
他的核心观点是,即使谷歌全力投入,可能也赢不了这场 AI 竞赛。不仅谷歌赢不了,OpenAI 也赢不了。原因倒不是谷歌的能力不行,而是 AI 行业有一些特点,导致这是一个完全竞争行业,“没有护城河”,想要获得领先优势和垄断利润,极其困难。
[1] 生成式 AI 的核心技术是开源的,任何人都可以获取。
- 某些公司可能有独家技术,但不是关键部分。AI 的架构和原理都是公开的,不同的只是各家的实现。网上有 AI 的开源模型,功能越来越强。只要按照教程操作,即使是家用电脑,也能很快架设一个可用的 AI 服务。
[2] AI 模型的替代性很强。
- 各家公司的模型有强有弱,但是核心功能都是类似的,很容易被替代。模型之间的差异,目前来看不是决定性的。一家公司推出的新功能,其他公司很快就能赶上。
[3] AI 的核心竞争力在于算力和训练语料。
- 谁的算力更多,训练语料更丰富,谁的模型就表现更好。算力依赖于 GPU 和机房规模,训练语料需要自己收集。说到底,两者都取决于经济实力。
- 另外,训练材料不存在版权问题,大家都能用。欧美的判例目前是,只要生成结果不构成复制,就没有侵权。也就是说,可以自由使用版权材料进行训练,只要不生成一模一样的结果。
[4] AI 的研究人员是流动的。
- AI 科学家跳槽很常见。另外,大部分 AI 研究人员来自学术界,没有竞业问题,可以自由发表成果。
综上所述,AI 行业的各个方面都没有护城河,最后活下来的公司,一定是资源最多的公司。这就是为什么美国股市这一轮 AI 概念的上涨,主要涨的是那七家最大的 IT 公司的原因。雇佣更多 AI 工程师、收集更大的语料集、支付更多训练费用,才能成为行业赢家。但问题是,别人只要钱包够深,就有机会超过你。所以,那位研究员才会说,谷歌 AI 获得领先会很困难。
八、闲情逸趣
公元79年10月24日,意大利的维苏威火山爆发,一天之内就毁灭了两万多人的庞贝古城。火山灰掩盖了整座城市,其中有一栋房子存放了各种书籍。直到18世纪,这栋房子才重新被发现,房子里面的1800多卷纸莎草古书,都已经完全碳化。考古学家试图展开这些烧焦的古书,但是纸张一碰就碎。没有人能从这些烧焦的古书上,读出一个字。
2019年,一位美国科学家提出了一种新方法,使用短红外高光谱成像技术,对这些古卷进行 3D 扫描,然后虚拟建模,在不接触古卷的情况下,就可以展开或压平每一页,从而复现上面的笔迹。
下面是扫描后的页面结果,问题是看到的笔迹还是很模糊,无法确定是哪一个字母,更不要说读出句子了。
2023年3月,在一些风险投资者的资助下,古卷保管单位举办了一次比赛,邀请全世界的程序员参加,要求使用机器学习,认出上面是什么字母,破解古卷的内容,奖金总额高达100万美元。主办单位原以为,一年之内成功的可能性不到30%。但是,2023年10月,21岁的内布拉斯加大学的学生 Luke Farritor 就读出了第一个单词 ΠΟΡΦΥΡΑϹ(紫色)。
后来,他与正在柏林读博士的 Youssef Nader、瑞士苏黎世理工学院的机器人专业的学生席里格Julian Schilliger,组成了一个团队,致力于建立一个完整的 AI 模型识别这些古书。他们最终在比赛的截止日期前(2024年1月1日)识别出了2000个字符。
2024年2月5日,主办单位宣布,他们获得了本次比赛的第一名。由于比赛结果令人鼓舞,主办单位扩展了自己的目标,接下来将对90%的维苏威古卷,进行扫描和识别,彻底破解两千年前的罗马人在书里写了什么。
他们所用的模型,已经全部开源,放在了 GitHub 上面。任何人都可以安装和运行,尝试改进他们的模型,获得更好的结果。现代科技的发展,烧成灰的纸都能辨认出文字。
九、数字与言论
1、韩国的围棋世界冠军李世石,输给人工智能以后,2019年决定退出围棋比赛。原因可能是,他觉得围棋已经被机器变得廉价化了。你原以为,精通某项运动需要多年的训练、仔细的思考、知识的积累,但是有一天,你突然发现,只要使用软件,无需任何思考和知识就能实现这个目标。这让你过去生涯中很多的付出,看起来都是浪费时间。——《编程技术的日渐衰落》
2、正则表达式让程序员感觉像一个强大的魔法师,但这不是一件好事。复杂的正则表达式很难理解,也很难调试。我认为,应该尽可能避免使用它们,大部分正则表达式都可以用更易读的代码替代。——Terence Eden
3、软件需要有人通盘理解它的运作机制,所以单个工程师有可能比一个职业开发团队造出更好的产品。因为单个工程师花时间,完整理解了他要构建的软件,而职业开发团队总是从一个项目转移到另一个项目。这也是为什么接手不熟悉的项目,比重建该项目要困难得多,以及为什么软件外包的质量总是如此糟糕。——《突然间我懂了软件》
4、未来的内容生产,就是两种趋势的斗争。一种是 GPT 工具快速、廉价地生产出大量的文章,造成巨大的内容污染。另一种是更多的人可以借助 GPT,更容易地创作更多优质的内容,内容行业的进入门槛会降低,对周围一切的理解将会更加深入。——《AI 如何改变我们的知识》
5、有一个名词叫做“报复性熬夜”,指的是有些人明明在白天疲劳不堪,晚上却不愿意早睡,宁愿在床上玩手机。这是因为他们控制不了自己的生活,通过在晚上推迟睡觉,获得一点自己掌控时间的自由感。——《报复性熬夜》
6、人类文明史是被偶然包围的必然。——思维实验室,学习我们党史的真正意义在哪
7、一切历史都是现代史,只是变换个模样重新出现而已。——乘风视野,阶级剥削的底层逻辑,你的贫穷早已经被设计好
8、你可以逃避现实,但你无法逃避“逃避现实”的后果。——安·兰德,美国著名作家
9、人类历史上从未有过如此孤独的时期。在西方各国,独居人数不断增加,创了历史新高。这在一定程度上是医疗技术延长人类寿命的结果,但这也是自由主义的结果,个人对自己的生活安排有了更多的选择,比如延迟结婚和高离婚率。孤独是个人自由主义不可避免的结果。——《我们都会变得无聊》
10、如果你没有时间集中精力学习新知识,那么就花时间复习已经学过的内容。——Hacker News
11、幸福的三大要素是:有要做的事(something to do)、有要爱的人(someone to love)、有寄予希望的东西(something to hope for)。——亚历山大·查默斯,19世纪美国著名医生
12、电影《奥本海默》之中,奥本海默在黑板上写方程式,解释核裂变。这个方程式在物理上是完全正确的。——电影《奥本海默》的物理学顾问
13、人类历史上一直有两种论调,一种是真理比生命重要,另一种是没有什么比生命重要。当人类发动战争的时候,他们找前者当借口,而当他们希望结束战争的时候,又把后者当理由。——《银河英雄传》
14、电动汽车的最大缺点是,大部分能量用来移动电池,而不是移动乘客。人类的体重并不重(大约70公斤左右),特斯拉 Y 型汽车的电池重量是770公斤。所以,运送电池的耗能是运送乘客的10倍。——Hacker News
15、有一种流行的错误观点,认为黑洞就像宇宙吸尘器,会把周围一切吸进去。事实上,如果太阳塌缩变成一个黑洞,太阳系行星的轨道将不会变化,因为太阳系的中心质量保持不变,行星感受到与以前相同的重力。黑洞的独特之处在于尺寸非常小,但密度很高。这使得在非常接近它的质心的地方,引力极其强烈,但这不会增加远离质心之处的引力。——《最早提出黑洞的人》