第16期--冰立方建筑
一、刊首图
在黄河北岸的平原上,这座被称为“冰立方”的接待体验中心犹如一座灯塔,53米高的形体全方位可见。仿若一座大体量的雕塑,超越了层数和尺度,散发着极端与矛盾的诗意。
这是一座体现情境的建筑,简洁的形体象征着冰雪的纯净。10个“冰块”层层叠置,扭转交错,形成复杂动态的体量,表达文旅城冰雪休闲运动的主题。立面构思源于冰花, 以抽象的方式唤起对冰雪与寒冷的记忆。
随着视线的移动,看似简单的外表会发生微妙而复杂的变化。幕墙半透明冰花的纹理过滤了光线,给内部提供了视觉的私密性,若隐若现的神秘感愈发激起人们试图接近的欲望。冰花捕捉光线并将其反射,“冰立方”向四周发散着光芒,一个个“冰块”内部仿佛充满着能量。
二、时事新闻
1、迪拜暴雨
4月17日,迪拜下了1949年有气象记录以来,最大的一场暴雨。迪拜处于沙漠地区,终年炎热,缺少淡水,根本没有发达的排水系统。大雨造成了严重积水,全城一片混乱。迪拜国际机场那么大的停机坪,全部积水,变成了水上机场。由于全球变暖,一些地方更干旱,另一些地方有更多的降雨。很多沙漠地区,包括中国的西北,都出现了阴雨或暴雨天气。
2、xz后门事件
xz 是被 Linux 发行版广泛使用的压缩格式之一, xz-utils是一个开源项目,2022 年起有个名为 Jia Tan 的账号开始向该项目贡献代码,然后逐步接手该项目成为项目的主要贡献者,也是该项目当前唯一的活跃贡献者。恶意代码经过混淆,只能在完整的下载包中找到,而无法在 Git 发行版中找到,因为缺少触发后门构建过程的 M4 宏。该恶意代码会修改系统中的 OpenSSH ,使攻击者可以使用精心构造的数据跳过 RSA 密钥检验,在未授权情况下授予攻击者不受限制的访问权限。
在AI训练数据的选取中,人们通常倾向于使用那些具有高质量、高信息密度的数据集。然而,近期的一项研究却打破了这一常规认知,指出“弱智吧”竟然成为了最佳的中文AI训练数据。弱智吧”是一个中文社区,以其充满荒谬、离奇、不合常理的发言而闻名。这些发言中包含了丰富的问题类型,如常识错误、语义错误、因果倒置和时序倒置等,这些问题能够有效地挑战和提升AI的逻辑推理能力。因此,它的语料被认为具有独特的价值,有助于AI模型在训练过程中提升对复杂问题的理解和处理能力。
OpenAI发布了Voice Engine音频克隆模型。用户仅需录制一段15秒的声音片段,OpenAI的语音引擎便能生成“与其声音高度相似的自然语音”。在此之后,无论是面对什么样的文本,它都能以近乎完美的克隆声音进行朗读。
5、北京长城的极光
近期,太阳活动剧烈,引起几十年来最大的地磁暴。地球的中高纬度地区,普遍可以看到极光,就连北京这样的中纬度城市,都出现了极光。
OpenAI发布的GPT-4o模型是GPT-4的优化版本,专注于提升性能和效率。该模型在保持高质量输出的同时,显著减少了计算资源的需求。GPT-4o继承了GPT-4强大的语言理解和生成能力,适用于各种自然语言处理任务。模型的改进包括更快的推理速度和更低的延迟,使其在实际应用中更加高效。此外,GPT-4o在训练过程中也进行了优化,以降低能耗和环境影响。
冰岛即将举行总统选举,报名资格是最少需要1500人的签名支持。政府架设了一个网站,让公民在网站上,向支持的候选人提交电子签名。但是这个网站出了一个乌龙事件。它的签名页有一个“注册”按钮,很多人点击注册了。殊不知,签名只需要身份证,不需要注册。这个按钮实际上是“总统候选人”注册。你点击后,会显示一张表格,填完以后你就变成总统候选人了。于是,冰岛现在就有了82个总统候选人,要知道以前选举的候选人,最多一次也只有9个。网站发现闯祸了,赶紧把 UI 改了。
目前比亚迪第五代DM-i双模混动系统达成的46.06%,已刷新了全球量产汽油发动机的最高纪录。在发布会现场,比亚迪也正式推出搭载上述混动技术的车型——秦L DM-i、海豹06 DM-i。这两款车型在实测中的续航表现均超过2100公里,甚至达到2300公里以上。
而在数学考试测试中,除了基本的计算能力、对数学知识的掌握,更能体现大模型在逻辑推理、抽象思维和问题解决方面的高级能力。大模型必须理解并运用数学概念、公式和定理,这要求它具备深厚的数学知识基础。同时,逻辑推理能力是解答数学题目的关键,大模型需要通过严密的逻辑推导来解决问题。
这里将评测的重点放在了高考数学的前 14 个客观题上,这些题目覆盖了基础的数学知识和计算能力,满分为 73 分。在测试时,我们将题目直接输入产品,不做 System Prompt 引导,直接输出结果;同时也没有触发搜索,没有来自外界的干扰。
分数计算方法依照高考真实判分原则:
- 单选题 8 道,每道 5 分,选项正确计分,错误不得分;
- 多选题 3 道,每道 6 分,全对计 6 分,漏选按正确答案数量计分,如答案为 ABCD,漏选其一扣 1.5 分,错选不得分;
- 填空题 3 道,每道 5 分,填空正确计分,错误不得分。
具体而言,在满分 73 分、及格线为 43.8 分(60%)的情况下,六家大模型产品的分数结果分别为:GLM-4-0520 (63 分) > 智谱清言 (43 分) > GPT-4o (41 分) > 豆包 (40 分) > 文心 4 (30 分) = 百川 4 (30 分) > 通义千问 2.5 (29 分)。
10、Kling AI
快手推出的“文生视频”模型,可以生成2分钟的视频,目前需要申请试用。
6月6日,上海交通大学的DockerHub镜像加速器因监管要求被下架。众所周知,Docker官方源早已被封禁,因此国内用户依赖网易、中科大、阿里等国内镜像源。然而,近期这些国内镜像源也纷纷停止服务,导致无法拉取Docker镜像,国内大多数常用的DockerHub镜像站均无法使用。
CSDN 旗下的代码托管平台 GitCode 目前正在批量从 Github 上搬运开源项目,不仅按照项目所有信息进行搬运同时还为项目开发者创建主页,问题是这个开发者主页都不属于真正的开发者。
三、技术文章
1、AI模型的关键是语料(英文)
以下是 OpenAI 的工程师 James Betker 的观点,他是 AI 专家,著名“文生图”模型 DALL-E 的第一作者。
- 自己的日常工作就是开发 AI 模型,但是不管怎么增加参数、调整方程,模型效果都不如语料集的大小来得显著。
- 更多的训练材料,会显著提升模型效果,影响远大于其他因素。更神奇的是,不同的模型拿同样的语料训练,最后的表现居然很接近。
- 模型的差异其实不是关键,决定性的是你的训练材料。只要有更多更好的语料,不管用什么模型,都会得到差不多的结果。
2、如何将 Caddy 作为反向代理(英文)
一篇初学者教程,介绍如何用 Caddy 架设反向代理服务器,它的设置比 nginx 简单,而且自动生成和更新 HTTPS 证书。
3、为什么 QUIC 优于 TCP?(英文)
作者介绍谷歌开发的 QUIC 协议(HTTP/3 的基础),解决了基于 TCP 的 HTTP/1.1 和 HTTP/2.0 的哪些问题。
4、蚂蚁首个开源Graph RAG框架设计解读(中文)
本文主要讲述引入知识图谱技术后,传统RAG链路到Graph RAG链路会有什么样的变化,如何兼容RAG中的向量数据库和图数据库基座,以及蚂蚁的Graph RAG开源技术方案和未来优化方向。
5、网络社区的信任算法(英文)
本文介绍一种算法,确定开放式的网络社区每个成员的可信度。
6、RAPTOR:树状检索的递归抽象处理(英文)
该论文提出了一种增强的文档处理方法,对文档内容进行层次聚类。将原始文档划分为块后,RAPTOR 以递归和分层的方式对这些块进行聚类:聚类过程从叶子节点开始,并通过嵌入将叶子汇总为更高级别的信息。该过程以递归方式执行,从叶子开始形成“树”结构。聚类过程的结果是摘要,可以使用 LLM 生成摘要。使用聚类和摘要生成至关重要,因为它可以捕获处理复杂主题查询和问答任务中的多步骤推理所需的更精细的细节。
RAPTOR 可以帮助 LLM 更好地理解上下文。这是因为聚类树结构中的上层节点对文本具有更“宏观”的理解,这对于需要跨块摘要或多跳问答的场景非常有用,因为这些场景无法直接从相应的上下文中检索答案。
7、OpenAI分享他们在RAG技术的最佳实践(中文)
John Allard和Colin分别介绍了不同的技术,包括提示工程、检索增强生成(RAG)和微调等,以及如何将这些技术应用到实际问题中。
- John首先介绍了自己在OpenAI微调产品团队的工作,并提到了微调的一些进展,如函数调用数据的微调、持续微调和平台内全UI微调。他还提到了与不同规模的开发者合作的经验,以及他们如何使用LLM解决各种问题。
- Colin接着讨论了优化LLM的难点,包括难以从噪声中分离信号、性能难以衡量以及难以确定解决问题的方法。他强调了建立问题框架的重要性,并介绍了用于解决问题的工具。
演讲中提到,优化LLM性能并不总是线性的,有时需要结合使用提示工程、RAG和微调。提示工程是开始的好地方,可以快速测试和学习。RAG允许模型访问特定领域的内容,而微调则可以强化模型遵循一致指令的能力。
8、OpenAI推出新模型CriticGPT用于查找GPT-4的错误(中文)
CriticGPT不是给普通用户使用的,而是 OpenAI 内部关于模型监督模型的研究。简单来说 CriticGPT 就是解决一个问题:人类评估模型输出能力的局限性,特别是当模型变得越来越强大时,人类可能无法可靠地评估其输出的正确性。CriticGPT 的做法也相对容易理解,类似于 Multi-Agent 中左右互搏的思路,GPT-4 模型负责输出,CriticGPT 负责检查其中的错误,只不过这次的 CriticGPT 是单独专门为代码纠错而训练的。
四、开源组件
AniPortrait是一款由腾讯研究人员开发的音频驱动的肖像动画合成框架,它能够根据音频和静态人脸图片生成逼真的动态视频。
LangChain-Extract是一个简单的 Web 服务器,允许使用 LLM 从文本和文件中提取信息。
AI Comic Factory是一个开源的AI漫画生成器,基于Hugging Face平台开发,使用了LLM和SDXL技术。在线体验
基于表格的问答(TableQA)是自然语言处理中的一项重要任务,它需要理解表格并采用各种推理方式来回答问题。TableQAKit是一个专为TableQA 设计的综合工具包。该工具包设计了一个统一的平台,其中包括大量的 TableQA 数据集,并集成了该任务的流行方法以及大型语言模型。
Chinese-Tiny-LLM是一个专注于中文处理的大型语言模型,它有20亿参数,主要用中文数据进行训练。项目中提供了一套详细的数据清洗和去重程序,这些工具可以用于中文网页语料的清洗和预处理,对于需要大规模清洗和预处理中文数据集的项目非常有用。
6、Qwen-VL
通义千问大规模视觉语言模型增强版。大幅提升细节识别能力和文字识别能力,支持超百万像素分辨率和任意长宽比规格的图像。
llamafile的独特之处在于它可以将模型和运行环境打包成一个独立的可执行文件,从而简化了部署流程。用户只需下载并执行该文件,无需安装运行环境或依赖库,这大大提高了使用大型语言模型的便捷性。
8、ipex-llm
ipex-lIm 是一个 PyTorch 库,用于在 Intel CPU 和 GPU 上加速本地 LLM 推断和微调。
9、llama3
4月19日,Meta 发布了其最新版本的开源大语言模型 Llama3,本次放出了8B、70B的模型。在人类测试的反馈中显示,Llama 3 70B版本的性能超越了Mistral、OpenAI和Claude发布的对应模型。除此之外,拥有 400B 参数的 Llama 3 模型也在稳步训练中,也将会开源出来。8B的模型地址
10、ray
Ray是一个简单、通用的分布式计算框架,最初由加州大学伯克利分校RISELab发起并开源。近些年Ray项目发展迅速,在蚂蚁、Intel、微软、AWS等公司被应用于构建各种AI、大数据系统。官方介绍文档
11、vanna
该项目使用 LLM+RAG+数据库技术,让用户能够通过自然语言查询 SQL 数据库,用生成的 SQL 回答你的问题。
12、python-miio
用于控制小米智能家电的 Python 库。该项目提供了一个 Python 库和命令行工具,可以用来控制使用小米的 miIO 和 MIoT 协议的设备。借助它用户可以轻松地与小米智能设备进行通信和远程控制,包括扫地机器人、灯泡、空气净化器等。
绕过反爬检测的 Python 库。这是一个经过优化的 Selenium WebDriver 补丁,它能够隐藏浏览器特征,专门用于防止浏览器自动化过程中,触发反机器人机制。
14、GaLore
GaLore 将低秩投影应用到模型训练的梯度上,可以大幅节约显存占用,为消费级显卡全量微调训练大模型提供了一种可能。
- 梯度低秩投影(GaLore)是一种全量参数学习的训练策略,但比常见的低秩自适应方法(如LoRA)更节省显存。其关键思想是利用权重矩阵 W 的梯度缓慢变化的低秩结构,而不是试图将权重矩阵本身近似为低秩。
- 作为一种梯度投影方法,GaLore 与优化器的选择无关,只需两行代码即可轻松插入现有优化器,GaLore目前实现了GaLoreAdamW, GaLoreAdamW8bit, GaLoreAdafactor 三种优化器。
15、BAdam
BAdam的核心思想是依次求解块坐标优化子问题。从实现的角度来看,该算法在参数的一小部分(通常是一个 Transformer 层)上运行 Adam 的更新,因此与全参数 Adam 微调相比,需要的显存要少得多。使用 BAdam 只需要对原始代码进行一行修改。
16、yolov10
YOLOv10的官方 PyTorch 实现,实时端到端物体检测。论文地址
17、ChatTTS
专门为对话场景设计的文本转语音模型,支持英语和中文两种语音。
18、MusePose
MusePose是由腾讯音乐娱乐开发的一种先进框架,可以根据姿势序列从图像生成虚拟人类视频。
19、sherpa-onnx
开源的语音库,支持各种平台(包括手机和 PC),用来本地语音识别、语音合成、声音事件检测、语种检测等。
20、GLM-4
GLM-4-9B 是智谱 AI 推出的最新一代预训练模型 GLM-4 系列中的开源版本。 在语义、数学、推理、代码和知识等多方面的数据集测评中, GLM-4-9B 及其人类偏好对齐的版本 GLM-4-9B-Chat 均表现出超越 Llama-3-8B 的卓越性能。除了能进行多轮对话,GLM-4-9B-Chat 还具备网页浏览、代码执行、自定义工具调用和长文本推理(支持最大 128K 上下文)等高级功能,本代模型增加了多语言支持,支持包括日语,韩语,德语在内的 26 种语言。
21、Qwen2
Qwen2系列包含5种参数尺寸的基础和指令调优型号,包括Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B、Qwen2-72B。官方介绍
22、RAGFlow
RAGFlow是一款基于深度文档理解的开源 RAG引擎,它为任何规模的企业提供简化的 RAG 工作流程,结合 LLM提供真实的问答功能。官方体验
23、gws
该项目是用 Go 编写的 WebSocket 库,它提供了简洁明了的 API,具备高吞吐、低延迟、低内存占用、稳定可靠的特点,可用于高并发场景,支持上下文接管、自定义窗口大小和广播等功能。
24、watermill
一个能够高效处理消息流的 Go 库,即发布/接收消息并做出反应。它上手容易,支持 Kafka、RabbitMQ、HTTP 和 MySQL binlog 等消息中间件,适用于处理实时数据流、分布式事务和微服务通信等场景。
25、TypeChat
TypeChat 是微软开放的用于让大语言模型输出符合类型定义的稳定结果的库,可以将用户的自然语言输入转换为结构化的数据用于业务应用。大模型从原理上是无法做到稳定输出的,这对于接入应用的影响很大,TypeChat技术本质上是通过校验与重试机制使其最终稳定输出结构化数据。
26、Eval-Scope
Eval-Scope 项目中的提供了性能测试工具,可用来测试LLM服务的推理性能,评估是否满足生产需求。 详见:LLM推理服务性能测试工具
27、CodeQwen1.5
CodeQwen1.5是由阿里巴巴达摩院研发的开源代码生成模型,基于Qwen1.5系列语言模型,在大量代码数据集上进行预训练,拥有强大的代码生成能力。
28、chat2db
Chat2DB是一个在数据库操作平台上嵌入了AI交互功能的工具,用户可以通过自然语言或语音输入查询,AI助手能够理解查询并生成对应的SQL代码,还可以将SQL查询转换为自然语言,并提供优化建议,简化数据库查询过程。
self-instruct是一种将预训练语言模型与指令对齐的方法。可以通过模型自己来生成数据,而不需要大量的人工标注。论文地址
30、LLaMA-Pro
LLaMA Pro是腾讯ARC实验室提出的一种大模型微调的方法。相比较传统的有监督微调方法,这个方法可以更好地解决微调的知识遗忘问题。
五、工具软件
1、soybean-admin(开源)
Soybean Admin是一个清新优雅、高颜值且功能强大的后台管理模板,基于最新的前端技术栈,包括 Vue3, Vite5, TypeScript, Pinia 和 UnoCSS。它内置了丰富的主题配置和组件,代码规范严谨,实现了自动化的文件路由系统。
2、anything-llm(开源)
AnythingLLM 是一个开源的、可定制的、功能丰富的文档聊天机器人。这是一个全栈应用程序,它能够将任何文档、资源或内容片段转化为LLM在聊天中可以利用的相关上下文。该应用允许用户选择并配置要使用的LLM或向量数据库,并支持多用户管理及权限控制,以确保数据安全和高效协作。
3、frpMgr(开源)
FRP快捷配置面板,包含一键远程安装FRP服务端、可视化配置FRP客户端(支持WEB穿透,RDP远程桌面, 本地目录分享, SSH穿透)、查看服务器客户端连接情况等功能。
4、FreeGPT35(开源)
利用免登录 ChatGPT Web 提供的无限制免费 GPT-3.5-Turbo API 服务。
5、OpenUI(开源)
OpenUI是一款开源的AI代码生成器,根据描述生成UI界面,并能够输出HTML、CSS等前端代码,支持React、Svelte等框架,简化前端开发流程,通过生成式AI降低前端开发门槛,提高设计和编码效率。
6、OneUptime(开源)
OneUptime是一个完整的可观测性平台,实时监控在线服务的可用性和响应时间,提供状态页面,让客户了解服务状态。
7、Easy GitHub 2FA authentication(开源)
一款开源的浏览器插件,自动填写 GitHub 双因素认证的验证码。
8、MaxKB(开源)
一款基于 LLM 大语言模型的知识库问答系统,可以无缝嵌入第三方网站,实现智能问答。
9、VideoSubtitleGenerator(开源)
一个命令行工具,通过语音识别,批量为本地的视频文件生成字幕,并支持翻译,仅支持macOS系统。
10、dangerzone(开源)
这是一个确保文档安全的开源项目,它可以将存在潜在危险(来路不明、电子邮件附件)的 PDF 文件、办公文档或图片,在隔离的沙盒环境中进行转换,生成安全的 PDF 文件。
11、MVSS-Net(开源)
一个开源的真实图像篡改检测算法,作者提供了数据集及训练好的模型。
12、字幕工具箱(免费)
这个网站收集了一些字幕相关的工具,纯前端处理,无需安装任何插件或软件。
13、input-overlay(开源)
显示用户操作输入的 OBS 直播插件。该项目是用来在直播中显示键盘按键、鼠标移动和游戏手柄按钮的插件,适用于 Windows 和 Linux 上的 OBS 直播软件,可用于游戏直播和教学演示等场景。
14、Easy Voice Toolkit(开源)
一个简易的语音工具箱,提供音频处理、语音识别、合成等音频工具,使用 Python 语言开发。
15、anx-reader(开源)
一款使用 Flutter 编写的桌面读书软件,支持 WebDAV 同步。
16、FreeReNamer(开源)
开源的跨平台桌面软件,支持Windows、MacOS、Linux,用来将文件批量重命名。
17、caesium-image-compressor(开源)
免费的图片压缩软件。这是一款用 C++ 编写的图片压缩工具,它拥有简洁的中文界面,支持 JPG、PNG 和 WebP 格式的无损压缩,同时配备了实时预览和批量处理的功能。此外,还提供了 Windows、Linux 和 macOS 客户端,以及无需安装的 Web 版本。
18、fscan(开源)
开源的内网安全扫描工具。该项目是用 Go 语言开发的内网扫描工具,提供了一键自动化全方位的漏洞扫描。它使用方便、功能全面,支持端口扫描、常见的服务器爆破、Web 应用漏洞扫描、NetBIOS 嗅探等功能。
19、blossom(开源)
私有部署的云端双链笔记软件。这是一个支持私有部署的云端存储双链笔记软件,可以将你的所有笔记、图片、个人计划安排保存在私有服务器上,并实现跨设备的实时同步。它提供 Markdown 编辑、双链笔记、全量备份、网页转换、多账号权限和统计等功能,兼容 Windows、macOS 和网页客户端。
20、plane(开源)
开源的项目管理和问题跟踪平台。该项目是开源的项目管理系统,旨在简化团队的项目管理流程。它易于使用、可自托管,支持问题跟踪、周期管理、项目分解和分析统计等功能。
21、Windrecorder(开源)
该项目是专为 Windows 设计的屏幕记录工具,并提供搜索和回放功能。它会持续录制屏幕内容,同时保证数据安全(不上传、不联网),利用 OCR 和图片识别技术,让用户可以轻松搜索和回看屏幕活动历史。
22、MacSymbolicator(开源)
它能够将 macOS/iOS 崩溃报告中的十六进制地址,转换为源码中的函数和行号,帮助开发者分析应用的崩溃原因,支持 crash 和 ips 格式的崩溃报告。
23、cloudflare_temp_email(开源)
搭建临时邮箱的开源工具,该项目通过 CloudFlare 的免费服务,提供一个功能完备的临时邮箱服务,支持收发邮件、访问密码、自动回复、查看附件等功能。
24、OV-Watch(开源)
这是一个制作成本仅需 80 元的智能手表项目,它不仅提供了基本的手表功能,还支持睡眠模式、蓝牙、计步、卡包、指南针和心率测量等功能。
25、QuickRecorder(开源)
基于 ScreenCapture Kit 的轻量化多功能 macOS 录屏工具。
26、phonedata(开源)
手机号码归属地信息库。该项目整理了超过 40 多万条中国手机号段和归属地信息,数据均来自网上的公开数据。
27、xiaoju-survey(开源)
一套轻量、安全的问卷系统基座,提供面向个人和企业的一站式产品级解决方案,快速满足各类线上调研场景。
28、CADmium(开源)
在浏览器中运行CAD工具,目前还处于开发过程中,还未将CAD具备的功能都集成进来。在线体验
29、flink-cdc(开源)
Flink CDC 是一个基于流的数据集成工具,旨在为用户提供一套功能更加全面的编程接口。 该工具使得用户能够以YAML配置文件的形式,优雅地定义其ETL流程,并协助用户自动化生成定制化的Flink算子并且提交Flink作业。
30、Best Cookier(开源)
一个浏览器插件,提供 Cookie 管理器,可以方便地编辑、查找、监控、导出 Cookie。
31、chat2api(开源)
一个将ChatGPT网页版转换成API的工具,旨在让用户无需账户即可免费和无限制地使用ChatGPT服务。
32、dblab(开源)
开源的数据库终端管理器,可以作为常见数据库的命令行终端客户端,适用于不可联网项目的Linux终端调试。
33、Ice(开源)
Ice 是一款功能强大的菜单栏管理工具。虽然它的主要功能是隐藏和显示菜单栏项,但它旨在涵盖各种附加功能,使其成为最通用的菜单栏工具之一。
34、Librum(开源)
一款开源的桌面软件,用来管理电子书。
35、Oxlint(开源)
一个 JS 的 Linter 代码检查工具,可以取代 ESLint。它是用 Rust 写的,据称比 ESLint 快50-100倍。
36、HandBrake(开源)
免费的开源视频转码工具。这是一款功能强大、社区驱动的开源视频转码工具,它支持将各种不同格式的视频文件,转换为 MP4 和 MKV 等常见格式。
37、SyncClipboard(开源)
跨平台的剪贴板同步工具。该项目可以轻松实现不同设备间剪贴板内容同步,支持文本、图片和文件。使用时可以选择自己部署服务端,或者使用支持 WebDAV 协议的网盘。
38、river(开源)
基于 Postgres 的后台任务管理平台。该项目是基于 Go+Postgres 数据库开发的任务队列,它内置 Web 管理后台,支持自动重试、定时任务和优先级等功能。
39、xpipe(开源)
一键远程登录 Docker 实例的工具。该项目是用于管理远程服务器的桌面工具,它会在 SSH 连接到服务器后,自动检测服务器环境和 shell 类型,实现一键登录各种容器实例,并支持远程文件管理和工具集成等功能。
40、Scrapegraph-ai(开源)
一个由 AI 驱动的 Python 爬虫库,它借助 LLM 的能力,可以根据提示词自动抓取目标网站的数据。它采集简单页面的效果还可以,但稍微复杂一些的,大模型就理解不了,目前难以实际投入应用。
六、学习资源
1、大语言模型(中文)
免费阅读的电子书,适合对 LLM 技术感兴趣的初学者,作者是去年发表的大模型综述《A Survey of Large Language Models》的团队。下载地址
2、llm-universe(中文)
一个大模型应用开发教程,涵盖了大模型的概念介绍、如何调用大模型API、知识库的搭建、构建 RAG应用以及评估方法等内容。
3、llm-datasets(英文)
一个用于 LLM 微调的高质量数据集收集仓库。
4、技术概念示意图(英文)
这个仓库收集各种技术概念的示意图,可以用来学习技术概念以及撰写技术文档。
5、tiny-gpu(英文)
tiny-gpu是一个小型的GPU实现,由15个文件组成,全部采用详尽注释的Verilog编写。项目不仅提供了GPU架构和指令集体系结构(ISA)的完整文档,还包含了工作矩阵加法和乘法内核的示例,支持模拟运行和执行跟踪,用于深入了解GPU工作原理。
6、引脚定义(英文)
一本免费英文电子书,收集了130种电子产品常见组件(比如 USB 口)的引脚定义。
7、掌握比特币:开放区块链编程(英文)
《掌握比特币:开放区块链编程》第三版,一本关于比特币的开源英文电子书。
8、llama3-from-scratch(英文)
该项目通过逐层构建 Llama 3 的方式,帮助人们深入理解 LLM 是如何工作的。作者使用 PyTorch 框架,实现了加载模型权重、文本的分词处理、模型配置以及逐层实现 Transformer 模型中的关键组件。
9、AI重要论文清单(英文)
OpenAI 的前首席科学家 Ilya Sutskever 开出了一份论文清单,一共包含30篇论文。他说:”如果你真正学会了所有这些,你就会知道当今 AI 的 90% 重要内容。“
10、Awesome-LLM-RAG-Application(英文)
一个精选资源列表,专注于将大型语言模型(LLM)与检索和生成(RAG)模式相结合的应用。
11、Awesome ChatTTS(中文)
这个仓库收集文本转语音库 ChatTTS 的相关开源项目和工具。
12、理解深度学习(英文)
《理解深度学习》(Understanding Deep Learning),免费阅读的英文电子书(提供PDF下载),深度学习的入门教材。
七、生活经验
1、环岛的作用
环岛上是一种交通控制措施,相比交通灯控制的传统交叉路口,它们具有多种优势,最重要的一个是安全性。首先,环岛迫使司机放慢速度,为了调整车头方向,司机不得降速。其次,环岛减少了潜在冲突点的数量。冲突点就是车辆与车辆、车辆与行人可能发生碰撞的位置,它的数量越多,就越容易发生碰撞。根据一项研究,环岛只有8个潜在冲突点,而传统的四向交叉路口有32个。最后,环岛的车道都是紧密相邻的同心圆,并且还有很多进口和出口,迫使车辆减速让行。根据美国公路管理局估计,环岛取代传统的交叉路口时,可将严重交通事故减少80%到90%。除了安全性,环岛还有一些其他优点,比如让交通更有秩序,不会出现车辆在交叉路口乱成一团的情形,也能让司机更轻松地掉头。
2、恒星爆炸
从现在到9月之间的某个时间,人类将可以亲眼看到恒星爆炸。距离地球3000光年的北冕座,存在一个双星系统,里面的两颗恒星离得很近。每隔80年左右,它们会运行到最接近的位置,彼此的引力将引发恒星内部物质的核爆炸。爱尔兰学者约翰·伯明翰1866年发现了这个现象,然后它在1946年再次出现。现在,2024年它又将重现。需要注意的是,这次爆炸还没有出现在我们眼前,但它其实发生在3000年前。
3、树叶艺术品
一个日本艺术家专门制作树叶艺术品,以下是他的作品。
人的一生就是解决三个基本问题:事业、家庭和财务。一份有成就的事业,一个幸福的家庭,一个健康的财务状况,人生就没有遗憾了。我们的人生规划,就是朝着解决这三个问题努力。这三个问题要分阶段解决,每个阶段重点解决一个问题,每个阶段要花费十年,总共需要三十年。
(1)第一个十年:搞清楚自己想干什么,找到方向,为事业打下基础,从此全力投入。
(2)第二个十年:结婚、买房、养育后代。
(3)第三个十年:努力赚钱,积蓄退休金。
如果将18岁成年作为起点,过完这三个十年,就已经48岁了,基本解决人生三大问题。48岁以后的时间,就是自己的选择,追求梦想,照顾家人,或者继续推进事业,积累更多财富。
OpenAI 的办公楼里有一个很漂亮的图书馆。藏书都是 OpenAI 员工推荐的,还装饰了科学家的照片,图书馆里面有很多自习桌,就像大学的自习室一样。员工可以在里面读书、休息,也可以一整天在这里办公,相当于工位。
图书馆工位有很多好处。首先,就是安静,可以集中注意力,全力投入工作,思考一些困难的问题。这对 OpenAI 那样开创性的公司非常重要。其次,图书馆的气氛比较放松,不压抑,工作时精神不容易疲倦,甚至还有一些漫游知识海洋的趣味,可能激发意想不到的灵感。
AI 最擅长做下面的事情。
- 快速创作低价值的书面作品,比如一篇博客文章的草稿,里面包含你想说的内容的总体思路。
- 完成低级编码任务,比如初级程序员从一个项目复制到另一个项目的代码,或者从 Stack Overflow 复制代码。
- 对会议、论文和数据库进行总结和排序。AI 非常擅长干这个,因为它本来就是围绕从大量无序数据中提取有用信息的概念构建的。
- 从大量数据(如天文观测、蛋白质相互作用、临床结果)发现其中的模式。AI 虽然本身并没有做出任何发现,但研究人员可以利用它们来加速自己的发现。
- AI 是令人惊讶的健谈者,可以永无止境地谈下去,而且对每个话题都很了解,不带评判性,并且反应迅速。
AI 最大的风险在于,它们不知道如何说“我不知道”。
- 当 AI 遇见以前从未遇见的东西时会发生什么?由于没有现成的模式可供遵循,它只是根据以前模式所反映的一般规则进行猜测。因此它的反应可能很笼统、很奇怪或不恰当。我们将这种现象称为幻觉。
- 令人不安的是,AI 不会告诉你,哪些是它的幻觉,哪些是事实。如果你要求 AI 总结一些研究并给出引用,它可能会编造一些不存在的论文和作者,你根本分不出来。而且,按照目前 AI 模型的构建方式,没有任何实用的方法可以防止幻觉。
7、动态二维码
二维码也可以是动态的,它每时每刻都在变化,我们用摄像头扫描它,读到的就是连续不断的数据,可以实现摄像头下载文件。麻省理工学院的两位研究人员,提出了这个设想,还给出了初步的代码。他们把文件先编码成一段视频,格式就是动态二维码,在手机上播放。另一个手机使用摄影头,对视频里面的动态二维码进行解码,再还原出原始文件。这种技术用起来很简单,速度也不慢,可以达到 2Mbps,很适合两台手机在没有网络的情况下(比如飞机上)互传数据。
八、闲情逸趣
6月28日,国家航天局在京举行探月工程嫦娥六号任务月球样品交接仪式,国家航天局向中国科学院移交了嫦娥六号样品容器,交接了样品证书。经初步测算,嫦娥六号任务采集月球样品1935.3克,在样品安全运输至月球样品实验室后,地面应用系统的科研人员将按计划开展月球样品的存储和处理,启动科研工作,这标志着嫦娥六号任务由工程实施阶段正式转入科学研究新阶段。
1. 嫦娥六号探月历程
5月3日17时27分,嫦娥六号搭载在长征五号遥八运载火箭上,从中国文昌航天发射场出发,飞向月球,开始了她的地月转移之旅,目标直指神秘的月球背面。
6月2日6时23分,着陆器和上升器组合体着陆在月球背面SPA盆地内阿波罗盆地的南部边缘,通过月球勘测轨道器相机测得着陆点坐标为41.6385°S,153.9852°W。SPA盆地是月球上最大、最深、最古老的撞击盆地,同时也是太阳系中最大的撞击盆地,创下了吉尼斯纪录。
6月2日至3日,嫦娥六号完成智能快速采样,并将采集到的月背样品封装在上升器的贮存装置中。在这段时间内,太阳光正好直射在月球背面,嫦娥六号可以依靠太阳能发电。同时,她本身携带了蓄电池,能及时补充能量。这两种方式相结合,让她在采样过程中可以持续获得能量,顺利完成了采样任务。
6月4日7时38分,嫦娥六号上升器携带着月球样品从月背起飞。与嫦娥五号相比,嫦娥六号的工程实施难度更大,因为她在月背无法直接得到地面的测控支持,只能通过鹊桥二号中继卫星和自身携带的载荷进行自主定位,但依然成功进入了预定的环月轨道。
6月6日14时48分,嫦娥六号的上升器与轨道器和返回器组合体成功完成交会对接,并于15时24分顺利地将上升器中的月球样品转移到返回器中。
6月25日14时07分,返回器携带着珍贵的月球样品,进入地球大气层,并降落在内蒙古四子王旗着陆场,工作正常,圆满完成月球背面样品的采集,实现世界首次月球背面采样返回。
2. 阿波罗盆地在哪里
阿波罗盆地位于南极-艾肯盆地内部的东北部,是一个多环撞击盆地,直径约500km,在嫦娥二号全月影像图中非常醒目;而南极-艾肯盆地直径约2500~3000km,由于过于巨大,且形成后经历了漫长的撞击、外来溅射物覆盖等侵蚀作用,其在影像上肉眼较难识别,需要月球高程、地形数据才能识别。
3. 嫦娥六号要在阿波罗盆地寻找什么
简要来说,嫦娥六号在阿波罗盆地的主要任务包括:寻找新矿物、寻找月球深部物质、寻找古老矿物、研究苏长岩、寻找名义含水矿物、寻找高压矿物等。
[1] 寻找新矿物和岩石
如果一种矿物的构成元素比例,微观结构,至少其一与其他已知矿物都不同,就有机会被认定为新矿物。但是新矿物一般尺寸微小,容易与已知矿物混淆,需要极端的温压条件或特殊的化学条件形成,而不是随处可寻。但在嫦娥五号样品中,我们就发现了至少三种新矿物,七种不同的岩石。
正如地球上不同地方的岩石、土壤的成分并不一致一样,月壤、月岩也存在不均一性,甚至单次采样返回的不同样品之间也是如此,因此嫦娥六号的登月活动就有极大可能发现更多新的矿物和岩石。
[2] 寻找月球深部物质
- 阿波罗盆地是南极-艾肯盆地内部东北侧的撞击盆地,而南极-艾肯盆地是月球已知最大,最古老的撞击盆地。通俗讲,因为阿波罗盆地是个多次撞击形成的“盆中之盆”,所以可能是月壳最薄的位置之一。
- 一些理论认为,形成南极-艾肯盆地的撞击事件可能挖掘出了月幔物质。然而,也有人提出,即使盆地挖掘出了月幔物质,由于在撞击过程中月幔物质可能会经历熔化-冷凝的过程,导致不同化学成分的矿物和岩石被分离开——这个过程被称为熔融分异。
- 熔融分异可能会使识别变得困难,或者在形成之后被更晚期的撞击出现的溅射物混合、掩埋而难以被遥感发现。因此嫦娥六号有可能在阿波罗盆地中发现这些来自月幔的深部物质,对我们理解月球深部结构和月球的起源和演化起到重要作用。
[3] 找古老物质
- 月球地质年代划分为“三宙六纪”,南极-艾肯盆地形成于月球岩浆洋大部分固结,月球初步形成固体月壳的时代,代表月球艾肯纪的开始。又根据撞击坑统计定年,南极-艾肯盆地一带年龄约 42 亿年,可能分布有月表最古老的岩石,但这个数值需要实际样品修正。之前嫦娥五号采集的样品包括月球已知最年轻(约 20 亿年)的岩石之一,嫦娥六号的一个关键任务则是尽量采集古老的月球岩石和可定年的矿物(包括锆石、斜锆石、磷灰石等)。
[4] 揭开苏长岩成因之谜
- 南极-艾肯盆地内部的主要岩石类型为苏长岩,苏长岩在过去美国阿波罗、苏联 LUNA、嫦娥五号的月球样品都极少发现,由于苏长岩成因有多解性,既有可能是下月壳、月幔等深部物质,又有可能是大规模岩浆房分异(是指地球内部巨大的岩浆体在冷却过程中,其中的化学成分被分离成不同的层次或部分),还有可能是撞击熔融物分异。采集阿波罗盆地的苏长岩,有助于解决苏长岩成因之谜,从而帮我们研究阿波罗盆地的演化历史。
[5] 寻找名义含水矿物
- 因为月球被地球潮汐锁定,所以有一面恒定朝向地球(此面一般称为正面),会受到“地球风”影响,相对富氧、富水。而实际上根据遥感光谱研究,月球背面虽然不如正面富氧、富水,但也存在少量富氧、富水区域,甚至发现了赤铁矿等名义含水矿物(指在其化学式中包含水分子,但实际上并不以液态水的形式存在,而是以水合物或羟基等形式存在的矿物),而过去阿波罗样品里曾零星地发现四方纤铁矿、角闪石等名义含水矿物,其成因均不明确。嫦娥六号如果采集到名义含水矿物,或者样品包含特殊的水赋存状态,将是非同寻常的突破。
[6] 寻找高压矿物
- 阿波罗盆地既是撞击盆地,又是深部物质潜在出露区,无论大规模撞击还是月球深部高压,都是形成高压矿物的有利条件。月球表面遭受频繁的撞击作用,有利于指示高压的矿物形成,过去的样品中已发现熔长石、钙硬玉、赛石英、雷锆石等高压矿物,但是在理论上月幔中可能存在的石榴石等高压矿物发现极少,因此这个理论模型需要实际样品修正。
除了以上研究任务之外,一些需要借助嫦娥六号的热门研究主题还包括:空间风化特征,月尘电磁学性质,月壤成熟度新指标,原位资源利用方案等。嫦娥六号任务不但是人类首次月球背面采样返回任务,而且嫦娥六号选择南极-艾肯盆地中的阿波罗盆地这一盆中之盆采样,为的就是尽可能采到与过去美国阿波罗系列、苏联 LUNA 系列、中国嫦娥五号不同的样品,从而帮助我们更全面地研究月球。
九、数字与言论
1、马斯克的管理风格非常独特,他不需要非技术性的中层管理人员,员工表现不佳就会被裁,也不喜欢大型会议。——前特斯拉 AI 总监安德烈·卡帕西
2、许多大型组织存在“死海效应”,那些更有才华、更高效的工程师最有可能离开,而没有才华和效率的工程师都留了下来,整个公司慢慢变成了一片死海。——《死海效应》
3、很多时候,我们觉得某样东西非常糟糕,但是其他人却很欣赏。与其怀疑别人,不妨换个角度,假定那确实是很好的东西,然后尝试去理解它。有了这种态度,更容易学到新东西,并会为你省去很多挫折、误解和与他人的冲突。——《你无法欣赏你不理解的东西》
4、十九世纪现代医学出现后,人类的寿命大大延长,再加上法律对个人财产的保护,使得全世界大部分财产和权力掌握在老年人手中。——《老人的烦恼》
5、敏捷开发有一个问题,就是它要求“新的冲刺在上一个冲刺结束后立即开始”,有了这个规则,程序员就陷入了永远冲刺的陷阱。—— 《永远冲刺》
6、岛屿巨人症指的是一种生物现象,生存在岛屿上的动物,小型物种往往会身体变大,因为缺乏天敌。相应地,大型物种往往会身体变小,因为不容易有稳定的食物供给。——维基百科
7、风险投资家没有理由破坏与你的关系,他们拒绝你的时候不会说“不”,而会用其他400种说法,比如“等你的用户再多一点的时候,再和我们谈谈”、“当你下一轮融资时,请来找我们”。——《投资家的“是”实际上意味着“否”》
8、瓶装水的保质期,指的是塑料瓶的保质期,而不是水的保质期。纯净水是不会变质的。——BusinessInsider.com
9、不要将技术博客的写作视为打造“个人品牌”,它肯定对此有所帮助。但是,写作最重要的功能是,它是提升个人知识和批判性思维的一个工具。——《为别人而写,但主要是为自己而写》
10、我的职业建议是,行动要急不可耐,对于结果要抱有耐心。—— 《给年轻自己的职业建议》
11、一项研究发现,低利率会带来较低的犯罪率。因为低利率意味着偿债压力轻、并且会促进经济繁荣,增加就业机会。——低利率与低犯罪率之间的“惊人”联系
12、房价大幅上涨不会创造财富,而是重新分配财富。它还有一个副作用,就是让继承和运气变得比教育和努力工作更重要。——英国卫报
13、现代文明依赖于海底光缆。如果有一天,所有海底光缆同时断裂,现代文明将立刻停止运转。——《海底下的云》
14、公司的性质决定了,它必须确保缺少任何特定个人的情况下,还能正常运作。对于那些想从公司的工作中获取自我认同的人来说,结局可能是很残酷的。——《我的职业生涯即将结束,我学到了什么》
15、如果你做某件事,感到很痛苦,所有减轻痛苦的方法尝试了都无效,那么,你可以想想,当初你是为了什么来到这里。——《世界上最可怕的海洋航行》
16、很多人觉得,代码质量是软件公司的生命。但是,大多数公司的生死存亡并不取决于它的代码库的质量。可怕的代码库也可能带来了数十亿美元的收入。市场不会激励优秀的工程,它会激励速度和执行力。——《完美的代码库无法拯救你的公司》
17、哈勃望远镜确定,宇宙的准确年龄是138亿年。那就是我们这个世界的起源,在这之前是什么,没人知道。——《韦伯望远镜提供的新线索》
18、Kubernetes 和微服务都是重量级工具,会让你的软件变得更重。使用它们之前,请务必想清楚,你能不能处理它们带来的额外的重量、运营成本、工程开销。——Arne Brasseur
19、公司的 CEO 谈论工作场所文化时,实际上谈的是工作场所控制。——《为什么糟糕的 CEO 害怕远程工作》
20、苹果公司发现,大多数用户同时拥有 Mac 电脑和 iPad。所以尽管两者的硬件几乎一样,但是苹果坚决不让 iPad 运行 macOS 系统,因为这样的话,用户可能只购买 iPad,不再购买 Mac 了。——《macOS 永远不会出现在 iPad 上》