2024.04-06--第16期

一、刊首图

二、时事新闻

1、xz后门事件

xz 是被 Linux 发行版广泛使用的压缩格式之一, xz-utils是一个开源项目,2022 年起有个名为 Jia Tan 的账号开始向该项目贡献代码,然后逐步接手该项目成为项目的主要贡献者,也是该项目当前唯一的活跃贡献者。恶意代码经过混淆,只能在完整的下载包中找到,而无法在 Git 发行版中找到,因为缺少触发后门构建过程的 M4 宏。该恶意代码会修改系统中的 OpenSSH ,使攻击者可以使用精心构造的数据跳过 RSA 密钥检验,在未授权情况下授予攻击者不受限制的访问权限。

2、弱智吧成为最好的中文AI训练数据

在AI训练数据的选取中,人们通常倾向于使用那些具有高质量、高信息密度的数据集。然而,近期的一项研究却打破了这一常规认知,指出“弱智吧”竟然成为了最佳的中文AI训练数据。弱智吧”是一个中文社区,以其充满荒谬、离奇、不合常理的发言而闻名。这些发言中包含了丰富的问题类型,如常识错误、语义错误、因果倒置和时序倒置等,这些问题能够有效地挑战和提升AI的逻辑推理能力。因此,它的语料被认为具有独特的价值,有助于AI模型在训练过程中提升对复杂问题的理解和处理能力。

弱智吧成为最好的中文AI训练数据

3、OpenAI发布Voice Engine音频克隆模型

OpenAI发布了Voice Engine音频克隆模型。用户仅需录制一段15秒的声音片段,OpenAI的语音引擎便能生成“与其声音高度相似的自然语音”。在此之后,无论是面对什么样的文本,它都能以近乎完美的克隆声音进行朗读。

三、技术文章

1、如何将 Caddy 作为反向代理(英文)

一篇初学者教程,介绍如何用 Caddy 架设反向代理服务器,它的设置比 nginx 简单,而且自动生成和更新 HTTPS 证书。

2、GaLore:梯度低秩投影,消费级显卡训练 LLaMA-7B(中文)

LLM 训练通常需要比较大的显存,主要是模型权重和优化器状态。节约显存常见的方法有 LoRA,然而其往往用于微调阶段,或需要满秩热启动,导致预训练依旧需要很大的显存。本文中作者提出了梯度低秩投影(GaLore),这是一种允许全参数学习的训练策略,但比常见的 LoRA 等方案更省显存,可以减少多达 65.5% 的显存,此方案可以在更省显存的同时基本不影响模型效果,但是耗时会变得很长。

四、开源组件

1、AniPortrait

AniPortrait是一款由腾讯研究人员开发的音频驱动的肖像动画合成框架,它能够根据音频和静态人脸图片生成逼真的动态视频。

AniPortrait

2、langchain-extract

LangChain-Extract是一个简单的 Web 服务器,允许使用 LLM 从文本和文件中提取信息。

3、ai-comic-factory

AI Comic Factory是一个开源的AI漫画生成器,基于Hugging Face平台开发,使用了LLM和SDXL技术。在线体验

ai-comic-factory

4、TableQAKit

基于表格的问答(TableQA)是自然语言处理中的一项重要任务,它需要理解表格并采用各种推理方式来回答问题。TableQAKit是一个专为TableQA 设计的综合工具包。该工具包设计了一个统一的平台,其中包括大量的 TableQA 数据集,并集成了该任务的流行方法以及大型语言模型。

TableQAKit

5、Chinese-Tiny-LLM

Chinese-Tiny-LLM是一个专注于中文处理的大型语言模型,它有20亿参数,主要用中文数据进行训练。项目中提供了一套详细的数据清洗和去重程序,这些工具可以用于中文网页语料的清洗和预处理,对于需要大规模清洗和预处理中文数据集的项目非常有用。

6、Qwen-VL

通义千问大规模视觉语言模型增强版。大幅提升细节识别能力和文字识别能力,支持超百万像素分辨率和任意长宽比规格的图像。

Qwen-VL

7、llamafile

llamafile的独特之处在于它可以将模型和运行环境打包成一个独立的可执行文件,从而简化了部署流程。用户只需下载并执行该文件,无需安装运行环境或依赖库,这大大提高了使用大型语言模型的便捷性。

8、ipex-llm

ipex-lIm 是一个 PyTorch 库,用于在 Intel CPU 和 GPU 上加速本地 LLM 推断和微调。

9、llama3

4月19日,Meta 发布了其最新版本的开源大语言模型 Llama3,本次放出了8B、70B的模型。在人类测试的反馈中显示,Llama 3 70B版本的性能超越了Mistral、OpenAI和Claude发布的对应模型。除此之外,拥有 400B 参数的 Llama 3 模型也在稳步训练中,也将会开源出来。8B的模型地址

llama3

10、ray

Ray是一个简单、通用的分布式计算框架,最初由加州大学伯克利分校RISELab发起并开源。近些年Ray项目发展迅速,在蚂蚁、Intel、微软、AWS等公司被应用于构建各种AI、大数据系统。官方介绍文档

五、工具软件

1、soybean-admin(开源)

Soybean Admin是一个清新优雅、高颜值且功能强大的后台管理模板,基于最新的前端技术栈,包括 Vue3, Vite5, TypeScript, Pinia 和 UnoCSS。它内置了丰富的主题配置和组件,代码规范严谨,实现了自动化的文件路由系统。

soybean-admin

2、anything-llm(开源)

AnythingLLM 是一个开源的、可定制的、功能丰富的文档聊天机器人。这是一个全栈应用程序,它能够将任何文档、资源或内容片段转化为LLM在聊天中可以利用的相关上下文。该应用允许用户选择并配置要使用的LLM或向量数据库,并支持多用户管理及权限控制,以确保数据安全和高效协作。

AnythingLLM

3、frpMgr(开源)

FRP快捷配置面板,包含一键远程安装FRP服务端、可视化配置FRP客户端(支持WEB穿透,RDP远程桌面, 本地目录分享, SSH穿透)、查看服务器客户端连接情况等功能。

frpMgr

4、FreeGPT35(开源)

利用免登录 ChatGPT Web 提供的无限制免费 GPT-3.5-Turbo API 服务。

5、OpenUI(开源)

OpenUI是一款开源的AI代码生成器,根据描述生成UI界面,并能够输出HTML、CSS等前端代码,支持React、Svelte等框架,简化前端开发流程,通过生成式AI降低前端开发门槛,提高设计和编码效率。

OpenUI

6、OneUptime(开源)

OneUptime是一个完整的可观测性平台,实时监控在线服务的可用性和响应时间,提供状态页面,让客户了解服务状态。

OneUptime

7、Easy GitHub 2FA authentication

一款开源的浏览器插件,自动填写 GitHub 双因素认证的验证码。

六、学习资源

1、大语言模型(中文)

免费阅读的电子书,适合对 LLM 技术感兴趣的初学者,作者是去年发表的大模型综述《A Survey of Large Language Models》的团队。下载地址

大语言模型

七、生活经验

1、环岛的作用

环岛上是一种交通控制措施,相比交通灯控制的传统交叉路口,它们具有多种优势,最重要的一个是安全性。首先,环岛迫使司机放慢速度,为了调整车头方向,司机不得降速。其次,环岛减少了潜在冲突点的数量。冲突点就是车辆与车辆、车辆与行人可能发生碰撞的位置,它的数量越多,就越容易发生碰撞。根据一项研究,环岛只有8个潜在冲突点,而传统的四向交叉路口有32个。最后,环岛的车道都是紧密相邻的同心圆,并且还有很多进口和出口,迫使车辆减速让行。根据美国公路管理局估计,环岛取代传统的交叉路口时,可将严重交通事故减少80%到90%。除了安全性,环岛还有一些其他优点,比如让交通更有秩序,不会出现车辆在交叉路口乱成一团的情形,也能让司机更轻松地掉头。

环岛的作用

2、恒星爆炸

从现在到9月之间的某个时间,人类将可以亲眼看到恒星爆炸。距离地球3000光年的北冕座,存在一个双星系统,里面的两颗恒星离得很近。每隔80年左右,它们会运行到最接近的位置,彼此的引力将引发恒星内部物质的核爆炸。爱尔兰学者约翰·伯明翰1866年发现了这个现象,然后它在1946年再次出现。现在,2024年它又将重现。需要注意的是,这次爆炸还没有出现在我们眼前,但它其实发生在3000年前。

3、迪拜暴雨

4月17日,迪拜下了1949年有气象记录以来,最大的一场暴雨。迪拜处于沙漠地区,终年炎热,缺少淡水,根本没有发达的排水系统。大雨造成了严重积水,全城一片混乱。迪拜国际机场那么大的停机坪,全部积水,变成了水上机场。由于全球变暖,一些地方更干旱,另一些地方有更多的降雨。很多沙漠地区,包括中国的西北,都出现了阴雨或暴雨天气。

迪拜暴雨

4、树叶艺术品

一个日本艺术家专门制作树叶艺术品,以下是他的作品。

树叶艺术品

八、闲情逸趣

九、数字与言论

1、马斯克的管理风格非常独特,他不需要非技术性的中层管理人员,员工表现不佳就会被裁,也不喜欢大型会议。——前特斯拉 AI 总监安德烈·卡帕西

2、许多大型组织存在“死海效应”,那些更有才华、更高效的工程师最有可能离开,而没有才华和效率的工程师都留了下来,整个公司慢慢变成了一片死海。——《死海效应》

3、很多时候,我们觉得某样东西非常糟糕,但是其他人却很欣赏。与其怀疑别人,不妨换个角度,假定那确实是很好的东西,然后尝试去理解它。有了这种态度,更容易学到新东西,并会为你省去很多挫折、误解和与他人的冲突。——《你无法欣赏你不理解的东西》

4、十九世纪现代医学出现后,人类的寿命大大延长,再加上法律对个人财产的保护,使得全世界大部分财产和权力掌握在老年人手中。——《老人的烦恼》

5、敏捷开发有一个问题,就是它要求“新的冲刺在上一个冲刺结束后立即开始”,有了这个规则,程序员就陷入了永远冲刺的陷阱。—— 《永远冲刺》

Copyright © yoyo all right reserved,powered by Gitbook该文件修订时间: 2024-04-26 22:42:26

results matching ""

    No results matching ""