2024

第15期--跳跃吧北极狐

重点关注：

序号	标题	简述	位置
1	Copliot客户端	2023年12月底，微软的Copliot出iOS客户端了，在美区Apple Store下载，无需登录即可免费使用GPT-4。	2-1
2	视频生成模型Sora	OpenAI发布了扩散模型Sora，其关键之处在于一次生成多帧的预测，支持生成长达60s的高清视频。	2-3
3	QAnything	网易有道开源的知识库问答引擎，包括微调后的LLM，优化后的推理代码，向量数据库，前端界面等。	4-5
4	vllm	vLLM 是一个高吞吐量、内存高效的语言模型推理和服务引擎，可用来部署高吞吐量的大模型服务。	4-6
5	GPT-SoVITS	只需要1分钟的音频文件就可以克隆声音，支持将多种语言的文本转为克隆声音，训练速度快，效果较好。	4-14
6	StableCascade	是Stability AI开发的基于Würstchen架构的新一代文生图模型，在性能及生成内容质量上均有所提升。	4-17
7	TensorRT-LLM	NVIDIA TensorRT-LLM 是一个开源库，可加速和优化NVIDIA AI 平台上最新大型语言模型(LLM) 的推理性能。	4-18
8	Qwen1.5	通义千问系列开源大模型，包括Base和Chat等多版本，开源了0.5B、1.8B、4B、7B、14B、72B等型号。	4-19
9	grok-1	马斯克的 xAl 公司开发的大语言模型，拥有 3140 亿参数，是目前参数量最大的开源大语言模型。	4-20
10	yolov9	主要破解的是数据通过深度网络传输时丢失的问题，具体来说就是“信息瓶颈和可逆函数”。	4-22
11	TripoSR	TripoSR 是 Stability 与 Tripo AI 合作发布了 TripoSR，这是一种快速 3D 对象重建模型。	4-24
12	axolotl	Axolotl 是一款旨在简化各种大语言模型微调的工具，为多种配置和架构提供支持。	4-28
13	transformer-debugger	OpenAI 对齐团队开发的一种工具，旨在支持对小体量语言模型的特定行为进行检查。	4-29
14	OOTDiffusion	虚拟模特服装试穿工具，可根据不同性别和体型自动调整服装，可控试穿参数，自然融合与逼真效果。	4-30
15	Copilot-GPT4-service	作者发现 Github Copilot Chat 的底层是调用 ChatGPT 接口，因此做了这个工具。	5-3
16	jan	Jan 是 ChatGPT 的开源替代品，可在本地计算机上离线运行。	5-4
17	OpenVoice	OpenVoice一直在为myshell.ai提供即时语音克隆功能，全球用户已经使用了数千万次语音克隆模型。	5-5
18	Imgae matting	基于开源模型的在线抠图，支持人像和物体抠图，可以 docker 运行，无需 GPU。	5-10
19	ComfyUI	ComfyUI是一个开源的基于图形界面Workflow可视化引擎，用于Stable Diffusion。	5-13
20	restic	一款强大的开源备份工具。它无需繁琐的配置，即可轻松完成备份和恢复操作。	5-14
21	StreamDiffusion	该项目利用多种模型加速工具，能以惊人的速度生成 AIGC 图像，单张 RTX4090 显卡可达 100 张/秒。	5-19
22	chatgpt-on-wechat	基于大模型搭建的微信聊天机器人，同时支持微信、企业微信、公众号、飞书、钉钉接入。	5-22
23	windows	Docker 容器里运行 Windows 系统，可选择 Win7，Win10，Win11 等。	5-33
24	Open-Sora	Open-Sora由Colossal-AI团队发起，旨在通过开源一套完整的AI驱动视频生成工具，降低视频创作的门槛。	5-39
25	teleport	一款 Go 写的企业级开源堡垒机。一个专为基础设施提供连接、身份验证、访问控制和安全审计的平台。	5-45
26	ollama	Ollama是一个开源的大型语言模型服务工具，它帮助用户快速在本地运行大模型。	5-49
27	devika	AI软件工程师，能够理解高层次的人类指令、将其分解成步骤、研究相关信息，并编写代码以实现目标。	5-50
28	ChatRTX	通过检索增强生成和 NVIDIA TensorRT-LLM 加速技术，可为 Windows 带来运行于本地的生成式 AI 功能。	5-51
29	MoneyPrinterTurbo	只需提供一个视频主题或关键词，就可以全自动生成视频素材、视频字幕等，然后合成一个高清的短视频。	5-52
30	大规模语言模型	复旦大学MOSS团队写的书。以Deepspeed-Chat为例介绍实现大语言模型和类ChatGPT系统的实践。	6-1
31	自然语言处理导论	复旦大学MOSS团队写的书。本书可以使读者对于自然语言处理有更加系统性且全面的了解。	6-2
32	RAG-Survey	复旦大学的检索增强生成RAG的技术趋势调查仓库，介绍了基本概念与理论，同时提供了相关前沿论文。	6-3
33	llm-viz	大模型推理过程可视化，左侧是模型结构总览图，包括模型的整体架构以及构成模型的组件。	6-9

PDF版本下载：第15期--跳跃吧北极狐 PDF版

第16期--冰立方建筑

刊首图：冰立方

闲情逸趣：嫦娥六号带回世界首份月背样品

重点关注：

序号	标题	简述	位置
1	xz后门事件	名为Jia Tan的账号向xz库提交恶意代码，它经过混淆只能在完整的下载包中找到，会修改系统中的OpenSSH。	2-2
2	弱智吧用于AI训练	弱智吧发言中包含了常识错误、语义错误、因果倒置和时序倒置等问题，能够有效地提升AI的逻辑推理能力。	2-3
3	OpenAI发布GPT-4o	OpenAI发布的GPT-4o模型是GPT-4的优化版本，专注于提升性能和效率，显著减少了计算资源的需求。	2-6
4	比亚迪第五代DM-i	目前比亚迪第五代DM-i双模混动系统达成的46.06%，已刷新了全球量产汽油发动机的最高纪录。	2-8
5	Kling AI	快手推出了可灵“文生视频”模型，可以生成长达2分钟的流畅视频，目前需要申请试用。	2-10
6	Docker镜像站下架	国内镜像源因监管要求被下架，导致无法拉取Docker镜像，国内大多数常用的DockerHub镜像站均无法使用。	2-11
7	RAPTOR	RAPTOR可帮助LLM更好地理解上下文，具有更宏观的理解，对于需要跨块摘要或多跳问答的场景非常有用。	3-6
8	CriticGPT	CriticGPT不是给普通用户使用的，而是OpenAI内部关于模型监督模型的研究，用于给GPT-4的输出纠错。	3-8
9	Qwen-VL	通义千问大规模视觉语言模型增强版。大幅提升细节识别能力和文字识别能力，支持任意长宽比规格的图像。	4-6
10	llama3	Meta 发布了其最新版本的开源大语言模型 Llama3，本次放出了8B、70B的模型。	4-9
11	GaLore	GaLore是一种允许全参数学习的训练策略，比常见的 LoRA 等方案更省显存，可以减少多达 65.5% 的显存。	4-14
12	BAdam	BAdam的核心思想是依次求解块坐标优化子问题，因此与全参数 Adam 微调相比，需要的显存要少得多。	4-15
13	yolov10	YOLOv10的官方 PyTorch 实现，实时端到端物体检测。	4-16
14	ChatTTS	专门为对话场景设计的文本转语音模型，支持英语和中文两种语音。	4-17
15	GLM-4	GLM-4-9B 是智谱 AI 推出的最新一代预训练模型 GLM-4 系列中的开源版本。	4-20
16	Qwen2	Qwen2包含5种参数，包括Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B、Qwen2-72B。	4-21
17	RAGFlow	RAGFlow是一款基于深度文档理解的开源 RAG引擎，它为任何规模的企业提供简化的 RAG 工作流程。	4-22
18	TypeChat	TypeChat 是微软开放的用于让大语言模型输出符合类型定义的稳定结果的库，本质是加了校验与重试机制。	4-25
19	Eval-Scope	Eval-Scope 项目中的提供了性能测试工具，可用来测试LLM服务的推理性能，评估是否满足生产需求。	4-26
20	chat2db	Chat2DB是一个在数据库操作平台上嵌入了AI交互功能的工具，AI助手能够理解查询并生成对应的SQL代码。	4-28
21	self-instruct	self-instruct是一种将预训练语言模型与指令对齐的方法，可通过模型自己生成数据，而不需要大量人工标注。	4-29
22	LLaMA-Pro	LLaMA Pro是腾讯ARC实验室提出的一种大模型微调的方法，可以更好地解决微调的知识遗忘问题。	4-30
23	MaxKB	一款基于 LLM 大语言模型的知识库问答系统，可以无缝嵌入第三方网站，实现智能问答。	5-8
24	MVSS-Net	一个开源的真实图像篡改检测算法，作者提供了数据集及训练好的模型。	5-11
25	Scrapegraph-ai	一个由 AI 驱动的 Python 爬虫库，它借助 LLM 的能力，可以根据提示词自动抓取目标网站的数据。	5-40
26	大语言模型	免费阅读的电子书，作者是去年发表的大模型综述《A Survey of Large Language Models》的团队。	6-1
27	技术概念示意图	这个仓库收集各种技术概念的示意图，可以用来学习技术概念以及撰写技术文档。	6-4
28	理解深度学习	《理解深度学习》（Understanding Deep Learning），免费阅读的英文电子书，深度学习的入门教材。	6-12
29	OpenAI图书馆工位	OpenAI办公楼里有个很漂亮的图书馆。员工可以在里面读书、休息，也可以在这里办公，相当于工位。	7-5
30	动态二维码	二维码也可以是动态的，它每时每刻都在变化，读取到连续不断的数据，可以实现摄像头下载文件。	7-7

PDF版本下载：第16期--冰立方建筑 PDF版

第17期--重庆南滨路夜市

刊首图：重庆南滨路夜市

闲情逸趣：OpenAI o1推理大模型

重点关注：

序号	标题	简述	位置
1	萝卜快跑无人驾驶出租车	百度萝卜快跑无人驾驶出租车，已在街头接送乘客，不过目前还不是彻底的无人驾驶，每辆车都有人在云端监控，紧急情况下会远程接管。	2-2
2	微软蓝屏事件	7月19日，美国网络安全公司CrowdStrike软件bug带崩了全球范围内的微软Windows系统，外媒将此称为“史上最大规模IT故障”。	2-3
3	OpenAI o1系列大模型	9月12日，OpenAI发布新模型o1系列，可以实现复杂推理，旨在花更多时间思考，然后再做出响应。这些模型可以推理复杂的任务并解决比以前的科学、编码和数学模型更难的问题。	2-5
4	Qwen2.5系列模型	9月19日，阿里发布了Qwen2.5系列模型，包括语言模型 Qwen2.5，以及专门针对编程的 Qwen2.5-Coder 和数学的 Qwen2.5-Math 模型。	2-6
5	阿里云盘灾难事故	9月14日，阿里云盘被曝出存在一个“灾难级的严重bug”。有用户偶然发现，在阿里云盘的相册功能中，只要创建一个文件夹并在分类中选择图片，竟然可以看到其他用户云盘里的图片。	2-7
6	OpenAI支持结构化	OpenAI的所有模型均支持设置参数实现结构化输出，模型输出将与提供的格式定义相匹配。其中，OpenAI刚发布的gpt-4o-2024-08-06模型，可以实现输出JSON的100%准确率。	3-1
7	OmniParse	Omniparse是一个开源文件解析平台，可以将任何非结构化数据解析成结构化、可操作的数据，并针对 LLM 应用程序进行优化。	4-1
8	GraphRAG	微软开源的 GraphRAG 是一种基于图的检索增强生成方法。通过 LLM 构建知识图谱，极大增强 LLM 在处理私有数据时的性能，同时具备连点成线的跨大型数据集的复杂语义问题推理能力。	4-2
9	MinerU	Magic-PDF 是一款将 PDF 转化为 Markdown 格式的工具，它是基于 PDF-Extract-Kit 库实现的。	4-5
10	mem0	增强 LLM 上下文连续性的 Python 库。该项目能为多种主流的大型语言模型提供记忆层，它支持保存用户与 LLM 交互时的会话和上下文，并能实时动态更新和调整，从而增强 AI 的个性化。	4-6
11	EchoMimic	EchoMimic是阿里开源的基于音频驱动的肖像动画生成工具，通过可编辑的特征点条件生成逼真、自然的动画，用户可以根据自己的需求调整动画细节，可用于虚拟主播、视频编辑等。	4-12
12	Streamlit	用于快速创建数据应用程序的Python库，它提供了一种简单而直观的方式来构建交互式Web应用。	4-14
13	FastAPI	FastAPI是一个现代、快速的 Web 框架，用于构建基于 Python 的 API。它的性能非常高，可与NodeJS和Go媲美，是目前最快的Python框架之一。	4-15
14	现代文转古文LLM	一个经过微调训练的现代文转古文的大模型，输入现代汉语句子，生成古汉语风格的句子。	4-18
15	DeepFlow	DeepFlow 是一款为云原生开发者实现可观测性而量身打造的全栈、全链路、高性能数据引擎。	4-21
16	bark	Bark 是由 Suno 创建的基于转换器的文本到音频模型，它可以生成高度逼真的多语言语音。	4-22
17	SunoAI	Suno AI是一款基于人工智能的音乐创作工具，它可以帮助用户轻松地创作出各种风格的音乐作品。	5-1
18	Essay.Art	一个基于 GPT4 批改雅思和托福作文的在线工具，可以免费使用。	5-3
19	Penpot	用于设计和代码协作的开源原型设计工具，可以私有化部署。	5-6
20	LabelLLM	LabelLLM是一个开源的数据标注平台，致力于优化对于LLM开发不可或缺的数据标注过程。	5-8
21	Deep-Live-Cam	Deep Live Cam 是一款开源工具，利用 AI 算法实现实时换脸和一键式视频深度伪造，用户只需一张源图像即可在视频或直播中替换人脸。	5-21
22	HivisionIDPhotos	HivisionIDPhoto 旨在通过智能算法简化证件照生成流程。该项目利用完善的模型工作流程，能够识别多种拍照场景，进行精准抠图并自动生成标准证件照，仅使用 CPU 即可快速完成抠图任务。	5-32
23	Nginx UI	一个用 Go+Vue.js 构建的 Nginx 在线管理平台，它开箱即用、功能丰富，支持流量统计、在线查看 Nginx 日志、编辑 Nginx 配置文件、自动检查和重载配置文件等功能。	5-34
24	大模型训练之路	一篇关于大模型训练的系列文章，包含训练数据、模型训练、模型评测的完整流程。	6-6
25	隐性知识是危险的	隐性知识又称为“部落知识”，指的是有些知识没有文档，只掌握在团队成员的头脑里面。	7-3

PDF版本下载：第17期--重庆南滨路夜市 PDF版

第18期--无界雕塑作品

刊首图：《无界》

闲情逸趣：为什么说Willow是里程碑式的突破

重点关注：

序号	标题	简述	位置
1	ChatGPT 4o with canvas	OpenAI 推出了的一项名为“Canvas”的新功能，它提供了一种新的交互方式，用于与ChatGPT在写作和编程项目上进行更好的协作，比如选定内容，进行针对性修改。	2-2
2	ChatGPT网络搜索	OpenAI发布了ChatGPT网络搜索功能，能实时、快速获取附带相关网页来源链接的答案。	2-5
3	谷歌Willow量子芯片	谷歌推出最新量子芯片Willow，最大突破在于超强的计算能力和纠错能力。对于“随机电路采样”的基准任务，当前最快的超算需花费10的25次方年来解决，而Willow只需不到5分钟。	2-6
4	OpenAI o3接近AGI	OpenAI声称，至少在某些条件下，o3模型可以接近实现AGI。OpenAI计划在明年1月底前正式推出o3 mini，之后推出完整版的o3。	2-9
5	AlphaFold3	获得2024诺贝尔生物学奖的AlphaFold3蛋白质结构预测项目开源了，它不仅能够预测蛋白质结构，还能预测其与DNA、RNA和其他蛋白质的相互作用，对于药物发现领域具有重大意义。	4-10
6	Docling	Docling是一个文档解析和转换工具，能高效地将多种格式的文档（PDF、DOCX、PPTX、图片和HTML）解析导出为Markdown或JSON格式。	4-11
7	PDFMathTranslate	开源的命令行工具，使用 LLM 翻译 PDF 文件，可以完整保留排版。	4-12
8	ESM	ESM是一个用于蛋白质生成和表示的开源模型库，专注于生物学底层的表征。	4-18
9	MarkItDown	Markitdown是微软最新推出的一款在线文档转换工具，其核心功能是将多种格式的文件（包括PDF、PPT、Word、Excel、HTML等）转换为Markdown格式，可用来构建RAG系统。	4-20
10	md-editor-v3	md-editor-v3是一个基于Vue 3和TSX开发的Markdown编辑器组件，支持实时预览和丰富的Markdown功能。	4-21
11	AntV G6	AntV G6是一个简单、易用、完备的图可视化引擎，它在高定制能力的基础上，提供了一系列设计优雅、便于使用的图可视化解决方案。	4-22
12	Loguru	Loguru是一个功能强大且易于使用的开源日志记录库。它建立在 Python 标准库中的 logging 模块之上，并提供了更加简洁直观的接口。	4-24
13	kuberay	KubeRay允许用户通过YAML文件来定义Ray集群的配置。此外它还提供了一组控制器，用于自动管理和扩展Ray集群。目前已成为在 Kubernetes集群上部署Ray应用的事实标准。	4-29
14	KAG	KAG是基于OpenSPG引擎和大型语言模型的逻辑推理问答框架，用于构建垂直领域知识库的逻辑推理问答解决方案。KAG支持逻辑推理、多跳事实问答等，明显优于目前的SOTA方法。	4-30
15	Rufus	Rufus是一款老牌的USB启动盘制作工具，可以将Windows、Linux等系统的ISO格式的镜像制作成USB启动盘。	5-1
16	LabelU	LabelU是一个多模态数据标注平台。通过提供丰富的标注工具和高效的工作流程，帮助用户更轻松地处理图像、视频和音频数据的标注任务，满足各种复杂的数据分析和模型训练需求。	5-2
17	Cursor	Cursor是一款基于人工智能技术的代码生成工具，它能够根据开发者的需求和上下文，智能地生成高质量的代码片段。	5-3
18	Exo	Exo是一款实验性软件，允许用户通过家中的常见设备组建自己的AI集群，进而将这些设备统合为一个强大的GPU。	5-18
19	Attu	一款专为Milvus向量数据库打造的开源数据库管理工具，提供了便捷的图形化界面，极大地简化了对Milvus数据库的操作与管理流程。	5-20
20	Garak	Garak是一款专用于扫描LLM漏洞的工具，它主要检测幻觉生成、数据泄露、提示注入、错误信息、毒性生成以及越狱等问题，并生成详细报告，概述模型的优势和改进建议。	5-22
21	dpanel	专为国内用户设计的 Docker 管理面板，采用全中文界面。它安装简单且资源占用低，运行在容器内部对宿主机无侵入，支持容器管理、镜像管理、文件管理以及 Compose 管理等功能。	5-23
22	Umami	可以自行部署的Web站点分析工具。为用户提供了一个与Google Analytics相比开源、友好、更关注隐私性的站点统计工具，只采集你关心的指标并将全部的内容展示在一个页面上。	5-31
23	NPS	一款轻量级、高性能、功能强大的代理服务器，用于实现内网与外网之间的通信。它可以将外部网络请求转发到内网服务器，使得内网服务器可以被外部访问到。	5-32
24	Dozzle	Dozzle 是一款小型轻量级应用程序，具有基于 Web 的界面来监控 Docker 日志。它不存储任何日志文件，仅用于实时监控容器日志。	5-34
25	runlike	该工具可生成运行中容器对应的docker run启动命令。它能够提取容器的配置信息，包括包括端口绑定、映射卷、环境变量、网络设置等，适用于复制、调试或迁移容器的场景。	5-42
26	widdershins	Widdershins用于将符合 OpenAPI 3.0、Swagger 2.0、AsyncAPI 1.x、Semoasa 规范的在线接口文档导出成本地Markdown离线文档。	5-43
27	Prompt_Engineering	这份教程致力于帮助用户掌握与LLM沟通的技巧。内容涵盖从基础到高级的提示工程技术，附有详细的实现指南和示例代码。	6-1
28	开源许可证选择器	回答几个问题，帮你选择一个开源许可证。	6-2
29	编程十年的感悟	无论是编程，还是其他的技能，都是「马太效应」，你学得越多，你懂得越多，再学新的东西，你就会学得越快。	6-5
30	拉格朗日标准模型	拉格朗日标准模型是一个描述粒子行为的统一方程，非常复杂。这个方程有几十行，分成5个部分。尽管如此，它依然是描述粒子行为最简单、最紧凑的形式。	7-2

PDF版本下载：第18期--无界雕塑作品 PDF版

2024

2024

第15期--跳跃吧北极狐

第16期--冰立方建筑

第17期--重庆南滨路夜市

第18期--无界雕塑作品

results matching ""

No results matching ""