2024
第15期--跳跃吧北极狐
刊首图:跳跃吧!北极狐
闲情逸趣:维苏威古卷内容识别
重点关注:
序号 | 标题 | 简述 | 位置 |
---|---|---|---|
1 | Copliot客户端 | 2023年12月底,微软的Copliot出iOS客户端了,在美区Apple Store下载,无需登录即可免费使用GPT-4。 | 2-1 |
2 | 视频生成模型Sora | OpenAI发布了扩散模型Sora,其关键之处在于一次生成多帧的预测,支持生成长达60s的高清视频。 | 2-3 |
3 | QAnything | 网易有道开源的知识库问答引擎,包括微调后的LLM,优化后的推理代码,向量数据库,前端界面等。 | 4-5 |
4 | vllm | vLLM 是一个高吞吐量、内存高效的语言模型推理和服务引擎,可用来部署高吞吐量的大模型服务。 | 4-6 |
5 | GPT-SoVITS | 只需要1分钟的音频文件就可以克隆声音,支持将多种语言的文本转为克隆声音,训练速度快,效果较好。 | 4-14 |
6 | StableCascade | 是Stability AI开发的基于Würstchen架构的新一代文生图模型,在性能及生成内容质量上均有所提升。 | 4-17 |
7 | TensorRT-LLM | NVIDIA TensorRT-LLM 是一个开源库,可加速和优化NVIDIA AI 平台上最新大型语言模型(LLM) 的推理性能。 | 4-18 |
8 | Qwen1.5 | 通义千问系列开源大模型,包括Base和Chat等多版本,开源了0.5B、1.8B、4B、7B、14B、72B等型号。 | 4-19 |
9 | grok-1 | 马斯克的 xAl 公司开发的大语言模型,拥有 3140 亿参数,是目前参数量最大的开源大语言模型。 | 4-20 |
10 | yolov9 | 主要破解的是数据通过深度网络传输时丢失的问题,具体来说就是“信息瓶颈和可逆函数”。 | 4-22 |
11 | TripoSR | TripoSR 是 Stability 与 Tripo AI 合作发布了 TripoSR,这是一种快速 3D 对象重建模型。 | 4-24 |
12 | axolotl | Axolotl 是一款旨在简化各种大语言模型微调的工具,为多种配置和架构提供支持。 | 4-28 |
13 | transformer-debugger | OpenAI 对齐团队开发的一种工具,旨在支持对小体量语言模型的特定行为进行检查。 | 4-29 |
14 | OOTDiffusion | 虚拟模特服装试穿工具,可根据不同性别和体型自动调整服装,可控试穿参数,自然融合与逼真效果。 | 4-30 |
15 | Copilot-GPT4-service | 作者发现 Github Copilot Chat 的底层是调用 ChatGPT 接口,因此做了这个工具。 | 5-3 |
16 | jan | Jan 是 ChatGPT 的开源替代品,可在本地计算机上离线运行。 | 5-4 |
17 | OpenVoice | OpenVoice一直在为myshell.ai提供即时语音克隆功能,全球用户已经使用了数千万次语音克隆模型。 | 5-5 |
18 | Imgae matting | 基于开源模型的在线抠图,支持人像和物体抠图,可以 docker 运行 ,无需 GPU。 | 5-10 |
19 | ComfyUI | ComfyUI是一个开源的基于图形界面Workflow可视化引擎,用于Stable Diffusion。 | 5-13 |
20 | restic | 一款强大的开源备份工具。它无需繁琐的配置,即可轻松完成备份和恢复操作。 | 5-14 |
21 | StreamDiffusion | 该项目利用多种模型加速工具,能以惊人的速度生成 AIGC 图像,单张 RTX4090 显卡可达 100 张/秒。 | 5-19 |
22 | chatgpt-on-wechat | 基于大模型搭建的微信聊天机器人,同时支持微信、企业微信、公众号、飞书、钉钉接入。 | 5-22 |
23 | windows | Docker 容器里运行 Windows 系统,可选择 Win7,Win10,Win11 等。 | 5-33 |
24 | Open-Sora | Open-Sora由Colossal-AI团队发起,旨在通过开源一套完整的AI驱动视频生成工具,降低视频创作的门槛。 | 5-39 |
25 | teleport | 一款 Go 写的企业级开源堡垒机。一个专为基础设施提供连接、身份验证、访问控制和安全审计的平台。 | 5-45 |
26 | ollama | Ollama是一个开源的大型语言模型服务工具,它帮助用户快速在本地运行大模型。 | 5-49 |
27 | devika | AI软件工程师,能够理解高层次的人类指令、将其分解成步骤、研究相关信息,并编写代码以实现目标。 | 5-50 |
28 | ChatRTX | 通过检索增强生成和 NVIDIA TensorRT-LLM 加速技术,可为 Windows 带来运行于本地的生成式 AI 功能。 | 5-51 |
29 | MoneyPrinterTurbo | 只需提供一个视频主题或关键词 ,就可以全自动生成视频素材、视频字幕等,然后合成一个高清的短视频。 | 5-52 |
30 | 大规模语言模型 | 复旦大学MOSS团队写的书。以Deepspeed-Chat为例介绍实现大语言模型和类ChatGPT系统的实践。 | 6-1 |
31 | 自然语言处理导论 | 复旦大学MOSS团队写的书。本书可以使读者对于自然语言处理有更加系统性且全面的了解。 | 6-2 |
32 | RAG-Survey | 复旦大学的检索增强生成RAG的技术趋势调查仓库,介绍了基本概念与理论,同时提供了相关前沿论文。 | 6-3 |
33 | llm-viz | 大模型推理过程可视化,左侧是模型结构总览图,包括模型的整体架构以及构成模型的组件。 | 6-9 |
PDF版本下载:第15期--跳跃吧北极狐 PDF版
第16期--冰立方建筑
刊首图:冰立方
闲情逸趣:嫦娥六号带回世界首份月背样品
重点关注:
序号 | 标题 | 简述 | 位置 |
---|---|---|---|
1 | xz后门事件 | 名为Jia Tan的账号向xz库提交恶意代码,它经过混淆只能在完整的下载包中找到,会修改系统中的OpenSSH。 | 2-2 |
2 | 弱智吧用于AI训练 | 弱智吧发言中包含了常识错误、语义错误、因果倒置和时序倒置等问题,能够有效地提升AI的逻辑推理能力。 | 2-3 |
3 | OpenAI发布GPT-4o | OpenAI发布的GPT-4o模型是GPT-4的优化版本,专注于提升性能和效率,显著减少了计算资源的需求。 | 2-6 |
4 | 比亚迪第五代DM-i | 目前比亚迪第五代DM-i双模混动系统达成的46.06%,已刷新了全球量产汽油发动机的最高纪录。 | 2-8 |
5 | Kling AI | 快手推出了可灵“文生视频”模型,可以生成长达2分钟的流畅视频,目前需要申请试用。 | 2-10 |
6 | Docker镜像站下架 | 国内镜像源因监管要求被下架,导致无法拉取Docker镜像,国内大多数常用的DockerHub镜像站均无法使用。 | 2-11 |
7 | RAPTOR | RAPTOR可帮助LLM更好地理解上下文,具有更宏观的理解,对于需要跨块摘要或多跳问答的场景非常有用。 | 3-6 |
8 | CriticGPT | CriticGPT不是给普通用户使用的,而是OpenAI内部关于模型监督模型的研究,用于给GPT-4的输出纠错。 | 3-8 |
9 | Qwen-VL | 通义千问大规模视觉语言模型增强版。大幅提升细节识别能力和文字识别能力,支持任意长宽比规格的图像。 | 4-6 |
10 | llama3 | Meta 发布了其最新版本的开源大语言模型 Llama3,本次放出了8B、70B的模型。 | 4-9 |
11 | GaLore | GaLore是一种允许全参数学习的训练策略,比常见的 LoRA 等方案更省显存,可以减少多达 65.5% 的显存。 | 4-14 |
12 | BAdam | BAdam的核心思想是依次求解块坐标优化子问题,因此与全参数 Adam 微调相比,需要的显存要少得多。 | 4-15 |
13 | yolov10 | YOLOv10的官方 PyTorch 实现,实时端到端物体检测。 | 4-16 |
14 | ChatTTS | 专门为对话场景设计的文本转语音模型,支持英语和中文两种语音。 | 4-17 |
15 | GLM-4 | GLM-4-9B 是智谱 AI 推出的最新一代预训练模型 GLM-4 系列中的开源版本。 | 4-20 |
16 | Qwen2 | Qwen2包含5种参数,包括Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B、Qwen2-72B。 | 4-21 |
17 | RAGFlow | RAGFlow是一款基于深度文档理解的开源 RAG引擎,它为任何规模的企业提供简化的 RAG 工作流程。 | 4-22 |
18 | TypeChat | TypeChat 是微软开放的用于让大语言模型输出符合类型定义的稳定结果的库,本质是加了校验与重试机制。 | 4-25 |
19 | Eval-Scope | Eval-Scope 项目中的提供了性能测试工具,可用来测试LLM服务的推理性能,评估是否满足生产需求。 | 4-26 |
20 | chat2db | Chat2DB是一个在数据库操作平台上嵌入了AI交互功能的工具,AI助手能够理解查询并生成对应的SQL代码。 | 4-28 |
21 | self-instruct | self-instruct是一种将预训练语言模型与指令对齐的方法,可通过模型自己生成数据,而不需要大量人工标注。 | 4-29 |
22 | LLaMA-Pro | LLaMA Pro是腾讯ARC实验室提出的一种大模型微调的方法,可以更好地解决微调的知识遗忘问题。 | 4-30 |
23 | MaxKB | 一款基于 LLM 大语言模型的知识库问答系统,可以无缝嵌入第三方网站,实现智能问答。 | 5-8 |
24 | MVSS-Net | 一个开源的真实图像篡改检测算法,作者提供了数据集及训练好的模型。 | 5-11 |
25 | Scrapegraph-ai | 一个由 AI 驱动的 Python 爬虫库,它借助 LLM 的能力,可以根据提示词自动抓取目标网站的数据。 | 5-40 |
26 | 大语言模型 | 免费阅读的电子书,作者是去年发表的大模型综述《A Survey of Large Language Models》的团队。 | 6-1 |
27 | 技术概念示意图 | 这个仓库收集各种技术概念的示意图,可以用来学习技术概念以及撰写技术文档。 | 6-4 |
28 | 理解深度学习 | 《理解深度学习》(Understanding Deep Learning),免费阅读的英文电子书,深度学习的入门教材。 | 6-12 |
29 | OpenAI图书馆工位 | OpenAI办公楼里有个很漂亮的图书馆。员工可以在里面读书、休息,也可以在这里办公,相当于工位。 | 7-5 |
30 | 动态二维码 | 二维码也可以是动态的,它每时每刻都在变化,读取到连续不断的数据,可以实现摄像头下载文件。 | 7-7 |
PDF版本下载:第16期--冰立方建筑 PDF版
第17期--重庆南滨路夜市
刊首图:重庆南滨路夜市
闲情逸趣:OpenAI o1推理大模型
重点关注:
序号 | 标题 | 简述 | 位置 |
---|---|---|---|
1 | 萝卜快跑无人驾驶出租车 | 百度萝卜快跑无人驾驶出租车,已在街头接送乘客,不过目前还不是彻底的无人驾驶,每辆车都有人在云端监控,紧急情况下会远程接管。 | 2-2 |
2 | 微软蓝屏事件 | 7月19日,美国网络安全公司CrowdStrike软件bug带崩了全球范围内的微软Windows系统,外媒将此称为“史上最大规模IT故障”。 | 2-3 |
3 | OpenAI o1系列大模型 | 9月12日,OpenAI发布新模型o1系列,可以实现复杂推理,旨在花更多时间思考,然后再做出响应。这些模型可以推理复杂的任务并解决比以前的科学、编码和数学模型更难的问题。 | 2-5 |
4 | Qwen2.5系列模型 | 9月19日,阿里发布了Qwen2.5系列模型,包括语言模型 Qwen2.5,以及专门针对编程的 Qwen2.5-Coder 和数学的 Qwen2.5-Math 模型。 | 2-6 |
5 | 阿里云盘灾难事故 | 9月14日,阿里云盘被曝出存在一个“灾难级的严重bug”。有用户偶然发现,在阿里云盘的相册功能中,只要创建一个文件夹并在分类中选择图片,竟然可以看到其他用户云盘里的图片。 | 2-7 |
6 | OpenAI支持结构化 | OpenAI的所有模型均支持设置参数实现结构化输出,模型输出将与提供的格式定义相匹配。其中,OpenAI刚发布的gpt-4o-2024-08-06模型,可以实现输出JSON的100%准确率。 | 3-1 |
7 | OmniParse | Omniparse是一个开源文件解析平台,可以将任何非结构化数据解析成结构化、可操作的数据,并针对 LLM 应用程序进行优化。 | 4-1 |
8 | GraphRAG | 微软开源的 GraphRAG 是一种基于图的检索增强生成方法。通过 LLM 构建知识图谱,极大增强 LLM 在处理私有数据时的性能,同时具备连点成线的跨大型数据集的复杂语义问题推理能力。 | 4-2 |
9 | MinerU | Magic-PDF 是一款将 PDF 转化为 Markdown 格式的工具,它是基于 PDF-Extract-Kit 库实现的。 | 4-5 |
10 | mem0 | 增强 LLM 上下文连续性的 Python 库。该项目能为多种主流的大型语言模型提供记忆层,它支持保存用户与 LLM 交互时的会话和上下文,并能实时动态更新和调整,从而增强 AI 的个性化。 | 4-6 |
11 | EchoMimic | EchoMimic是阿里开源的基于音频驱动的肖像动画生成工具,通过可编辑的特征点条件生成逼真、自然的动画,用户可以根据自己的需求调整动画细节,可用于虚拟主播、视频编辑等。 | 4-12 |
12 | Streamlit | 用于快速创建数据应用程序的Python库,它提供了一种简单而直观的方式来构建交互式Web应用。 | 4-14 |
13 | FastAPI | FastAPI是一个现代、快速的 Web 框架,用于构建基于 Python 的 API。它的性能非常高,可与NodeJS和Go媲美,是目前最快的Python框架之一。 | 4-15 |
14 | 现代文转古文LLM | 一个经过微调训练的现代文转古文的大模型,输入现代汉语句子,生成古汉语风格的句子。 | 4-18 |
15 | DeepFlow | DeepFlow 是一款为云原生开发者实现可观测性而量身打造的全栈、全链路、高性能数据引擎。 | 4-21 |
16 | bark | Bark 是由 Suno 创建的基于转换器的文本到音频模型,它可以生成高度逼真的多语言语音。 | 4-22 |
17 | SunoAI | Suno AI是一款基于人工智能的音乐创作工具,它可以帮助用户轻松地创作出各种风格的音乐作品。 | 5-1 |
18 | Essay.Art | 一个基于 GPT4 批改雅思和托福作文的在线工具,可以免费使用。 | 5-3 |
19 | Penpot | 用于设计和代码协作的开源原型设计工具,可以私有化部署。 | 5-6 |
20 | LabelLLM | LabelLLM是一个开源的数据标注平台,致力于优化对于LLM开发不可或缺的数据标注过程。 | 5-8 |
21 | Deep-Live-Cam | Deep Live Cam 是一款开源工具,利用 AI 算法实现实时换脸和一键式视频深度伪造,用户只需一张源图像即可在视频或直播中替换人脸。 | 5-21 |
22 | HivisionIDPhotos | HivisionIDPhoto 旨在通过智能算法简化证件照生成流程。该项目利用完善的模型工作流程,能够识别多种拍照场景,进行精准抠图并自动生成标准证件照,仅使用 CPU 即可快速完成抠图任务。 | 5-32 |
23 | Nginx UI | 一个用 Go+Vue.js 构建的 Nginx 在线管理平台,它开箱即用、功能丰富,支持流量统计、在线查看 Nginx 日志、编辑 Nginx 配置文件、自动检查和重载配置文件等功能。 | 5-34 |
24 | 大模型训练之路 | 一篇关于大模型训练的系列文章,包含训练数据、模型训练、模型评测的完整流程。 | 6-6 |
25 | 隐性知识是危险的 | 隐性知识又称为“部落知识”,指的是有些知识没有文档,只掌握在团队成员的头脑里面。 | 7-3 |
PDF版本下载:第17期--重庆南滨路夜市 PDF版
第18期--无界雕塑作品
未完待续...