2024
2024.01-03--第15期
刊首图:跳跃吧!北极狐
闲情逸趣:维苏威古卷内容识别
重点关注:
序号 | 标题 | 简述 | 位置 |
---|---|---|---|
1 | Copliot客户端 | 2023年12月底,微软的Copliot出iOS客户端了,在美区Apple Store下载,不需要登录,即可免费使用GPT-4。 | 2-1 |
2 | 视频生成模型Sora | OpenAI发布了扩散模型Sora,其关键之处在于一次生成多帧的预测,支持生成长达60s的高清视频。 | 2-3 |
3 | QAnything | 网易有道开源的知识库问答引擎,包括微调后的 LLM,优化后的推理代码,向量数据库,可视化前端界面等。 | 4-5 |
4 | vllm | vLLM 是一个高吞吐量、内存高效的语言模型推理和服务引擎,可用来部署高吞吐量的大模型服务。 | 4-6 |
5 | GPT-SoVITS | 只需要1分钟的音频文件就可以克隆声音,支持将多种语言的文本转为克隆声音,训练速度快,效果较好。 | 4-14 |
6 | StableCascade | 是Stability AI开发的基于Würstchen架构的新一代文生图模型,在性能及生成内容质量上均有所提升。 | 4-17 |
7 | TensorRT-LLM | NVIDIA TensorRT-LLM 是一个开源库,可加速和优化NVIDIA AI 平台上最新大型语言模型(LLM) 的推理性能。 | 4-18 |
8 | Qwen1.5 | 阿里通义千问系列开源大模型,包括Base和Chat等多版本,开源了0.5B、1.8B、4B、7B、14B、72B等型号。 | 4-19 |
9 | grok-1 | 马斯克的 xAl 公司开发的大语言模型,拥有 3140 亿参数,是目前参数量最大的开源大语言模型。 | 4-20 |
10 | yolov9 | 2024年2月份发布,主要破解的是数据通过深度网络传输时丢失的问题,具体来说就是“信息瓶颈和可逆函数”。 | 4-22 |
11 | TripoSR | TripoSR 是 Stability 与 Tripo AI 合作发布了 TripoSR,这是一种快速 3D 对象重建模型。 | 4-24 |
12 | axolotl | Axolotl 是一款旨在简化各种大语言模型微调的工具,为多种配置和架构提供支持。 | 4-28 |
13 | transformer-debugger | OpenAI 对齐团队开发的一种工具,旨在支持对小体量语言模型的特定行为进行检查。 | 4-29 |
14 | OOTDiffusion | 虚拟模特服装试穿工具,可根据不同性别和体型自动调整服装,可控试穿参数,自然融合与逼真效果。 | 4-30 |
15 | Copilot-GPT4-service | 作者发现 Github Copilot Chat 的底层是调用 ChatGPT 接口,因此做了这个工具。 | 5-3 |
16 | jan | Jan 是 ChatGPT 的开源替代品,可在本地计算机上离线运行。 | 5-4 |
17 | OpenVoice | OpenVoice一直在为myshell.ai提供即时语音克隆功能,全球用户已经使用了数千万次语音克隆模型。 | 5-5 |
18 | Imgae matting | 基于开源模型的在线抠图,支持人像和物体抠图,可以 docker 运行 ,无需 GPU。 | 5-10 |
19 | ComfyUI | ComfyUI是一个开源的基于图形界面Workflow可视化引擎,用于Stable Diffusion。 | 5-13 |
20 | restic | 一款强大的开源备份工具。它无需繁琐的配置,即可轻松完成备份和恢复操作。 | 5-14 |
21 | StreamDiffusion | 该项目利用多种模型加速工具,能以惊人的速度生成 AIGC 图像,单张 RTX4090 显卡可达 100 张/秒。 | 5-19 |
22 | chatgpt-on-wechat | 基于大模型搭建的微信聊天机器人,同时支持微信、企业微信、公众号、飞书、钉钉接入。 | 5-22 |
23 | windows | Docker 容器里运行 Windows 系统,可选择 Win7,Win10,Win11 等。 | 5-33 |
24 | Open-Sora | Open-Sora由Colossal-AI团队发起,旨在通过开源一套完整的AI驱动视频生成工具,降低视频创作的门槛。 | 5-39 |
25 | teleport | 一款 Go 写的企业级开源堡垒机。一个专为基础设施提供连接、身份验证、访问控制和安全审计的平台。 | 5-45 |
26 | ollama | Ollama是一个开源的大型语言模型服务工具,它帮助用户快速在本地运行大模型。 | 5-49 |
27 | devika | 一个AI软件工程师,能够理解高层次的人类指令、将其分解成步骤、研究相关信息,并编写代码以实现目标。 | 5-50 |
28 | ChatRTX | 通过检索增强生成和 NVIDIA TensorRT-LLM 加速技术,可为 Windows 带来运行于本地的生成式 AI 功能。 | 5-51 |
29 | MoneyPrinterTurbo | 只需提供一个视频主题或关键词 ,就可以全自动生成视频素材、视频字幕等,然后合成一个高清的短视频。 | 5-52 |
30 | 大规模语言模型 | 复旦大学MOSS团队写的书。以Deepspeed-Chat为例介绍实现大语言模型和类ChatGPT系统的实践。 | 6-1 |
31 | 自然语言处理导论 | 复旦大学MOSS团队写的书。本书可以使读者对于自然语言处理有更加系统性且全面的了解。 | 6-2 |
32 | RAG-Survey | 复旦大学的检索增强生成RAG的技术趋势调查仓库,介绍了基本概念与理论,同时提供了相关前沿论文。 | 6-3 |
33 | llm-viz | 大模型推理过程可视化,左侧是模型结构总览图,包括模型的整体架构以及构成模型的组件。 | 6-9 |
PDF版本下载:2024.01-03--第15期 PDF版
2024.04-06--第16期
未完待续...