公开标签 #LLM
论文标题:Astraios: Parameter-Efficient Instruction Tuning Code Large Language Models论文链接:https://arxiv.org/abs/2401.00788论文标题:A Comprehensive Study of Knowledge Editing for Large Language Models论文链接:https://arxiv.org/abs/2401.01286论文标题:LLM Maybe LongLM: Self
普林斯顿大学和斯坦福大学团队开发出一种新压缩算法 CALDERA,能精简大模型(LLM)的海量数据,为 LLM“瘦身”。这项算法不仅有助保护数据隐私、节约能源、降低成本,还能推动 LLM 在手机和笔记本电脑上高效使用。 团队举例称,当人们使用 ChatGP T时,请求会被发送到 OpenAI 公司的后端服务器进行处理。这一过程不仅成本高昂、能耗巨大,通常还很慢。如果用户想要使用消费级图形处理单元运行 LLM,就需要对这些 LLM 进行压缩。 CALDERA 算法通过减少 LLM 冗余并降低信息层的精度来
检索增强生成(Retrieval Augmented Generation,RAG)是一种强大的工具,它通过将企业外部知识整合到生成过程中,增强了大语言模型(LLM)的性能。 第一、自定义知识库(Custom Knowledge) 定制知识库是指一系列紧密关联且始终保持更新的知识集合,它构成了 RAG 的核心基础。这个知识库可以表现为一个结构化的数据库形态(比如:MySQL),也可以表现为一套非结构化的文档体系(比如:文件、图图片、音频、视频等),甚至可能是两者兼具的综合形式。 第二、分块处理(Chun
日本的一个研究小组发布了Fugaku-LLM,一个大型语言模型(1)具有增强的日语能力,使用RIKEN超级计算机Fugaku。该团队由东京工业大学的Rio Yokota教授、东北大学的Keisuke Sakaguchi副教授、富士通株式会社的Koichi Shirahata、RIKEN的Mohamed Wahib团队负责人、名古屋大学的Koji Nishiguchi副教授、CyberAgent, Inc的Shota Sasaki和Kotoba Technologies Inc.的Noriyuki Koj
浏览器创新者 Opera 将 Opera One 浏览器中增加对大约 50 个模型系列的 150 个本地 LLM(大型语言模型)变体的实验性支持。这一举措将使得用户可以通过浏览器的内置功能,轻松访问和管理本地的LLM。这些本地AI模型是Opera在线Aria AI服务的免费补充。受支持的本地 LLM 包括: Llama from Meta Vicuna Gemma from Google Mixtral from Mistral AI And many families more 使用本地的大型语言模型
自ChatGPT为代表的大语言模型(Large Language Model, LLM)出现以后,掀起了新一轮研究和应用浪潮,出现了许多包括LLaMA、ChatGLM、Baichuan、Qwen等在内的通用模型。 随后,来自不同领域的人们基于通用模型通过持续预训练/指令微调将其应用于垂直领域。 本项目旨在收集和梳理垂直领域的开源模型、数据集及评测基准。 欢迎大家贡献本项目未收录的开源模型、数据集、评测基准等,一起推动大模型赋能各行各业! 通用模型 领域模型通常在通用模型的基础上进行持续预训练或指令微调得