公开标签 #GitHUb
日本的一个研究小组发布了Fugaku-LLM,一个大型语言模型(1)具有增强的日语能力,使用RIKEN超级计算机Fugaku。该团队由东京工业大学的Rio Yokota教授、东北大学的Keisuke Sakaguchi副教授、富士通株式会社的Koichi Shirahata、RIKEN的Mohamed Wahib团队负责人、名古屋大学的Koji Nishiguchi副教授、CyberAgent, Inc的Shota Sasaki和Kotoba Technologies Inc.的Noriyuki Koj
ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型,基于 General Language Model (GLM) 架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存)。 ChatGLM-6B 使用了和 ChatGPT 相似的技术,针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,62 亿参数的 ChatGLM-6B 已经能生成相当符合人类偏好的回答
GitHub 发布了 2023 年平台上使用最多的编程语言,排名前十的分别是:JavaScript、Python TypeScript、Java、C#、C++、PHP、C、Shell、Go。 JavaScript 依然稳居最常用编程语言的宝座,并且在 Web 开发领域发挥着核心作用。JavaScript 作为客户端脚本语言,它使得网页能够执行动态内容的生成,从而提供更加丰富和交互的用户体验。全球企业普遍采用 JavaScript 来构建 Web 应用程序,得益于 Vue、React 和 Angular
TeleMonitor 是一个使用 Python 编写的系统监控工具,它可以监控 CPU、内存和磁盘的使用情况,并通过 Telegram 发送警告。 首先,你需要创建一个 Telegram bot,然后获取 API token。你可以参考 Telegram 官方文档 来创建一个 Telegram bot。 然后,你需要获取你希望接收警告的 Telegram chat ID。你可以使用 @userinfobot 来获取你的 chat ID。 接下来 clone 这个项目: git clone https:
支持匿名评论/点赞 支持引入网易云音乐,b站视频,插入链接等 支持自定义头图,个人头像,网站标题等 支持上传图片到S3兼容的云存储,支持本地存储 适配手机 支持暗黑模式 数据库采用sqlite,可随时备份 支持引入豆瓣读书/豆瓣电影,样式来源于这里 有其他需求欢迎提issues. 默认用户名密码:admin/a123456,登录进去后后台可以自己修改密码. 自定义其他配置 鉴于萝卜青菜各有所爱,每个人情况不一致,特此使用配置文件配置各项特性化需求,目前支持以下环境变量配置见. 同时也支持使用配置文件的方
老胡的信息周刊,每周记录老胡看到的有价值的信息,主要针对计算机领域,内容主题极大程度被老胡个人喜好主导。这个项目核心目的在于记录让自己有印象的信息做一个留存以及共享。 已经坚持更新两年多,当前阅读渠道如下: 网站 | RSS TG 频道 | 公众号 今日推荐 目前正在利用周刊收集的资源,为非极客用户群体打破信息不对称,减少信息差,这次项目计划名为:FRE123-Free Resource for Everyone 老胡的周刊开始于2021-08-16,如果你在看到这篇文章的时候,我依旧在更新,那么这就是
一键文本转视频的工具可以将一段文本转换为视频,并保存到指定的本地,初衷是想实现小说的可视化阅读功能。 实现原理 将文本进行分段,现在没有想到好的办法,就是通过标点符号句号分段,分成一个个的句子 通过句子生成图片,生成声音,图片开源的有很多,本方案采用 stable-diffusion,语言转文字使用 edge-tts 通过大模型生成midjourney类的提示词,然后通过huggingface的模型生成图片。 在通过 opencv 将图片合并为视频,目前输出 mp4 格式的视频,句子作为字母贴到视频内容
中文分词 将文本切分为独立语义单位。支持粗分、细分双重标准,高低优先级自定义词典,多语种 词性标注 给每个单词标注语法类别,支持多种词性标注集:CTB、PKU、863、UD、NPCMJ,多语种 命名实体识别 识别文本中的专有名词,支持多种规范:PKU、MSRA、OntoNotes,黑白名单词典、多语种 依存句法分析 分析单词语法上的依赖,支持多种句法体系:SD、UD、PMT,投射/非投射,多语种 成分句法分析 分析句子在语法上的递归构成,并将其表示为树形结构。支持可视化、多语种 语义依存分析 分析句子中
结巴中文分词:做最好的 Python 中文分词组件 结巴分词特点 支持四种分词模式: 1,精确模式,试图将句子最精确地切开,适合文本分析; 2,全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 3,搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。 4,paddle模式,利用PaddlePaddle深度学习框架,训练序列标注(双向GRU)网络模型实现分词。同时支持词性标注。paddle模式使用需安装paddlepaddle-tiny,pi
2024年3月29日,一份关于在自由软件社区备受争议的开源项目 xz 软件包被上游源代码中的后门所污染的报告在 oss-security 邮件列表中曝光。 这个后门影响到了 liblzma 库,它是 xz 软件包的一部分,在第一份报告发布后有多了很多跟进的研究,内容主要如下: 1) 这个后门完整地存在于发布的 xz 源码包中(5.6.0 和 5.6.1 版本),但上游 git 仓库中存在伪装为测试数据,但并未插入 liblzma 中的载荷,而打包前单独加入源码包中的唤醒代码(它们不存在于 git 仓库中