公开标签 #AI工具
Puppeteer Real Browser 是一个基于 Puppeteer 的工具库,模拟真实浏览器的行为,避免在使用自动化脚本时被网站检测为机器人。它可以有效绕过像 Cloudflare 这样的安全服务,能够自动处理验证码(如 Captchas),提升自动化任务的成功率。Puppeteer Real Browser主要通过针对浏览器的最小修改,保持自然状态,确保最佳的运行结果,特别适合需要复杂的用户交互时(例如填写表单、点击按钮等)。安装系统要求:Linux需安装xvfb(虚拟显示服务器)安装命令:
VDraw.ai 是一个基于 AI 的在线作图工具,只需要填写主题,就能创建信息图表、流程图、图书摘要图、PDF 摘要图、笔记图等,可选择模版,快速生成 png 图片。AI智能生成:通过自然语言描述自动生成图表草稿。模板库丰富:覆盖项目管理、软件开发、教育等场景。协作与分享:支持多人实时编辑、评论及云端存储。跨平台兼容:支持网页端、Windows/macOS客户端及移动端访问。核心功能1、AI绘图助手输入文字描述(如“电商订单处理流程”),AI自动生成流程图框架。支持中英文指令,可调整生成结果的复杂度和
photoshot是一款开源的 AI 头像生成器,用户将自己的个人头像上传后,可借助 Stable Diffusion 模型进行训练,并生成一款拥有不同风格的个人头像。核心功能1、AI头像生成通过用户上传照片训练Dreambooth模型,支持自定义训练步数(默认3000步),提供高清图像升级功能(HD版本模型)。2、特色功能智能提示词生成(集成OpenAI API),多风格头像生成,负向提示词过滤(自动排除低质量图像),用户账户系统(支持邮箱注册/登录)。3、商业化功能Stripe支付集成(支持订阅制收
Crawl4LLM是面向大语言模型预训练的高效网络爬虫,为LLM预训练提供高效的网页爬取解决方案,支持多种文档评分策略(基于文本长度、fastText模型评分、随机评分、入链数量等),可智能筛选高质量训练数据。1、环境配置*要求Python ≥3.10环境依赖库:numpy, tqdm, fasttext, pyyaml, wandb硬件建议:ClueWeb22数据集需存放在SSD硬盘以保证爬取效率2、运行爬虫步骤:1、在configs/目录下创建YAML配置文件2、执行命令:python crawl.
HealthGPT是由DCDmllm团队开发的医学多模态大模型,结合了视觉理解与生成能力,采用异构低秩适应(H-LoRA)技术和三阶段训练策略,能够统一处理多种医学任务。技术架构1、多模态融合机制 通过公式$H\text{-}LoRA = \bigoplus_{i=1}^n (W_i \otimes \Delta W_i)$,实现医学图像特征与文本描述的高效融合。其中,$\otimes$代表张量积运算,确保图像与文本信息的深度整合。2、三阶段训练流程 基础预训练:在MIMIC-CXR等百万级医学影像数据
MatAnyone 是由南洋理工大学与商汤科技联合开发的视频抠像框架,为解决复杂背景下的精准人像提取难题而设计。MatAnyone框架通过创新算法实现了三大技术突破:核心技术架构1、一致内存传播机制 采用类似人脑记忆的视频处理方式,通过$CMP_t = \sum_{i=1}^{n} \alpha_i \cdot M_{t-i}$公式实现跨帧信息传递,确保目标对象在多帧视频中的跟踪稳定性。2、区域自适应融合模块 将视频画面划分为核心区域(身体部分)与边界区域(发梢/衣物褶皱),分别采用不同权重进行特征融合
HiveChat 是一款专为中小型团队设计的协作型 AI 对话平台,支持集成 DeepSeek、OpenAI、Claude 等 12 家主流大模型服务商。核心功能模块多模型统一接口通过管理员统一配置 API 密钥,团队成员可无缝调用包括 DeepSeek、Gemini、Moonshot(月之暗面)、火山方舟等在内的多种大模型服务。系统支持 LaTeX/Markdown 公式渲染、思维链展示及图像理解功能。团队协作管理管理员可通过可视化后台完成用户管理(支持手动添加或开放注册)、服务商配置及权限控制,适用
Memobase是一款基于用户档案的记忆系统,专为生成式人工智能(GenAI)应用提供长期记忆支持。无论是开发虚拟伴侣、教育工具,还是个性化助手,Memobase都能帮助AI系统记住用户信息,理解用户需求,并随着用户的变化不断调整和优化。作为一款开源的长期记忆解决方案,Memobase针对生成式AI应用设计,解决了AI产品因上下文限制而产生的“健忘症”问题。它使AI系统能够跨会话记住用户信息,提供更加个性化的服务。核心功能1、长期记忆存储与检索Memobase通过结构化存储用户画像(如年龄、兴趣、学习风
Auto-Deep-Research 是一个全自动的个人 AI 助理,旨在成为 OpenAI Deep Research 的开源且成本高效的替代方案。该项目基于 AutoAgent 框架开发,专注于深度研究功能,移除了与深度研究无关的组件,以提供更专注的工具。社区兴趣:社区对深度研究替代功能表现出浓厚兴趣,因此团队简化了代码库,专注于深度研究工具的开发。框架扩展性:Auto-Deep-Research 是基于 AutoAgent 框架的第一个即用型产品,展示了如何快速轻松地创建强大的 Agent 应用程
Step-Audio是首个支持多语言对话与情感语调生成的开源智能语音交互框架,专为智能语音交互开发,融合了语音理解与生成能力,支持多语言对话(包括中文、英语、日语)、情感表达(如喜悦、悲伤)、地方方言(如粤语、四川话)、可调节语速以及多样化的韵律风格(如说唱)。Step-Audio的核心技术创新包括:130B参数的多模态模型:能够同时实现语音识别、语义理解、对话生成、语音克隆和语音合成功能,显著提升了语音交互的智能化水平。生成数据引擎:通过生成高质量音频数据,减少了对传统文本转语音(TTS)技术中手动数
Hacker News 中文播报主要特性🤖 自动抓取 Hacker News 每日热门文章🎯 使用 AI 智能总结文章内容和评论🎙️ 通过 Edge TTS 生成中文播报📱 支持网页和播客 App 收听🔄 每日自动更新📝 提供文章摘要和完整播报文本Hacker News 中文播报技术栈Next.js 应用框架Cloudflare Workers 部署和运行环境Edge TTS 语音合成OpenAI API 内容生成Tailwind CSS 样式处理shadcn UI 组件库工作流程定时抓取 Hacker
Perplexity推出了新功能Deep Research,提供深度研究报告生成功能,对所有用户免费开放,普通用户每天可查询五次,Pro用户有500次查询限制。Deep Research性能强大,准确率高,通过复杂分析生成详细报告,它分析大量数据并进行推理,生成金融、市场营销和技术等领域的深度报告,用户只需输入问题,Deep Research便会整合资料并以专业报告形式给出答案。测试中,Deep Research表现超越许多现有AI模型,准确率在不同基准测试中显著优秀,大多数研究任务平均只需3分钟完成,
1. 官方推荐方式:完整版 DeepSeek V3 和 R1DeepSeek 官方提供的版本功能最全,尽管开源,但官方对使用体验进行了优化,效果最佳,且完全免费。网页版:支持所有设备和浏览器,手机、电脑均可使用。手机版:在手机应用商店搜索 DeepSeek,下载安装即可。2. 本地部署:精简版 DeepSeek V3 和 R1本地部署适合希望长期稳定使用的用户,只要电脑正常运行,就能持续使用 DeepSeek。不过,个人电脑性能有限,通常只能运行精简版,占用资源较少,但性能也相对较弱。部署步骤:访问 O
DeepSeek 震撼世界的原因不仅在于与 ChatGPT 相媲美的 AI 能力,更在于它的开源特性,任何人都可以自行部署运行DeepSeek R1、V3 等模型。除了官网,我们还可以使用第三方云服务作为替代。在国内最简单直接使用完整版 DeepSeek R1 并免费领取 Token 额度的方式是硅基流动 (SiliconFlow)提供的第三方 API 服务。注册硅基流动账号后,即可领取 2000 万 Token 的免费额度,足够普通用户长期使用。超过额度后的定价与 DeepSeek 官网一致。用户可以
Cherry Studio 是一款专为专业用户设计的桌面客户端,支持多模型服务,内置 30 多个行业的智能助手,帮助用户在多种场景下提升工作效率。多模型服务聚合Cherry Studio 集成了超过 300 个大语言模型,用户可以根据需求自由切换模型,充分利用不同模型的优势解决问题。目前已支持的服务商包括 OpenAI、SiliconFlow、deepseek、零一万物、智谱AI、月之暗面、OpenRouter、Groq、Ollama、百川智能、阿里云 DashScope、AiHubMix 和 Anth
阿里云PAI Model Gallery支持云上一键部署DeepSeek-V3、DeepSeek-R1。在该平台上用户可以零代码实现从训练到部署再到推理的全过程,简化模型开发流程,为开发者和企业用户带来了更快、更高效、更便捷的AI开发和应用体验。第一步:进入Model Gallery页面https://pai.console.aliyun.com/?utm_content=g_1000401510登录PAI控制台,在顶部左上角根据实际情况选择地域。并在左侧导航栏选择工作空间列表,单击指定工作空间名称,进
搭建个人专用知识库方法一:1.安装ollama,这是一个用于管理和运行大模型的工具。2.下载所需的大模型,例如DeepSeek,确保模型文件完整且与ollama兼容。3.使用可视化工具如chatbox,加载模型并进行交互操作,方便查看和调试模型的输出结果。搭建个人专用知识库方法二:1.安装前端工具AnythingLLM,这是一个支持多种大模型的前端界面。2.在工具中选择适合的模型,例如DeepSeek,确保模型能够正常运行。3.将所需的知识文件上传到工具中,构建一个完整的知识库,便于后续查询和使用。搭建
今天为大家带来一份 DeepSeek-R1 本地部署手册,可以在自己的设备上自由使用这一强大模型,不受宕机困扰。第一步,安装 OllamaOllama 是本地部署大模型的有力工具,能轻松管理和运行各种模型。访问 Ollama 官网,点击下载,选择适合系统的版本,如 Windows 版。下载完成后进行安装,过程简单,按提示操作即可。安装成功后,系统托盘会出现 Ollama 图标。打开官网,点击 “Models” 按钮,找到 DeepSeek-R1 模型,根据硬件配置(如 4090 显卡、24G 显存可选
对于学习党笔记整理与课程汇报常常让人头疼,联想小天AIPPT凭借其强大的智能识别与自动生成功能,能瞬间让你的笔记变得整洁精美。从课堂笔记、阅读材料到实验数据,你只需导入,AIPPT就能智能提取关键信息,自动排版成条理清晰的内容。在工作职场每一次汇报都是展现自我赢得信任的机会,联想小天AIPPT通过内置的海量专业模板,你是PPT新手也能通过联想小天制作出漂亮大气的演示文稿。联想小天使用步骤1,打开联想小天AIPPT,输入你想生成的PPT内容/导入你现有的补充材料。2,小天会根据你的需求生成大纲,对大纲不满
Kokoro-82M是一个先进的文本转语音模型,参数量为8200万,支持将文本转换为音频。Kokoro-82M模型于2024年12月25日发布,在同年年底前陆续推出了多种声音包。Kokoro-82M在TTS领域的表现尤为突出,尽管训练数据少于100小时,但在多个对比测试中显示出优异的性能,超越了许多参数更多的模型。Kokoro-82M的架构属于StyleTTS 2,提供丰富的声音包选择,模型支持Apache 2.0许可证,可以免费使用和修改。在训练过程中,Kokoro使用了许可的非版权音频数据,通过80
美间AI能免费抠图能免费AI生成海报。1、AI真实增强:重塑图像真实体验,通过顶级的生成式AI技术增强图像细节,让你的作品焕然一新2、AI智能扩图:让优美景色无边无际,AI智能延展扩图,支持照片、插画多类内容3、AI漫画脸:用AI开启照片的新世界之旅,一键即可将人像照片转为各种风格,带你领略有趣又好玩的生成式AI4、AI智能消除:杂物消除的终极利器,基于业内领先的AI算法,对中指定的杂乱区域进行消除5、AI智能抠图:全品类在线一键抠图,零基础3秒出图,发丝级精准,无需PS6、AI营销文案:AI营销文案助
ollama 本地跑大模型:https://ollama.comBolt.New 通过描述需求就能创建并部署web应用:https://github.com/stackblitz/bolt.newDeepL翻译工具:https://www.deepl.comOpenAI ChatGPT:https://chat.openai.com/chatGoogle Gemini:https://gemini.google.com/app通义千问:https://tongyi.aliyun.com纳米搜索:http
TeslaBot GroK率先在美国推出iOS Beta版。GroK App可访问X平台内容,但非实时更新,能获取马斯克几小时前的X推文,Sam Altman、Yann LeCun等人的推文信息可能滞后较多,有些甚至是一年前的内容。打开搜索信源,Grok选择的渠道相对权威,部分中文提问还能关联到X平台上中文博主的回答。每次对话后,Grok会提供几个与问题相关的关键词作为追问方向。与ChatGPT相比,Grok一大优势是国内用户也能直接使用,无需注册,免登录就能使用。若担心隐私安全,Grok提供临时会话选
Fineshare AI 音频创作平台提供多种 AI 音频工具。语音克隆: 只需提供30s的音频,在1分钟内即可创建语音克隆。克隆语音可以说多个语言。文本到语音: 将文本转化为逼真、自然的语音, 能够模仿人物说话的节奏。语音变声器: 将您的声音转换成您喜欢的任何声音。音效生成器: 将文本和视频转化为同步的音效。翻唱:用你最喜欢的声音创建AI翻唱。FineVoice 语音生成器和配音工具轻松克隆各种风格和语言的声音,让您在1分钟内生成逼真的AI声音。使用您喜欢的声音和音效创建视频和画外音。Singify