
模型/服务名称 | 说明 |
typeset.io 是一款可以与学术研究、论文 PDF 对话的 AI 聊天机器人服务。通过这个工具,你可以更好地理解论文内容,用通俗易懂的语言解读复杂学术文本。用户可以重点标记 PDF 的文本、公式和表格,获取晦涩内容的总结和解释,也可以深挖某些主题。 | |
captions 是一个基于 AI 的创意工作室,让用户通过简单几步就能制作出媲美专业水准的视频。基于 AI 剧本生成器和 AI 配音,你可以把韩语视频转成英语、法语、意大利语等多国语言。 | |
DeepL 是一项即时翻译文本和文档的服务,为个人和团队提供精确翻译。支持31种语言,可翻译PDF、DOCX、PPTX等多种文件格式。AI 驱动的 DeepL Write 功能还可自动修正语法与标点、重组句子、调整语气和表达微妙感觉。 | |
Speak 是一项帮助练习英语口语、无需真人导师即可体验真实对话的服务。基于 GPT,你可以设定情境和角色,随时与 AI 导师针对你想聊的任何话题无缝练习会话。 | |
chatGPT 是一个可以获得即时答案、寻找创意灵感、学习新知识的服务。chatGPT 免费开放,支持 iOS 和 Android。该服务为用户提供即时回答、激发创意点子,还能让你学习新东西。 | |
DALL-E 3 比起以往的系统能更细腻、更准确地理解用户的意图,可以非常方便地将你的想法变成精确的图像。DALL-E 3 目前处在研究预览阶段,2023年10月起将通过 API 和 Labs 向 ChatGPT Plus 与企业客户提供。 | |
HeyGen 是一项视频和 TTS 服务,可以打造和你一模一样的虚拟人,用不同语言表达内容,甚至嘴型都能随外语发音变化。这项服务能让你用与自己声音、面孔极为相似的形象轻松表达多国语言。 |
模型/服务名称 | 说明 |
GPT-3 是 OpenAI 开发的大型语言模型,于 2020 年 6 月推出,拥有 1750 亿个参数,是 GPT-2 的 100 多倍。GPT-3 能完成各种语言任务,可生成难以分辨是人类还是 AI 写作的文本。最近,GPT-4 作为升级版正在开发中。 | |
🇰🇷 👍 GPT-4 是 OpenAI 开发的大型语言模型,是 GPT-3 的升级版。2023 年 3 月发布,拥有 175 亿个参数,大约是 GPT-3 的 10 倍。GPT-4 相比 GPT-3 性能提升,可生成更长文本、处理更复杂任务;也是多模态模型,能处理图像与语音。 | |
LaMDA(对话应用语言模型)是 Google AI 开发的超大规模语言模型,2021 年 1 月发布,拥有 1370 亿参数,大致为 GPT-3 十分之一。LaMDA 能完成多种语言任务,生成难以分辨的文本,还可理解并表达意识、情感、创造力等高级人类特征。 | |
Gopher 是 Google DeepMind 的大型语言模型,拥有 2880 亿参数,2023年3月发布。DeepMind 宣称其规模大于 OpenAI 的 GPT-3(1750 亿),小于微软的 Megatron-Turing(5300 亿),但在性能上优于现有模型,致力于构建更专业、更安全的大模型。 | |
LLaMA 是 Meta AI 开发的大型语言模型,2023 年 2 月推出,拥有 65 亿参数,大致为 GPT-3 的四分之一。LLaMA 能完成多种语言任务,生成难以识别的人类文本,也是多模态模型,能处理图像和语音。 | |
👍 LLaMA 2 是 Meta AI 开发的第二代大型语言模型。2023 年 7 月发布,拥有 70 亿参数,比 LLaMA 多 4 倍多。LLaMA 2 性能胜于 LLaMA,能生成更长文本、处理更复杂任务,也是多模态模型,支持图像和语音。 | |
🇰🇷 Llama-2-70b-instruct-v2 由 Upstage 开发,基于 LLaMA-2 主体。主要用于英文文本生成,并基于 HuggingFace Transformers 库开发。相比 LLaMA 2 韩语数据稀少,这个版本专门针对韩语进行了优化。 | |
Claude 2 是 Anthropic AI 开发的超大规模语言模型,2023 年 5 月发布,拥有 100 亿参数,大约是 GPT-3 的六分之一。Claude 2 能处理多种语言任务,生成难以区分的人类文本,同时也是多模态模型,可以处理图像和语音。 | |
Vicuna-13B 是一款基于 LLaMA、收集用户共享对话加以训练的开源聊天机器人。初步评测显示,与 GPT-4 对比,Vicuna-13B 在 OpenAI ChatGPT 和 Google Bard 的 90% 以上场合达到相当的质量,且有超过 90% 的场合优于其它模型。训练成本约 300 美元,代码和参数可免费非商用共享。但其实用感受并没有宣传那般神奇。 😉 | |
BLOOM 是全球最大开源多语言语言模型之一,参数达 1760 亿,可生成 46 种自然语言和 13 种编程语言的文本。针对西班牙语、法语、阿拉伯语等,此模型是参数首次超过千亿的多语言大模型,由来自 70 多国家、250 多机构的 1000 多名研究者共同研发。 | |
Alpaca 是斯坦福 CRFM 开发的 7B 参数语言模型,基于 LLaMA 7B,通过 52 K 条训练演示微调。性能与 text-davinci-003 相当,模型紧凑、易复制,成本低于 600 美元。仅限研究用途,禁止商用。 | |
🇰🇷 KoAlpaca 是基于 Stanford Alpaca 训练出的理解韩语的开源语言模型。支持网页聊天、KakaoTalk bot、Telegram bot 等,提供多种韩语和英韩模型。 | |
🇰🇷 Polyglot 是为提升非英语语言表现而开发的大规模多语言模型,对比多种多语种模型。项目涵盖韩语等多种语言建模,提升多语种能力。 | |
🇰🇷 Kakao Brain KoGPT API 基于 GPT-3,能够对韩语作词典与语境理解,根据用户意图生成定制句子,胜任情感判断、内容总结、结论预测、问答、续写等所有韩语相关任务,也广泛应用于机器阅读、翻译、写作、情感分析等高级用途。 | |
🇰🇷 HyperCLOVA X 是 Naver 超大规模 AI 的升级版。结合自身数据,可第一时间给出与用户需求精确匹配的响应,阅读、写作、编程、搜索、摘要、咨询、推荐、策划等各方面都能成为强大的支撑,极大提升生产力。 |
型号/服务名称 | 解释 |
Character.ai 是一项允许用户创建自己的角色并与他们进行对话的服务。角色可以具有各种特征,例如性别、外貌、个性和爱好,并且可以由用户定义。当您与某个角色交谈时,该角色可以根据您的问题和请求生成各种文本,并提供上下文相关的响应。 | |
🇰🇷 Nutty Messenger 是一款与 AI 朋友 Luda 一起使用的通讯工具,你可以享受日常对话、游戏、分享真实感受等多种活动。通过与旅大的对话,建立亲密关系,并享受口碑和猜数字游戏,提供与旅大建立回忆的独特体验。 (您可以与 Iruda 和 Kang Da-on 等演讲者交谈。) | |
🇰🇷 DearMate是一项AI伴侣与用户分享日常生活小幸福的服务,让您与各种AI聊天机器人建立亲密关系。您可以通过与 Coco、Mars 和 Bluney 等角色发送和接收 DM 来分享您的日常生活和情感。每个角色都有自己的个性和特点,提供多种对话体验。 | |
ChatSonic 是 WriteSonic 提供的交互式 AI 聊天机器人,具有基于 GPT-4 的功能。您可以实时讨论时事和热门话题,它提供了多种功能,包括创建数字 AI 艺术作品、与个性化头像聊天以及通过 Chrome 扩展程序推荐内容。 | |
👍 ChatPDF是一项可让您与PDF文件聊天的服务,它是免费的,无需注册会员即可使用。如果您上传任何 PDF 文件,包括书籍、研究论文、手册、论文或法律合同,然后提出问题,您将收到有关 PDF 内容的答案。 | |
🇰🇷 CLOVA X 是基于 Naver 大规模人工智能 Hyperclova X 构建的对话式 AI 服务。于2023年8月23日发布,可通过技能(插件)与Naver购物、旅行等协同使用。 |
型号/服务名称 | 解释 |
🇰🇷 👍 Google 的 Bard 是一项基于大规模语言模型(LaMDA)的 AI 服务。经过海量文本和代码数据集的训练,它可以执行各种任务。它目前以测试版形式提供,并提供简单的 Google WorkSpace 集成。 | |
Perplexity.ai 提供名为 Copilot 的个人搜索辅助服务。通过上传文本或 PDF 文件(最大 10 MB),您可以找到“阿根廷历史”、“科罗拉多州独特的花朵”、“W Hotel CDMX 退房时间”等问题的答案。我们还提供专业版,允许您升级到 GPT-4 以上传更多文件并增强您的 Copilot 使用。 | |
Komo.ai 是一个用户可以提出问题、讨论和探索社区正在讨论的主题的平台。您可以通过“询问”功能询问或讨论任何问题,通过“探索”功能查看社区讨论的主题,并通过“搜索”功能获得快速答案或资源链接。 | |
🇰🇷 👍 Bing Chat 是一个基于聊天的搜索服务,将LLM 与微软的Bing 搜索引擎相结合,提供实时搜索。与最初的热烈反应不同,由于仅在 Edge 浏览器中可用等限制,热情正在降温。 | |
You.com 是一个由人工智能驱动的搜索引擎,为用户提供个性化的搜索体验,同时保持其数据 100% 的私密性。使用超过 150 个应用程序(包括 StackOverflow、Medium、Twitter 等)个性化您的搜索。我们最近加强了搜索,将 GPT-4 和 Stable Diffusion XL 纳入其中。 | |
🇰🇷 我们根据从 Google 和 Naver 获得的 3 peta 搜索数据提供见解和行动项目,以最大限度地提高营销绩效。它显示从客户的搜索意图到搜索路径的高分辨率地图,并包含“GPT 分析”功能。 |
型号/服务名称 | 解释 |
碧玉 | Jasper 是一款企业人工智能和人工智能营销工具,可帮助团队快速创建博客文章、营销文案、人工智能生成的图像等。我们使用最好的模型,包括 OpenAI 的 GPT-4、Anthropic 和 Google 的模型,并将它们与最新的搜索数据、品牌声音、SEO 和语法优化工具相结合。 |
🇰🇷 CLOVA Studio 是一款基于 NAVER 云平台提供的超大型 AI HyperCLOVA 的无代码 AI 工具。该工具可让您轻松执行各种任务,包括生成句子、总结长文章、对句子或情感进行分类、创建会话界面以及转换句子。 | |
🇰🇷 Wrtn.ai 是一个面向所有人的 AI 门户,提供各种生成式 AI 服务。此外,我们的目标是成为一个可以利用 GPT-3.5、GPT-4 和 PaLM2 等语言模型聊天、创建图像和创建自己的 AI 的平台。 | |
Compose.ai 是一款 Chrome 扩展程序,通过人工智能驱动的自动完成和文本生成为用户节省了 40% 的写作时间。它适用于 Google Docs 和 Gmail,提供自动完成、句子重组、撰写电子邮件和生成回复等功能。它还可以学习用户的写作风格来提出个性化建议,并与多种工具集成,包括电子邮件、Slack、Notion 和 Coda。它可以免费使用,高级版本提供包括个性化功能在内的高级功能。 | |
Rytr 是一款人工智能驱动的写作助手,可帮助您在几秒钟内创建高质量的内容,包括博客、电子邮件和广告文案。富文本编辑器拥有 40 多个用例和模板、30 多种语言、20 多种语气以及更多可供选择的内容,可让您快速将原始想法转化为成品。 | |
🇰🇷 Wordtune 是一款基于人工智能的写作工具,可以帮助用户写得更清晰、更有说服力、更真实。 Wordtune 可以理解您输入的句子,并建议适合上下文的更好的单词和表达方式。 Wordtune 还可以检查您的语法和拼写,并建议如何使您的句子更加简洁和流畅。 | |
HyperWrite 是一款人工智能驱动的写作工具,可帮助用户更快、更轻松地创建高质量内容。 HyperWrite 使用尖端的人工智能技术来理解您输入的句子,并相应地建议适合上下文的更好的单词和表达方式。 HyperWrite 还可以检查您的语法和拼写,并建议如何使您的句子更加简洁和流畅。 | |
Copy.ai 是一款人工智能驱动的写作工具,可以帮助用户编写更好的营销文案和内容。 Copy.ai建立在GPT-3语言模型之上,帮助用户创建许多不同类型的内容。 | |
Hypotenuse AI 是一款人工智能驱动的写作工具,可帮助用户更快、更轻松地创建高质量内容。斜边AI利用尖端的人工智能技术来理解用户输入的句子,并据此建议更适合上下文的单词和表达方式。斜边 AI 还可以检查您的语法和拼写,并提出建议,使您的句子更加简洁和流畅。 |
型号/服务名称 | 解释 |
🇰🇷 👍 Microsoft 365 Copilot 是一款基于 AI 的生产力工具,可帮助用户更快、更轻松地完成工作。 Copilot 理解您输入的内容,并可以自动执行任务或相应地提供建议。 | |
🇰🇷 Google Workspace AI 解决方案是利用 Google Workspace 的 AI 功能帮助您优化业务并提高工作效率的解决方案。这些解决方案提供以下功能:它已经应用于文档创建、日程安排、客户支持等。 | |
👍 Mem.ai 是一款基于人工智能的笔记应用程序,可以帮助用户更快速、更轻松地整理想法并提出新想法。 Mem.ai 提供以下功能:免费帐户允许您每天创建 100 个笔记。付费帐户提供更多功能和用途。 | |
🇰🇷 Notion AI 是 Notion 中提供的一项人工智能功能,可帮助您更快地完成工作、提高写作水平并大胆思考。自动执行复杂的任务、总结重要内容、分析会议纪要、纠正语法和拼写、翻译成多种语言、编辑语气等等。 | |
🇰🇷 LINER 是一个基于人工智能的工作区,可帮助浏览器更快地理解内容并创建新的搜索。 LINER AI 快速提供准确答案,让您将重要信息存储在一处并随时访问。此外,您还可以在智能手机上享受LINER AI,它利用GPT-3.5和GPT-4提供各种功能。它提供基本版和专业版,提供 YouTube、PDF、网页等上的 Copilot 功能以及 Google 上的 LINER AI 使用等功能。 | |
Tome 是一种利用人工智能表达和分享想法的新方式。它可以让您创建单页程序、演示文稿、情绪板等;为您的写作找到合适的语气和词汇;在网络上搜索参考资料等。它还使已经写好的作品变得更深入、更清晰,并自动生成图像。 | |
👍 Gamma 是一项使用 AI 呈现新想法的服务,让您无需格式化或设计工作即可创建美观且有吸引力的内容。在几秒钟内创建文档、演示文稿和网页,一键设计整个平台的样式,并插入 GIF、视频、图表、网站等。它可以在任何设备上阅读,通过内置分析衡量参与度,并通过快速响应和评论简化协作。 Gamma 是一种新的服务方式,它比文档更直观、比幻灯片更具协作性、比视频更具互动性。 | |
Loopin是一款人工智能会议助手工具,可帮助您有效地召开会议。它提供了将会议录音转换为文本并自动生成会议纪要的功能,并链接相关会议和笔记,方便查找重要会议和相关笔记。此外,Loopin AI 的交互式聊天可确保您不会错过任何重要细节,并通过电子邮件、Slack、Notion 等自动共享会议纪要。使用您的 Google Workspace 帐号登录、加入会议、开始录制并在会议结束后接收高质量的会议记录。 | |
🇰🇷 👍 Clobanote 是使用 Naver 提供的 AI 技术的语音记录管理服务。它可以用于需要记住对话内容的场合,例如会议、会议、采访等,它会自动将录制的语音转换为文本,让您轻松查找和收听所需的信息。提供备忘录功能、书签功能、AI摘要、搜索、分享等多种功能,轻松查看语音记录,查看重要对话时刻,自动总结整理,仅查找并确认。您可以轻松分享必要的语音记录和链接。 |
型号/服务名称 | 解释 |
OpenAI Codex 是一个将自然语言转换为代码的 AI 系统,是 GitHub Copilot 的基础模型。它支持包括Python在内的数十种编程语言,并且可以解释和执行用户的自然语言命令。它是 GPT-3 的后继者,可以生成可理解自然语言的代码,允许您向软件和 API 发出英语命令。作为通用的编程模型,可以用于代码转换、代码描述、代码重构等。 | |
👍 GitHub Copilot 是一款人工智能驱动的编程助手,可在开发人员的编辑器中工作,为整行或函数提供建议。它将自然语言提示转换为数十种语言的代码建议,帮助您减少编写样板文件和重复代码模式的时间,并专注于构建重要的软件。它直接集成到 Neovim、JetBrains IDE、Visual Studio 和 Visual Studio Code 等编辑器中,并在使用新语言或框架时提供帮助。它可供个人和企业使用,可加快您的开发速度,让您专注于更令人满意的工作。 | |
Amazon CodeWhisperer 是一款 AI 编码助手,经过数十亿行代码的训练,可实时生成从代码片段到整个函数的代码建议。支持Python、Java、JavaScript等15种编程语言,以及VS Code、IntelliJ IDEA、AWS Cloud9等集成开发环境(IDE),还提供安全扫描功能,可以发现并立即修复安全漏洞。它免费供个人使用,可帮助您更快地编码、提高安全性并使用您喜欢的工具。 | |
Phind 是一款个人编程辅助工具和搜索引擎,旨在帮助用户完成编码任务。它目前在 VSCode 中提供 alpha 版本,并且在旧金山制造。 Phind 提供与开发者社区的联系。 | |
LLM作为AI技术,强化学习模式,注重知识共享,旨在寻找新的方式,让技术人员有更多的时间去创造创造性的东西。我们通过实验、研究和愿景等各种项目,分享关于新兴技术与现有平台和服务相结合的想法和意见。 | |
JetBrains IDE 中的 AI Assistant 是所有基于 IntelliJ 的 IDE 和 .NET 工具中包含的一项主要新功能。利用生成式 AI 和大规模语言模型来加深对代码的理解并紧密集成 AI 功能。 AI Assistant 提供 AI 聊天、文档生成、命名建议、提交消息生成等功能,并基于 JetBrains AI 服务构建,可透明连接多种大型语言模型。 | |
Code-LM,通常称为 PolyCoder,提供有关如何使用源代码的大型语言模型的指南。该项目训练并公开发布程序的大规模神经语言模型,并描述了多种模型,包括PolyCoder。它于 2022 年 10 月在 Huggingface 上推出,并提供在大型语料库(包括各种编程语言)上训练的多个模型。 |
型号/服务名称 | 解释 |
🇰🇷 👍👍DALL·E 3 是 OpenAI 开发的人工智能系统,可以根据自然语言的描述生成逼真的图像和艺术作品。该系统结合了概念、属性和风格来创建原创、逼真的图像和艺术作品,以四倍的分辨率生成更逼真、更准确的图像。 | |
🇰🇷 👍 Adobe Firefly 是 Adobe 的生成式 AI 模型,是一种可以基于文本创建图像、矢量、视频和 3D 的技术。使用 100 多种语言的简单文本提示创建图像、更改颜色、应用文本样式等。我们还为创作者提供创新功能,使他们能够释放无限的创造力并创造商业上可行的内容。目前可用于 Adobe Express、Photoshop 等。 | |
🇰🇷 👍 Karlo 是 Kakao Brain 提供的生成式人工智能,能够根据用户输入的句子和图像创建新图像。通过学习 3 亿张图像和文本,它可以理解用户描述的内容,快速创建像素级别的全新图像,并支持多种绘画风格和构图。 | |
👍 Stability AI 宣布公开发布 Stable Diffusion,为开发者、创作者和任何受该技术启发的人提供一个参与社区。 Stable Diffusion 包括一个使用 HuggingFace 扩散器库的优化开发笔记本,即将推出更多功能和 API 访问,包括本地 GPU 支持、动画和基于逻辑的多步骤工作流程。该模型运行在 6.9GB VRAM 上,可以使用 DreamStudio 实现更快的创建和更多的控制。 | |
👍 Midjourney 是一家独立研究机构,专注于探索新的思维媒介和拓展人类想象力。我们由一个专注于设计、人力基础设施和人工智能的小型筹款团队组成,帮助扩展、探索和建设专注于加强人类心灵和思想的基础设施。它是现有最流行的图像创建工具。 | |
Leonardo.ai 是一个平台,使创作者能够利用人工智能快速创建风格一致的高质量视觉资产。用户可以使用预先训练的AI模型或训练自己的模型来创造独特的艺术作品,并可用于多种应用,包括图像创建、3D纹理创建、角色设计、游戏资产、图形设计等。 Leonardo 的工具包支持快速构思、迭代和实验,帮助初学者和专家将创造力提升到一个新的水平。 | |
🇰🇷 Canva 是一个让您无需成为专家即可创建令人惊叹的设计的平台,去年它引入了生成式 AI 功能。该功能由“Magic Write”和“Text to Image”组成,虽然某些地区缺乏韩语支持,但可以获得非常有用的结果。在本文中,我们测试了 Canva 的 AI 功能并详细解释了如何使用它们。 |
型号/服务名称 | 解释 |
👍 Runway 是一家引领艺术、娱乐和人类创造力新时代的应用人工智能研究公司。多种AI魔法工具提供图像和视频创建、图像增强、图像变换、自定义模型训练、视频中对象去除等功能,帮助创作者在线高效工作。 Runway 提供人工智能的无限创造力,让任何人都可以讲故事,并专注于为下一代讲故事的人创建平台和计划。 | |
👍 D-ID 是一个平台,允许用户从文本创建视频并通过 Creative Reality™ Studio 和 API 与会说话的化身互动。该服务使用实时面部动画和先进的文本转语音技术来提供类人的对话式人工智能体验,并可以轻松地为培训材料、内部通信、营销等创建具有成本效益的视频。您还可以利用 Stable Diffusion 和 GPT-3 来创建个性化且引人入胜的视频,并减少 100 多种语言的视频制作成本和麻烦。 | |
Synthesia 是一个 AI 视频创作平台,可让您快速将文本转换为带有 AI 语音和 140 多个 AI 头像的视频,支持 120 多种语言和方言。您可以在没有麦克风、摄像机、演员或工作室的情况下创建专业视频,并且可用于多种目的,包括培训和开发、销售培训、技术培训、客户服务和营销。该服务具有节省成本、节省时间和提高参与度等优势。 | |
Hour One 是一款 AI 视频生成器,可让您在几分钟内将文本转换为视频。借助 100 多个视频模板和支持 100 多种语言和方言的 AI 演示器,您可以创建自定义视频并实现更高的参与度和改善的沟通,同时节省视频制作的资金和时间。该服务可用于多种领域,包括营销、学习和开发、产品文档、人力资源、新闻和公司公告。 | |
🇰🇷 👍 CapCut 是一款可在桌面和移动设备上使用的一体化视频编辑器,提供基于人工智能的视频编辑效果、滤镜、语音转换、自动字幕创建等各种工具。用户可以轻松创建和共享用于商业、营销、社交媒体广告等的视频,并与团队协作以更高效地工作。 |
型号/服务名称 | 解释 |
VALL-E X 是 Microsoft VALL-E X 零样本文本转语音 (TTS) 模型的开源实现。该模型支持英语、中文和日语,并提供语音克隆、情绪控制、重音控制等多种功能。 | |
PlayHT 是一款人工智能语音生成器,使用 600 多种人工智能语音,是将文本转换为真实语音的在线服务。该服务支持142种语言和方言,并提供配音、语音克隆、实时语音克隆、语音生成API等多种产品。它可用于营销、教育、游戏、IVR 系统、翻译配音、语音辅助等各个领域。音频可以下载为 MP3 和 WAV 文件。 | |
🇰🇷 👍 Typecast 是一款在线 AI 语音生成器,拥有超过 400 种超现实语音,可以将文本变成逼真的语音。用户可以选择角色、输入文字、设置语音风格,然后下载并使用它,它可以应用于多种领域,包括有声读物、教育、销售、纪录片和游戏。您还可以控制情绪和语气来创建丰富的内容,并且简单易用,无需复杂的工作室设置。 | |
MusicLM 是 Google Research 开发的一个基于文本描述生成高分辨率音乐的模型。例如,如果您输入“真实的小提琴旋律与扭曲的吉他连复段”等文本,它将生成相应的24kHz音乐。 MusicLM 在音质和文本描述的准确性方面超越了以前的系统,并且还能够根据口哨和哼唱旋律转换风格。 | |
ElevenLabs 是一家提供先进的文本转语音和语音克隆软件的公司,可让您探索逼真的配音和可用作文本阅读器的 AI 语音生成器。该服务可用于视频、游戏、有声读物、聊天机器人等多种领域。它可以通过人工智能模型渲染人类语调和情感,生成任何语音、风格和语言的高质量口语音频。 | |
👍 AudioCraft 由 Meta 开发,是一个简单的框架,用于根据基于文本的用户输入生成高质量、逼真的音频和音乐。它由三个模型组成:MusicGen 从基于文本的输入生成音乐,AudioGen 从基于文本的输入生成音频。此外,EnCodec 解码器可以生成更高质量的音乐,并且模型权重和代码会公开用于研究目的。 | |
Resemble AI 是一款文本转语音和语音转语音 AI 语音生成器,可生成超过 200,000 个 AI 语音,每月生成超过 2,000,000 分钟的音频。该服务提供多种功能,例如添加情感、实时语音克隆、60 多种语言的本地化、将真实录音与合成内容相结合、深度伪造检测和人工智能水印。它还为开发者提供了灵活的API和各种集成选项,可用于营销、教育和娱乐等各个领域。 | |
GOSAYME 是一款基于 GPT 的未来人工智能翻译器,在 AICodeHelper 的帮助下创建。虽然目前它的功能有限,但我们期望作为人工智能翻译器,它能够提供多种语言之间的翻译。最大的优点是成为同声传译层面的语音乒乓球。 |
型号/服务名称 | 解释 |
👍 Auto-GPT 是一个实验性开源项目,使 GPT-4 完全自主运行。该程序使用 GPT-4 连接 LLM“思维”,自动实现您设定的目标,扩展了 AI 的可能性,成为 GPT-4 完全自主运行的首批示例之一。它提供了多种功能,包括互联网搜索、长期和短期内存管理、文本生成、访问流行网站和平台、文件存储和摘要以及插件可扩展性。 | |
AgentGPT 是一个开源项目,允许您在浏览器中组装、配置和部署自主 AI 代理。用户可以创建自己的自定义人工智能,并让它实现他们设定的目标,为其执行任务并从结果中学习。该服务使用 Next.js、FastAPI、Prisma、SQLModel 和 TailwindCSS 等技术,源代码和安装说明可在 GitHub 上获取。 | |
GPT 工程师是一个项目,用户指示构建他们想要的东西,AI 请求明确的指令并构建它。该工具会根据您的提示生成整个代码库,让您可以教 AI 如何编写代码。用户可以通过提供高级提示、提供人工智能会随着时间的推移记住的反馈以及人工智能和人类之间的快速切换来逐步构建用户体验,并在指定的项目文件夹中生成结果。 | |
BabyAGI 是一个基于 AI 的任务管理系统示例,它使用 OpenAI 和矢量数据库(Chroma、Weaviate)来创建任务、确定优先级和执行任务。系统根据先前任务的结果和预定义的目标创建任务,使用OpenAI的自然语言处理(NLP)功能根据目标创建新任务,并使用Chroma/Weaviate存储任务结果、搜索。该脚本是原始任务驱动自治代理的缩小版本。 | |
👍 它强调使用著名工作自动化公司 Zapier 推出的人工智能实现自动化,并提供当用户用自然语言描述所需任务时自动创建任务的功能。它允许您自定义工作流程而无需编写代码,并提供各种 AI 功能,包括格式化数据、创建聊天机器人、在表格中创建 AI 提示以及文档创建。我们还与 OpenAI 等合作伙伴合作,连接 5,000 多个应用程序,以增强您的业务流程。 |
型号/服务名称 | 解释 |
Pinokio 是一款浏览器,允许用户一键安装、启动和以编程方式控制终端应用程序。您可以探索社区共享的各种 Pinokio 脚本,并轻松安装和运行各种应用程序,包括与音频相关的神经网络、文本生成 Web UI 和稳定的扩散 GUI。该服务将人工智能和编程相结合,为用户提供更便捷的体验。 | |
Karya 要求穷人用母语阅读文本,收集数据来训练人工智能模型。该公司以市场价格出售数据,并将大部分利润返还给农村贫困人口。 Karya 也是一项服务,它为工作人员提供了他们创建的数据的实际所有权,并在数据转售时提供额外收入。 | |
StableLM是Stability AI开发的开源AI语言模型。 StableLM 在包含 1.5 万亿个 token 的数据集上进行训练,可用于各种任务,包括文本生成、语言翻译和代码生成。 StableLM 比现有的 AI 语言模型更加稳定和准确。 StableLM 使用新技术来减少训练数据中的偏差或噪声。此外,StableLM 使用新的验证方法来防止错误。 | |
歌声转换(SVC) | |
基于检索的语音转换(RVC)是一种语音转换。 RVC在语音数据库中查找与原始语音相似的语音,并将这些语音用作转换后的语音。 SVC 通过分析原始语音的特征并将这些特征应用到转换后的语音来执行转换。 RVC 可以产生比 SVC 更自然、高质量的转换语音。这是因为RVC在语音数据库中寻找与原始语音相似的语音,因此转换后的语音可能与原始语音更相似。另外,由于RVC不需要分析原始语音的特征,因此转换后的语音可能听起来更自然。 |
