我们正在迈向ChatGPT时代——基于大模型的生产力工具
说一下目前可用的一些基于大模型的生产力工具,它们逐渐在提高我日常工作和学习的效率方面发挥着越来越重要的作用。如果你也是AI产品的实践者,在使用这些工具的时候,你可以感受和思考它的设计和效率,它是否解决了颠覆性的能力,以及它与现有流程的融合程度如何。 、如何构建你的商业壁垒等问题。鉴于本文的范围,在下面的描述中我基本上只会集中在功能层面上介绍它们。
学术研究
大型语言模型可实现强大的语义理解、文本摘要和多种交互式查询。该模型可以被认为是一个非常好的信息提取和高级语义搜索助手,它有助于提高相关学术内容材料的发现和访问。每天当我搜索论文或相关研究工作时,我都会使用基于 Google 搜索的附加开发工具。
在寻找相关问题的论文时,我通常会使用以下网站:
- Elicit
- Scite
- Consensus
使用Elicit通常有溢价,使用Elicit仍然是平均结果,充分利用它。例如,我可以在他们的网站上搜索一个问题:多模态模型如何应用于自动驾驶领域? Elicit搜索结果
可以看到左边是自然语言摘要,涵盖了前4篇论文的内容。右侧的论文列表显示除了标准标题和摘要外,还可以显示一些自动提取的信息,如实验方法、评价指标、样本量等。
点击论文详情也可以查看。网站帮助自动总结的某些内容。一些更有趣的文章包括引用本文并提出一些现有问题的其他文章。您还可以在下面的对话框中提出一些关于本文的问题,系统会给出答案并在右侧对应的原文中突出显示,非常友好。 论文题
免费版的Scite也很不错,就连论文结果看起来都比Elicit完整。由于我不搞科研,所以没有深入尝试付费版本。
如果您有一篇感兴趣的论文,并且想要仔细查看其周围的引用关系,您也可以尝试 Connected Papers。例如,如果我输入一篇有关自动驾驶领域多模态应用的文章,我可以得到一个链接图。 关联论文
图中可以很直观的看到哪些与该领域相关的作品影响力更大,参考文献更多。你可以专注于它。
还有专门进行纸质摘要的产品,例如Paper Digest,可以加快浏览速度。 SciSpace 和Explainpaper 可以像助手一样与您一起阅读文档,标记相关内容并随时提出问题。 论文解读的帮助
有了这些工具的支持,研究效率一定会大幅提升。未来,提出好问题和做出前瞻性判断的能力将变得越来越重要。
搜索和学习
如果这不仅限于学术界,很多人也应该使用像ChatGPT这样的工具(如果你发现注册有问题,你可以使用Quora启动的Poe来代替)。一些更广泛的场景。搜索和学习。从教育的角度来看,像ChatGPT这样的东西已经可以作为各个专业领域非常好的老师了。我经常问他这样的问题:
- 帮我创建一个领域的思维导图。
- 告诉我在某个领域有哪些值得一读的5本书。
- 特定领域当前最重要的问题是什么?
- 某个领域最具争议性的人/话题是什么。
- 学习特定概念的动机是什么?
- 某个定理/概念有哪些应用?
- 帮我制定一个xx初学者学习计划。
- 他们问了我一些问题来测试我的某个领域。
- 我想到了一些想法,请大家帮我补充。
- 让他充当某个特定领域的专家,帮助你完成一些特定的任务。
相比搜索引擎,我们可以根据一个问题不断提出后续问题,这节省了我们大量思考关键词、浏览和阅读大量网站的时间。当然,提问技巧还有很多学习和思考的地方。由此,我们也可以想象未来的正统教育会采取什么形式,如何超越人工智能提供的知识点。
如前所述,与搜索引擎相比,在 ChatGPT 上搜索内容缺乏实际来源的链接来验证或扩展阅读。目前,我们可以信赖一些“下一代搜索引擎”产品。例如,我最近使用了很多困惑。 Perplexity Search
您可以看到,在上面的搜索结果中,除了像ChatGPT一样以自然语言提供答案之外,还链接到某些网站参考。用户可以点击查看原文。 。您还可以提出其他问题并进行多轮互动。它与生产就绪的 WebGPT/Sparrow 非常相似。其他类似的产品包括 YouChat、Rationale for Decision-making Problems,Bing 也开始提供类似的功能(更新:非常容易使用,已成为我主要的日常搜索工具)。接下来的比赛应该会非常激烈。
也有一些公司为内部业务打造了搜索集成工具,比如Hebbia、glean。虽然看起来比较早(尤其是前者),但这个方向和产品形态确实非常具有未来感。
扩展到多模态领域,Twelve Labs 等产品已经出现,提供相关 API,使开发人员可以轻松构建支持视频剪辑自然语言搜索的应用程序。
播客/阅读
从2021年开始,我通过播客软件听了很多节目,了解了很多信息,但在笔记中保存相关内容一直是一件痛苦的事情。我一般直接用微信。给自己发一条消息并写一些诸如简短便条之类的内容。今年我通过知乎上朋友的推荐发现了Snipd。当您听到有用的内容时,请单击“创建片段”按钮。软件自动分析语音,然后根据语言模型准备相关摘要并保存。舒服的!此外,它还有很多贴心智能的功能:
- 根据您的收听口味,它还会为您推荐其他播客剧集,让您可以快速发现一些有趣的节目或单集。
- 利用人工智能自动生成某个节目的精彩片段,并快速听到您是否需要播放整个节目。
- 在收听特定剧集时,系统还包含自动生成的章节。尽管有时不准确,但它通常可以帮助您跳过一些无趣的部分。

Snipd 利用大型建模功能来解锁非结构化数据的信息提取、搜索、推荐等应用,并与用户日常使用的播客软件非常无缝地集成。在载体上,这是一个非常具有启发性和创新性的方法。类似理念的产品还有Lazy、Reader等,支持从Twitter、网页、YouTube视频、纸质书等“聚焦”阅读。收藏,非常具有未来感。
最近使用的另一个功能是 Talk to Books。其背后的想法也很有趣。很多时候我们想了解一个问题,看看有没有相关的书籍提供了深入、系统的解释。如果您有一个阅读了所有书籍并提供自然语言界面的大模型,可以让您提出任何您想要的问题,那么这不是摄取高质量信息的一个非常好的方法吗?不过目前好像还没有中文书籍,所以我一般都是用英文来提问和研究相关问题。如果您找到更好的书籍和文档,请访问 libgen 下载全文并感到高兴。 更强大的图书搜索
Bearly.ai也是一个非常有趣的产品。它提供了一个浏览器插件,可以直接帮助您创建网络文章摘要。有趣的是,它还支持亚马逊上的产品分析和评论,快速给你优缺点,节省你的时间。类似的产品包括 TLDR this 等等。 AG1回顾总结
会议
日常工作中也有很多合规要求,或者不参加会议就得回听会议录音,非常时间-消耗。现在很多产品都开启了自动会议音频转录和自动会议摘要功能,比如国内的腾讯会议和国外的fireflies.ai、Vowel等。
写代码
作为一名程序员,每天的工作就是大量的在Google、Stack Overflow、GitHub上搜索、点击,再加上各种ctrl+c、ctrl+v的任务,到最后是很累的天。自从ChatGPT之后,我的背和腿也不疼了。上楼感觉更有精神了,视力也提高到了5.0。
上面虽然是个玩笑,但实际上代表了一种如何寻找大模型应用场景的思考方式。理论上来说,我们日常工作中的各种信息收集和场景处理的内容,比如搜索 Stack Overflow 或 GitHub issues 来排查问题、阅读文档来学习如何使用框架、阅读代码来了解相关逻辑、编写测试、编写代码等。文档等代码优化、模型选择,甚至搜索学习资料/书籍、准备简历/面试问题、生成虚构数据等。 “无所不知”的大语言模型实际上可以提供帮助。
说到代码生成,大家都知道著名的ChatGPT、Copilot等,类似的还有Tabnine、CodeGeeX等。特殊领域也有生成工具,例如扭曲中内置的人工智能能力。可以生成终端命令,PingCAP之前开发的Chat2Query可以帮助自动生成SQL,还有像Seek.ai、Manson等更适合商业用户的数据分析工具。
除了代码生成之外,还有专门用于自动化测试生成的Codium,用于自动文档生成的Mintlify,以及集成各种功能的Bito。程序员在颠覆自己这件事上,真的很无情。 Bito 能力概述
最近我对软件开发做了很多研究和思考。我当时还测试了 ChatGPT 的编码选项。我感觉它还没有能力进行大规模的系统设计,包括重构和控制复杂性。即使我们不掌握这些想法,我们也可以很快保住工作。但后来我开始思考,如果大量的后端代码是由AI自动生成并在机器上运行,那么也许人类不需要“阅读”代码,会不会不方便精心设计人类可读的代码和建筑?现在都无所谓了?例如,像 tooljet 这样的产品已经开始直接从自然语言生成应用程序。作为一个低代码开发工具(类似于Appsmith和retool),它目前支持自然语言输入,生成适当的组件,并在内部实现复杂的查询服务。自动后端可以通过简单的描述直接生成后端API和相关文档(不过我还没有运行过)。将来,也许确实可以用一句话非常快速地创建一个正在运行的应用程序。
除了更通用的编码任务之外,还有很多针对特定技术领域的应用的想法。例如,这篇文章:基础模型可以质疑你的数据吗?以及相关文章使用大型语言模型来清理数据。看起来是一个显而易见的想法,但没想到效果特别好。您可以多思考工作场所中处理非结构化数据的不同场景,找到许多可以帮助您提高效率的想法。
创作
如果你平时需要制作很多ppt,那就关注Tome吧,它支持文本输入,直接生成ppt。从视频演示来看,效果相当不错。
还可以使用大模型来写文章、做笔记。除了前面提到的bearly.ai之外,我通常会开始使用Notion的相关AI头脑风暴、延续、总结、打磨、修改功能(Craft中也有类似的功能)。这类产品直接嵌入到原有的工作流程中,使用起来非常快速、流畅。当然,我们可以尝试其他知名的应用程序,尤其是各种专业场景的应用程序,例如Grammarly、Jasper、Copy.ai、Rytr、jenni等。值得一提的是,OpenAI 投资的 mem 公司看起来更像是原生 AI,而不是 Notion。它不需要复杂的注释分类等,并且看起来比logseq等更“智能”。我最近开始尝试这个产品。 AI的概念
如果你是专业设计师,除了Stable Diffusion、Dall-E 2、Midjourney等需要大量即时调优的通用软件外,你可以找任何软件规格更高、更场景化一些产品,如stockimg.ai、PatternedAI等。
总的来说,创意领域应用最广泛的是大型模型和AIGC,相关有趣的产品也有很多,这里就不多说了。这些工具还可以组合使用,因此原本需要小型专业团队的创造性工作现在可以由一个人完成。例如,要创建视频故事,我们可以在 ChatGPT 中输入主题描述来创建故事。对于特定的图像场景,您还可以使用它生成相关提示,然后将相关图像放入Midjourney中。然后使用Runway、Descript之类的进行视频编辑,Resemble.ai、ElevenLabs进行配音,然后使用AIVA、beatoven.ai、Sounddraw等产品生成的音乐作为配乐。该过程是有效的并且结果非常好。我们甚至看到了像 Simplified 和 Re Purpose.io 这样的一站式社交自媒体场景,包括绘画、写作、视频编辑等。各个方面都涵盖了。
从行业研究的角度来看,一方面,自然语言引导的生成会变得越来越准确和可验证,比如DreamBooth和ControlNet(文本框中应该有类似的工作)。也有一些产品开始集成相关功能,例如与 Instruct Pix2Pix 集成的 Stable Boost、NMKD Stable Diffusion 等。另一方面,多模态融合能力也在不断拓展。或许一两年内,自然语言视频生成很快就会进入制作阶段。
这两年,发布了很多AIGC相关的产品工具。如果您想了解更多信息,请登录 FUTUREPEDIÁ(一个有关人工智能工具的网站)进行探索。
提示外设
网上有很多文章教你如何使用ChatGPT,如何写出更好的问题等等。个人觉得,从长远来看,随着模型能力的增强,提示所需的“神奇”内容量应该会逐渐减少。但就目前而言,它仍然非常有用。
这个 ShareGPT 网站提供了许多使用案例来尝试出色的 chatgpt 提示和一些相关教程、思维框架和工具。当前的模型也存在许多缺陷。这里列出了各个用户发现的ChatGPT和其他LLM bug,供参考,甚至可以作为LLM的基准。
在尝试 Midjourney 时,我还发现了一个类似的网站。您可以看到用户上传的作品以及他们使用的具体提示。典型的有:
- Lexica,支持搜索图像,并且可以用自己的模型自行生成。
- PromptHero是免费的,支持各种平台,并且有多种作业。
- PromptBase,还可以做交易,很有趣。

还有剪辑询问器等工具,可以通过上传图片推断提示是什么。我尝试了一下,中途效果一般。这应该与他们使用自制模型有关。
LLMOps
看了这么多应用程序,你想不想自己开发一款呢?目前,由于MaaS模式的流行,很多看似复杂的AI应用只能由软件工程师快速做出来,这也在一定程度上助推了应用开发的热潮。这里有两个典型的例子。
第一个是 Huberman AI 的示例。用户可以直接在网站上用自然语言提问,AI从Huberman的播客中查找相关信息。该表格已经非常具有未来感(想象一下能够搜索所有公司会议录音)。具体开发过程是,作者使用OpenAI的Whisper将播客内容转换为文本,然后使用embedding-ada-002
模型将文本转换为词向量并存储在Pinecone向量数据库中,最后使用text-davinci-003您可以实现语义级别的搜索和问答。所有这些工作都是由一名开发人员在一个周末内完成的。如果你想从头开始开发模型,你可能甚至没有足够的时间来收集训练数据。
另一个例子来自Dagster CEO关于如何使用GPT-3模型构建企业问答机器人的文章。本文介绍了更多技术细节,包括微调和提示之间的选择、当前 API 的各种限制以及如何解决这些限制、需要组合的各种系统组件等等。读完本文后,我知道如何快速直观地了解这样一个应用程序的开发。这样的应用场景也有很大的想象空间。除了简单的产品文档检索外,博客文章、聊天记录、电子邮件、录音、屏幕截图等。他们可以快速使用这项技术来构建智能问答机器人。 问答机器人构建过程
从前面的例子中我们也可以看到两者有很多共同点,这就是为什么新的LLMOps工具开始出现。目前有LangChain、gpt_index、Dust、Cognosis等其中,LangChain最为著名和流行(这个名字也与之前所说的相呼应,未来的软件系统可以是基于语言的一系列转换模型),它提供快速管理、文档处理、模型调用、对话记忆管理、代理调用、模型评估与比较等功能,可以大大加速基于LLM的应用开发效率。当然,正如前面提到的,其中一些功能对于未来 API 改进或模型演进来说并不那么重要,例如串行编排、查询缓存(省钱)和会话压缩(我的 yy )、模型 a/b 测试、切换(仍然省钱)或一系列微调+调试优化等功能可以具有更长期的价值。就像早期的数据库和Web框架非常复杂,但后来随着技术的进步变得非常容易使用。
与之前带有设备属性的项目相比,市场上开始出现包装更加人性化的产品公司,典型的是brancher.ai,它帮助用户以无代码的形式构建基于大规模模型的人工智能。时代的产物。
ModelHub
最后,如果您想构建或完善自己的模型,HuggingFace 可能是一个不错的选择。很多型号都对标GPT-3,比如BLOOM(指令调优版本:BLOOMZ)、OPT(指令调优版本:OPT-IML)、GLM-130B等,但目前整体效果还是不太好,比如闭源模型。例子包括GPT系列和PaLM等。这里有一篇文章分析了可能的根本原因,并提供了使用场景的建议。强烈推荐!另外,你可以选择更便宜、更针对微调场景的型号,例如 Flan-T5、setfit 等。 GPT使用场景决策树
从之前的各种分析来看,如果没有任何颠覆性的技术变革的话,未来数据的重要性将会变得越来越重要。或许未来Data Hub赛道上也会出现HuggingFace这样的大公司。目前看来,最著名的相关开源数据集可能主要是EleutherAI的the-pile和Common Crawl项目。 GPT文章系列提供了大量关于他们的数据处理方法和质量改进的信息供参考。 Alan Thompson 的这篇文章还总结了主要知名模型背后使用的训练数据集,非常有价值。 LLM 训练数据集列表
版权声明
本文仅代表作者观点,不代表Code前端网立场。
本文系作者Code前端网发表,如需转载,请注明页面地址。
发表评论:
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。