标签归档:AI

聊聊Typeless

## 概况

Typeless 前段有点火,火的原因是它不只有语音识别的部分,还有 AI 赋能改写的部分,使用一段时间后,分享一下自己的思考。

## 产品

### 需求思考

我们先粗略地把用户输入需求分为转录和加工,微信输入法等是从文字输入 – 语音转录 – 语音加工发展,Typeless 是直接从语音转录 + 加工发展,但其实用户有时希望仅转录,有时希望 AI 帮忙加工,怎么判断用户想听写还是改写呢?

以笔记场景为例,前几年就出现了 AI 语音笔记产品,个人一个也没用起来,包括 flomo 的语音笔记功能也用得很少,一方面我是文字派,对语音记录没那么感冒,这里面有后续回顾整理(文字检索更方便)和分享到社交平台的考虑,另一方面我是听写派,虽然原始内容略粗糙,但它代表了个人特定时间点下的思考,类似拍照原图直出。当然笔记产品是个框,我们不只会记笔记,也会记录感想、临时内容比如待做的几件事、一些固定话术方便后续发给别人等,总的来说,其中偏个人记录类内容转录即可,偏外部分享、沟通类,有时需要 AI 加工。至于是否做 AI 加工功能,看产品设计者,@少楠 Plidezus 就提过 flomo“不会做任何润色,生成的功能”。

再说博客场景,之前在 四聊 AI 工具 中讨论过,AI 时代的创作,哪些是我们写的哪些是 AI 优化的,其中的边界需要写作者考虑,同时就个人体验而言,语音输入限于初稿,后续的修改还是键盘输入,因为此时非单纯输入,而是在反复权衡,并不需要那么快,同时不管在这一波语音输入产品出现前还是后,个人依然习惯在通勤路上改文章。当然改文章时也存在改写需求,但更多的是基础纠错,如果多改了点比如将风格改得更通俗易懂或其他,就需要用户介入做最后的决策。

再说办公场景,即时通讯需要相对客气的表达比如保留 “哈” 等语气词以显得柔和,写邮件需要更多结构化表达,写文档,如果是产品经理,需要叠加 PRD 怎么写等岗位知识去对用户的原始输入内容进行加工,整体而言,未必需要输出多精妙的洞察但需要规范保证下限比如无文字错误、MECE 等,另外对于在公区办公的多数职场人而言,语音并不方便,想想曾经的坚果 TNT 工作站。

### 实现思路

关于 AI 时代的产品设计,@肖弘 在 播客 中提到 Monica 是基于 context 的功能分发,本质上还是对用户在不同场景下需求的理解和把握,而 context 有助于这个过程的实现。Typeless 官网提到的 “Typeless 根据您使用的应用调整语调和风格,从工作邮件到休闲聊天,确保一切符合上下文” 也是同一认知的体现,毕竟大模型的调用不足以形成产品核心竞争力,基于用户持续使用形成的习惯数据和对不同行业的认知才能,通过输入框所属产品获取更多背景信息,就更有可能输出更准确的内容。举个英语中的多音词案例:May Day、Mayday 还是 MAYDAY?如果是一个欧洲人和朋友聊天,大概率是 May Day,一个美国记者写作,大概率是 Mayday,一个国内歌迷发小红书,大概率是 MAYDAY。

### 市场竞争

下载 Typeless 是受社交媒体影响,但持续在用还是因为其提供了一个月试用期和每日 8000 字免费额度,门槛足够低,有充足的时间尝试并验证自己的需求,至于定价高的问题,不喜欢但理解,一方面是大模型的调用有成本,另一方面在产品初期筛选掉非目标用户同时给自己多点时间迭代,毕竟多数人对效率的追求没那么迫切。

Typeless 在国内的竞争对手,除了 闪电说智谱 AutoGLM 等对标产品,还有 微信输入法豆包输入法 等输入法,其中后者的电脑端已在内测中并且是更强的对手,另外应用侧产品如 flomo、豆包、微信等也集成了语音输入功能,毕竟没有无缘无故的输入,2 月初发布的 Typeless 1.0 强调 “让听写、翻译和任意提问以全新的方式协同工作”,可以看到其也在往应用层发展。

## 使用

### 听写

在家写博客初稿时使用 Typeless(到达免费额度上限后再转同类产品,当然实际很少,因为识别效果差,改的成本还不如直接打字),移动场景语音输入更方便时使用微信输入法。语音输入产品 aha moment 成立的条件除了汽车内等特定场景,更多的还是在于持续输入,比如内容编辑、网文作者、老人幼童等特定人群,或者普通人打字打多了手腕酸痛时,而且要看当时的具体需求,以写作为例,写作的前提是有选题且肚子里有货,此时的使用门槛已不在于工具如何。

### 翻译

暂未使用 Typeless,网页翻译用 沉浸式翻译,对话翻译,部分 IM 如 微信已自带翻译和边写边译功能,对方发过来的话可开启自动翻译(我 – 设置 – 界面与显示 – 翻译),我们要说的话也可开启边写边译(长按聊天框,在弹出选项中选择 “边写边译”)。至于单词翻译,主要使用不背单词(联动后续学习)、豆包(语音识别准确率高)和百度(更符合国情,搜索英文单词百度翻译的结果基本排第一)。

### 提问

暂未使用 Typeless,主要用搜索和 AI 助手,前者 Google 为主,AI 概览真的很好用,如果还没解决,继续查看搜索结果,后者豆包为主,如果回答不满意,复制问题到其他 AI 助手查看回答。

四聊AI工具

## 背景

之前提到要拥抱 AI,先说结论,各种问问题,换句话说,任何问题都可以看下 AI 的意见,具体操作层面,所有输入、决策、输出都过一遍 AI 助手。

## 技巧

首先,移动端豆包,网页端 Gemini,DeepSeek 作为两端的替补。如果还想体验 GPT 等,试试 DeepSider,每天都有免费额度。对于 AI 助手的使用,可以保持这样的态度:有问题 AI 一下,即使当前 AI 的回答未必能完全解决问题。另外,AI 助手的使用门槛在于习惯的改变和提问的门槛,而且很多时候问题比答案更重要。

其次,聊聊各个 AI 助手的使用心得:豆包,语音识别效率高(甚至单独出了个豆包输入法,同时近期也知道了背后的一个重要原因是 “他们奔赴全国各地采集方言,口音的颗粒度细化到了城市内部的区县级”),交互细节完善比如点击可修正问题、双击回答也能很方便地复制或追问,总之输入的便捷性使得豆包相对通用。

关于豆包的使用场景:移动端,一是语音提问,取代百度、Google 等传统搜索;二是识物,通过豆包的打电话功能,摄像头对准物品让豆包回答,这比传统搜索先转换成文字描述或者先拍照再搜索都要方便,识别准确率也还不错;三是辅助背单词,直接语音发问,回答内容长度还行,不过由于一些单词出现过事实性错误,可以给豆包增加(记忆)指令:“回答问题时要核对权威数据”;四是辅助创作,博客写完后发布前,让豆包对着屏幕念一遍,然后视情况探讨、修改内容。

网页端,安装豆包浏览器插件,总结文章和进行其他文字性提问,后者的需求背景包括:一是有时不方便语音提问;二是有些疑问是基于当前网页中的内容的,再拿手机提问没那么方便,毕竟目前还要解锁手机打开豆包,期待 Gemini 版 Chrome 和 Apple Intelligence 的全面开放。

Gemini,排除可用性(访问、付费等门槛)这部分不说,个人感觉事实核查 (Fact-Check)、上下文关联能力很强,连续发问时后续问题的回答会考虑前面的对话内容,这点在要求输出结果是表格时很有必要,既保证了回答风格是我们想要的,同时可以持续优化表格而不用手动修改。虽然 Gemini 也出现过 “为追求行文简洁而误删内容” 的情况,此时直接反馈不要遗漏内容,它在更正的同时会记录到 Instructions for Gemini(类似豆包的记忆功能)中,当然我们也可以提前新增指令。

关于 Gemini 的使用场景:一是文字提问;二是辅助创作,博客发布前让 Gemini 过一遍,问 “还有什么可补充完善的吗”,然后视情况修改,至于是否修改、改多少看当时的心情,毕竟这里存在一个理念问题:如果全按 AI 助手的建议改,人的价值、主体性在哪里,是否有缺陷才是人类,才是自己?

DeepSeek,也是因为话多,比较适合探讨一些开放性问题,更容易有新启发,最近移动端也增加了语音功能,虽然准确率比不上豆包但至少可用了,提问的硬性门槛降低不少,更方便讨论一些相对复杂点的探索向的内容。

关于 Gemini、DeepSeek 网页版的使用,为了避免左侧对话列表过长,可以设定几个主题,然后不同问题只在特定主题里讨论,省得一直 “开启新对话” 然后左侧一堆对话记录。另外,Gemini 用户可以试试 Voyager,完善了 Gemini 网页版的很多交互体验。由于目前 AI 助手还处于一个百家争鸣的状态,为方便多 AI 搜索,一个剪切板管理工具很有必要,微信输入法用户直接用它的剪切板功能即可,非微信输入法用户可能需要专门的工具比如 Paste 等,同时,由于在电脑前主用 Gemini,因此部分常用提示词记在 Voyager 里,暂时没有使用笔记工具记录。

至于其他 AI 助手,百度文心(叫小度不是更好嘛),偶尔(已经慢慢可以这么说了)百度时用用;阿里千问,再有免单活动再下载;腾讯元宝,也是一样,当然微信浏览器上的总结公众号文章功能挺好,竞争就是这么残酷,你必须有比别人强的地方。

关于输入的提示词建议,社媒上的可以了解但不一定用,AI 助手初期也许没那么 “智能”,但这是一个逐步改善的过程,从产品设计角度来说,更好的解决方案是通过和用户的持续对话,识别并理解用户,然后输出内容时自带角色、偏好等。

最后如果只有一个使用建议,那就是持续给反馈,包括为什么删掉 X、改为 Y 如何等,在这个过程中大概率会触发 AI 助手的相关功能和能力边界。如果再加一个建议,那就是问 AI 助手有哪些技巧,其中 “设定角色”(比如作为资深产品经理请回答某某问题)还不错,当然对回答内容有时要做二次确认,同时持续保持质疑。

## P.s.

写这篇文章的过程中看到有网友说 AI 助手不会成为新时代的入口,我的看法恰恰相反,AI 助手一定程度上是传统搜索的升级版,不管输入还是输出,想想早期的百度一下你就知道到(后来没能更进一步的)百度一下你就得到,对比现在 ChatGPT、豆包的语音输入总结输出、Manus 的任务执行,可以看到 AI 助手的体验优势,当然 AI 助手的幻觉是一个长期存在的问题,但我们可以通过给它加 “核对权威数据” 等技术约束条件、提供信息来源等产品功能来降低影响,而且换过来想,传统搜索搜到的东西也不一定正确且完整,最后,粗暴的结论是,考虑 ChatGPT、Gemini、豆包等亿级的用户量和潜在的功能扩展,怎么不算入口呢?

三聊AI工具

## 背景

年初 DeepSeek 爆火(感觉是很久前的事了)后,各家公司都开始加速大模型的研发,这里聊聊目前我常用以及印象深刻的 AI 工具。

## 搜索

– 豆包 & DeepSeek
首先问豆包(任何问题都可以同步看下 AI 的意见),复杂点的、探索向的再问 DeepSeek(一定要试试多轮对话沟通,而且我现在认为 “生成式 AI 其本质是一组数学公式拟合人类语言规律,缺乏真正的理解” 不重要,疗效更重要)。另外近期突然意识到自己的百度使用率大幅下降,之前一直是其忠实用户包括浏览器默认搜索引擎至今还是它,同时虽然百度也全量上线了 AI 搜索,但没感觉出体验差。

– 其他搜索
百度 AI、Google AI 概览、小红书问一问、AI 抖音等。

## 其他

– 小红书笔记评论翻译
年初 “TikTok Refugees” 涌入时小红书上线的功能,已接入 AI,有 “理解力”。

– 网易云音乐锐评听歌品味
用 DeepSeek 给 “红心歌单” 算命,产品方案很网易云也很 MVP。具体操作:“点开「红心歌单 / 我喜欢的音乐」→点击「右上角菜单键」→「复制 DeepSeek 锐评指令」→粘贴到 DeepSeek App 或网页端。即可获得一份专属于你的「歌单算命报告」”。

## P.s.

总的来说,生成式 AI 给我的感觉有点像搜索、LBS,会成为多数产品中的某个功能模块或是技术服务底层,除了部分基础模型公司外,其他公司的 AI 产品很难成长为独立 App 或者说独立 App 的 DAU 将有限,只会是场景、上下文、内容数据驱动。

DeepSeek 服务趋于稳定后,卸载了纳米 AI 搜索,同时豆包依靠 “足够靠谱的语音识别” 留在了桌面 Dock 栏且成为 “DAU App”,另外这次国庆出去时遇到不认识的植物,外甥女说问下豆包,惊觉豆包已经渗透到了大众用户中,然后查了下,原来 App Store 免费应用榜近一年豆包就没跌出过前十。

再聊AI工具

## 背景

春节期间 DeepSeek 在全球爆火,DeepSeek App 也登顶各国 App Store 下载排行榜,影响堪比前一段 tiktok refugee 入侵小红书,具体背景是 DeepSeek 在 2025 年 1 月 20 日 发布了 DeepSeek-R1 开源模型,性能与 OpenAI-o1 正式版相当,那作为我们,是否应该重新 审视 AI 呢?

## 概况

评价前先理解,我们先看看第一个问题,DeepSeek 做对了什么?经过一番知乎,目测 DeepSeek 出圈最大的原因是 性价比(效率);第二个问题,DeepSeek 不是什么?当追问 DeepSeek“说说你的 推理模式特性” 时,其回答(部分)如下:

“我的推理模式主要基于对海量文本数据的学习与模式识别,具备以下特性:
** 概率化生成 **
– 通过统计模型预测最可能的词序列组合
– 输出结果本质上是概率分布的采样结果
这种基于统计学习的推理模式,使其在处理开放域问题时表现出较强的语言灵活性,但在需要严格逻辑推导或专业领域深度推理时仍存在局限。建议使用者对关键信息进行交叉验证。”

由此可以说 DeepSeek 还是生成式 AI,“其本质是一组数学公式拟合人类语言规律”,缺乏真正的理解,有点像斯金纳放在操作箱中的老鼠,TA 并不知道杠杆是什么以及它是如何运作的,只知道 “按压一次杠杆就会出现一粒食丸”,当然不理解不代表没用,正如我们多数人也不理解计算机(也不需要)、人脑是如何工作的但并不妨碍我们使用计算机以及(通过人脑)阅读、思考和写作。

## 应用

经过近一段的使用对比,DeepSeek 在日常问题解答层面比豆包强得有点明显,再次感慨这竟然是一家中国创业公司做出来的。个人体验层面,如果说百度的 aha moment 是信息平权不用再问人(全网索引&部分场景通过框计算等直接给答案)、豆包是足够靠谱的语音识别和答案输出(AGI),那么 DeepSeek 是更超出预期的答案输出(更全面且深度且结构化)以及有意思的思考过程呈现(CoT)。

### 基础场景

1、辅助阅读,作为自己的书友
看一本书前先看看 AI 的内容总结。

2、辅助思考,作为自己的幕僚
任何问题,或者先问 AI,辅助决策(将其当作外部 “系统 1”),或者后问 AI,查漏补缺(将其当作外部 “系统 2”)。

3、辅助写作,作为自己的顾问
不管是写小红书笔记还是博客,文字是思考的总结,最终是对某一问题的阐述,那就可以在过程中问 AI,即使可能存在 “幻觉”。

### 技巧

一是持续反馈,相比搜索,DeepSeek 背后的技术包含强化学习(RL)且会考虑上下文,这就意味着我们可以和 TA 对话并对每次的输出结果进行正负反馈,逐步修正输出结果。这个有点像猜价格游戏,一方持续回答,一方持续反馈价格高了还是低了,逐步逼近目标答案。强化本身是一个心理学概念,强化的结果是增加目标行为出现的可能性,强化理论上是能提高问题解决概率的。

二是多个 AI 工具并用,在搜索时代,傲游浏览器有个很有意思的功能,支持分屏查看同一搜索词在多个搜索引擎中的结果,因为各家各有所长,部分场景百度确实更懂中文。说回 AI 工具的使用,可先在豆包 App 语音提问,然后对于答案不太满意的,主要是非知识类问题,复制问题到 DeepSeek App 提问(考虑 DeepSeek 近期频繁提示 “服务器繁忙,请稍后再试”,可用纳米 AI 搜索 App 替代)。

## P.s.

关于 AI 的未来,和之前搜索引擎等一样,重要的是我们能利用 AI 为自己做什么,在这块,经验依旧重要,好的结果输出依赖于好的问题,而好的问题依赖于个人已知的概念,比如前面问 DeepSeek “推理模式特性” 就是建立在对其一定的了解之上。至于 AI 会取代谁,大概率是不擅长使用 AI 的人,就像那个经典笑话:两人在森林中遇到熊,其中一人开始逃跑,另一人质疑:“我们怎么可能跑得过熊?” 逃跑者回答:“我不需要跑过熊,只需要跑过你。”

## 扩展阅读

1、动态:理解 DeepSeek 出圈后的意义
2、文章:疯狂的幻方揭秘 DeepSeek
3、文档:豆包 “帮我写作” 官方指导DeepSeek 提示词样例
4、播客:那些关于 DeepSeek 的谣言与误解
5、视频:最好的致敬是学习:DeepSeek-R1 赏析

浅聊AI工具

## 概况

AI 是什么,AI 是 Artificial Intelligence,人工智能。最近的这一次 AI 风潮是 2022 年 ChatGPT 等产品带来的,正如 《我想击碎你们对于 AI 不切实际的幻想》 中提到的,本次特指可生成式 AI,其本质是一组数学公式拟合人类语言规律。与此同时,需求是什么,前段看到一句话,所有工具都值得再用 AI 做一遍,虽然这只能反映说话者的无知和虚伪,但我们确实可以根据这个思路去找趁手的 AI 工具。

## 推荐

1、豆包

搜索类,字节跳动出品,部分替代百度,有事没事语音搜索一下,有问题就会有答案。相比百度,在知识类搜索这块,LUI(Language User Interface)的效率高于 GUI(Graphical User Interface)。相比文小言和 Kimi 智能助手,豆包的语音识别率更高且支持修改搜索词(发布这篇文章时 Kimi 也已支持),也是这点让 Kimi 沦为替补,虽然很喜欢 Kimi 和论文一样标注信息来源的结果呈现。

关于如何成为一名语音搜索用户,很多年前手机百度就在推语音搜索,但那时并没有用起来,因为结果主要还是以链接的形式呈现,体验提升不明显。之后的文心一言也没用起来,没有找到使用场景,或者说产品对用户的引导不够。搜索、聊天机器人类产品很大,需要落地于一个一个案例,解决用户的具体问题才会有留存。

说回豆包,它还有电脑端和 浏览器插件(“常驻在浏览器侧边栏,回答问题、总结翻译网页、论文、视频,还能帮你快速写邮件”),不过个人用得不多。

2、微信输入法问 AI

搜索类,“微信输入法 推出的功能,基于腾讯自研的混元大模型,用户可以在输入栏直接提问,获取答案”,具体操作:移动端,输入内容,然后点 “问 AI” 选项,如果没出现该选项,可以点 “×” 关闭候选词,然后点左侧的微信输入法图标 “P” 找到 “问 AI”;电脑端,任意地方输入内容后敲 “=” 可直接获取 AI 回答,适合想了解所输内容指什么时。

3、微信读书 AI 大纲和 AI 问书

内容总结、搜索类,其中 AI 大纲,看一本书前先看看 AI 总结的大纲,AI 问书,在原有全文搜索功能的基础上看看 “AI 问书” 的结果。

4、问问小宇宙

搜索类,搜索播客内容时可以试试,目前只有网页版,体验一般,希望尽早集成到 App 中。至于听播客前想先看内容总结,豆包插件可以解决。

5、哔哩哔哩 AI 视频总结

内容总结类,看视频时帮我们总结,新时代的 “课代表”,具体触发方式包括:网页端,点击视频右下方的 “AI 视频总结” 按钮,另外,豆包插件也能总结;移动端,在视频评论区 “@AI 视频小助理@有趣的程序员 总结一下”。

## P.s.

关于 AI 是多大的机会,需要回归到给多少人解决了多少问题这个点,相信调研、体验过后自己就可以判断这一波生成式 AI 真是大机会还是我们希望它是大机会了。