返回洞察
产品教程2026-06-23约 8 分钟 阅读

如何在 iPhone 上转录语音备忘录(分步教程)

如何在 iPhone 上转录语音备忘录(分步教程)
TL
Team Laxis
Laxis 团队 @ Laxis

你正从一场会议走回来,脑海里还盘旋着一个尚未成形的想法,于是你掏出手机,对着 Voice Memos 絮絮叨叨地说了九十秒。两天后,你需要把那个想法写下来。可一想到要把整段录音重听一遍、每五秒就暂停一次去打字,你简直恨不得当初从没冒出过这个念头。

好消息是:你大概并不需要这么做。学会如何在 iPhone 上转录语音备忘录只要大约三十秒,因为 Apple 终于把转录功能直接做进了这款 app。坏消息也是有的:原生工具比那些标题党宣传的要挑剔得多。所以,我们就来一步步看看它究竟是怎么运作的、它在哪里悄悄掉链子,以及当它失灵时你该转向什么。

原生方法:直接在 app 里转录语音备忘录

Apple 在 iOS 18 中为 Voice Memos 加入了内置转录功能。在此之前,这款 app 只能录音。如果你想要文字,就得把音频复制到别的工具里。如今,只要你的 iPhone 运行 iOS 18 或更高版本,且是 iPhone 12 或更新的机型,这款 app 就会自行在设备本地转录录音,无需开启任何开关。

人们常常忽略的一点是:这里并没有一个让你点了才开始处理的 "Transcribe" 按钮。转录文本早就静静地生成好、摆在那里,等着你去看。你只需要知道那个按钮藏在哪儿。

如何查看并复制语音备忘录的转录文本

  1. 打开 Voice Memos app,点按你想要的录音。
  2. 找到那个形似一对引号的小小 transcript 按钮。它和 Apple 在 Music 里用于歌词的图标是同一个。
  3. 点按它并选择 View Transcript。文字随即出现,并会随音频播放同步滚动。
  4. 想摘取其中一部分,就选中你要的文字并点按 Copy
  5. 想一次性获取全部内容,就在同一个菜单中选择 Copy Transcript
  6. 粘贴到 Mail、Notes、Messages 或任何文本框里。要把录音和它的转录文本一起发送,就使用标准的 Share 按钮。

整个流程就是这样。无需账户、无需上传、不用盯着进度条等待。而且如果你的 iPhone 支持 Apple Intelligence,你还能对转录文本运行 Writing Tools,一键将其总结或精简,这对于把一段啰嗦的笔记变成两句干净利落的话来说,确实相当好用。

小贴士:尽量在安静的房间里录音。

决定转录质量的最大因素不是软件,而是输入。在安静办公室里口述的备忘录,转录回来几乎完美无瑕。同样一段备忘录,如果是在咖啡研磨机旁或刮着风的街头录的,回来时就满是猜测。如果准确率很重要,那就花三十秒走进楼梯间或停好的车里录。

原生转录在哪里悄悄失了水准

对于一段快速的个人笔记,内置功能很棒。但一旦超出这个范畴,裂缝就显现了——而且在你把重要的事托付给它之前,这些裂缝值得了解。

语言覆盖有限。 截至 iOS 18,转录支持英语(所有变体)、西班牙语、法语、德语、意大利语、葡萄牙语、日语、韩语、简体中文和繁体中文。这大约是十个语言组,而非你或许期待的几十种,而且并非在每个国家/地区都可用。还有一个更隐蔽的陷阱:这款 app 是根据你手机的系统语言来转录的,而不是你实际所说的语言。在一台系统设为英语的 iPhone 上用西班牙语录音,你得到的会是一团乱码。

遇到困难音频准确率会下滑。 对于安静房间里一位口齿清晰的说话者,准确率大约在 85% 到 90% 之间。这听上去很高,可一算就明白:在一段 500 字的笔记里,10% 出错就是 50 个字要你去修。再加上背景噪音、浓重口音或行业术语,这个数字还会进一步下滑。

没有说话人标注。 对于任何要录一段对话的人来说,这是个大问题。Voice Memos 是为捕捉单个人而设计的,所以一段双向交谈回来时是一整块不间断的文字,分不清谁说了什么。又长又多说话人的录音恰恰是你最想要转录文本的场合,也恰恰是原生工具最薄弱的地方。

转录旧备忘录以及来自别处的音频

有两种常见情形是内置功能没有明显覆盖到的:你多年前录下的那一堆备忘录,以及那些一开始就从未存在于你 iPhone 上的音频。

旧备忘录是简单的情况。一旦你的手机升到 iOS 18 或更高版本,只要打开一段较旧的录音即可。只要其中含有语音,Voice Memos 就会自动转录它,方式与处理新录音一样。这里没有批量按钮,也没有单独的转换步骤,所以如果你有五十段在意的旧笔记,就得一段一段地打开。麻烦是麻烦,但管用。

来自别处的音频——一个 Zoom 导出文件、一条 WhatsApp 语音消息、一段在朋友的 Android 上录的采访——就更棘手了。原生转录只适用于在 Voice Memos app 里录制并存储的录音。如果你能把这个文件外放出来,一个低技术含量的变通办法就是把它重新录进 Voice Memos,但你会损失质量并掺入房间噪音,从而影响准确率。这通常就是人们不再跟原生工具较劲、转而请来专门工具的时刻。比如,Laxis 是一款 AI 会议助手,能转录上传的音频和实时通话,支持超过 40 种语言,会添加说话人标注并撰写摘要,这样一段下载好的录音无需重录折腾就能变成可搜索的文字。这与随手记一条个人笔记是截然不同的任务——而这恰恰是重点所在。

小贴士:一支像样的外接麦克风胜过任何软件升级。

没有任何转录引擎——无论是 Apple 的还是别家的——能还原麦克风从未清晰捕捉到的词。一个夹在领口的 30 美元领夹麦,甚至只是把手机拿得离嘴更近一点,对准确率的提升都胜过换一款 app。干净的音频进,干净的文字出。

何时改用第三方 app

如果原生功能满足你的需求,就别想太多了——它免费,而且已经在你手机上了。当你一再撞上它的某堵墙时,才需要另寻他处。下面是和主要替代方案之间诚实的取舍。

专门的转录 app(独立的语音转文字工具)通常能处理文件上传、支持更多语言,并让你导出干净的文档。代价是:一旦超出小小的免费额度,大多数都要收订阅费或按分钟计费,而且许多至今仍无法很好地区分说话人。

AI 会议助手 在录音是一段对话——一次销售通话、一场客户会议、一段两人采访——时才是正确之选。它们能识别谁在说话,提炼出待办事项和决策,并起草一份你真能快速浏览的摘要。代价是它们是围绕会议和通话打造的,所以用来记一条五秒钟的买菜提醒就大材小用了。

诚实的定位是这样的:个人语音备忘录非常适合在一个想法蒸发之前把它捕捉下来,而 iOS 原生功能把这件事做得很漂亮。但对于会议和通话,你想要的是说话人标注、摘要和待办事项——而这正是像 Laxis 这样的 AI 会议助手大显身手之处。它能跨 40 多种语言转录并总结,并与 Zoom、Google Meet 和 Teams 配合使用,于是输出的是一份结构化的记录,而非一堵无人归属的文字墙。

给你的是随手笔记,给你会议的是结构化记录

继续用 Voice Memos 记下会议之间冒出来的灵感吧。至于会议本身,就让 Laxis 自动捕捉每一位说话人、每一份摘要和每一项待办事项,支持 40 多种语言,还有免费方案可以起步。

免费试用 Laxis

结语

这里最有用的习惯根本不是某个工具,而是在你按下录音之前先让录音与用途相匹配。在头一秒就判断好:这是一条说给自己听、用完即弃的笔记,还是日后你需要它成为准确、可归属文字的东西。这一个判断就决定了 Voice Memos 是绰绰有余,还是你应该到一个为更重活打造的地方去录。把输入弄对,那么转录——无论原生与否——大多就会自行搞定。

常见问题

iPhone 会自动转录语音备忘录吗?

在 iOS 18 或更高版本上,会。Voice Memos 会为任何含有语音的录音在设备本地生成转录文本,无需任何设置。你打开一段备忘录,点按那个引号图标的按钮即可阅读。该功能在 iPhone 12 及更新机型上、对一组受支持的语言可用,包括英语、西班牙语、法语、德语、意大利语、葡萄牙语、日语、韩语和中文。

我该如何复制或分享 Voice Memos 的转录文本?

打开备忘录,点按那个引号图标的 transcript 按钮,并选择 View Transcript。要复制其中一部分,选中文字并点按 Copy。要复制全部内容,选择 Copy Transcript,然后把它粘贴到 Mail、Notes 或任何文本框中。你也可以用标准的 Share 按钮,把音频连同它的转录文本一起发送。

我能转录 iOS 18 之前录的旧语音备忘录吗?

可以。一旦你的 iPhone 升到 iOS 18 或更高版本,打开一段较旧的录音,只要其中含有录下的语音,Voice Memos 就会自动转录它。没有单独的按钮去转换旧文件。如果一段备忘录早于该功能出现且其中有语音,转录文本会以和新录音相同的方式呈现。

为什么我的语音备忘录转录文本是错的或乱码?

Voice Memos 是根据你 iPhone 的系统语言来转录的,而不是正在被说的语言。如果你在一台设为英语的手机上用德语录音,结果就会是乱码。背景噪音、浓重口音、技术术语,以及多个说话人相互抢话,也都会让准确率下降。对于安静房间里一位口齿清晰的说话者,准确率通常在 85% 到 90% 左右。

Voice Memos 会标注谁说了什么吗?

不会。原生转录文本没有说话人标注,所以一段两人对话回来时是一整块不分段的文字。如果你需要知道哪句话是谁说的,那就需要一款能做说话人分离(speaker diarization)的专门会议或转录工具,因为 Voice Memos 是为单说话人捕捉而打造的。