Cómo transcribir memos de voz en el iPhone (paso a paso)
Vuelves caminando de una reunión, con una idea a medio formar dando vueltas en tu cabeza, así que sacas el teléfono y divagas en Voice Memos durante noventa segundos. Dos días después necesitas tener esa idea por escrito. Y la sola idea de reproducir todo otra vez, pausando cada cinco segundos para teclear, te dan ganas de olvidar que alguna vez se te ocurrió.
Buenas noticias: probablemente no haga falta. Aprender a transcribir memos de voz en el iPhone lleva unos treinta segundos, porque Apple por fin incorporó la transcripción directamente en la app. La mala noticia, y la hay, es que la herramienta nativa es más quisquillosa de lo que sugieren los titulares. Así que repasemos exactamente cómo funciona, dónde se desmorona sin hacer ruido y a qué recurrir cuando ocurre.
La vía nativa: transcribir memos de voz dentro de la propia app
Apple añadió la transcripción integrada a Voice Memos en iOS 18. Antes de eso, la app solo podía grabar. Si querías texto, tenías que copiar el audio a otra herramienta. Ahora, si tu iPhone tiene iOS 18 o posterior y es un iPhone 12 o más nuevo, la app transcribe las grabaciones por su cuenta, en el dispositivo, sin nada que activar.
Esto es lo que se le escapa a la gente: no hay un botón «Transcribe» que ponga en marcha una tarea. La transcripción simplemente está ahí, generada en silencio, esperando a que la mires. Solo tienes que saber dónde se esconde el botón.
Cómo ver y copiar la transcripción de un memo de voz
- Abre la app Voice Memos y toca la grabación que quieras.
- Busca el pequeño botón de transcripción con forma de par de comillas. Es el mismo icono que Apple usa para las letras de canciones en Music.
- Tócalo y elige View Transcript. El texto aparece y se desplaza a medida que se reproduce el audio.
- Para tomar un fragmento, selecciona el texto que quieras y toca Copy.
- Para tomarlo todo de una vez, elige Copy Transcript en el mismo menú.
- Pégalo en Mail, Notes, Messages o cualquier campo de texto. Para enviar la grabación y su transcripción juntas, usa el botón Share de siempre.
Ese es todo el flujo. Sin cuenta, sin subida, sin esperar una barra de progreso. Y si tienes un iPhone con Apple Intelligence, puedes ejecutar Writing Tools sobre la transcripción para resumirla o pulirla con un toque, algo realmente útil para convertir una nota dispersa en dos frases limpias.
Consejo: graba en una habitación silenciosa siempre que puedas.
El factor que más influye en la calidad de la transcripción no es el software, es la entrada. Un memo dictado en una oficina en silencio vuelve casi perfecto. El mismo memo grabado junto a un molinillo de café o en una calle con viento vuelve lleno de conjeturas. Si la precisión importa, métete treinta segundos en una escalera o en un coche aparcado.
Dónde se queda corta la transcripción nativa sin hacer ruido
Para una nota rápida en solitario, la función integrada es estupenda. Llévala más allá y aparecen las grietas, y conviene conocerlas antes de confiarle algo importante.
La cobertura de idiomas es limitada. A partir de iOS 18, la transcripción funciona en inglés (todas las variantes), español, francés, alemán, italiano, portugués, japonés, coreano, chino simplificado y chino tradicional. Eso son unos diez grupos de idiomas, no las decenas que podrías esperar, y no está disponible en todos los países. Hay además una trampa más sutil: la app transcribe según el idioma del sistema de tu teléfono, no el idioma que en realidad estás hablando. Graba en español en un iPhone configurado en inglés y obtendrás un disparate.
La precisión flaquea con audios difíciles. Para un solo hablante claro en una habitación silenciosa, espera alrededor de un 85 a 90 por ciento de precisión. Suena alto hasta que haces las cuentas: en una nota de 500 palabras, un 10 por ciento de error son 50 palabras que tienes que corregir. Añade ruido de fondo, un acento marcado o jerga del sector y la cifra sigue bajando.
No hay etiquetas de hablante. Este es el gran inconveniente para cualquiera que grabe una conversación. Voice Memos se diseñó para captar a una sola persona, así que una charla entre dos vuelve como un bloque de texto ininterrumpido sin saber quién dijo qué. Las grabaciones largas y con varios hablantes son justo donde más querrías una transcripción, y justo donde la herramienta nativa es más débil.
Transcribir memos antiguos y audio de otros sitios
Dos situaciones habituales que la función integrada no cubre de forma obvia: la pila de memos que grabaste hace años y el audio que nunca vivió en tu iPhone en primer lugar.
Los memos viejos son el caso fácil. Una vez que tu teléfono tiene iOS 18 o posterior, basta con abrir una grabación antigua. Mientras contenga habla, Voice Memos la transcribe automáticamente, igual que con las nuevas. No hay botón de lote ni un paso de conversión aparte, así que si tienes cincuenta notas viejas que te importan, las irás abriendo de una en una. Es molesto, pero funciona.
El audio de otro sitio —una exportación de Zoom, un mensaje de voz de WhatsApp, una entrevista grabada en el Android de un amigo— es más complicado. La transcripción nativa solo se aplica a grabaciones hechas y guardadas en la app Voice Memos. Si puedes reproducir el archivo en voz alta, una solución de baja tecnología es volver a grabarlo dentro de Voice Memos, pero perderás calidad y captarás ruido de la sala, lo que perjudica la precisión. Suele ser el momento en que la gente deja de pelear con la herramienta nativa y recurre a algo hecho a propósito. Laxis, por ejemplo, es un asistente de reuniones con IA que transcribe audio subido y llamadas en vivo en más de 40 idiomas, añade etiquetas de hablante y redacta un resumen, de modo que una grabación descargada se convierte en texto que se puede buscar sin el baile de volver a grabar. Es un trabajo distinto al de garabatear una nota personal rápida, y ese es justamente el punto.
Consejo: un micrófono externo decente supera a cualquier actualización de software.
Ningún motor de transcripción, el de Apple ni el de nadie, puede recuperar palabras que el micrófono nunca captó con claridad. Un micrófono de solapa de 30 $ prendido al cuello, o incluso simplemente acercar el teléfono a la boca, hace más por la precisión que cambiar de app. Audio limpio a la entrada, texto limpio a la salida.
Cuándo usar mejor una app de terceros
Si la función nativa cubre tus necesidades, no le des más vueltas: es gratis y ya está en tu teléfono. Mirarás a otro lado cuando choques una y otra vez contra alguna de sus paredes. Este es el equilibrio honesto frente a las principales alternativas.
Las apps de transcripción dedicadas (las herramientas independientes de voz a texto) suelen gestionar la subida de archivos, admitir más idiomas y permitir exportar documentos limpios. La pega es que la mayoría cobra una suscripción o una tarifa por minuto en cuanto superas un pequeño nivel gratuito, y muchas todavía no separan bien a los hablantes.
Los asistentes de reuniones con IA encajan cuando la grabación es una conversación: una llamada de ventas, una reunión con un cliente, una entrevista entre dos. Identifican quién habla, extraen tareas pendientes y decisiones, y redactan un resumen que de verdad puedes ojear. La contrapartida es que están pensados para reuniones y llamadas, así que son excesivos para un recordatorio de cinco segundos sobre la lista de la compra.
El planteamiento honesto es este: los memos de voz personales son perfectos para capturar una idea rápida antes de que se evapore, y la función nativa de iOS cumple eso de maravilla. Pero para reuniones y llamadas, quieres etiquetas de hablante, resúmenes y tareas pendientes, y ahí es donde un asistente de reuniones con IA como Laxis se gana su sitio. Transcribe y resume en más de 40 idiomas y funciona con Zoom, Google Meet y Teams, de modo que el resultado es un registro estructurado en lugar de un muro de texto sin atribuir.
Notas rápidas para ti, registros estructurados para tus reuniones
Sigue usando Voice Memos para las ideas que surgen entre reuniones. Para las reuniones en sí, deja que Laxis capture automáticamente cada hablante, resumen y tarea pendiente, en más de 40 idiomas, con un plan gratuito para empezar.
En resumen
El hábito más útil aquí no es una herramienta en absoluto, es ajustar la grabación a su propósito antes de pulsar grabar. Decide en el primer segundo si esto es una nota desechable para ti mismo o algo que necesitarás más adelante como texto preciso y atribuido. Ese único juicio determina si Voice Memos es de sobra o si deberías grabar en un sitio diseñado para la tarea más exigente. Acierta con la entrada y la transcripción, nativa o no, en gran parte se ocupa sola.
Preguntas frecuentes
¿El iPhone transcribe los memos de voz automáticamente?
En iOS 18 o posterior, sí. Voice Memos genera una transcripción para cualquier grabación que contenga habla, en el dispositivo y sin configuración. Abres un memo y tocas el botón de comillas para leerla. La función funciona en iPhone 12 y más nuevos en un conjunto de idiomas admitidos, entre ellos inglés, español, francés, alemán, italiano, portugués, japonés, coreano y chino.
¿Cómo copio o comparto una transcripción de Voice Memos?
Abre el memo, toca el botón de transcripción de comillas y elige View Transcript. Para copiar una parte, selecciona el texto y toca Copy. Para copiarlo todo, elige Copy Transcript y luego pégalo en Mail, Notes o cualquier campo de texto. También puedes usar el botón Share de siempre para enviar el audio junto con su transcripción.
¿Puedo transcribir memos de voz antiguos grabados antes de iOS 18?
Sí. Una vez que tu iPhone tenga iOS 18 o posterior, abre una grabación antigua y Voice Memos la transcribirá automáticamente, siempre que contenga habla grabada. No hay un botón aparte para convertir archivos antiguos. Si un memo es anterior a la función y tiene habla, la transcripción aparece igual que en las grabaciones nuevas.
¿Por qué mi transcripción de memo de voz está mal o sale ininteligible?
Voice Memos transcribe según el idioma del sistema de tu iPhone, no el idioma que se habla. Si grabas en alemán en un teléfono configurado en inglés, el resultado saldrá ininteligible. La precisión también baja con el ruido de fondo, los acentos marcados, la jerga técnica y varios hablantes solapándose. Para un solo hablante claro en una habitación silenciosa, la precisión suele rondar el 85 a 90 por ciento.
¿Voice Memos indica quién dijo qué?
No. La transcripción nativa no tiene etiquetas de hablante, así que una conversación entre dos personas vuelve como un único bloque de texto sin dividir. Si necesitas saber quién dijo cada línea, querrás una herramienta de reuniones o transcripción dedicada que haga separación de hablantes (speaker diarization), ya que Voice Memos se diseñó para la captura de un solo hablante.