Przetwarzanie mowy na treść pisany jest zadaniem, które wymaga precyzyjnego odwzorowania wypowiedzi zawartych w nagraniach dźwiękowych lub wideo. Taki proces jest powszechnie stosowany w różnorakich dziedzinach, gdzie znacząca jest dokumentacja wypowiedzi w formie pisemnej. Transkrypcje nagrań umożliwiają przemianę słownych informacji w formę, która może być łatwo analizowana, archiwizowana albo wykorzystana w dalszych działaniach.