网页好读版:https://reurl.cc/2lDeQa
影片提供更详细的操作流程与转录过程,能更快速体验本篇的内容:
https://youtu.be/08kLZRvPD9U
还记得在早期没有AI工具的学生时代,要做逐字稿几乎只能一段段人工听打,不但需要耗
费大量时间,同时也显得较枯燥。
后来智慧型手机开始内建语音辨识功能,虽然也试过几次,但准确度与实用性都还不理想
。
随着近年语音辨识借由导入AI技术再进步,语音转文字已经变得更快、更准确,也更容易
整合进日常工作;不论是需要自动产生字幕的影音创作者、想整理会议纪录或讲座笔记的
学生与社会人士,甚至需要多语言转录的使用者,都能从这类AI工具中受惠。
这次主要以节省时间与提升效率为出发点,实测WhisperDesktop、MyEdit与威力导演三种
AI 语音转文字工具,针对“所需时间”、“准确率”与“方便性”三项重点进行比较,
最后会以图表方式整理差异,方便大家快速了解结果。
https://i.imgur.com/eFfYrNd.jpeg
过程中使用MSI所推出的16吋AI PC,搭载目前笔电市场颇受好评的Intel Lunar Lake架构
,CPU为Core Ultra 7 258V,内建Arc 140V GPU 16GB(64 AI TOPS)、4代NPU(47 AI
TOPS),AI算力比上一代分别提升约3、4倍,皆有助于加快本机AI运算速度。
AI PC轻薄的设计除了具备日常携带的便利性外,也较以往机种拥有更长效的续航力,让
语音转文字处理的流程能在户外或室内等多种情境下顺畅进行,兼具效能与行动力的优势
。
接下来便开始进行这三款AI工具的实际使用方式与转录表现。
第一个要介绍的工具是WhisperDesktop,是一款基于OpenAI Whisper技术所开发的桌面应
用程式,可以在本地端直接进行语音转文字处理,不需要额外撰写程式或使用命令列工具
,对一般使用者来说相当方便。
这套工具的优点除了免费之外,也支援多国语言辨识,操作接口简单直觉,很适合用来处
理日常的录音转录或字幕生成。
首先要到GitHub下载WhisperDesktop。
https://i.imgur.com/TA3IzH0.png
再到Hugging Face下载专用的ggml语言模型。
https://i.imgur.com/vWghnH2.png
设定好模型路径后就可以开始使用,Model Implementation分为GPU、Hybrid、Reference
三种模式。
https://i.imgur.com/z7J2p5i.jpeg
WhisperDesktop支援音讯与影片档两种格式,选择语言以及要转录的档案,设定好输出格
式与转录档储存位置后,就能开始转录(Transcribe)。
输出部分可以选择一般的纯文字档(Text file),或是可直接使用于影片字幕的SRT档
(SubRip Subtitles)。
https://i.imgur.com/bO7b7er.jpeg
这次测试分别使用两段自录影片进行:
第一段是AI笔电发表说明会现场实拍影片、第二段则是Computex 2025快速带看Intel摊位
影片。
两支影片中包含环境噪音、背景音乐、单人演说,以及中英文混杂的内容,长度分别为4
分40秒与1分23秒。
转录时间分别仅需1分30秒与27秒即可完成,将文字档与原始影片透过一字一句重新人工
核对,整理出辨识准确率约落在94~95%。
除了像“Core Ultra”这类专有名词偶尔会误判外,大部分中英夹杂的内容都能正确辨识
。
更特别的是会自动省略像“嗯”、“那”、“这个”等赘词,让逐字稿的可读性更高。
https://i.imgur.com/hFcIiEw.jpeg
最后再以英文演讲影片进行测试,长度达1小时42分。
https://i.imgur.com/ekyyClI.jpeg
这一段转录时间仅27分52秒就能完成。
实测结果看起来,WhisperDesktop对影片长度没有限制,整体效率相当优异,也展现出
AI PC在本地转录任务上的效能优势。
整体流程相当顺畅,也不需要连线云端就能完成辨识。
https://i.imgur.com/eYG0oqW.jpeg
接下来要介绍第二种语音转文字的方法,是透过线上AI工具MyEdit来进行转录。
进到MyEdit网页后,在上方工具列中选择“音讯编辑工具 => 语音转文字”,即可进入转
录页面。
上传音讯档案前,可以先确认语言、档案格式与长度限制是否支援,每转录1分钟音讯需
要消耗1点数。
https://i.imgur.com/oDDuSkp.png
音讯原声支援多种语言,汇出时同样提供纯文字档(Text)或SRT字幕档两种格式可选。
这次同样使用前面提到的两段影片进行测试:
AI笔电发表说明会(4分40秒)与Intel Computex 2025摊位快速带看影片(1分23秒)。
产生时间约为23秒与11秒即可完成,速度相当快。
https://i.imgur.com/bqxNQoF.png
产生后可直接线上播放音档、即时检视内容,也能立即在页面中编辑文字。
整体辨识准确率约95~96%。
不过在部分英文单字上仍有漏字情况,例如“HuggingFace”、“Stable Diffusion”、
“Notebook”等专有名词,偶尔会出现拼字错误。
另外,MyEdit在断句与标点符号的处理较为杂乱,但中文语音的辨识率相当高,对于讲者
语气、语助词及语句节奏也能准确呈现。
整体来说,MyEdit线上工具的接口简洁,搭配即时预览与可编辑功能,在处理音档的逐字
稿或字幕档时,能有效提升效率。
https://i.imgur.com/qLWEMhv.png
如果是影音创作者,或影片档需要制作字幕,可以试试第三种方法 - 威力导演
(PowerDirector)内建的字幕功能。
在软件中汇入档案并开启字幕工具后,选择“AI 语音转文字”即可开始转录。
这项功能与MyEdit相同,同样都是由讯连科技(CyberLink)所开发,因此在产生结果与准
确率上差异不大。
虽然需要先安装威力导演才能使用,但优点在于转录完成后能直接编辑字幕内容并同步制
作影片,等于在同一套软件中就能完成整个流程。
https://i.imgur.com/ebXt7bq.png
选择音讯来源与语言,另外也提供在字幕中加入标点符号的功能。
https://i.imgur.com/0JVog07.png
接着执行制作本段影片字幕。
https://i.imgur.com/ur6QJCL.png
断句与标点符号可自由调整,若发现有重复的用词错误,也能利用上方的“寻找与取代”
功能快速一并修正,操作流程相当直觉。
https://i.imgur.com/yQ4oyOg.png
图为将纹身(相似音字)修改为文生(正确词汇)。
https://i.imgur.com/2ptTqA9.png
字幕完成后,只要点选右上角省略符号内的“汇出字幕 => 汇出(不含样式格式)”,就能
输出SRT档,方便直接套用到影片或上传到平台使用。
https://i.imgur.com/78nNPrb.png
最后来统整这三种方法的使用结果与感想:
以相同的影片档案计算处理速度,威力导演最快,其次是MyEdit,最后是
WhisperDesktop。
WhisperDesktop透过这台AI PC在本地运算效能,虽不及另外两种工具在云端大模型运算
的那样快速,不过仰赖内显140V 16GB,转录速度比预想中要好上不少,加上免连网有更
好的隐私性。
https://i.imgur.com/XC6NF6A.png
这3种工具准确率平均都有95%以上,若内容中英夹杂,建议使用WhisperDesktop,可避免
英文漏字。
若是纯中文内容,用MyEdit或威力导演的精准度会更高。
在方便性方面,MyEdit因为免安装、线上操作最简单,但需要点数且仅支援音档。
WhisperDesktop虽安装步骤略多,但免费且支援音档与影片档,几乎没有长度限制。
威力导演则整合影片编辑、断句调整与快速修正功能,适合想一次完成字幕与影片的创作
者。
https://i.imgur.com/r1Wr49C.png
以上就是本篇对于三种AI语音转文字工具的实测结果。
这台搭载Intel Lunar Lake架构的AI PC,内显140V共用内存容量达16GB,对AI应用相
当有助益,本篇转录语音的过程很顺畅,同时也感受到高续航力与轻薄笔电带来的便携性
。
如果是外出利用空档或用餐时间,随时能执行这几样语音转文字工具,还没到家就完成了
大部分内容,在实际使用中能有效节省处理时间,整体作业效率也比预期更高,对于经常
需要处理影音内容、会议记录或笔记转录的使用者来说,AI PC的效能表现不仅实用,也
更贴近日常应用的便利性。
先前也分享过AI软件编辑影片、外出使用一天AI PC包含视讯与工作软件的文章,过程中
Lunar Lake笔电不论在效能、续航力与温度表现,比起前几代的轻薄笔电更让人满意。
https://i.imgur.com/lURad1s.jpeg
未来随着AI技术的软硬件持续进步,相信会有更高准确率与更多样的应用。
大家可依照各自的需求、预算与硬件做选择,并在挑选工具时能更清楚各自的特性与差异
,希望这次的分享能帮助到有语音转录需求的网友,我们下篇文章见:)