La Ŝtato De Linukso-Voĉo-Rekono

Enkonduko

Mi pasigas multan tempon esplorante artikolojn kaj tre ofte mi pensas pri la temo de artikolo dum ĝi marŝas al la stacidomo aŭ kiam ĝenerale okazas.

Unu vesperon, dum mi marŝis la mejlojn de la mezo al la stacidomo, mi pensis "ĉu ne estus bone, se mi povus registri tion, kion mi volis diri kaj poste transskribi ĝin aŭtomate al teksta dosiero, kiun mi povus redakti kaj formi poste" .

Mi pasigis multajn longajn horojn rigardante la malsamajn eblojn por rekono de voĉo kaj diktado, inkluzive registrante rekte tra mikrofono per diktita programaro en Linukso, registrante la dosieron al MP3 aŭ WAV-formato kaj konvertante ĝin per la komandlinio, krom uzi Chrome kaj aplikoj por Android.

Ĉi tiu artikolo elstaras miajn trovojn post tagoj da malfacila laboro.

Linuksaj Elektoj

Provante trovi diktadon kaj programon pri rekono de voĉo en Linukso ne estas tiel facila kiel ĝi eblis kaj la disponeblaj elektoj ne estas tiel inteligentaj.

Ĉi tiu paĝo en Vikipedio havas liston de eblaj ebloj inkluzive de CMU Sphinx, Julius kaj Simon.

Mi uzas SparkyLinux, kiu nun estas bazita sur Debian Testing kaj mi povas diri al vi, ke la sola paka rekono de pakoj disponebla en la repositorioj estas Sphinx.

La denaskaj Linuksaj programoj, kiujn mi finis provante estis PocketSphinx, kiujn mi kutimis konverti WAV-dosierojn al teksto kaj Freespeech-VR, kiu estas python-aplikaĵo, kiu permesas rekte registriĝi de mikrofono.

Mi ankaŭ provis kelkajn Chrome-programojn inkluzive de VoiceNote II kaj Dictanote.

Finfine mi provis la "Diktadon kaj Retpoŝto" kaj "Talk And Talk Dictation", Android Apps.

Freespeech-VR

Freespeech-VR ne estas havebla en la normaj repositorioj. Mi elŝutis la dosierojn de ĉi tie.

Post elŝuti kaj eltiri la enhavon de la zip-dosiero mi malfermis fina stacion kaj navigis al la dosierujo, kie la dosieroj estis ĉerpitaj.

Mi tajpis la sekvan komandon por malfermi freespeech-vr.

sudo python freespeech-vr

Mi havas paron da aŭdiloj kun sufiĉe deca mikrofono kaj sufiĉe klara suda angla akcento.

La sekva teksto aperis en la freespeech-vr-fenestro:

Bonvenon al la unuaj hundoj de rezulto Hodiaŭ Havi certigadon Kiel administri provojn Oni devas provi Kiam al teksto Uzu la sisteman vojon Parolado I the To unu ĉiu estis Nur En Espero Resti Kaj La Rimedoj De Unu Kokoj Ora kiel Sistemo La Ea, kiam mia nomo, la sekva ofico vokas telefonon Ĉi-dosieron Baldaŭ kazos telefonon al Manoj- Spaco la sfinkso Iranta Tio ne estas telefonoj estos dividita Trejnita kaj kaj iloj Uzu parolanton Kiam vi finis Diri uzatan dosieron Lasta rakonto A Kaj uzante per la Kiam ĝi estas tre kiel sukceso Ĉi Linukso estis kiel Vi evitas

Mi ŝatus diri nun, ke ĉi tio ne estas la retejo de Unueco De Hundoj kaj mi tute ne menciis ion ajn pri Oraj kokidoj. Mi efektive provis priskribi la procezon uzi programon pri rekono de voĉo.

Mi provis la programaron malmultajn fojojn, inkluzive diversan tonalton kaj rapidon, sed la precizeco estis malriĉa.

PocketSphinx

PocketSphinx povas preni WAV-dosieron kaj konverti ĝin al teksto per la komandlinio.

PocketSphinx estas havebla per la repositorioj Debian kaj devus esti havebla por multaj distribuoj.

La ĉefa temo, kiun mi trovis kun PocketSphinx, estas, ke vi preskaŭ bezonas gradon en la konceptoj de voĉo, lingvaj dosieroj, vortaroj kaj kiel trejni la sistemon.

Post instali PocketSphinx vi devas iri al la retejo de Sphinx de la CMU kaj legi tiom da informoj kiel eble. Vi ankaŭ bezonas elŝuti la jenan modelan dosieron.

(Se vi ne estas denaska angla parolanto elektu la lingvan modelon, kiu taŭgas por vi).

La dokumentado por PocketSphinx kaj Sphinx ĝenerale estas malfacile kompreni por la laico, sed el kio mi povus eltiri vortajn dosierojn estas uzata por provizi liston de eblaj vortoj kaj lingvaj modeloj havas liston de eblaj prononcoj.

Por provi PocketSphinx mi uzis registradon de mia propra voĉo, fragmento de Al Pacino en "The Devils Advocate" kaj fragmento de "Morgan Freeman". La punkto de ĉi tio estis provi malsamajn voĉojn kaj por mi ekzistas neniu, kiu klare rakontas historion kiel Morgan Freeman kaj neniu donas linion kiel Al Pacino.

Por PocketSphinx funkcii, ĝi bezonas WAV-dosieron kaj ĝi devas esti en certa formato. Se la dosiero estas en formato MP3 uzu la komandon ffmpeg por igi ĝin en formato WAV:

ffmpeg -i inputfilename.mp3 -acodec pcm_s16le -ar 16000 outputfilename.wav

Kuri PocketSphinx uzu la jenan komandon:

pocketsphinx_continuous -dict /usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic -infile voice2.wav -lm cmusphinx-5.0-en-us.lm 2> voice2.log

pocketsphinx_continuous prenas WAV-dosieron kaj konvertas ĝin al teksto.

En la komando supre pocketsphinx oni devas uzi vort-dosieron nomitan "/usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic" kun la lingva modelo "cmusphinx-5.0-en-us.lm". La dosiero konvertita al teksto estas nomita voice2.wav (kiu estas registrado, kiun mi faris per mia voĉo). Fine la 2> metas la tutan verkon de verbo, kiun vi nepre bezonas en dosieron nomitan voice2.log. La realaj rezultoj de la testo estas montritaj ene de la fina fenestro.

La rezultoj uzante mian voĉon estas la jenaj:

Bonvenon al la sekva pri bone ne ĉi-semajna temo pri kiu rekono programaro en minuto

La rezultoj ne estas tiel teruraj kiel kun freespeech-vr sed ankoraŭ ne vere utilaj. Mi tiam provis uzi PocketSphinx kun Al Pacino sed ĉi tio redonis neniujn rezultojn.

Fine mi provis uzi la voĉon de Morgan Freeman de la filmo "Bruce Almighty" kaj jen la rezultoj:

000000000: ni havos ŝin
000000001: ĉio estas tre malfacile, la tago, kiu nun estas jes, jen la plej ni vivis, mi estas parto de la varmego.
000000002: en la lifto, kiu estas la ŝlosilo el iom da bazpilkado en la horo aŭ scii, kion fari en vivoj
000000003: kio estas tiuj, kiuj rekuperos
000000004: ili ne skribis ĝin
000000005: ili rajtas al mi eksteren
000000006: vi devas esti reguloj
000000007: mi atendis vin
000000008: kaj li lernis ĉi tie, kiu estis ilustraĵo estis la murdita kristnaska festo
000000009: ĝi rezultas unu el la maniero skribi o. azeno, mi pensis, ke malmultaj ĉiam portas unu
000000010: kiel la problemo kunigita ne donos al li la bonon, mi taksas ilin en tiu momento, kiam ni ne pensis, ke mi estas en la mondo, kaj mi vidos tion
000000011: patro, kiu havas ĝin
000000012: kiom multe pri tio
000000013: ĉu tio donas
000000014: ĉio, kio ne falas por tre
000000015: ĝuste en la aŭtuno
000000016: bone tenu nur por mi
000000017: ĝi estas malfeliĉa, se mi pensas, ke ili tuj havos, ke tio, kio ĉiuj edziĝos ĉe ĝi, ne estas, ke ni ŝatas, ke mi ne ŝatas la vojon

Mia testo malfacile povas esti konsiderata scienca kaj la programistoj de PocketSphinx povas diri, ke mi ne uzas la programaron ĝuste. Ankaŭ ekzistas tekniko nomita voĉo trejnanta, kiu povas esti uzata por krei pli bonajn vortarojn kaj lingvajn dosierojn.

Tamen mia plej grava opinio estas, ke ĝi estas tro malfacila por norma ĉiutaga uzo.

Voĉnomo II

VoiceNote II estas Chrome-App kiu uzas la Google Voice-rekono API.

Se vi uzas la Chrome aŭ Chromium-retumiloj, vi povas instali VoiceNote II tra la Reta Butiko .

La ikonoj sur VoiceNote II estas eksterordinaraj kiel vi bezonas starigi la lingvon ĉe la fundo de la fenestro kaj la redakta butono ankaŭ estas ĉe la fundo, tamen la butono de rekordo estas en la supra dekstra pozicio.

La unua afero, kiun vi devas fari estas elekti lingvon, kaj ĉi tio povas esti atingita per klako sur la mondumikono.

Por komenci registradon, alklaku la mikrofonon kaj ekparolos en vian mikrofonon. Ĉar la plej bonaj rezultoj, kiujn mi trovis paroli malrapide, estis ŝlosilo por ke la programaro havu ŝancon daŭri.

La rezultoj ne estis grandaj kiel oni povas vidi sube:

Saluton kaj bonvenon por konekti. Nuntempa artikoloj pri voĉo al teksto-konvertiĝo dunelm farrell recesio 2008 kiel konvertiĝoj kaj ĝi bone bone subtenis la plej bonan vojon mi trovis voĉan tekston aldonon por montri 2014debian aŭ rpm-pakaĵon malfermi ĝin voĉan tipon por paroli al teksto malfermi ĝin se vi volas elekti Kontraŭe elektis en Edinburgh franca germana akiri vin la tempon en unuiĝinta reĝlando ĉe maro mikrofono, kiam vi finis skribi vian tekston kiel teksta dosiero por ke ĝi bone sukcesu, tio estas tre norma angla akcento de suda parto de Englando plej bone por ĝi, sed mi iros al la tekstvio ĉi tiu malproksime kun la reala dokumento kaj vi povas vidi la erarojn, kiujn vi aŭskultas

Dictanote

Dictanoteo estas alia Chrome-App, kiu povas esti uzata por diktimaj celoj kaj rezultis pli intuicia sed la rezultoj ne estis pli bonaj ol VoiceNote II.

Mi nur uzis la demo-versio de Dictanoteo, kiu malhelpas vin krei novajn dokumentojn, sed ebligas paroli pri teksto, kiu jam estas en la redaktoro. Mi povis provi la voĉan rekonon, sed la rezultoj ne estis pli bonaj ol VoiceNote II, do mi ne subskribis por la versio.

Diktado kaj Poŝto

"Diktado kaj Poŝto" estas Android-Apliko, kiu uzas la denaskan reklaman API-voĉon de Google.

La rezultoj de "Diktado kaj Poŝto" multe pli bone ol iu ajn de la alia programo provis ĝis ĉi tiu punkto.

Saluton al Linukso pri. Hodiaŭ ni parolas pri konverti sonon al teksto

La lertaĵo kun "Diktado kaj Poŝto" estas paroli malrapide kaj prononci tiel same kiel vi povas kun eĉ akcento.

Post kiam vi finis paroli, vi povas retpoŝti la rezultojn al vi mem.

Diskuto kaj Parolado

La alia Android-Apliko, kiun mi provis, estis "Parolado kaj Parolado".

La interfaco por ĉi tiu programo estis la plej bona parto de la grupo kaj la voĉa rekono funkciis tre bone. Post registrado de la diktado mi povis dividi la rezultojn laŭ diversaj manieroj inkluzive per retpoŝto.

Bonvenon al linux pri.Com hodiaŭ ni parolas pri konverti paroladon al teksto

Kiel vi povas vidi la tekston supre estas tute klara, kiel vi eble esperas ricevi. Parolante malrapide estas la ŝlosilo.

Resumo

Indiĝena Linukso havas iom da maniero por iri rilate al Voĉa rekono kaj specife diktado. Estas iuj aplikoj, kiuj uzas la Google Voice API sed ankoraŭ ne estas listigitaj en repositorioj.

La aplikoj de ChromeOS iomete pli bonas, sed la plej bonaj rezultoj sukcesiĝis per mia Android-telefono. Eble la telefono havas pli bonan mikrofonon kaj sekve la voĉa rekono programaro havas pli bonan ŝancon de konvertiĝo.

Por la rekono de voĉo fariĝi vere uzebla, ĝi bezonas esti pli intuicia kun malpli instalilo postulita. Vi ne bezonas ripozi kun lingvaj modeloj kaj vortaroj por fari ĝin komprenebla.

Tamen mi dankas, ke la tuta arto de voĉo-rekono estas tre malfacila ĉar ĉiuj havas malsaman voĉon kaj ekzistas tiom da dialektoj de regiono al regiono en unu lando, kiuj neniam maltrankviliĝas pri la centoj da lingvoj uzataj en la tuta mondo.

Mia analizo do estas, ke la programoj pri rekono de voĉo ankoraŭ funkcias.