Lux-ASR: Automatic Speech Recognition for Luxembourgish
With this interface, we are giving access to our most performant tool for automatic speech recognition of Luxembourgish (speech-to-text). It has been trained on 150+ hours of carefully controlled pairs of audio and transcription snippets and is achieving a word error rate below 10%. We are providing this tool to facilitate the transcription of Luxembourgish audio recordings into written text for research purposes, but also for general public use. The resulting text is following the current spelling rules of 2019.
Either upload an audio file (wav, mp3 or mp4 file format) or use the microphone to record some audio. Hit ‚Transcribe!‘ and after a certain time, the text will appear below. The estimated time for transcription will be displayed as a counter. It is possible to upload recordings with durations up to one hour. You can also try the examples.
Several audio input languages are available (default: Luxembourgish). If the recording contains more than one speaker, setting diarization to ‚On‘ will separate the text of every speaker in the recording along with time codes for their turns. Note that diarization adds some extra time to the recognition process. Three output formats are available: plain text (txt), SubRip Subtitles (srt), JSON (with or without time codes for words) and Praat TextGrid. These files can be downloaded through the link below the transcription. The recognition duration takes approximately up to 10 to 20% of the audio file’s duration. Once the recognition process has started, an estimated time and as well as a timer will be displayed to keep track of the progress. As an experimental feature translation to other languages has been added, which can output the recognized text in English, German, Portuguese or French. Note that these translations take more time to run and are only available for short audio files (up to few minutes).
The maximal size for upload is 500 MB (for mono audio in wav format and a sampling frequency of 16000 Hz).
Note that the actual speech recognition recognition is run on a GPU server outside Europe. Nobody has access to the uploaded audio or the text output. The audio data is streamed to the ASR server and no data is stored on this server or in the network. No data is used to further train the model and no data is transferred to third parties. Do not upload recordings with sensitive data. However, the translation is done at the moment using GPT-4o by Open AI, i.e. the text data is in this case sent to an Open AI server for translation (and is probably used for further training of their language models).
Gilles, Peter, Nina Hosseini Kivanani & Léopold Edem Ayité Hillah. 2023. LUX-ASR: Building an ASR system for the Luxembourgish language. In 2022 IEEE Spoken Language Technology Workshop (SLT) SLT 2022, 1147–1149. Doha, Qatar. https://orbilu.uni.lu/handle/10993/55105.
Gilles, Peter, Nina Hosseini Kivanani & Léopold Edem Ayité Hillah. 2023. ASRLux: Automatic speech recognition for the low-resource language Luxembourgish. In International Conference of Phonetic Sciences (ICPhS), August 7-11, 2023, 3091–3095. Prague: Guarant International. https://hdl.handle.net/10993/55819.
Um dir ein optimales Erlebnis zu bieten, verwenden wir Technologien wie Cookies, um Geräteinformationen zu speichern und/oder darauf zuzugreifen. Wenn du diesen Technologien zustimmst, können wir Daten wie das Surfverhalten oder eindeutige IDs auf dieser Website verarbeiten. Wenn du deine Zustimmung nicht erteilst oder zurückziehst, können bestimmte Merkmale und Funktionen beeinträchtigt werden.
Funktional
Immer aktiv
Die technische Speicherung oder der Zugang ist unbedingt erforderlich für den rechtmäßigen Zweck, die Nutzung eines bestimmten Dienstes zu ermöglichen, der vom Teilnehmer oder Nutzer ausdrücklich gewünscht wird, oder für den alleinigen Zweck, die Übertragung einer Nachricht über ein elektronisches Kommunikationsnetz durchzuführen.
Vorlieben
Die technische Speicherung oder der Zugriff ist für den rechtmäßigen Zweck der Speicherung von Präferenzen erforderlich, die nicht vom Abonnenten oder Benutzer angefordert wurden.
Statistiken
Die technische Speicherung oder der Zugriff, der ausschließlich zu statistischen Zwecken erfolgt.Die technische Speicherung oder der Zugriff, der ausschließlich zu anonymen statistischen Zwecken verwendet wird. Ohne eine Vorladung, die freiwillige Zustimmung deines Internetdienstanbieters oder zusätzliche Aufzeichnungen von Dritten können die zu diesem Zweck gespeicherten oder abgerufenen Informationen allein in der Regel nicht dazu verwendet werden, dich zu identifizieren.
Marketing
Die technische Speicherung oder der Zugriff ist erforderlich, um Nutzerprofile zu erstellen, um Werbung zu versenden oder um den Nutzer auf einer Website oder über mehrere Websites hinweg zu ähnlichen Marketingzwecken zu verfolgen.