O objetivo deste trabalho de investigação é desenvolver um corpus de discurso científico da língua Bodo que contenha a informação necessária para a conceção de um conversor de texto para discurso. No presente estudo, os critérios de conceção de uma base de dados de fala, designada por Speech Corpus, que nos pode fornecer os dados e a informação necessários para fins de investigação da fala, são discutidos exaustivamente com referência a uma língua indiana, o Bodo. Depois de gerar o corpus de fala, tenta-se desenvolver um modelo de anotação da língua Bodo seguindo uma política específica, designada por política de etiquetagem. Para o desenvolvimento do conversor TTS (Text to speech) a partir do discurso contínuo de uma língua, o papel do modelo de anotação seguindo a política de etiquetagem para essa língua específica é muito importante. Assim, estes corpora de discurso anotado podem ajudar os investigadores na transparência do TTS (Text to Speech) da língua Bodo através da máquina de computação.