A extração de textos ou de dados é uma ferramenta de descoberta de conhecimentos que se refere ao processo de extração de padrões interessantes e não triviais de uma base de dados de textos não estruturados. Aqui, apresentamos um novo sistema de aprendizagem automática para extrair conjuntos de dados biológicos (dados de texto/literatura científica) para compreender as relações entre dois genes (dois termos) num texto científico. O sistema imita a inteligência humana e determina com precisão as relações entre dois genes/proteínas. Seleccionámos manualmente os conjuntos de dados da literatura utilizando a curadoria profunda para gerar um conjunto de treino. Além disso, os nossos resultados de previsão foram validados com a ajuda de peritos para gerar confiança na utilização do nosso sistema em diferentes situações em tempo real. Em seguida, o sistema foi automatizado para que pessoas de todo o mundo possam determinar as relações entre duas ou mais moléculas num texto utilizando máquinas de vectores de apoio. Este sistema semi-automatizado é frequentemente aplicado pela nossa equipa para escrever análises sobre um determinado tópico. Por exemplo, a nossa equipa conseguiu analisar e extrair mais de 36 000 documentos para escrever uma revisão sobre ferramentas de acoplamento molecular. Em 2016, a nossa equipa conseguiu reconstruir a rede molecular da obesidade utilizando este sistema (Jaisri et al 2016, Plos One).