Em um futuro próximo, as descobertas científicas poderão ser feitas pela inteligência artificial. Isso se tornou viável depois que novo estudo do Processador de Linguagem Natural (NLP) aprendeu a recuperar informações da literatura científica sem um aprendizado supervisionado, extraindo informações independentemente.

Baseado em 1,5 milhão de resumos de trabalhos científicos, técnicas sofisticadas baseadas em propriedades geométricas e estatísticas de data são utilizadas para identificar nomes químicos, conceitos e estruturas. Ele faz parte de um sistema muito grande chamado machine learning que é feito para acessar, extrair e avaliar informações de dados textuais.

A ideia da tecnologia é muito clara. Vamos supor que queremos entender alguma propriedade relativa a um material específico: o primeiro passo seria buscar as informações em livros, páginas da internet e outros recursos de pesquisa. No entanto, com a NLP, todo o tempo de consumo em pesquisas e leituras pode ser drasticamente reduzido pelos seus métodos sofisticados de conectar ideias e informações textuais. Assim, programas de computadores podem identificar conceitos, relações mutuas, tópicos gerais e propriedades especificas em grandes conjuntos de dados textuais.

No que diz respeito a descobertas científicas, o machine learning classifica as palavras nos dados com base em recursos específicos como “elementos”, “energia” e “aglutinantes”. Por exemplo “calor” foi classificado como parte de “energia”; e “gás” foi agrupado como “elementos”. Dessa maneira, isso ajuda a conectar certos compostos com tipos de magnetismo e semelhança com outros materiais sem necessidade de intervenção humana.

Este método poderia fazer relações complexas e identificar diferentes camadas de informação, praticamente impossíveis de serem realizadas por humanos. Assim, as descobertas poderiam ser feitas com bastante antecedência em comparação com o ritmo natural. Este poderia ter sido o caso da substância CsAgGa2Se4a, que foi identificada rapidamente pela inteligência artificial como termoelétrica, mas que só foi descoberta cientificamente em 2012.

A categorização desta substância ocorreu conectando o composto com palavras como “calcogênio” (material contendo elementos com calcogênio como sulfato), “optoeletrônica” (dispositivos eletrônicos que fornecem, detectam e controlam a luz) e “aplicações fotovoltaicas”. Diante destes termos, a inteligência artificial percebeu que no banco de dados muitos materiais termoelétricos compartilhavam essas propriedades, o que resultou na categorização.

Isso sugere que o conhecimento latente sobre descobertas futuras está, em grande parte, incorporado em estudos antigos. Conectando os artigos científicos rapidamente, a inteligência aritifical consegue nos ajudar a navegar pela enorme quantidade de dados e informações, que continuam crescendo com a atividade humana.

 

Via: The Next Web