De tempos em tempos, a DeepMind, empresa que faz parte da Alphabet adquirida pelo Google em 2014, revela mais detalhes espantosos sobre sua tecnologia de inteligência artificial e as capacidades da AlphaGo em sua versão “Zero”, um sistema criado para dominar o jogo de tabuleiro Go. Da última vez que a máquina apareceu, foi porque ela conseguiu aprender em apenas três dias o jogo e superar profissionais sem necessidade de treinamento com humanos, apenas competindo contra si próprio.
Agora um novo documento mostra que a DeepMind aprimorou a tecnologia do AlphaGo, agora chamado apenas de AlphaZero, de forma que a máquina se tornou capaz de bater campeões em Go em questão de oito horas de autotreinamento. Depois disso, a empresa decidiu ensinar xadrez ao algoritmo, que foi capaz de derrotar o software campeão mundial Sotckfish em questão de quatro horas. Por fim, a AlphaZero ainda levou apenas duas horas para dominar o jogo shogi e derrotar um dos robôs mais capazes na modalidade.
Ou seja: em pouco mais de meio dia, a AlphaZero foi capaz de, a partir de instruções básicas, dominar três modalidades de jogos de tabuleiro complexos e superar softwares e humanos especializados, com técnicas refinadas ao longo de vários anos de treinamento.
Por que isso é importante? Com o AlphaGo Zero, a DeepMind conseguiu um feito interessante, colocando uma máquina para aprender por conta própria apenas com instruções básicas. No entanto, a máquina ainda era restrita em suas capacidades por estar focada em apenas uma tarefa. O experimento com outros jogos mostra que a empresa conseguiu construir um algoritmo mais genérico, que se aplique a outras situações que não sejam um jogo de Go.
Essa conquista é importantíssima para o futuro da DeepMind, porque a conquista de jogos de tabuleiro não é o objetivo final da empresa. A ideia é aplicar os conceitos de aprendizado utilizados para dominar o jogo Go para replicar em situações mais críticas como na medicina, por exemplo.
Como a máquina aprende?
Quando a DeepMind conseguiu sua primeira conquista com o AlphaGo, a empresa utilizava uma abordagem mais simples. A máquina foi alimentada com milhares (talvez milhões) de jogos realizados entre humanos para aprender padrões de movimentações e criar estratégias a partir do que conseguiu inferir disso.
As versões posteriores do sistema se dedicaram a fazer isso sem tentar aprender nada com humanos. As únicas coisas que a máquina recebeu foram as regras básicas do jogo e, a partir daí, o AlphaGo Zero ficava jogando contra uma segunda versão de si mesmo, de modo que ao final de cada jogo o sistema era capaz de analisar o que deu certo e o que não deu para melhorar. Repita isso milhões de vezes e logo você tem uma inteligência artificial especializada em uma tarefa.