Depurando dados: pesquisadores da Microsoft buscam meios de treinar sistemas de IA para refletir o mundo real

Por John Roach //

Hanna Wallach, pesquisadora sênior no laboratório de pesquisa da Microsoft em Nova York (Foto: John Brecher)

A Inteligência Artificial (IA) já está ajudando as pessoas a realizar tarefas como digitar textos mais rápido e tirar fotos melhores, e é cada vez mais usada para tomar grandes decisões, como quem vai conseguir o emprego ou cumprirá pena na prisão. Isso está impelindo os pesquisadores da Microsoft e toda a comunidade de aprendizagem de máquina a garantir que os dados usados no desenvolvimento de sistemas de IA reflitam o mundo real, e que sejam protegidos contra viés não intencional e manipulados de forma transparente e respeitosa com a privacidade e a segurança.

Os dados são a refeição que alimenta a aprendizagem de máquina. É a representação do mundo usada para treinar modelos de aprendizagem de máquina, explicou Hanna Wallach, pesquisadora sênior no laboratório da Microsoft em Nova York. Wallach é copresidente do programa da Conferência Anual sobre Sistemas de Processamento de Informação Neural, em Long Beach, Califórnia. A conferência, mais conhecida como NIPS, atraiu milhares de cientistas da computação de 4 a 9 de dezembro, tanto do mercado quanto da academia, para discutir a aprendizagem de máquina – o ramo da IA que se concentra em sistemas que aprendem com os dados.

“Muitas vezes, falamos sobre conjuntos de dados como se fossem coisas bem definidas, com limites claros, mas a realidade é que, à medida que a aprendizagem automática se torna mais prevalente na sociedade, os conjuntos de dados são cada vez mais retirados de cenários do mundo real, como processos sociais, que não têm limites claros”, disse Wallach que, juntamente com os outros copresidentes do programa, apresentou uma nova área temática no NIPS sobre equidade, responsabilidade e transparência. “Quando você está construindo ou escolhendo um conjunto de dados, precisa perguntar: ‘Este conjunto de dados representa a população que estou tentando modelar?'”

Kate Crawford, pesquisadora principal do laboratório de pesquisas da Microsoft em Nova York, chama isso de “problemas com viés”.

“As pessoas que estão coletando os conjuntos de dados decidem: ‘Oh, isso representa o que homens e mulheres fazem, ou isso representa todas as ações humanas ou rostos humanos’. Esses são tipos de decisões tomadas quando criamos os conjuntos de dados”, disse. “O que é interessante sobre o treinamento de conjuntos de dados é que eles sempre carregarão as marcas da história, que a história será humana e sempre terá o mesmo tipo de fragilidades e tendências que os humanos têm.”

Os pesquisadores também estão analisando de maneira separada, mas relacionada, a questão sobre se há diversidade suficiente entre pesquisadores de IA. A pesquisa mostrou que equipes mais diversas escolhem problemas mais diversos para trabalhar e produzir soluções mais inovadoras. Dois eventos paralelos ao NIPS abordaram essa questão: o 12º Workshop de Mulheres na Aprendizagem de Máquina, onde Wallach, que cofundou a Mulher na Aprendizagem de Máquina, fez uma palestra sobre a fusão da aprendizagem de máquinas com as ciências sociais, e o workshop Black in AI, que foi cofundado por Timnit Gebru, pesquisadora com pós-doutorado do laboratório da Microsoft em Nova York.

“Em alguns tipos de disciplinas científicas, não importa quem encontre a verdade, há apenas uma verdade a ser encontrada. IA não é exatamente assim”, disse Gebru. “Definimos os tipos de problemas que queremos resolver como pesquisadores. Se não temos diversidade em nosso time, corremos o risco de resolver um conjunto estreito de problemas que alguns grupos homogêneos pensam serem importantes, e corremos o risco de não resolver outros problemas que muitas pessoas enfrentam no mundo.”

Timnit Gebru, pesquisadora com pós-doutorado do laboratório de pesquisa da Microsoft em Nova York (Foto: Peter DaSilva)

Núcleo de aprendizagem da máquina

No seu núcleo, o NIPS é uma conferência acadêmica com centenas de trabalhos que descrevem o desenvolvimento de modelos de aprendizagem de máquina e os dados utilizados para treiná-los.

Pesquisadores da Microsoft foram os autores e co-autores de 43 documentos aceitos na conferência. Eles descrevem tudo, desde os últimos avanços na recuperação de dados armazenados em DNA sintético até um método para coletar repetidamente dados de telemetria de dispositivos de usuário sem comprometer a sua privacidade.

Quase todos os trabalhos apresentados no NIPS nas últimas três décadas consideram os dados de alguma forma, observou Wallach. “A diferença nos últimos anos, no entanto”, ela acrescentou, “é que a aprendizagem de máquinas já não existe em um contexto puramente acadêmico, em que as pessoas usam conjuntos de dados sintéticos ou padrão. Em vez disso, é algo que afeta todos os aspectos de nossas vidas”.

A aplicação de modelos de aprendizagem mecânica em problemas e desafios do mundo real é, por sua vez, abordar questões de equidade, responsabilidade e transparência.

“As pessoas estão cada vez mais conscientes da influência que os algoritmos têm em suas vidas, determinando tudo, desde as notícias que elas leem, os produtos que compram até o empréstimo que obtém. É natural que, à medida que as pessoas se tornam mais atentas, elas se preocupam mais com o que esses algoritmos estão realmente fazendo e onde eles obtêm seus dados”, disse Jenn Wortman Vaughan, pesquisadora sênior do laboratório da Microsoft em Nova York.

O problema com o viés

Os dados não são algo que existe no mundo como um objeto que todos podem ver e reconhecer, explicou Crawford. Em vez disso, os dados são feitos. Quando os cientistas começaram a catalogar a história do mundo natural, eles reconheceram tipos de informação como dados, ela observou. Hoje, os cientistas também veem os dados como uma construção da história humana.

A palestra convidada de Crawford no NIPS destacou exemplos de viés de aprendizagem de máquina, como a investigação da ProPublica, organização de notícias, que expôs o viés contra os afro-americanos em um algoritmo usado pelos tribunais e policiais para prever a tendência dos criminosos condenados a reincidir e então discutir como abordar tal viés.

“Não podemos simplesmente impulsionar um sinal ou ajustar uma rede neural convolutiva para resolver esse problema”, disse ela. “Precisamos ter um sentido mais profundo do que é a história da desigualdade estrutural e do viés nesses sistemas”.

Um método para abordar o viés, de acordo com Crawford, é levar o que ela chama de abordagem de análise de sistema social para a concepção, design, implantação e regulação de sistemas de IA para refletir todos os possíveis efeitos de sistemas de IA. Ela descreveu recentemente a abordagem em um comentário para a revista Nature.

Crawford observou que esse não é um desafio que os cientistas da computação resolverão sozinhos. Ela também é co-fundadora do AI Now Institute, um instituto de pesquisa interdisciplinar de primeira linha, baseado na Universidade de Nova York, que foi lançado em novembro para reunir cientistas sociais, cientistas da computação, advogados, economistas e engenheiros para estudar as implicações sociais da IA, aprendizagem de máquinas e tomada de decisão algorítmica.

Jenn Wortman Vaughan é pesquisadora sênior do laboratório de pesquisa da Microsoft em Nova York (Foto: John Brecher)

Aprendizagem de máquina interpretável

Uma maneira de abordar as preocupações sobre IA e aprendizagem de máquina é priorizar a transparência, tornando os sistemas de IA mais fáceis para os seres humanos interpretarem. Na NIPS, Vaughan, uma das pesquisadoras do laboratório de Nova York, deu uma palestra descrevendo um experimento em grande escala que ela e seus colegas estão trabalhando para saber quais fatores tornam os modelos de aprendizagem de máquina interpretáveis e compreensíveis para especialistas em aprendizagem sem máquinas.

“A ideia aqui é adicionar mais transparência às previsões algorítmicas para que os tomadores de decisão compreendam por que uma previsão particular é feita”, disse Vaughan.

Por exemplo, o número de recursos ou entradas para um modelo afeta a capacidade de uma pessoa capturar instâncias onde o modelo cometeu um erro? As pessoas confiam mais em um modelo quando podem ver como ele faz sua predição do que quando o modelo é uma caixa preta?

A pesquisa, disse Vaughan, é um primeiro passo para o desenvolvimento de “ferramentas destinadas a ajudar os tomadores de decisão a entender os dados usados para treinar seus modelos e a incerteza inerente nas previsões de seus modelos”.

Patrice Simard, engenheiro do laboratório de pesquisa da Microsoft em Redmond, Washington, co-organizador do simpósio, disse que o campo da aprendizagem de máquina interpretável deve se inspirar na programação de computadores, onde foi aprendida a arte de decompor um problema em pequenos problemas em passos simples e compreensíveis. “Na aprendizagem de máquina, estamos completamente atrasados. Não temos a infraestrutura”, disse ele.

Para recuperar o atraso, Simard defende uma mudança para o que ele chama de ensino de máquina – fornecendo recursos para as máquinas procurarem quando forem resolver um problema, em vez de procurar padrões em montanhas de dados. Em vez de treinar um modelo de aprendizagem de máquina para a compra de carros com milhões de imagens de carros rotulados como bons ou ruins, ensine um modelo sobre características como economia de combustível e segurança em teste de colisão, explicou.

A estratégia de ensino é deliberada, acrescentou, e resulta em uma hierarquia interpretativa de conceitos usados para treinar modelos de aprendizagem de máquina.

Diversidade do pesquisador

Um passo para se proteger contra o viés não intencional que se aproxima dos sistemas de IA é incentivar a diversidade no campo, observou Gebru, co-organizadora do workshop Black in AI com o NIPS. “Você quer se certificar de que o conhecimento que as pessoas têm do treinamento de IA seja distribuído em todo o mundo e em gêneros e etnias”, disse ela.

A importância da diversidade dos pesquisadores despertou Wallach, copresidente do programa NIPS, em sua quarta conferência, em 2005. Pela primeira vez, ela compartilhava um quarto de hotel com três pessoas, todas mulheres. Uma delas era Vaughan, e as duas, juntamente com uma de suas colegas de quarto, cofundaram o grupo Women in Machine Learning, que está no 12º ano, e realizaram um workshop com o NIPS, desde 2008.

Wallach fez uma palestra no workshop Women in Machine Learning sobre como ela aplica a aprendizagem de máquina no contexto da ciência social para medir construções teóricas não observáveis, como membros da comunidade ou tópicos de discussão.

“Sempre que você está trabalhando com dados situados nos contextos da sociedade”, disse ela, “é importante pensar sobre questões de ética, justiça, responsabilidade, transparência e privacidade”.

John Roach escreve sobre pesquisa e inovação na Microsoft.

Depurando dados: pesquisadores da Microsoft buscam meios de treinar sistemas de IA para refletir o mundo real

Núcleo de aprendizagem da máquina

O problema com o viés

Aprendizagem de máquina interpretável

Diversidade do pesquisador

Posts Relacionados