A Era dos Algoritmos – Parte III

Quis custodiet ipsos custodes? (Juvenal)

Por que usar machine learning e seu mais notável avanço, a deep learning? Não seria a estatística poderosa o bastante para nos dar uma análise confiável de dados e preditividade suficiente para estabelecer conclusões razoáveis? A razão para dar preferência à aprendizagem automática (machine learning) é que ela nos permite fazer prospecção em grandes massas de dados e extrair conhecimentos que, de outra forma, nos seria impossível ou muito trabalhoso. Estamos na era dos Big Data e de análises em tempo real para atender a demandas prementes de uma sociedade em constante e rápidas mudanças.

O mundo atual consome uma quantidade extraordinária de informação, milhares de terabytes de dados são produzidos todos os dias e a questão é como extrair conhecimentos relevantes dessa massa caótica de informação. Informação não é conhecimento, são apenas dados.

Os métodos automatizados para extrair padrões de massas de dados e relações entre eles chamam-se coletivamente de “aprendizagem automática” (machine learning). Trata-se de uma evolução da computação que faz uso de algoritmos que melhoram seu desempenho (precisão e preditividade) à medida que novos dados entram no sistema, ou seja, a máquina aprende com eles. A aprendizagem automática usa vários métodos estatísticos e uma parte delas usa redes neurais (deep learning) ou algoritmos de aprendizagem profunda, lidando com volumes de dados que a estatística convencional levaria tempo para analisar e não daria conta de uma volumosa quantidade de dados. Claro que esses métodos se baseiam nos fundamentos da estatística e dos métodos estocásticos para extrair padrões e fazer previsões. A aprendizagem de máquinas está em nosso dia-a-dia na escolhas que a Amazon e a Netflix fazem para nós, com base em nossos padrões de compras e preferências (“perfis”), nas buscas e traduções que fazemos no Google, no corretor de texto e nas fotos dos nossos smartphones e outras funções que usamos mais e mais.

Entretanto, a descoberta de padrões não implica necessariamente em conhecimento. Padrões em dados pode ser uma característica para um determinado conjunto de dados e não pode ser generalizada. Há muitos exemplos na literatura de como a generalização de data sets leva a equívocos algumas vezes catastróficos. Em meu artigo anterior cito alguns deles (Câmara, 2019). Os estatísticos atuais estão bem conscientes desse problema e a estatística não é mais uma certeza absoluta, ela depende das populações estudadas e os parâmetros de confiabilidade têm seu uso limitado.

O crescimento exponencial de dados do mercado financeiro, previdência, indústria, empresas, ciências pressionou para o aperfeiçoamento de computadores cada vez mais rápidos e com grandes extensões de memórias. A computação por força bruta não dava conta do crescimento exponencial dos dados que explodiu na década de 1970, sendo precisos métodos heurísticos e busca cada vez mais eficientes. A IBM estima que diariamente sejam produzidos 2,5 petabytes (2,500 quintilhões de bytes) de informação, 90% dos quais somente nos últimos dois anos.

O machine learning foi saudado por muitos entusiastas como a tecnologia que faria do Big Data uma ciência em si mesma, dispensando teorias cientificas e até mesmo o método científico. Claro que isso é um exagero, pois não podemos dispensar os métodos cientificos, e sabemos que os números podem ser interpretados fora de sua realidade objetiva, segundo como queremos interpretá-los dentro de um determinado marco de interesse, além dos equívocos que podem ser gerados pela generalização de datasets e por lógica do próprio processo de aprendizagem automática (Câmara, 2019).

As máquinas podem fazer muito, exceto pensar por nós. Construímos inteligências artificiais para nos imitarem em algumas tarefas inteligentes que exigem grande rapidez; não construímos máquinas para serem humanas.

O excessivo entusiasmo e a confiança cega depositada nessa nova inteligência artificial deslocaram o eixo das decisões e inteligência para as máquinas. Esse fenômeno já foi estudado em psicologia no famoso experimento de Milgram (Câmara, 2019), que mostrou que temos uma tendência cega a obedecer a autoridades, mesmo que para isso tenhamos de nos desviar dos nossos principio éticos e sermos desumanos com o próximo. Grande parte dos Big Data é, na verdade, ruído, e a máquina não separa uma coisa de outra, apenas garimpa dados e, se esses forem suficientes para extrair alguma “pepita” valiosa de informação, pensamos com isso ter “descoberto um conhecimento”. No entanto, pode acontecer que esses padrões encontrados não seja exatamente o que precisamos para resolver um dado problema e isso pode levar à um erro catastrófico em algum tempo, que pode vir a ser irreversível ou extremamente dispendioso para corrigi-lo. É o caso das previsões das recentes eleições, crises financeiras, catástrofes climáticas e terrestres, que falharam fragorosamente.

Na medicina, o uso crescente de machine learning vem causando preocupações. Em um trabalho muito comentado, Ioannidis (2005) mostrou que muitos resultados obtidos em pesquisas médicas bem conduzidas mostraram-se falsos quando testados em situações reais, o que foi confirmado ela empresa Bayer, que reportou como não tendo reproduzidos cerca de dois terços das descobertas apresentadas em periódicos médicos.

Isso trouxe uma ‘crise de reprodutibilidade’ para dentro da ciência médica. Estudos considerados precisos passam a ser desconsiderados quando outro grande conjunto de dados, analisados dentro da mesma técnica, não se sobrepõe ao resultado anterior. Grandes quantidades de investimentos são então desperdiçadas, sem levar em conta os efeitos que isso pode trazer quando se trata de um novo tratamento ou método diagnóstico.

Uma quantidade crescente de pesquisa científica, da biomedicina à astronomia, envolve o uso de software de aprendizagem automática para “descoberta de conhecimento”. Os conjuntos de dados são muito grandes e muito caros, e muito dos resultados que essa modalidade de análise de Big Data apresenta são provavelmente imprecisos ou errados, porque os softwares só identificarão padrões em um conjunto particular de dados, e não no mundo real. Em uma recente apresentação na Associação Americana para o Avanço da Ciência, em Washington, uma pesquisadora alertou que o aumento do uso de machine learning na pesquisa médica está levando a uma “crise na ciência”, fazendo coro com muitos investigadores que vem denunciando esse fato já há algum tempo (Ghosh, 2019).

Há um consenso geral de que uma crise de reprodutibilidade invadiu a ciência atual, e que uma grande parte disso vem do uso de técnicas de aprendizagem automática. É alarmante o número de resultados de pesquisas que não se repetem quando outro grupo de cientistas tenta o mesmo tipo de experimento. Uma análise recente sugeriu que talvez 85% de toda a pesquisa biomédica atual pode vir a ser um esforço desperdiçado. Essa preocupação já foi motivo de manifestos de cientistas para maior rigor na reprodutibilidade dos experimentos (Baker, 2016; Munafo et al., 2017).

Essa crise, que vem aumentando há cerca de duas décadas, decorre de muitos experimentos que não são suficientemente bem projetados para garantir clareza nos resultados, se possível de modo direto. Milhares de trabalhos sobre o cérebro foram invalidados ao se detectar um erro de análise no software que lia imagens do córtex, após 15 anos de uso, resultando em 70% de falsos psitivos (Salas, 2016).

Com a introdução da aprendizagem de máquina para mineração e análise de grandes conjuntos de dados essa crise se acelerou. Isso porque os algoritmos de aprendizado de máquina foram desenvolvidos especificamente para encontrar padrões interessantes em grandes conjuntos de dados que, de outra forma, dificilmente perceberíamos. A questão que isso suscita é se podemos realmente confiar nesses resultados.

Esse método pode ser considerado científico? Seus resultados são reprodutíveis? Se acrescentássemos um novo conjunto de dados, teríamos a mesma descoberta anteriormente encontrada no conjunto original? A resposta é que na maioria das vezes isso não acontece.

Em 2016, no Congresso Brasileiro de Psiquiatria, dei uma palestrante a uma platéia que começava a conhecer os “grandes feitos” da aprendizagem automática na pesquisa de certos transtornos mentais, e tentei mostrar como aprendizagem automática pode ser limitada em alcance preditivo. Por exemplo, quem conhece o desenvolvimento de cadeias de Markov ergódicas (um método que uso frequentemente) sabe que ele só tem um bom poder preditivo em uma serie temporal limitada, e é preciso definir com segurança até onde se pode ir. A partir de certa extensão as cadeias de Markov passam a ser repetitiva, algo “maníacas”, e assim passa a repetir um mesmo padrão, e com isso perde o seu poder preditivo. Isto é fácil de entender se conhecermos as propriedades de multiplicação iterativa de matrizes, cujo resultado converge para um padrão fixo ou um ciclo-limite.

Um resultado estatístico ou uma análise por métodos estocásticos não é um teorema provado. As coisas podem mudar de tempos em tempos e assim tais análises são modelos com prazo de validade. Em geologia este conceito recentemente se tornou paradigmático em análises de prospecção; por exemplo, e modelos os são atualmente construídos com validade para dez, vinte, quarenta anos, e revalidados em novas pesquisas. Em medicina, a complexidade da biologia humana é um fator que exige mais rigor e revalidação para que resultados se assentem como normativos pelo crivo do tempo.

Tudo isso não significa que tenhamos de abandonar a machine learning em nossas pesquisas; seria um absurdo deixar de lado uma técnica poderosa. Um dos pontos principais está em o pesquisador conhecer a técnica que irá utilizar e como funciona o software, ser cauteloso e realista limitando-se ao seu conjunto de dados e procurar validar seus resultados a partir de outros métodos e fontes. Ao mesmo tempo, cabe aos desenvolvedores de algoritmos de machine learning trabalharem para melhorar a confiabilidade a eficiência dos algoritmos de aprendizagem. Por exemplo, os próprios algoritmos poderiam fornecendo estimativas do grau de incerteza dos resultados e os critérios utilizados na seleção e análise de dados. Trabalhos nessa direção vem sendo desenvolvidos até mesmo por exigência legal.

Coletar enormes conjuntos de dados tem um custo muito alto, além de ser demorado e trabalhoso, mas no final o que importa é que os resultados sejam confiáveis e reprodutíveis a longo prazo.

Referências

Baker M. 1,500 scientists lift the lid on reproducibility, Nature 533, 28 May 2016, https://www.nature.com/news/1-500-scientists-lift-the-lid-on-reproducibility-1.19970

 Câmara FP. A era dos algoritmos – Parte II: Inteligência Artificial e diagnóstico médico, Psychiatry On-Line Brazil, 13 março 2019 http://www.polbr.med.br/2019/03/13/a-era-dos-algoritmos-parte-ii-inteligencia-artificial-e-o-diagnostico-medico-the-age-of-algorithms-part-ii-artificial-intelligence-and-medical-diagnosis/

Ghosh P.  AAAS: Machine learning ‘causing science crisis’, BBC News, Washington

16 February 2019, disponível em https://www.bbc.com/news/science-environment-47267081

Ioannidis, JPA. Why most published research findings are false. PLoS Med 2005; 2: 696-701.

Munafo RM, Nosek BA, Bishop DVM et al. A manifesto for reproducible science, Nature Human Behavior 1, 0021 (2017), https://www.nature.com/articles/s41562-016-0021

Salas J. Nova revisão invalida milhares de estudos sobre o cérebro, Elk País, 30 julho 2016, https://brasil.elpais.com/brasil/2016/07/26/ciencia/1469532340_615895.html?rel=mas

Publicado na Psychiatry On-Line Brazil, 9 junho 2019

A Era dos Algoritmos – Parte II

Quis custodiet ipsos custodes? (Juvenal)

Em artigo anterior comentei sobre os riscos do uso de inteligências artificiais (IA) como substitutas da atividade humana e de lhes dar excessiva autonomia (Câmara, 2017). A chegada da telemedicina e inteligência artificial nas empresas de assistência médica e seguro saúde no Brasil pegou a categoria profissional de surpresa, sem ter havido um amplo debate nas associações, conselhos e academia. A reação da categoria médica e os CRMs rechaçaram a resolução do CFM que, com efeito, decidiu revogá-la recentemente.

IAs não trabalham com subjetividade, eles são apenas máquinas, apesar de a propaganda antropomorfizá-las para equipara-las à figura humana do médico, na mente popular. Esses computadores especialistas estão sujeitos a erros lógicos quando o filtro da subjetividade está ausente. Somente médicos e, mais ainda, psiquiatras, têm experiência em lidar com a subjetividade do paciente. Empatia, experiência e escuta são elementos cruciais na relação médico-paciente. Uma máquina será sempre e apenas uma máquina. Humanos como nós já existem há pelo menos 20 mil anos, e não evoluímos de máquinas.

Confiamos demais na IA, sugestionados pelo seu “poder”, negligenciamos nossa participação ativa e colocamos toda confiança do diagnóstico cibernético, seguindo a lei universal do menor esforço. Entretanto, inteligências artificiais são apenas lógica aplicada, heurísticas e aprendizagem de máquina que deduzem conclusões com base nos dados, seguindo a norma silogística. O diagnóstico não se fundamenta apenas na técnica, mas sobretudo na relação médico-paciente, onde o jogo de subjetividade aos poucos cede a fatos objetivos e, nesse particular, a intuição é um fator importante. O médico humano é insubstituível.

Vejamos um exemplo. A experiência ensina que medicar e mandar de volta para casa aqueles pacientes com pneumonia sem outras doenças é a melhor conduta para evitar que peguem outras infecções no hospital. Mas alguns pacientes, especialmente aqueles com fatores complicadores como asma e cardiopatias, devem ser admitidos imediatamente no hospital devido aos riscos. Uma equipe da Universidade Carnegie Mellon (Pittsburgh, Pensilvânia) usou uma rede neural treinada com um conjunto de dados fornecidos por 78 hospitais. No início, parecia que ela trabalhava bem, mas logo se descobriu que ela estava liberando pacientes asmáticos para casa, aumentando o risco de agravamento do quadro (Voosen, 2017). O que houve então com a rede, se os dados estavam bem definidos? O que a fez aprender errado? A desconfiança que esse experimento causou nos pesquisadores era plenamente justificada, pois não havia como prever ou saber se a rede aprenderia do modo como se esperava.

Posteriormente, os registros originais foram reanalizados usando-se uma técnica estatística de regressão conhecida como Métodos Aditivos Generalizados (MAG), e foi possível formular uma teoria sobre o acontecido. Os hospitais rotineiramente colocam os asmáticos (e cardiopatas) com pneumonia em regime de monitoramento e tratamento intensivo, o que os levam a melhorarem rapidamente. A IA incluiu então esses pacientes no grupo de tratamento ambulatorial devido ao fato de que melhoravam rapidamente, portanto, a ambiguidade em alguns dados gerou o “erro otimista” (Voosen, 2017). IAs não pensam e nem interpretam, apenas processam lógica.

A IA da IBM chamada Watson é capaz de ler todos os artigos de pesquisas em câncer publicados em todo mundo. Como entende a nossa linguagem, é possível a um médico interrogá-la sobre dados atuais dessa doença e prontamente receber uma compilação de dados e mesmo um julgamento estatístico sobre tais (Steadman, 2013). Watson dá respostas, seleciona e analisa textos usando inferência bayesiana, mas não questiona, não investiga por si mesmo algo que julgue importante ou que os médicos precisariam saber. IAs apenas dão respostas, fazem buscas em seu dataset. Watson pode se enganar, não intencionalmente, mas por alguma ambiguidade dos programadores que inadvertidamente pode levá-la a contradições. O exemplo anterior dá uma ideia desse risco.

Vejamos outro exemplo. Uma rede neural profunda treinada para identificar raças de cães confundia cães da raça Husky com lobos. Por sorte, ao reescreverem o programa, os pesquisadores descobriram onde estava o problema. Eles verificaram que o erro ocorria quando o cão era fotografado na neve, de modo que a rede aprendera a associar lobos a neve, pois no seu treinamento todas as fotos de lobo tinham neve do fundo (Ribeiro et al., 2016). A rede criara um “preconceito” não por deliberação própria, mas por um “tic” lógico. Isso mostra como vieses podem eventualmente passarem despercebidos quando se usa IAs, propagado-se erros que, a curto ou longo prazo, podem ser desastrosos.

Colocamos hoje excessiva confiança nessas IAs deixando a elas todo trabalho de análise e decisão. É o mesmo fenômeno estudado por Stanley Milgram (1974) no agora famoso e bem conhecido experimento: tendemos a obedecer cegamente a uma autoridade, mesmo que isto signifique ter de ferir alguém. É a mesma postura que a sociedade vem assumindo em relação às IAs, consideradas “superinteligências”. Médicos, juízes, contadores, investidores, cientistas tendem a colocar total confiança nos “softwares inteligentes”. Em 13 estados da América do Norte o algoritmo “Compes Criminal Sentencing” é usado pelos juízes como ferramenta de decisão para agilizar sentenças levando em conta automaticamente o risco de incidência (Kehl, 2017). Isso mostrou que um afroamericano terá 77% de chance a mais que um caucasiano de sofrer uma condenação com esse software (Berk, 2009). Algoritmos semelhantes estão sendo usados nas entrevistas de emprego, empréstimos para compra da casa própria, acesso a serviços do seguro saúde, diagnósticos etc. A injustiça provocada por IAs equivocadas e seus programadores atônitos será futuramente um grande problema para os operadores do direito.

Esses resultados inesperados mostram que IAs – atualmente montadas em machine learning (especialmente deep learning) – são caixas pretas, portanto uma fonte de preocupação, pois é um produto em que não podemos confiar totalmente. Muito esforço está sendo feito para se criar ferramentas que permitam compreender como as redes neurais tomam decisões, dando origem a uma nova disciplina informalmente denominada “neurociência da IA”. Essa urgência não é apenas uma preocupação científica. Por exemplo, uma diretiva do Parlamento da União Européia exigiu das empresas que implementam algoritmos que influenciam substancialmente o público a dar explicações técnicas sobre o funcionamento dos mesmos, ou seja, sobre a lógica interna de seus modelos (Pires e Silva, 2017).

Referências

Berk R. The role of race in forecasts of violent crime, Race and Social Problems 2009; 1:231-259, https://pdfs.semanticscholar.org/45b5/cd7ba3504b6f96f3195e81607766fa263124.pdf

Kehl D, Guo P, Kessler S. Algorithms in the Criminal Justice System: Assessing the Use of Risk Assessments in Sentencing. Responsive Communities Initiative, Berkman Klein Center for Internet & Society, Harvard Law School, 2017. http://nrs.harvard.edu/urn-3:HUL.InstRepos:33746041

Milgram S. Obedience to authority: an experimental view. New York: Harper and Row, 1974.

Câmara FP. A Era dos Algoritmos. Psychiatry On-Line Brazil, vol.22 no. 09, 2017. http://www.polbr.med.br/ano17/cpc0917.php

Pires TCF, Silva RP. A responsabilidade civil pelos atos autônomos da inteligência artificial: Notas iniciais sobre a resolução do parlamento europeu, Revista Brasileira de Políticas Públicas, vol. 7, no. 3, 2017. https://www.publicacoesacademicas.uniceub.br/RBPP/article/view/4951

Ribeiro MT, Singh S, Guestrin C. “Why should I trust you?” Explaining the prediction of any classifier, KDD ’16 Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, https://arxiv.org/pdf/1602.04938.pdf

Steadman I. IBM’s Watson is better at diagnosing cancer than human doctors, Wired, Monday 11, February 2013, https://www.wired.co.uk/article/ibm-watson-medical-doctor

Voosen P. The AI detectives, Sciece 2017; 357: 22-27.

 

Publicado na Psychiatry On-Line Brazil, 13 março 2019