Pesquisadores participantes do segundo evento do Ciclo de Palestras ILP-Fapesp 2019, realizado nesta segunda-feira (22) e que teve como tema big data e machine learning, avaliaram que os dados têm valor e, se bem explorados, podem gerar benefícios políticos, sociais e econômicos.
Vale lembrar que a iniciativa é uma parceria entre o Instituto do Legislativo Paulista (ILP) e a Fundação de Amparo à Pesquisa do Estado de São Paulo (Fapesp). Se, por um lado, há uma infinidade de dados disponíveis para serem coletados e trabalhados, por outro, há uma imensa demanda reprimida no Brasil por profissionais da área de computação, de acordo com especialistas.
André Carlos Ponce de Leon Ferreira de Carvalho, do Instituto de Ciências Matemáticas e de Computação da Universidade de São Paulo (ICMC-USP), em palestra, comparou o valor do big data com o do ouro. Segundo o pesquisador, atualmente, a tonelada do metal precioso vale aproximadamente US$ 40 milhões.
“Em toda a história da humanidade, foram extraídas 190 mil toneladas de ouro, o que soma US$ 7,6 trilhões. Juntas, as oito principais empresas que trabalham com dados no mundo – Facebook, Amazon, Apple, Microsoft, Google, Baidu, Alibaba e Tencent – valiam cerca de US$ 5 trilhões em 2018, ou seja, dois terços de tudo o que foi gerado em ouro”, afirma à Agência Fapesp.
Oportunidades
O dado apresentado pelo pesquisador da USP é semelhante ao encontrado no livro The Big Nine, lançado em março deste ano pela professora da Universidade de Nova York Amy Weeb. A obra trata das nove grandes empresas de inteligência artificial e, além das citadas pelo pesquisador brasileiro, inclui a IBM.
De acordo com Claudia Bauzer Medeiros, professora do Instituto de Computação da Universidade Estadual de Campinas (Unicamp) e membro da coordenação do Programa Fapesp de eScience e Data Science, para que essas oportunidades se tornem realidade, é preciso investir na qualidade dos dados gerados.
“O que mostram estudos no mundo inteiro? Se não houver muitos dados, não dá para fazer as análises necessárias. Por outro lado, se não houver qualidade nos dados, eles não servem para nada. E sabe-se que 80% do custo de pessoal e de infraestrutura está no pré-processamento que garante a qualidade necessária”, explica.
Com a abundância de informações obtidas a partir de sensores, o desafio é conseguir combinar diversos tipos de dados para conseguir prever, monitorar, gerar políticas públicas ou identificar produtos de interesse dos consumidores.
Armazenamento
Há cerca de dois anos, a Fapesp passou a exigir de todo projeto maior de pesquisa um plano que descreva como os dados serão produzidos, armazenados e preservados. “Se o processo for feito com qualidade, os dados terão milhões de outros usos além daqueles pelos quais foram coletados”, diz a pesquisadora.
É importante frisar que também há geração de empregos nessa área. “Só entre grupos de startups de tecnologia de dados em São Paulo, percebemos uma necessidade de cerca de 150 cientistas de dados”, salienta Jorge Gripp, sócio da Autaza, startup instalada no Parque Tecnológico de São José dos Campos que contou com o apoio do Programa Pesquisa Inovativa em Pequenas Empresas (PIPE) da Fapesp em 2017.
Volume
Uma modalidade particular do big data, que não deve ser desconsiderada, é a imagem. Só no Instagram, são 95 milhões de fotos publicadas por dia. No YouTube, são 300 horas de vídeo publicadas por minuto.
“Em captura de imagem estamos bem, mas ainda é preciso melhorar a análise dessas imagens por meio do machine learning. A ideia é usar o computador para extrair qualquer tipo de informação útil e relevante a partir dos dados”, ressalta Nina Hirata, pesquisadora do Instituto de Matemática e Estatística (IME) da USP.