O Brasil e a onda da inteligência artificial generativa

março 6, 2023 § Deixe um comentário

Em breve estaremos bem abastecidos com serviços de IA generativos concorrentes e de rápida melhoria e nadaremos nos oceanos de conteúdo que eles produzirão. E o Brasil, como vai surfar essa onda?

O ChatGPT, apesar de ainda não ser um produto totalmente finalizado e sim uma iteração inicial de inteligência artificial generativa – IA que produz conteúdo original em vez de simplesmente agir ou analisar dados existentes – teve sua nova versão lançada na primeira semana de março pela OpenAI.

Há muito mais ainda por vir. O Bing, da Microsoft, lançou sua versão argumentativa e emocional do ChatGPT há algumas semanas. A Google está trabalhando no Google Bard, seu concorrente para o ChatGPT. A Meta afirma ter uma versão, mas ainda não decidiu se a lançará. A chinesa Baidu espera lançar seu serviço este mês, assim como a ferramenta de busca sul-coreana Naver.

Leia o texto completo em Update or Die. publicado em 06 de março de 2023.

Reiniciando a IA

março 1, 2023 § Deixe um comentário

Tomei emprestado o título desse texto de um livro publicado pelo Gary Marcus e pelo Ernest Davis em 2019, chamado Rebooting AI . Apesar da “homenagem”, o texto não é propriamente sobre o livro, embora ele seja uma das referências, é sobre o zeitgeist da maioria das pessoas que estão pesquisando e desenvolvendo a IA atual.

Imagem de upklyak no Freepik

Tenho refletido bastante, de 2021 para cá, em como abordar esse assunto para um público mais abrangente. Uso mais ou menos matemática? Mais ou menos conceitos teóricos? Mais ou menos exemplos práticos? O quanto de computação preciso mostrar? Vale a pena incluir códigos de programação? Enfim, são algumas das muitas dúvidas que passaram (e ainda passam) pela minha cabeça.   

Mas uma das (poucas) certezas que tenho tido, é da necessidade de tentar passar o “espírito do tempo” que conduz o desenvolvimento da IA. Principalmente porque as discussões que direcionam a inteligência artificial são (quase que) exclusivamente feitas na língua inglesa. Fato que deixa de fora não apenas boa parte da população brasileira, mas também mundial.  

Leia o texto completo no LinkedIn. Publicado em 01 de março de 2023.

For an English version, read at Medium or at Substack.

A sensação de se viver no “Velho Oeste”

fevereiro 16, 2023 § Deixe um comentário

No início de janeiro, especulou-se que a criação de uma fazenda de trolls usando uma versão customizada do GPT-3 poderia ser feita por cerca de meio milhão de dólares. A estimativa estava errada: usando o supra-sumo da IA atual, custa menos de quinhentos dólares.

Perdi o sono bem cedo hoje de manhã. Ingenuamente, achei uma boa ler meus e-mails. Quem sabe, me dá sono novamente, pensei. Ledo engano. Duas coisas com as quais tenho me preocupado nos últimos meses vieram me assombrar mais cedo do que esperava. 

A primeira dela, que já externei em textos que escrevi sobre LaMDAIAs de nível humano e método Transformers (a base do GPT-3 e ChatGPT), era que grandes modelos de linguagem pudessem ser cooptados por atores mal-intencionados para produzir desinformação em grande escala, usando modelos treinados sob medida. 

Leia o texto completo em Update or Die. Publicado em 16 de fevereiro de 2023.

My Covid-19 dataset

janeiro 30, 2023 § Deixe um comentário

It was set to keep tabs on the Covid-19 spreading in Brazil

Source: OPAS.

At the start of Covid-19 pandemic, as most people in the world I suppose, I became pretty worried and anxious regarding its outcome. Being a data scientist, I initially used my skills to predict its spreading. I devised a predictive modeling based on Taylor series using the first and second derivatives of the continuous approximation of the usage data. The reason to use this method was due to the shortage of data at the time regarding the virus’s spreading pattern.

During a few months I got a decent forecast (you can check the report that I kept at the time on my personal blog here). Despite that I decided to discontinue the model at the time due a lack of emotional strength — I felt like a sort of Nostradamus at the time, foreboding doom, though I kept a daily update of the number of cases and deaths.

Anyway, there is always a time to call it a day, and for months I couldn’t decide how to call this shot. So, I decided to keep it going until I had access to daily updates. During most of the pandemic, the Brazilian press created a media consortium to consolidate the total of cases and deaths, since the Brazilian government at the time decided to withhold this information.

The consortium disbanded on January 28, 2023 after more than 80% of the population was fully vaccinated and the cases and deaths reached a stability. In this sense, I decided to consolidate the dataset and make it public. Anyone can have access to it at my GitHub repo (https://github.com/marcelo-tibau/covid-19). It was a long journey, but I confess that I am neither relieved nor satisfied. Maybe because it was a daily routine to retrieve the data for more than a 1,000 days or because I still hold my horses regarding the pandemic. Anyway, I hope sooner than later we all could sign in relief and breath undaunted as this pandemic becomes part of History books.

For a portuguese version, read at Update or Die.

You can also read it (or listen it) at:

Accounting for the knowledge gained during a web search: An empirical study on learning transfer indicators

janeiro 17, 2023 § Deixe um comentário

My new research paper published at Library & Information Science Research.

Marcelo Tibau, Sean Wolfgand Matsui Siqueira, Bernardo Pereira Nunes, Accounting for the knowledge gained during a web search: An empirical study on learning transfer indicators, Library & Information Science Research, Volume 45, Issue 1, 2023, 101222, ISSN 0740-8188, https://doi.org/10.1016/j.lisr.2022.101222. (https://www.sciencedirect.com/science/article/pii/S0740818822000858).

Abstract: Searches with learning intent typically require the users to interact with the searching environment and perform knowledge acquisition features such as scan, read, and process the online content to fulfill their information needs. To capture indicators from searching behaviors that could account for the knowledge gained during a Web search, a qualitative study was performed using the Concurrent Think-Aloud protocol to observe the mechanisms of transfer and map knowledge flows during 78 search sessions. Findings indicate evidence of transfer of learning in the form of sixteen online information searching strategy indicators. This research aids the understanding of how knowledge is gained during search sessions and how to identify behaviors that could indicate that learning has occurred, which could be used to represent knowledge gain on Web search engines. In this way, it can aid search engines to become not only better tools of searching, but also tools of learning.

Keywords: Constant comparative method; Concurrent think-aloud protocol; Transfer of learning; Knowledge gain; Web searching.

To get access to the article, use the share link: https://authors.elsevier.com/a/1gRKl2eSLIkd3Q

#research #informationscience #learning #searchengines 

Climate change and the environment: data stories to understand climate’s actual state – Part 3

novembro 11, 2022 § Deixe um comentário

You can find part 1 here and part 2 here. In this installment you are bound to find a bit more mathematical stuff. I’m aware that it can be challenging to some, but don’t despair. You won’t need it to understand the results. This stuff is necessary only to communicate what type of computing was necessary to analyze the data (this is the reason the discipline is called computer science after all, we compute things). 

Font: Drawing the Times

Surface Air and Maritime Temperature

B. Analysis from the NOAA’s National Centers for Environmental Information (NCEI) dataset

Again, it was used R Programming to preprocess and summarize the data, with package maps to plot the charts. As the dataset recorded around 139 years, in which not only data gathering techniques changed but also the area covered, missing data was observed. Fortunately, NOAA provided an extended reconstructed sea surface temperature1 that provides a minimum coverage of 60%. To get a better understanding about current Earth’s climate, it was decided to plot the temperature data map for the data available in 2019. 

Read the full text on Substack. Posted on November 11, 2022.

Um texto que não se pode deixar de perder

outubro 27, 2022 § Deixe um comentário

A HBR é conhecida por seus artigos sobre estratégia de negócios, mas claramente não é uma boa fonte em conteúdo técnico.

Em 2018, foi publicado na revista Harvard Business Review um artigo cujo objetivo era ajudar o leitor a definir quais conteúdos, no campo da ciência de dados, priorizar [1]. O título, “Priorize quais habilidades de dados sua empresa precisa com esta matriz 2 × 2”, em tradução livre, já dá a dica do que esperar.

Basicamente, o texto apresenta uma tentativa de aplicar uma estrutura bem conhecida de estratégia de negócios às habilidades de dados, a matriz de custo-benefício. O autor usa a ferramenta, definindo o custo como o “tempo gasto para aprender” uma habilidade de dados e o benefício como sendo a “utilidade” dessa habilidade de dados para a organização. É sugerido no texto que essa é uma estrutura útil para determinar em quais habilidades de dados investir.

Leia o texto completo em Update ou Die. Publicado em 27 de outubro de 2022.

Climate change and the environment: data stories to understand climate’s actual state – part 2

outubro 21, 2022 § Deixe um comentário

As you will read in the post, we used two public datasets: one from the University of Dayton, Ohio, and the other from the National Oceanic and Atmospheric Administration, A.K.A. NOAA, a United States government agency. The NOAA’s dataset was created and maintained by NOAA’s National Centers for Environmental Information (NCEI), which, according to their Website, uses geophysical data from the Sun to Earth and the Earth’s sea floor and solid earth environment, including Earth observations from space.

Font: Freepik

In this second installment, it will be presented the results and discussion from one of the two datasets analyzed for the study, the University of Dayton dataset.

Read the full text on Substack. Posted on October 21, 2022.

Newsletter no Substack

outubro 14, 2022 § Deixe um comentário

Estou lançando a newsletter Marcelo Tibau.

Fonte: Substack Twitter

Nesse projeto, pretendo postar principalmente em inglês (já que costumo postar em português em outros lugares). Os texto serão em torno dos meus tópicos de pesquisa, mas também posso abordar outros assuntos da minha escolha, que de alguma forma, são incidentais ao meu trabalho (por exemplo, psicologia comportamental, estatística, filosofia da ciência…).

Essa newsletter será grátis. Nessa plataforma, Substack, costuma haver assinaturas para conteúdos exclusivos, mas não pretendo explorar esse recurso (ao menos, para um futuro próximo). Espero que gostem.

O post de boas-vindas pode ser lido aqui.

O primeiro post, intitulado “Climate change and the environment: data stories to understand climate’s actual state – part 1” pode ser lido aqui.

Um papo sobre probabilidade subjetiva

agosto 26, 2022 § Deixe um comentário

“a probabilidade é o conceito mais importante da ciência moderna, especialmente porque ninguém tem a menor ideia do que ela significa”

O curioso da probabilidade é que a ideia que se tem dela pode ser, ao mesmo tempo, familiar e misteriosa. Familiar, porque a usamos “a torto e a direito”, seja como sinônimo de possibilidade ou chance de algo acontecer (e.g., qual a probabilidade de chover amanhã?), seja como ferramenta aplicada (e.g., o cálculo da probabilidade do time P ou F de ganhar o campeonato B). Misteriosa, porque quando se pede para defini-la, normalmente se tem certa dificuldade. Há uma frase atribuída a Bertrand Russell que explicita essa dualidade. É mais ou menos assim: “a probabilidade é o conceito mais importante da ciência moderna, especialmente porque ninguém tem a menor ideia do que ela significa”

A questão do mistério que a envolve, na minha opinião, está muito ligada ao modo como o conceito é introduzido: usa-se um dispositivo aleatório de maneira ilustrativa (na maioria das vezes, um dado). Normalmente é dito que a probabilidade de um evento (e.g., jogar um dado e sair o número 6) é a frequência média em que esse evento será observado se usarmos esse dispositivo repetidamente. De forma que, a probabilidade de se obter um 6 em um dado não-viciado (o termo é importante para garantir que o resultado depende do acaso) é 1/6, porque se você jogar um dado muitas vezes, em média, observará o número “6” uma vez em seis. É a chamada definição frequentista.

Leia o texto completo em Update or Die. Publicado em 25 de agosto de 2022.

Onde estou?

Você está navegando atualmente a Educação categoria em Marcelo Tibau.