Climate change and the environment: data stories to understand climate’s actual state – Part 3

novembro 11, 2022 § Deixe um comentário

You can find part 1 here and part 2 here. In this installment you are bound to find a bit more mathematical stuff. I’m aware that it can be challenging to some, but don’t despair. You won’t need it to understand the results. This stuff is necessary only to communicate what type of computing was necessary to analyze the data (this is the reason the discipline is called computer science after all, we compute things). 

Font: Drawing the Times

Surface Air and Maritime Temperature

B. Analysis from the NOAA’s National Centers for Environmental Information (NCEI) dataset

Again, it was used R Programming to preprocess and summarize the data, with package maps to plot the charts. As the dataset recorded around 139 years, in which not only data gathering techniques changed but also the area covered, missing data was observed. Fortunately, NOAA provided an extended reconstructed sea surface temperature1 that provides a minimum coverage of 60%. To get a better understanding about current Earth’s climate, it was decided to plot the temperature data map for the data available in 2019. 

Read the full text on Substack. Posted on November 11, 2022.

Um texto que não se pode deixar de perder

outubro 27, 2022 § Deixe um comentário

A HBR é conhecida por seus artigos sobre estratégia de negócios, mas claramente não é uma boa fonte em conteúdo técnico.

Em 2018, foi publicado na revista Harvard Business Review um artigo cujo objetivo era ajudar o leitor a definir quais conteúdos, no campo da ciência de dados, priorizar [1]. O título, “Priorize quais habilidades de dados sua empresa precisa com esta matriz 2 × 2”, em tradução livre, já dá a dica do que esperar.

Basicamente, o texto apresenta uma tentativa de aplicar uma estrutura bem conhecida de estratégia de negócios às habilidades de dados, a matriz de custo-benefício. O autor usa a ferramenta, definindo o custo como o “tempo gasto para aprender” uma habilidade de dados e o benefício como sendo a “utilidade” dessa habilidade de dados para a organização. É sugerido no texto que essa é uma estrutura útil para determinar em quais habilidades de dados investir.

Leia o texto completo em Update ou Die. Publicado em 27 de outubro de 2022.

Climate change and the environment: data stories to understand climate’s actual state – part 2

outubro 21, 2022 § Deixe um comentário

As you will read in the post, we used two public datasets: one from the University of Dayton, Ohio, and the other from the National Oceanic and Atmospheric Administration, A.K.A. NOAA, a United States government agency. The NOAA’s dataset was created and maintained by NOAA’s National Centers for Environmental Information (NCEI), which, according to their Website, uses geophysical data from the Sun to Earth and the Earth’s sea floor and solid earth environment, including Earth observations from space.

Font: Freepik

In this second installment, it will be presented the results and discussion from one of the two datasets analyzed for the study, the University of Dayton dataset.

Read the full text on Substack. Posted on October 21, 2022.

Newsletter no Substack

outubro 14, 2022 § Deixe um comentário

Estou lançando a newsletter Marcelo Tibau.

Fonte: Substack Twitter

Nesse projeto, pretendo postar principalmente em inglês (já que costumo postar em português em outros lugares). Os texto serão em torno dos meus tópicos de pesquisa, mas também posso abordar outros assuntos da minha escolha, que de alguma forma, são incidentais ao meu trabalho (por exemplo, psicologia comportamental, estatística, filosofia da ciência…).

Essa newsletter será grátis. Nessa plataforma, Substack, costuma haver assinaturas para conteúdos exclusivos, mas não pretendo explorar esse recurso (ao menos, para um futuro próximo). Espero que gostem.

O post de boas-vindas pode ser lido aqui.

O primeiro post, intitulado “Climate change and the environment: data stories to understand climate’s actual state – part 1” pode ser lido aqui.

Um papo sobre probabilidade subjetiva

agosto 26, 2022 § Deixe um comentário

“a probabilidade é o conceito mais importante da ciência moderna, especialmente porque ninguém tem a menor ideia do que ela significa”

O curioso da probabilidade é que a ideia que se tem dela pode ser, ao mesmo tempo, familiar e misteriosa. Familiar, porque a usamos “a torto e a direito”, seja como sinônimo de possibilidade ou chance de algo acontecer (e.g., qual a probabilidade de chover amanhã?), seja como ferramenta aplicada (e.g., o cálculo da probabilidade do time P ou F de ganhar o campeonato B). Misteriosa, porque quando se pede para defini-la, normalmente se tem certa dificuldade. Há uma frase atribuída a Bertrand Russell que explicita essa dualidade. É mais ou menos assim: “a probabilidade é o conceito mais importante da ciência moderna, especialmente porque ninguém tem a menor ideia do que ela significa”

A questão do mistério que a envolve, na minha opinião, está muito ligada ao modo como o conceito é introduzido: usa-se um dispositivo aleatório de maneira ilustrativa (na maioria das vezes, um dado). Normalmente é dito que a probabilidade de um evento (e.g., jogar um dado e sair o número 6) é a frequência média em que esse evento será observado se usarmos esse dispositivo repetidamente. De forma que, a probabilidade de se obter um 6 em um dado não-viciado (o termo é importante para garantir que o resultado depende do acaso) é 1/6, porque se você jogar um dado muitas vezes, em média, observará o número “6” uma vez em seis. É a chamada definição frequentista.

Leia o texto completo em Update or Die. Publicado em 25 de agosto de 2022.

Computação quântica 101: Algoritmos quânticos e complexidade computacional

agosto 1, 2022 § Deixe um comentário

Um problema computacional é todo e qualquer problema que possa ser resolvido por meio de algoritmos.

Central Computer Processor digital technology and innovations

Este texto faz parte de uma série em andamento sobre computação quântica. Os textos anteriores podem ser acessados pelos links numerados: 123 e 4.

Em teoria da computação, um problema computacional é todo e qualquer problema que possa ser resolvido por meio de algoritmos. São problemas ligados a processos de decisão, à busca, à otimização, etc. Abarca desde questões como “o número 123.456.789.001 é primo?” (no caso, não é) até problemas mais complexos, conhecidos como problemas de função, como: “dada uma lista de cidades e as distâncias entre cada par de cidades, encontre a rota mais curta possível que visite cada cidade exatamente uma vez e retorne à cidade de origem.”  (o famoso problema do caixeiro-viajante). Esses problemas são costumeiramente divididos em classes de complexidade computacional.

Leia o texto completo em Update or Die. Publicado em 28 de julho de 2022.

The Impact of Non-Verbalization in Think-Aloud: Understanding Knowledge Gain Indicators Considering Think-Aloud Web Searches

junho 29, 2022 § Deixe um comentário

Marcelo Tibau, Sean Wolfgand Matsui Siqueira, and Bernardo Pereira Nunes. 2022. The Impact of Non-Verbalization in Think-Aloud: Understanding Knowledge Gain Indicators Considering Think-Aloud Web Searches. In Proceedings of the 33rd ACM Conference on Hypertext and Social Media (HT ’22). Association for Computing Machinery, New York, NY, USA, 107–120. https://doi.org/10.1145/3511095.3531272

Abstract: Web searching and knowledge gain are intertwined processes that share mental and physical activities at the core of both human cognition and hypertext theory, such as identifying, comparing, linking, and combining different subsets of existing or new information. As a consequence of the improvement of our ability to retrieve information across multiple sources provided by Web search engines, the necessity to understand how a user’s knowledge evolves through a Web search session increased. Previous works focused on understanding the knowledge gained in Web searches by using think-aloud protocols. From the user’s verbalization of her searching procedures, it is possible to identify her cognitive processing. Notwithstanding, we argue that user’s searching and browsing behaviors should be analyzed not only through the verbalization periods, as usually accepted by think-aloud studies, since not all cognitive decisions are made consciously, some are unconscious or subconscious. Hence, it is possible to identify more knowledge gained than it would be attainable focusing solely on what was verbalized. In this sense, we evaluated the statistical significance level derived from the relationship between verbal and non-verbal search periods mapped from online information searching strategy indicators. Then, we identified a positive association regarding non-verbalization and some indicators related to knowledge gain concepts and discovered that the values of non-verbal periods tend to increase as the values of particular indicators related to knowledge gain also increase. The knowledge gain concepts were identified using constructs representing cognitive absorption, comprehension, elaboration, and memory. Concerning the impact of Think-Aloud on knowledge gain processes, we found out that verbalization does affect how participants handle their search tasks. However, our result also showed a predominance of non-verbal periods during metacognitive-based searching activities, which may indicate that Think-Aloud protocols should not only rely on verbalization for indication of knowledge gain. Although verbalization may not disrupt the thought process, it might cut in on the cognitive process as the participant tries to explain her action while performing it. A search engine could use the identified indicators to account for the knowledge gained during search sessions, which would make it more adapted to identify user information needs and promote personalized information-adding.

Precisamos falar sobre LaMDA, a IA que o engenheiro do Google achou que havia adquirido autoconsciência

junho 24, 2022 § Deixe um comentário

Quem trabalha com IA já está acostumado com o tipo de interação que um modelo muito sofisticado é capaz de apresentar. Também está acostumado com alegações de autoconsciência, como no caso do LaMDA.

Por alguns dias neste mês de junho de 2022 surgiu como trend topic, quase que do nada, um debate sobre Inteligências Artificiais auto-conscientes. Quase que do nada é uma figura de linguagem minha, porque a controvérsia surgiu sim de algo.

Por volta do dia 11, Blake Lemoine, engenheiro da Google, publicou dois posts [1, 2] a respeito do sistema LaMDA (pronuncia-se “lambda”, como a décima primeira letra do alfabeto grego). Os posts foram meio que uma resposta ao artigo publicado no jornal The Washington Post [3], relatando que apesar do departamento ético da companhia ter recomendado que não se treinasse uma rede neural para “personificar” seres-humanos, a empresa o fez (o sistema LaMDA) e que um de seus funcionários (o próprio Blake Lemoine) acreditava que o sistema havia adquirido autoconsciência.

Lemoine contava em seus posts os motivos que o levaram a acreditar na emergência da autoconsciência e para provar seu ponto, compartilhou transcrições de “conversas” que teve com LaMDA. A Google imediatamente rebateu as alegações, acusou Lemoine de compartilhar informações proprietárias da empresa e o colocou em “paid administrative leave”, que basicamente é o primeiro passo para a demissão (é o nosso famoso “afastado das suas funções”).

Leia o texto completo em Update or Die. Publicado em 23 de junho de 2022.

Sobre quando teremos uma IA de nível humano

maio 6, 2022 § Deixe um comentário

Probabilidade de 10% até 2031, de 50% até 2052 e de quase 80% até 2100.

Open Philanthropy Project (“Open Phil”) é uma fundação interessada em financiar estudos de segurança em IA. Possui cerca de US$ 20 bilhões disponíveis para identificar oportunidades, financiar, acompanhar os resultados e publicar as descobertas. Em 2020, pediu à sua pesquisadora sênior Ajeya Cotra que produzisse um relatório preditivo que pudesse estimar quando a IA atingiria níveis humanos. Ajeya compartilhou comigo um Google Drive com o seu relatório e os modelos usados para a predição e gentilmente permitiu que divulgasse o material. 

Leia o texto completo em Update or Die. Publicado em 06 de maio de 2022.

Uma transformação profunda na IA

abril 1, 2022 § Deixe um comentário

Neste exato momento, há uma cascada informacional acontecendo no meio da Inteligência Artificial, mais especificamente com quem trabalha com redes neurais, como eu.

Há um fenômeno estudado em teoria das redes chamado cascada informacional [1]. Essa cascada se inicia quando mais e mais pessoas, racionalmente, prestam cada vez mais atenção aos sinais informativos transmitidos pelas declarações e ações de outros. Como resultado, amplificamos o volume dos próprios sinais aos quais fomos inicialmente expostos e posteriormente influenciados. Movimentos sociais de vários tipos, incluindo modismos, tendências e rebeliões (e.g., Beatlemania, Primavera Árabe, #MeToo e BBB) podem ser entendidos como um produto dos efeitos da cascada informacional.

Neste exato momento, há uma cascada informacional acontecendo no meio da Inteligência Artificial, mais especificamente com quem trabalha com redes neurais, como eu. O nome da nossa “Beatlemania” se chama Transformers.

Leia o texto completo em Update or Die. Publicado em 01 de abril de 2022.