Big data & Wide data

julho 7, 2015 § Deixe um comentário

Não é de hoje que precisamos nos relacionar com uma quantidade absurda de dados e informações. O mundo conectado online (sou um rebelde, não concordo com opção portuguesa e espanhola pela grafia on-line, que não tem o mesmo significado que online em inglês) potencializou exponencialmente o volume – daí o termo big data – que só algoritmos “lidos” por máquinas conseguem lidar.

Somado ao volume, temos também a amplitude desses dados e informações – daí o termo wide data – que requer uma certa criticidade para analisar. É da amplitude que vêm as previsões e conclusões e, há até pouco tempo, domínio total do cérebro humano. Bom, não usei o termo “exponencial” à toa. O volume alongou a amplitude disponível a tal ponto que o cérebro humano simplesmente não processa as variáveis disponíveis. A solução para a “dobradinha” big & wide data são as ferramentas que promovem “machine learning”, uma espécie de inteligência artificial, que permite máquinas aperfeiçoarem o seu desempenho em alguma tarefa, em outras palavras, aprender.

Como todo o processo de aprendizado das máquinas é baseado no próprio processo humano de aprendizagem (pelo menos até que alguma “revolta das máquinas” aconteça), adaptar um ao outro pode ajudar os 2 lados. 3 conceitos usados em “machine learning” me chamaram a atenção e penso ser válido compartilhá-los.

Feature extraction, que determina quais dados devem ser usados no modelo. Definir as características (features) que são importantes em determinado aprendizado ajuda a eliminar uma quantidade imensa de variáveis. Quando se está lidando com dados brutos, saber o que “cortar” poupa tempo e torna a busca pela informação mais assertiva.

Regularization, que determina a forma como os dados são ponderadas dentro do modelo. Regularização é determinar a relevância de cada dado e a sua prioridade. É a “atitude” que transforma um dado em informação, o que dá o contexto. Em seu aprendizado, use este conceito para definir o seu plano de estudo, ordenando o que focará primeiro e tentando visualizar possíveis conexões interdisciplinares.

Cross-validation, que testa a precisão do modelo. A validação cruzada é uma técnica usada para avaliar a capacidade de generalização de um modelo, usando um conjunto de dados. O objetivo do seu uso em “machine learning” (e em análise humana) é a predição. Adaptando para o nosso aprendizado, use o conceito de validação cruzada para determinar o seu processo de avaliação (afinal, como saber se está realmente aprendendo?).

“Machine learning” é um tema fascinante e pode ajudar muito na criação de processos educacionais aplicáveis a nós mesmos, humanos. Para quem quiser se iniciar, sugiro começar pelos chamados “No Free Lunch Theorems” – matemáticos também têm senso de humor – que mostram que todos os algoritmos que buscam um extremo de uma função, agem exatamente da mesma maneira. Alguma semelhança com o nosso comportamento?

Anúncios

Marcado:, , , , , , ,

Deixe um comentário

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair /  Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair /  Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair /  Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair /  Alterar )

w

Conectando a %s

O que é isso?

Você está lendo no momento Big data & Wide data no Marcelo Tibau.

Meta

%d blogueiros gostam disto: