Sobre dados

abril 14, 2016 § 1 comentário

data-analysis-charts.png

Passadas as definições estratégicas de um projeto de Data Analytics com viés educacional, é hora de pensar especificamente no seu “coração”, os dados. É preciso ter claro alguns pontos: qual informação se quer conhecer; quais conjuntos de dados expressam essa necessidade, como eles serão conseguidos e finalmente, como serão usados.

Vamos focar no primeiro ponto, o mais básico deles: qual é a informação que o projeto deve entregar? Para responder esta pergunta, é preciso refletir nos benefícios que se espera atingir com ele. Se quisermos melhorar o nível de aprendizagem, é necessário focar em obter informações que demonstrem o nível de retenção e os conhecimentos que geram mais dúvidas. As “mídias” em que este conteúdo é entregue, também podem ajudar bastante na análise posterior e definição da estratégia para melhorar a aprendizagem. Se o benefício que se deseja for outro, como por exemplo, desestimular o abandono, as informações geradas também mudam. Foca-se em tempo gasto em estudo, performance em exames, interação, dentre outros.

O importante é ter em mente que informação é dado contextualizado, se não se souber que informação se deseja, não há como saber que dado procurar. Daí o segundo ponto, definir os conjuntos de dados que expressam essa necessidade. Como já abordei alguns exemplos de dados associados a informações, vale focar em uma outra questão importante neste momento. Fora as informações já relacionadas como importantes, existem outras que possam emprestar contexto ou adicional valor à sua análise? É importante ter em mente esta resposta, porque ela pode acrescentar outros dados contextuais à análise.

O ponto seguinte gira em torno da definição – ou melhor – localização das fontes que contém esses conjuntos de dados. Banco de dados que contenham informações acadêmicas, disciplinares, acesso a sistemas online, rankings de performance, são tantas as fontes possíveis, que neste momento é possível que o projeto de Data Analytics se transforme em um projeto de Big Data Analytics. É aqui que se sentirá a importância de se ter “parado” antes para realizar a definição estratégica do projeto. Ela mantém claros o motivo e o objetivo que se quer alcançar, neste momento em que é fácil perder o “horizonte” do escopo.

Aqui também vale abordar o tópico, comumente chamado na área de análise de dados, de dark data. A definição mais aceita, diz que são os dados gerados durante as atividades regulares que não são usados. Similar à “matéria escura” da física, os dark data constituem a maior parte dos dados de qualquer organização. A Gartner, uma das maiores empresas de pesquisa e consultoria de TI do mundo, descobriu que boa parte das organizações usa apenas 15% dos dados que gera. O resto fica escondido em locais de difícil acesso ou localização, em sistemas legados ou em data stores. Não haveria problema, se não fosse o fato de já se estar pagando para armazenar todos esses dados, por que então não considerá-los?

Como os dados serão usados?

Para abordar o último ponto citado no início do texto, vale levar em consideração 5 elementos, que vão ditar o que precisa ser feito para cada conjunto de dados (ou big data, dependendo da evolução do projeto).

1) Preparar-se para o volume: é preciso ter em mente que quando se “trabalha” com dados, se “trabalha” com volume. É muito importante “classificar” seus dados, isto faz toda a diferença quando o volume começa a aumentar. Para fazer essa classificação, baseie seus dados em dimensões. Por exemplo, valor (gastos de manutenção do sistema, por aluno, por disciplina, etc.); uso (frequência de acesso, de presença, etc.); tamanho (gigabytes, terabytes); complexidade (dados relacionais, gerados por interação com máquinas, automáticos, etc.), tipos (vídeo, texto, imagem, etc.); permissão de acesso (usuário comum, administrador, desenvolvedor, etc.). Sei que cansa só de ler, imagine quando estiver disponível em alguma tela ou documento de análise. Dimensões ajudam a priorizar o que olhar e em que momento.

2) Levar em consideração a variedade: o aspecto mais desafiador da análise de dados é a imensidão de formatos e estruturas que devem ser conciliadas. É preciso integrar inúmeras fontes e manter “espaço” para integrar novas. Por exemplo, se em algum momento do projeto se quiser conhecer o impacto social das ações educacionais (é uma realidade caso se esteja usando algum financiamento de terceiros, como ONGs ou do próprio governo), estes novos dados terão que “conversar” com as fontes de dados já utilizadas (banco de dados relacionais, sistemas legados, mainframes com informações públicas, dentre outros). Considerar a variedade é essencial para ser assertivo.

3) Manusear com velocidade: a combinação de fluxo de dados em tempo real (os chamados real-time data streaming – que nada mais são do que os dados gerados pelos usuários durante o acesso) e os dados históricos (que já estão “guardados” em algum banco de dados) aumenta o “poder preditivo” da análise, portanto é interessante considerar no projeto tecnologias de streaming analytic e infraestrutura lógica para gerenciar estes dados com a velocidade necessária.

4) Garantir a veracidade: a melhor análise de dados feita não servirá para nada se as pessoas que receberem estas informações não confiarem na veracidade dos dados utilizados. Quanto mais dados houverem, mais importante se torna garantir a qualidade deles. A qualidade de um dado está ligada à sua “preparação”. Preparar um dado significa realizar sua curadoria e limpeza. Alguns tipos de dados, como os financeiros por exemplo, precisam ainda de certificação de veracidade ou de compliance, que geralmente são emitidos por institutos independentes ou agências governamentais. O ideal é criar categorias de dados, baseadas no nível de preparação, que pode variar de dados brutos à altamente cuidados. Deixe claro, em todos os momentos, para todos os envolvidos, o nível de preparação a que os seus dados foram submetidos.

5) Definir requisitos de conformidade: os diferentes conjuntos de dados usados “virão” com diferentes estipulações ou requisitos de segurança. Para cada um deles, deve-se pensar no custo (financeiro e de esforço) e nas maneiras para tornar os dados “anônimos”, com base em políticas de segurança ou confidencialidade. Para isto, é necessário entender quais são e onde estão os dados sensíveis, mantê-los seguramente criptografados e controlar o acesso a eles.

Para que um projeto de Data Analytics – de uma maneira geral e não apenas com viés educacional – se torne realidade e seja útil, é preciso torná-lo realístico. Os pontos que abordei neste texto ajudam nesse objetivo, considerá-los ao planejar e implementar pode ser a diferença entre não ir além do piloto – segundo a já citada Gartner, até 2017 60% dos projetos de Data e Big Data podem estar nesta situação – ou implementar com sucesso um sistema inteligente de análise de dados.

Marcado:, , , , ,

§ Uma Resposta para Sobre dados

Deixe um comentário

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair /  Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair /  Alterar )

Conectando a %s

O que é isso?

Você está lendo no momento Sobre dados no Marcelo Tibau.

Meta

%d blogueiros gostam disto: