Exploratory data analysis and baseball (aka Moneyball)

janeiro 3, 2017 § Deixe um comentário


Executive Summary

In any professional sports, how well the teams spend their money means more than the difference between a championship and a flop. It’s no different with baseball, the sport that introduces the concepts of professionalism and moneyball.

For those who are not used to the term, moneyball is used to describes baseball operations in which a team endeavors to analyze the market for baseball players and buy who is undervalued and sell who is overvalued. Unlike a common misconception, it is not about on-base percentage (a measure of how often a batter reaches base for any reason other than a fielding error, fielder’s choice, dropped/uncaught third strike, fielder’s obstruction, or catcher’s interference), but to explore methods of rating players.

It is most commonly used to refer to the strategy used by the front office of the 2002 Oakland Athletics, with approximately US$44 million in salary, were competitive with larger market teams such as the New York Yankees, who spent over US$125 million in payroll that same season. It derives its name from the 2003 book from Michael Lewis about the team’s analytical, evidence-based, sabermetric approach. Suffice to say that there is also a 2011 motion picture of the same name, based on the book, starring Brad Pitt and Jonah Hill, for which the term became mainstream.

The data

I will be using data from two very useful databases on baseball teams, players and seasons. One is curated by Sean Lahman, available at http://www.seanlahman.com/baseball-archive/statistics/. The other, is from the nutshell package, which contains data sets used as examples in the book “R in a Nutshell” by Joseph Adler. More information about the package is available at https://cran.r-project.org/web/packages/nutshell/index.html.

The reason for pick two different datasets instead of one is because I wanted to perform the analysis in different sources. The decision proved right for account of speed and practicality too. The Lahman data set uses data on pitching, hitting and fielding performance and other tables from 1871 through 2015. As we can see, is thoroughly and updated. The Nutshell’s on the other hand, is better designed for learning approaches (at least in my opinion) and comprises statistical data from 2000 – 2008 for every Major League Baseball team.

For those who are not familiar with baseball, a few points of explanation are important:

  • Major League Baseball is a professional baseball league, where teams pay players to play baseball (I know it sounds silly and redundant, but I have to be sure everybody knows what we are talking about here).
  • The goal of each team is to win as many games out of a 162 game season as possible. This allows a ticket to the post season and a chance to play at the World Series, where the champion is defined.
  • Teams win games by scoring more runs than their adversary. A run is computed when a player advances around first, second and third base and returns safely to home plate (in other words, do a round around the infield).
  • In principle, better players are expensive, so teams that want good players need to spend more money.
  • Teams that spend the most, frequently won the most (not always but so often that is fair to consider it a case of cause and effect).


I provide the analysis in both data sets in a Markdown page that can be accessed @marcelo_tibau/exploratory-and-baseball

An application

One of the reasons that I chose the nutshell data set is because it is used as a case study from the book “R in a Nutshell” by Joseph Adler. Inspired by this case, I developed a simple app to predicts the number of runs scored by a team based on a linear model which predicts the number of runs scored by a team. For those curious to see it, a demo for the app can be found @baseball-prediction

Alerta Zika! Data Expedition

dezembro 8, 2016 § Deixe um comentário

On the behalf of my teammates Benjamin Alves and Cristiano Franco, as well as myself, I would like to thank the Inter-American Development Bank for the 3rd place awarded to our team at the “Alerta Zika” data expedition. More than the prize itself our greatest proud was to be able to provide three insights to the municipal health secretary and sum up on the efforts to fight the Zika disease in Rio de Janeiro.


Educational data mining and learning analytics

novembro 21, 2016 § Deixe um comentário


There’s a song by Leonard Cohen that states “everybody knows” and “that’s how it goes”. The same goes for the fact that the amount of data online activities generate is skyrocketing. This is true because more and more of our commerce, entertainment, and communication are occurring over the Internet and despite concerns about globalization and information accuracy, it’s a trend that is impossible to curb. Like a steamrolling, this data tsunami touches us all, so it’s more than natural that it also catches education. With analytics and data mining experiments in education starting to proliferating, sorting out fact from fiction and identifying research possibilities and practical applications becomes a necessity.

Educational data mining and learning analytics work based on assumption of patterns and prediction. Both disciplines are used to research and build models in several areas that influence online learning systems. The bottom-line here is if we can discern the pattern in the data and make sense of what is going on, we can predict what should come next and take the appropriate action. The business world name it insight and it’s the difference of make “big bucks” or be caught unprepared. So believe me, it’s valuable.

Data mining with educational purposes can be used basically in two big areas. One is user modelling, which encompasses what a learner knows, what a learner’s behavior and motivation are, what the user experience is like, and how satisfied users are with online learning. Well, the same kind of data used to model can be used to profile users. Profiling means grouping similar users into categories using salient characteristics. These categories then can be used to offer experiences to groups of users or to make recommendations individually and proceed adaptations to how an online learning system performs.

A little explanation it’s needed at this point: online learning systems refer to online courses or to learning software or interactive learning environments that use intelligent tutoring systems, virtual labs, or simulations. They may be offered through a learning or course management system and through a learning platform. When online learning systems use data to change in response to student performance, they become adaptive learning environments.

Increasing use of online learning offers some opportunities, such as to integrate assessment and learning and gather information in nearly real time, to improve future instruction. This process goes like this: as students work, the system captures their inputs, collecting evidence of activities, knowledge, and strategy used. Everything counts here, the information each student selects or inputs, the number of attempts the student makes, the allocation of time across parts of the process, and the number of hints and feedback given.

As students can benefit from detailed learning data, so the broader education community can thrive from an interconnected feedback system – such as what works better for a particular content and how to stimulate necessary skills like metacognition. As put by the U.S. Department of Education in a 2010 report (National Education Technology Plan – NETP, 2010a, p. 35): “The goal of creating an interconnected feedback system would be to ensure that key decisions about learning are informed by data and that data are aggregated and made accessible at all levels of the education system for continuous improvement”.

As it’s expected that these learning systems be able to exploit in detail  activity data from learners to recommend what the next activity should be, and also to predict how a particular student will perform in future learning activities, being able to connect the dots and produce insights presents itself as a necessity. It’s precisely here that enters data mining and learning analytics.

Understanding big data

Although using data to enhance decision processes is not new – they are used in what is known as business intelligence or analytics – it’s a relatively new approach concerning education. As their business counterparts, learning analyses can discern historical patterns and trends from data and create models that predict future trends and patterns and comprise applied techniques from computer science, mathematics, and statistics in order to extract usable information from very large datasets.

Usually, data are stored into a structured format, which are easy for computers to manipulate. However, the data gathered from learning platforms have a semantic structure that is difficult to discern computationally without human aid, hence is called unstructured data (e.g. texts or images). To analyze these events is required techniques that work with unstructured text and image data and data from multiple sources. When these data comprise a vast amount, we have the famous big data. It’s important to understand that big data does not have a fixed size, it’s a concept. As any given number assigned to define it would change as computing technology advances to handle more data, big data is defined relative to current capabilities.

Big data, educational data mining and learning analytics

The big amount of data snared from online behavior feeds algorithms and enables them to infer the users’ knowledge, intentions, and interests and to build models that can predict future behavior and interest. In order to achieve this goal data mining and analytics are applied as the fields of educational data mining and learning analytics. Although there is no hard distinction between these two, they have had different research histories and distinct research areas.

In general, educational data mining (also known as EDM) looks for new patterns in data and develops new algorithms and models, using statistics, artificial intelligence, and (of course) data mining to analyze the data collected during teaching and learning. Learning analytics, for instance, applies known predictive models in instructional systems, using different knowledge, such as information science, sociology and psychology, as well as statistics, AI, and data mining in order to influence educational practice.

Educational data mining

Diving a little bit into the subject, the need for understanding how students learn is the major force behind educational data mining. The suite of computational and psychological methods and research approaches supported by interactive learning methods and tools, such as intelligent tutoring systems, simulations, games, have opened up opportunities to collect and analyze student data and to discover patterns and trends in those data. Data mining algorithms help find variables that can be explored for modelling and by applying data mining methods that classify data and find relationships, these models can be used to change what students experience next or even to recommend outside academic assignments to support their learning.

An important feature of educational data is that they are hierarchical. All the data (from the answers, the sessions, the teachers, the classrooms, etc.) are nested inside one another. Grouping it by time, sequence, and context provide levels of information that can show the impact of the practice sessions length or the time spent to learning – as well as how concepts build on one another and how practice and tutoring should be ordered. Providing the right context to these information help to explain results and to know where the proposed instructional strategy works or not. The methods that have been important to stimulate developments in mining educational data are those related:

1) To prediction, for understanding what behaviors in an online learning environment, such as participation in discussion forums and taking practice tests, can be used to predict outcome such as which students might fail a class. It helps to develop models that provide insights that might help to better connect procedures or facts with the specific sequence and amount of practice items that best stimulate the learning. It also helps to forecast or understand student educational outcomes, such as success on posttests after tutoring.

2) To clustering, meaning to find data points that naturally group together and that can be used to split a full dataset into categories. Examples of clustering are grouping students based on their learning difficulties and interaction patterns, or grouping by similarity of recommending actions and resources.

3) To relationship, meaning discover relationships between variables in a dataset and encoding them as rules for later use. These techniques can be used to associate student activity (in a learning management system or discussion forums) with student grades, to associate content with user types to build recommendations for content that is likely to be interesting or even to make changes to teaching approaches. This latter area, called teaching analytics, is of growing importance and key to discover which pedagogical strategies lead to more effective or robust learning.

4) To distillation, which is a technique that involves depicting data in a way that enables humans to quickly identify or classify features of the data. This area of educational data mining improves machine learning models by allowing humans to identify patterns or features easier, such as student learning actions, student behaviors or collaboration among students.

5) To model discovery, which is a technique that involves using a validated model (developed through such methods as prediction or clustering) as a component in further analysis. Discovery with models supports discovery of relationships between student behaviors and student characteristics or contextual variables, analysis of research questions across a wide variety of contexts, and integration of psychometric modeling into machine learned models.

Learning Analytics

Learning analytics emphasizes measurement and data collection as activities necessary to undertake, understand, analyze and report data with educational purposes. Unlike educational data mining, learning analytics generally does not emphasize reducing learning into components but instead seeks to understand entire systems and to support human decision making. Draws on a broad array of academic disciplines, incorporating concepts from information science, computer science, sociology, statistics, psychology, and learning sciences.

The goal is to answer important questions that affect the way students learn and help us to understand the best way to improve organizational learning systems. Therefore, it emphasizes models that could answer questions such as:

  • When are students ready to move on to the next topic?
  • When is a student at risk for not completing a course?
  • What is the best next course for a given student?
  • What kind of help should be provide?

As a visual representation of analytics is critical to generate actionable analyses, the information is often represented as “dashboards” that show data in an easily digestible form. Although the methods used in learning analytics are draw from those used in educational data mining, it may employ additionally social network analysis (to determined student-to-student and student-to-teacher relationships and interactions that help to identify disconnected students, influencers, etc.) and social metadata to determine what a user is engaged with.

As content moves online and mobile devices for interacting with content enable a 24/7 access, understand what data reveal can lead to fundamental shifts in teaching and learning systems as a whole. Learners and educators at all levels can draw benefits from understanding the possibilities of the use of big data in education. Data mining and learning analytics are two powerful tools that can help shape the future of human learning.


[1] Anaya, A. R., and J. G. Boticario. 2009. “A Data Mining Approach to Reveal Representative Collaboration Indicators in Open Collaboration Frameworks.” In Educational Data Mining 2009: Proceedings of the 2nd International Conference on Educational Data Mining, edited by T. Barnes, M. Desmarais, C. Romero, and S. Ventura, 210–219.

[2] Amershi, S., and C. Conati. 2009. “Combining Unsupervised and Supervised Classification to Build User Models for Exploratory Learning Environments.” Journal of Educational Data Mining 1 (1): 18–71.

[3] Arnold, K. E. 2010. “Signals: Applying Academic Analytics. EDUCAUSE Quarterly 33 (1). http://www.educause.edu/EDUCAUSE+Quarterly/EDUCAUSEQuarterlyMagazineVolum/SignalsApplyingAcademicAnalyti/199385

[4] Bajzek, D., J. Brooks, W. Jerome, M. Lovett, J. Rinderle, G. Rule, and C. Thille. 2008. “Assessment and Instruction: Two Sides of the Same Coin.” In Proceedings of World Conference on E-Learning in Corporate, Government, Healthcare, and Higher Education 2008, edited by G. Richards. Chesapeake, VA: AACE, 560–565.

[5] Baker, R. S. J. d. 2011. “Data Mining for Education.” In International Encyclopedia of Education, 3rd ed., edited by B. McGaw, P. Peterson, and E. Baker. Oxford, UK: Elsevier.

[6] Baker, R. S. J. d., A.T. Corbett, and V. Aleven. 2008. “More Accurate Student Modeling Through Contextual Estimation of Slip and Guess Probabilities in Bayesian Knowledge Tracing.” In Proceedings of the 9th International Conference on Intelligent Tutoring Systems. Berlin, Heidelberg: Springer-Verlag, 406–415.

[7] Baker, R. S. J. d., A.T. Corbett, K. R. Koedinger, and I. Roll. 2006. “Generalizing Detection of Gaming the System Across a Tutoring Curriculum.” In Proceedings of the 8th International Conference on Intelligent Tutoring Systems. Berlin, Heidelberg: Springer-Verlag, 402–411.

[8] Baker, R. S., A. T. Corbett, K. R. Koedinger, and A. Z. Wagner. 2004. “Off-Task Behavior in the Cognitive Tutor Classroom: When Students ‘Game the System.’” In Proceedings of the SIGCHI Conference on Human Factors in Computing Systems (CHI ’04). New York, NY: Association for Computing Machinery, 383–390.

[9] Baker, R. S. J. d., S. M. Gowda, and A. T. Corbett. 2011. “Automatically Detecting a Student’s Preparation for Future Learning: Help Use Is Key.” In Proceedings of the 4th International Conference on Educational Data Mining, edited by M. Pechenizkiy, T. Calders, C. Conati, S. Ventura, C. Romero, and J. Stamper179–188.

[10] Baker, R. S. J. D., and K. Yacef. 2009. “The State of Educational Data Mining in 2009: A Review and Future Visions.” Journal of Educational Data Mining 1 (1): 3–17.

[11] Balduzzi, M., C. Platzer, T. Holz, E. Kirda, D. Balzarotti, and C. Kruegel. 2010. Abusing Social Networks for Automated User Profiling. Research Report RR-10-233 – EURECOM, Sophia Antipolis; Secure Systems Lab, TU Wien and UCSB.

[12] Beck, J. E., and J. Mostow. 2008. “How Who Should Practice: Using Learning Decomposition to Evaluate the Efficacy of Different Types of Practice for Different Types of Students.” In Proceedings of the 9th International Conference on Intelligent Tutoring Systems.

[13] Bienkowski, Marie; Feng, Mingyu; Means, Barbara. Enhancing Teaching and Learning Through Educational Data Mining and Learning Analytics: An Issue Brief. Center for Technology in Learning. SRI International. 2012.

[14] Blikstein, P. 2011. “Using Learning Analytics to Assess Students’ Behavior in Open-Ended Programming Tasks.” Proceedings of the First International Conference on Learning Analytics and Knowledge. New York, NY: Association for Computing Machinery, 110–116.

[15] Brown, W., M. Lovett, D. Bajzek, and J. Burnette. 2006. “Improving the Feedback Cycle to Improve Learning in Introductory Biology Using the Digital Dashboard.” In Proceedings of World Conference on E-Learning in Corporate, Government, Healthcare, and Higher Education 2006I, edited by G. Richards. Chesapeake, VA: AACE, 1030–1035.

[16] Corbett, A. T., and J. R. Anderson. 1994. “Knowledge Tracing: Modeling the Acquisition of Procedural Knowledge.” User Modeling and User-Adapted Interaction 4 (4): 253–278.

[17] Crawford, V., M. Schlager, W. R. Penuel, and Y. Toyama. 2008. “Supporting the Art of Teaching in a Data-Rich, High-Performance Learning Environment.” In Data-Driven School Improvement, edited by E. B. Mandinach and M. Honey. New York, NY: Teachers College Press, 109–129.

[18] Dawson, S., L. Heathcote, and G. Poole. 2010. “Harnessing ICT Potential: The Adoption and Analysis of ICT Systems for Enhancing the Student Learning Experience.” International Journal of Educational Management 24 (2): 116–128.

[19] EDUCAUSE. 2010. Next Generation Learning Challenges: Learner Analytics Premiseshttp://www.educause.edu/Resources/NextGenerationLearningChalleng/215028

[20] Elias, T. 2011. Learning Analytics: Definitions, Processes and Potentialhttp://learninganalytics.net/LearningAnalyticsDefinitionsProcessesPotential.pdf

[21] Feng, M., N. T. Heffernan, and K. R. Koedinger. 2009. “User Modeling and User-Adapted Interaction: Addressing the Assessment Challenge in an Online System That Tutors as It Assesses.” The Journal of Personalization Research (UMUAI journal) 19 (3): 243–266.

[22] Gerhard, F. 2001. “User Modeling in Human-Computer Interaction.” User Modeling and User-Adapted Interaction 11: 65–86.

[23] Goldstein, P. J. 2005. Academic Analytics: The Use of Management Information and Technology in Higher Education. EDUCAUSE Center for Applied Research. http://net.educause.edu/ir/library/pdf/ECM/ECM0508.pdf

[24] Graf, S., and Kinshuk. In press. “Dynamic Student Modeling of Learning Styles for Advanced Adaptivity in Learning Management Systems.” International Journal of Information Systems and Social Change.

[25] Hamilton, L., R. Halverson, S. Jackson, E. Mandinach, J. Supovitz, and J. Wayman. 2009. Using Student Achievement Data to Support Instructional Decision Making (NCEE 2009-4067). Washington, DC: U.S. Department of Education, Institute of Education Sciences, National Center for Education Evaluation and Regional Assistance.

[26] Jeong, H., and G. Biswas. 2008. “Mining Student Behavior Models in Learning-by-Teaching Environments.” In Proceedings of the 1st International Conference on Educational Data Mining, Montréal, Québec, Canada,127–136.

[27] Johnson, L., A. Levine, R. Smith, and S. Stone. 2010. The 2010 Horizon Report. Austin, TX: The New Media Consortium. http://wp.nmc.org/horizon2010/

[28] Johnson, L., R. Smith, H. Willis, A. Levine, and K. Haywood. 2011. The 2011 Horizon Report. Austin, TX: The New Media Consortium. http://net.educause.edu/ir/library/pdf/HR2011.pdf

[29] Kardan, S., and C. Conati. 2011. A Framework for Capturing Distinguishing User Interaction Behaviours in Novel Interfaces. In Proceedings of the 4th International Conference on Educational Data Mining, edited by M. Pechenizkiy, T. Calders, C. Conati, S. Ventura, C. Romero, and J. Stamper159–168.

[30] Köck, M., and A. Paramythis. 2011. “Activity Sequence Modeling and Dynamic Clustering for Personalized E-Learning. Journal of User Modeling and User-Adapted Interaction 21 (1-2): 51–97.

[31] Koedinger, K. R., R. Baker, K. Cunningham, A. Skogsholm, B. Leber, and J. Stamper. 2010. “A Data Repository for the EDM Community: The PSLC DataShop.” In Handbook of Educational Data Mining, edited by C. Romero, S. Ventura, M. Pechenizkiy, and R.S.J.d. Baker. Boca Raton, FL: CRC Press, 43–55.

[32] Koedinger, K., E. McLaughlin, and N. Heffernan. 2010. “A Quasi-experimental Evaluation of an On-line Formative Assessment and Tutoring System.” Journal of Educational Computing Research 4: 489–510.

[33] Lauría, E. J. M., and J. Baron. 2011. Mining Sakai to Measure Student Performance: Opportunities and Challenges in Academic Analyticshttp://ecc.marist.edu/conf2011/materials/LauriaECC2011-%20Mining%20Sakai%20to%20Measure%20Student%20Performance%20-%20final.pdf

[34] Long, P. and Siemens, G. 2011. “Penetrating the Fog: Analytics in Learning and Education.” EDUCAUSE Review 46 (5).

[35] Lovett, M., O. Meyer, and C. Thille. 2008. The Open Learning Initiative: Measuring the Effectiveness of the OLI Statistics Course in Accelerating Student Learning.” Journal of Interactive Media in Education Special Issue: Researching Open Content in Education. 14. http://jime.open.ac.uk/2008/14.

[36] Macfayden, L. P., and S. Dawson. 2010. “Mining LMS Data to Develop an ‘Early Warning’ System for Educators: A Proof of Concept.” Computers & Education 54 (2): 588–599.

[37] Manyika, J., M. Chui, B. Brown, J. Bughin, R. Dobbs, C. Roxburgh, and A. H. Byers. 2011. Big Data: The Next Frontier for Innovation, Competition, and Productivity. McKinsey Global Institute. http://www.mckinsey.com/Insights/MGI/Research/Technology_and_Innovation/Big_data_The_next_frontier_for_innovation

[38] Martin, B., A. Mitrovic, K. Koedinger, and S. Mathan. 2011. “Evaluating and Improving Adaptive Educational Systems with Learning Curves.” User Modeling and User-Adapted Interaction 21 (3): 249–283.

[39] Means, B., C. Chelemer, and M. S. Knapp (eds.). 1991. Teaching Advanced Skills to at-Risk Students: Views from Research and Practice. San Francisco, CA: Jossey-Bass.

[40] Merceron, A., and K. Yacef. 2010. “Measuring Correlation of Strong Symmetric Association Rules in Educational Data.” In Handbook of Educational Data Mining, edited by C. Romero, S. Ventura, M. Pechenizkiy, and R. S. J. d. Baker. Boca Raton, FL: CRC Press, 245–256.

[41] New Media Consortium. 2012. NMC Horizon Project Higher Ed Short List. Austin, TX: New Media Consortium. http://www.nmc.org/news/download-horizon-project-2012-higher-ed-short-list.

[42] O’Neil, H. F. 2005. What Works in Distance Learning: Guidelines. Greenwich CT: Information Age Publishing.

[43] Reese, D. D., R. J. Seward, B. G. Tabachnick, B. Hitt, A. Harrison, and L. McFarland. In press. “Timed Report Measures Learning: Game-Based Embedded Assessment.” In Assessment in Game-Based Learning: Foundations, Innovations, and Perspectives, edited by D. Ifenthaler, D. Eseryel, and X. Ge. New York, NY: Springer.

[44] Ritter, S., J. Anderson, K. Koedinger, and A. Corbett. 2007. “Cognitive Tutor: Applied Research in Mathematics Education.” Psychonomic Bulletin & Review 14 (2): 249–255.

[45] Romero C. R., and S. Ventura. 2010. “Educational Data Mining: A Review of the State of the Art.” IEEE Transactions on Systems, Man and CyberneticsPart C: Applications and Reviews 40 (6): 601–618.

[46] Siemens, G., and R. S. J. d. Baker. 2012. “Learning Analytics and Educational Data Mining: Towards Communication and Collaboration.” In Proceedings of LAK12: 2nd International Conference on Learning Analytics & Knowledge, New York, NY: Association for Computing Machinery, 252–254.

[47] U.S. Department of Education. 2010a. National Education Technology Planhttp://www.ed.gov/technology/netp-2010.

———. 2010b. Use of Education Data at the Local Level: From Accountability to Instructional Improvement. Washington, DC: U.S. Department of Education.

———. 2010c. Basic Concepts and Definitions for Privacy and Confidentiality in Student Education Records. SLDS Technical Brief 1. NCES 2011-601. Washington, DC: U.S. Department of Education.

———. 2012a. December 2011- Revised FERPA Regulations: An Overview for SEAS and LEAS. (PDF file). Washington, DC: U.S. Department of Education. http://www.ed.gov/policy/gen/guid/fpco/pdf/sealea_overview.pdf

———. 2012b. The Family Educational Rights and Privacy ActGuidance for Reasonable Methods and Written Agreements (PDF file). Washington, DC: U.S. Department of Education. http://www.ed.gov/policy/gen/guid/fpco/pdf/reasonablemtd_agreement.pdf

[48] U.S. Department of Education, Office of Educational Technology, Enhancing Teaching and Learning Through Educational Data Mining and Learning Analytics: An Issue Brief, Washington, D.C., 2012.

[49] VanLehn, K., C. Lynch, K. Schulze, J. A. Shapiro, R. H. Shelby, L. Taylor, D. Treacy, A. Weinstein, and M. Wintersgill. 2005. “The Andes Physics Tutoring System: Lessons Learned.” International Journal of Artificial Intelligence in Education 15 (3): 147–204.

[50] Viégas, F. B., M. Wattenberg, M. McKeon, F. Van Ham, and J. Kriss. 2008. “Harry Potter and the Meat-Filled Freezer: A Case Study of Spontaneous Usage of Visualization Tools.” In Proceedings of the 41st Annual Hawaii International Conference on System Sciences, 159.

[51] Wayman, J. C. 2005. “Involving Teachers in Data-Driven Decision Making: Using Computer Data Systems to Support Teacher Inquiry and Reflection.” Journal of Education for Students Placed At Risk 10 (3): 295–308.


Big Brother Corporativo

agosto 17, 2016 § Deixe um comentário


A empresa em que você trabalha te deu um smartphone. Você está dando uma checada nele quando percebe um daqueles e-mails do LinkedIn: “estas empresas estão procurando candidatos como você”. Apesar de não estar particularmente interessado(a) em algo, mas sempre aberto(a) a oportunidades – e um tanto quanto curioso(a) – você clica no link. Alguns minutos depois, seu chefe aparece na sua mesa e diz: “notamos que você tem passado mais tempo no LinkedIn ultimamente, vamos conversar a respeito da sua carreira e se está feliz conosco”?

É um cenário digno de big brother, mas não tão improvável. É sabido que o custo de se trocar um funcionário nunca é barato (nem o de mantê-lo), mas em muitos setores, o custo de se perder bons funcionários está incrivelmente maior por conta da natureza cada vez mais colaborativa dos postos de trabalho. Este é inclusive um dos efeitos colaterais do trabalho em equipe, quando se forma uma “bem azeitada”, não é nada trivial trocar um “jogador”. Desta forma, é até natural que empresas intensifiquem seus esforços em prever os riscos de algum funcionário “abandonar o barco”. As táticas usadas variam da pura e simples “espionagem” a análises de padrões de atividade em rede sociais.

Não quero entrar em discussões a respeito da moralidade da prática ou mesmo da sua legalidade. Em muitos sentidos, os dados gerados na internet ainda são (e talvez o sejam por muito tempo) como “águas internacionais” – pode-se até envolver algum tipo legislação para tentar regular sua utilização – mas é incrivelmente difícil garantir a sua efetiva aplicação. Sem contar ainda com os dados produzidos dentro de uma organização – que indiscutivelmente são dela. O ponto que gostaria de abordar gira em torno dos métodos e medidas que um número cada vez maior de empresas tem tomado para identificar os riscos de se perder um “colaborador”.

As principais razões têm-se mantido estáveis por anos: problemas com os chefes; falta de oportunidade de crescimento; um emprego mais desafiador ou melhor salário. Uma nova pesquisa, conduzida pela CEB – uma empresa de pesquisa tecnológica – com sede em Washington, decidiu focar sua análise não apenas no “por que”, mas também no “quando”. Segundo o diretor da empresa, Brian Kropp, o que estimula alguém a querer mudar de emprego é a comparação que a pessoa faz de como está em relação aos seus conhecidos ou então como deseja estar em determinado momento da vida. O interessa da CEB era saber quais momentos estimulavam a comparação.

Algumas descobertas não trazem muitas surpresas, “aniversários de empresa” (antigamente conhecido como “tempo de casa”) são momentos naturais para reflexões e o aumento de 6% a 9% na procura de novos empregos nesta época confirmam a crença. Momentos sem ligação direta com o trabalho também são incentivos para autoavaliações, como aniversários – principalmente de números redondos, como 40 ou 50 anos – aumento de 12% na procura. Encontros de turma (colégio, faculdade, etc.) também incentivam a busca por “novas oportunidades” (aumento de 16%).

Voltando ao monitoramento, a maior possibilidade de acesso à gigantesca quantidade de dados que produzimos diariamente (o cada vez mais famoso big data) e em especial ao que é conhecido como dark data – que de maneira similar à “matéria escura” da física, constitui a maior parte dos dados de qualquer organização e que quase nenhuma delas se interessava em conhecer – tem permitido identificar possíveis padrões de comportamento de funcionários que pensam em sair. O já citado e-mail LinkedIn é um exemplo. Outro comum é o monitoramento do crachá (conhecido como badge swipe), que verifica o uso do crachá para entrada e saída do prédio (ou da garagem) e identifica padrões que possam sugerir uma “escapada” para entrevista. Se parece exagero a princípio, saiba que algumas empresas, como a Jobrate, têm se especializado neste tipo de análise e prestam consultoria para inúmeras multinacionais. Grandes investidores também têm baseado suas estratégias de investimento levando em conta informações que sugerem mudanças em posições chave nas empresas as quais estão interessados.

Uma perspectiva bem tensa, não? Mas é preciso se lembrar que nem tudo deve ser encarado como “teoria da conspiração”. É claro que as informações podem ser usadas em relações de “mais valia” (esta tirei do fundo da cartola), afinal estamos lidando com seres-humanos, mas não é este o enfoque. Empresas como a Credit Suisse, usa suas informações para melhorar seu relacionamento com funcionários “insatisfeitos”. Como base nelas, por exemplo, avisa funcionários sobre vagas disponíveis em outros setores ou a respeito de oportunidades internas. Com isto, a empresa estima ter economizado de US$ 75 milhões a US$ 100 milhões em custos de recrutamento, seleção e treinamento, somente em 2014.

Ações preventivas para se manter um funcionário parecem ser um “melhor negócio” do que, por exemplo, esperar “a coisa acontecer” e fazer uma contraoferta. Os dados da CEB mostram que cerca de 50% dos funcionários que decidem ficar por conta de uma contraoferta, acabam saindo nos 12 meses seguintes. A maneira como as informações geradas por estas análises de dados está sendo utilizada atualmente, sugere que o big brother é invertido. Manter na casa ao invés de eliminar.

Fonte: pesquisa CEB, “The New Path Forward: Creating Compelling Careers for Employees and Organizations,”

Sobre dados

abril 14, 2016 § 1 comentário


Passadas as definições estratégicas de um projeto de Data Analytics com viés educacional, é hora de pensar especificamente no seu “coração”, os dados. É preciso ter claro alguns pontos: qual informação se quer conhecer; quais conjuntos de dados expressam essa necessidade, como eles serão conseguidos e finalmente, como serão usados.

Vamos focar no primeiro ponto, o mais básico deles: qual é a informação que o projeto deve entregar? Para responder esta pergunta, é preciso refletir nos benefícios que se espera atingir com ele. Se quisermos melhorar o nível de aprendizagem, é necessário focar em obter informações que demonstrem o nível de retenção e os conhecimentos que geram mais dúvidas. As “mídias” em que este conteúdo é entregue, também podem ajudar bastante na análise posterior e definição da estratégia para melhorar a aprendizagem. Se o benefício que se deseja for outro, como por exemplo, desestimular o abandono, as informações geradas também mudam. Foca-se em tempo gasto em estudo, performance em exames, interação, dentre outros.

O importante é ter em mente que informação é dado contextualizado, se não se souber que informação se deseja, não há como saber que dado procurar. Daí o segundo ponto, definir os conjuntos de dados que expressam essa necessidade. Como já abordei alguns exemplos de dados associados a informações, vale focar em uma outra questão importante neste momento. Fora as informações já relacionadas como importantes, existem outras que possam emprestar contexto ou adicional valor à sua análise? É importante ter em mente esta resposta, porque ela pode acrescentar outros dados contextuais à análise.

O ponto seguinte gira em torno da definição – ou melhor – localização das fontes que contém esses conjuntos de dados. Banco de dados que contenham informações acadêmicas, disciplinares, acesso a sistemas online, rankings de performance, são tantas as fontes possíveis, que neste momento é possível que o projeto de Data Analytics se transforme em um projeto de Big Data Analytics. É aqui que se sentirá a importância de se ter “parado” antes para realizar a definição estratégica do projeto. Ela mantém claros o motivo e o objetivo que se quer alcançar, neste momento em que é fácil perder o “horizonte” do escopo.

Aqui também vale abordar o tópico, comumente chamado na área de análise de dados, de dark data. A definição mais aceita, diz que são os dados gerados durante as atividades regulares que não são usados. Similar à “matéria escura” da física, os dark data constituem a maior parte dos dados de qualquer organização. A Gartner, uma das maiores empresas de pesquisa e consultoria de TI do mundo, descobriu que boa parte das organizações usa apenas 15% dos dados que gera. O resto fica escondido em locais de difícil acesso ou localização, em sistemas legados ou em data stores. Não haveria problema, se não fosse o fato de já se estar pagando para armazenar todos esses dados, por que então não considerá-los?

Como os dados serão usados?

Para abordar o último ponto citado no início do texto, vale levar em consideração 5 elementos, que vão ditar o que precisa ser feito para cada conjunto de dados (ou big data, dependendo da evolução do projeto).

1) Preparar-se para o volume: é preciso ter em mente que quando se “trabalha” com dados, se “trabalha” com volume. É muito importante “classificar” seus dados, isto faz toda a diferença quando o volume começa a aumentar. Para fazer essa classificação, baseie seus dados em dimensões. Por exemplo, valor (gastos de manutenção do sistema, por aluno, por disciplina, etc.); uso (frequência de acesso, de presença, etc.); tamanho (gigabytes, terabytes); complexidade (dados relacionais, gerados por interação com máquinas, automáticos, etc.), tipos (vídeo, texto, imagem, etc.); permissão de acesso (usuário comum, administrador, desenvolvedor, etc.). Sei que cansa só de ler, imagine quando estiver disponível em alguma tela ou documento de análise. Dimensões ajudam a priorizar o que olhar e em que momento.

2) Levar em consideração a variedade: o aspecto mais desafiador da análise de dados é a imensidão de formatos e estruturas que devem ser conciliadas. É preciso integrar inúmeras fontes e manter “espaço” para integrar novas. Por exemplo, se em algum momento do projeto se quiser conhecer o impacto social das ações educacionais (é uma realidade caso se esteja usando algum financiamento de terceiros, como ONGs ou do próprio governo), estes novos dados terão que “conversar” com as fontes de dados já utilizadas (banco de dados relacionais, sistemas legados, mainframes com informações públicas, dentre outros). Considerar a variedade é essencial para ser assertivo.

3) Manusear com velocidade: a combinação de fluxo de dados em tempo real (os chamados real-time data streaming – que nada mais são do que os dados gerados pelos usuários durante o acesso) e os dados históricos (que já estão “guardados” em algum banco de dados) aumenta o “poder preditivo” da análise, portanto é interessante considerar no projeto tecnologias de streaming analytic e infraestrutura lógica para gerenciar estes dados com a velocidade necessária.

4) Garantir a veracidade: a melhor análise de dados feita não servirá para nada se as pessoas que receberem estas informações não confiarem na veracidade dos dados utilizados. Quanto mais dados houverem, mais importante se torna garantir a qualidade deles. A qualidade de um dado está ligada à sua “preparação”. Preparar um dado significa realizar sua curadoria e limpeza. Alguns tipos de dados, como os financeiros por exemplo, precisam ainda de certificação de veracidade ou de compliance, que geralmente são emitidos por institutos independentes ou agências governamentais. O ideal é criar categorias de dados, baseadas no nível de preparação, que pode variar de dados brutos à altamente cuidados. Deixe claro, em todos os momentos, para todos os envolvidos, o nível de preparação a que os seus dados foram submetidos.

5) Definir requisitos de conformidade: os diferentes conjuntos de dados usados “virão” com diferentes estipulações ou requisitos de segurança. Para cada um deles, deve-se pensar no custo (financeiro e de esforço) e nas maneiras para tornar os dados “anônimos”, com base em políticas de segurança ou confidencialidade. Para isto, é necessário entender quais são e onde estão os dados sensíveis, mantê-los seguramente criptografados e controlar o acesso a eles.

Para que um projeto de Data Analytics – de uma maneira geral e não apenas com viés educacional – se torne realidade e seja útil, é preciso torná-lo realístico. Os pontos que abordei neste texto ajudam nesse objetivo, considerá-los ao planejar e implementar pode ser a diferença entre não ir além do piloto – segundo a já citada Gartner, até 2017 60% dos projetos de Data e Big Data podem estar nesta situação – ou implementar com sucesso um sistema inteligente de análise de dados.

Bola de cristal

abril 1, 2016 § 2 Comentários


De um ano para cá tenho desenvolvido um interesse crescente em métodos de análise e modelagem de dados, no que é comumente conhecido como Data Analytics. O que começou como um conhecimento para apoiar o trabalho que desenvolvo em avaliação de ações educacionais, se tornou rapidamente uma fonte de grande prazer pessoal. Conhecer técnicas de Data Analytics é como ter à disposição uma bola de cristal. Utiliza-se os próprios dados disponíveis para identificar seus padrões, promover análises variadas e prever “comportamentos”.

Uma das aplicações possíveis deste campo, embora não muito comumente usada, é na área educacional. Notas, resultados de testes, frequência de aulas, registros de disciplina e ferramentas de desenvolvimento profissional produzem dados que, colocados em certa perspectiva, geram informações valiosíssimas para o próprio sistema. Embora não seja um pré-requisito, o uso da tecnologia na geração e recuperação desses dados tem um papel fundamental na qualidade deles (traz mais acuidade), além de ser um grande incentivador para a integração da própria tecnologia para fins educacionais. Mais do que repositórios para materiais, aulas e atividades, ambientes virtuais são ferramentas de apoio e estímulo ao aprendizado e criam um sistema de comunicação para pais, professores e comunidade. Para a análise de dados, é ouro puro.

O uso de análise preditiva (uma das aplicações de Data Analytics) pode ser determinante, por exemplo, para identificar alunos em risco de não se formarem ou que tenham mais possibilidade de abandonarem os estudos. Uma atuação direcionada antes destes eventos ocorrerem faz toda a diferença na vida dessas pessoas.

Pode-se também “olhar” para além da frequência, dos aspectos disciplinares e das notas e “rastrear” como os estudantes interagem com os recursos de aprendizagem e como se envolvem com o conteúdo e enviar sugestões automáticas de uso para os professores ou para os próprios alunos.

O primeiro ponto nessa história – uso de Data Analytics com viés educacional – é definir as prioridades estratégicas de um sistema de gerenciamento e tecnologia aplicado à educação. Geralmente a intenção é “expandir” as paredes da sala de aula, promover a colaboração e “nutrir” a criatividade e a inovação em alunos e professores. Mas, estas palavras de “ordem” perdem completamente o sentido se não se tiver claramente definido como estes objetivos serão atingidos.

O segundo, é entender que habilidades deverão ser desenvolvidas em todos os usuários do sistema. É a partir delas que se definem as ferramentas a serem usadas (que nem precisam necessariamente serem “tecnológicas”). Com as ferramentas definidas, se consegue também entender como os dados serão “produzidos”.

O terceiro ponto é sistematizar a análise. O uso da tecnologia facilita, mas uma análise que traga informações relevantes atua basicamente “em cima” de requisitos e de critérios para avaliar ensino e aprendizagem, melhorar a comunicação, reforçar a ligação entre a escola e a casa do aluno e garantir a excelência operacional e analítica das práticas correntes do sistema escolar.

O quarto e último ponto é a tecnologia em si. Reflita nos pontos anteriores: a tecnologia é essencial para desenvolver algum deles? A resposta (como já deve ter percebido) é não. Mas, tê-la envolvida é mais ou menos como disputar uma corrida usando uma charrete ou uma Ferrari. Se conseguirá cruzar a “linha de chegada” com as duas, mas o tempo de uma será infinitamente diferente da outra.

E tempo, conta.

Agregar tecnologia à educação é uma questão de “mentalidade de crescimento” (no original, growth mindset). É a crença de que “qualidades” podem mudar e de que podemos desenvolver a nossa inteligência e habilidades. A definição geral de growth mindset pode ser dividida em vários conceitos, tais como a importância de cometer e consertar erros ou refletir sobre o próprio processo de aprendizagem, o que os une é o fato de serem fundamentais para “ensinar” uma pessoa a atuar em um mundo em que criatividade e pensamento inovador constituem ativos de extremo valor.


Onde estou?

Você está navegando em publicações marcadas com data analytics em Marcelo Tibau.