La ciencia de datos en 50 artículos for the working analyst

28/7/2023
AUTOR
Colegio de matemáticas Bourbaki

En esta ediciónde nuestro boletín aparecerán artículos tanto sobre algoritmos y modelos de machine learning, como sobre técnicas de estadística que hayan influido a la ciencia de datos de los practitioners.

En esta presentación hemos omitido artículos sobre arquitecturas y entrenamientos exclusivos de redes neuronales para incluirlos en nuestra selección Deep Learning en 50 artículos for the working scientist.

También hemos omitido los artículos en los que se analiza matemáticamente a los métodos de aprendizaje automático utilizados en ciencia de datos y redes neuronales, estos los presentaremos en nuestra selección Machine Learning en 50 artículos for the working mathematician.

No alt text provided for this image

Para conocer más información sobre esas dos selecciones los invitamos a ser parte de nuestra comunidad estudiantil. En nuestro sitio Colegio de Matemáticas Bourbaki pueden conocer más detalles o escribirnos directamente para solicitar información. El total de los 150 artículos de las tres selecciones representan nuestra bibliografía recomendada.

La elección de los artículos de esta edición no representa ni el estado del arte, ni un recuento histórico o una selección de las mejores presentaciones pedagógicamente hablando; nuestra selección pretende lo oceánico y en la medida de lo posible un balance entre lo actual, histórico y pedagógico.

¡Comenzamos!

No alt text provided for this image

El orden en el que presentaremos los artículos no representa ninguna preferencia o relevancia para la ciencia de datos.

  • Latent Semantic Indexing (artículo original).

Deerwester, S., Dumais, S., Landauer, T., Furnas, G. and Beck, L., 1988, January. Improving information-retrieval with latent semantic indexing. In Proceedings of the ASIS annual meeting (Vol. 25, pp. 36-40). 143 OLD MARLTON PIKE, MEDFORD, NJ 08055-8750: INFORMATION TODAY INC.

  • AdaBoost (artículo original).

Schapire, R.E., 1990. The strength of weak learnability. Machine learning, 5, pp.197-227.

  • Gradient Boosting (artículo original).

Friedman, J.H., 2001. Greedy function approximation: a gradient boosting machine. Annals of statistics, pp.1189-1232.

  • Aplicaciones del Análisis de Componentes Principales.

Novembre, J., Johnson, T., Bryc, K., Kutalik, Z., Boyko, A.R., Auton, A., Indap, A., King, K.S., Bergmann, S., Nelson, M.R. and Stephens, M., 2008. Genes mirror geography within Europe. Nature, 456(7218), pp.98-101.

  • Latent Dirichlet Allocation (artículo original).

Blei, D.M., Ng, A.Y. and Jordan, M.I., 2003. Latent dirichlet allocation. Journal of machine Learning research, 3(Jan), pp.993-1022.

  • Método de Monte Carlo para Cadenas de Markov.

Diaconis, P., 2009. The markov chain monte carlo revolution. Bulletin of the American Mathematical Society, 46(2), pp.179-205.

  • Teoría matemática de la información.

Shannon, C.E., 1948. A mathematical theory of communication. The Bell system technical journal, 27(3), pp.379-423.

  • SHAP Values e interpretabilidad.

Lundberg, S.M. and Lee, S.I., 2017. A unified approach to interpreting model predictions. Advances in neural information processing systems, 30.

  • Errores del segundo tipo y estadística.

Lehmann, E.L., 1993. The Fisher, Neyman-Pearson theories of testing hypotheses: one theory or two?. Journal of the American Statistical Association, 88(424), pp.1242-1249.

  • Máxima verosimilitud para alta dimensionalidad.

Sur, P. and Candès, E.J., 2019. A modern maximum-likelihood theory for high-dimensional logistic regression. Proceedings of the National Academy of Sciences, 116(29), pp.14516-14525.

  • Compresión dispersa y sistemas de ecuaciones.

Donoho, D.L., 2006. For most large underdetermined systems of linear equations the minimal 𝓁1‐norm solution is also the sparsest solution. Communications on Pure and Applied Mathematics: A Journal Issued by the Courant Institute of Mathematical Sciences, 59(6), pp.797-829.

  • Teorema de Gauss-Markov y regresión lineal (generalización).

Aitken, A.C., 1936. IV.—On least squares and linear combination of observations. Proceedings of the Royal Society of Edinburgh, 55, pp.42-48.

  • Presentación histórica de la regresión logística.

Shulman, B., 1998. Math-alive! Using original sources to teach mathematics in social context. Problems, Resources, and Issues in Mathematics Undergraduate Studies, 8(1), pp.1-14.

  • Árboles de decisión (artículo original).

Breiman, L., Friedman, J.H., Olshen, R.A. and Stone, C.J., 1984. Classification and regression trees. Statistics/probability series.

  • Google y Page Rank (reporte técnico).

Page, L., Brin, S., Motwani, R. and Winograd, T., 1998. The pagerank citation ranking: Bring order to the web. Technical report, Stanford University.

  • Función de pérdida de Huber (artículo original).

Huber, P.J., 1992. Robust estimation of a location parameter. In Breakthroughs in statistics: Methodology and distribution (pp. 492-518). New York, NY: Springer New York.

  • Lema de Johnson-Lindenstrauss (artículo original).

Johnson, W.B., Lindenstrauss, J. and Schechtman, G., 1986. Extensions of Lipschitz maps into Banach spaces. Israel Journal of Mathematics, 54(2), pp.129-138.

  • Trucos del kernel (survey).

Hofmann, T., Schölkopf, B. and Smola, A.J., 2008. Kernel methods in machine learning.

  • Máquinas de soport vectorial (artículo original).

Boser, B.E., Guyon, I.M. and Vapnik, V.N., 1992, July. A training algorithm for optimal margin classifiers. In Proceedings of the fifth annual workshop on Computational learning theory (pp. 144-152).

  • Estudio matemático de la causalidad.

Pearl, J., 1995. Causal diagrams for empirical research. Biometrika, 82(4), pp.669-688.

  • Redes bayesianas (survey).

Pearl, J., 2022. Fusion, propagation, and structuring in belief networks. In Probabilistic and Causal Inference: The Works of Judea Pearl (pp. 139-188).

  • Clusterización vía K-means (buena presentación).

Forgy, E.W., 1965. Cluster analysis of multivariate data: efficiency versus interpretability of classifications. biometrics, 21, pp.768-769.

  • Distancia de Mahalanobis (artículo original).

Mahalanobis, P.C., 2018. On the generalized distance in statistics. Sankhyā: The Indian Journal of Statistics, Series A (2008-), 80, pp.S1-S7.

  • Clustering espectral para científicos de datos.

Ng, A., Jordan, M. and Weiss, Y., 2001. On spectral clustering: Analysis and an algorithm. Advances in neural information processing systems, 14.

  • Análisis probabilístico del lenguaje natural.

Markov, A.A., 2006. An example of statistical investigation of the text Eugene Onegin concerning the connection of samples in chains. Science in Context, 19(4), pp.591-600.

  • Curva ROC.

Hanley, J.A. and McNeil, B.J., 1982. The meaning and use of the area under a receiver operating characteristic (ROC) curve. Radiology, 143(1), pp.29-36.

  • 50 años de Ciencia de Datos.

Donoho, D., 2017. 50 years of data science. Journal of Computational and Graphical Statistics, 26(4), pp.745-766.

  • La génesis de la Ciencia de Datos.

Tukey, J.W., 1962. The future of data analysis. The annals of mathematical statistics, 33(1), pp.1-67.

  • Ecuaciones de Bellman y programación dinámica.

Bellman, R., 1952. On the theory of dynamic programming. Proceedings of the national Academy of Sciences, 38(8), pp.716-719.

  • Aprendizaje por refuerzo vía Q-Learning.

Watkins, C.J.C.H., 1989. Learning from delayed rewards.

  • Análisis de Cox para la supervivencia.

Kalbfleisch, J.D. and Schaubel, D.E., 2023. Fifty Years of the Cox Model. Annual Review of Statistics and its Application, 10, pp.1-23.

  • Netflix prize (reporte del equipo ganador).

Töscher, A., Jahrer, M. and Bell, R.M., 2009. The bigchaos solution to the netflix grand prize. Netflix prize documentation, pp.1-52.

  • Regularizador Ridge y Tikhonov.

Tikhonov, A.N., 1963. Solution of incorrectly formulated problems and the regularization method. Sov Dok, 4, pp.1035-1038.

  • Regularizador LASSO.

Santosa, F. and Symes, W.W., 1986. Linear inversion of band-limited reflection seismograms. SIAM journal on scientific and statistical computing, 7(4), pp.1307-1330.

  • Optimización bayesiana (artículo original).

Mockus, J., 2005, September. The Bayesian approach to global optimization. In System Modeling and Optimization: Proceedings of the 10th IFIP Conference New York City, USA, August 31–September 4, 1981 (pp. 473-481). Berlin, Heidelberg: Springer Berlin Heidelberg.

  • Interpretaciones de la correlación de Pearson.

Lee Rodgers, J. and Nicewander, W.A., 1988. Thirteen ways to look at the correlation coefficient. The American Statistician, 42(1), pp.59-66.

  • Aplicaciones del filtro de Kalman.

Suddath, J.H., Kidd, R.H. and Reinhold, A.G., 1967. A Linearized Error Analysis of Onboard Primary Navigation Systems for the Apollo Lunar Module (Vol. 4027). National Aeronautics and Space Administration.

  • Geoestadística (survey).

Philip, G.M. and Watson, D.F., 1986. Matheronian geostatistics—Quo vadis?. Mathematical geology, 18, pp.93-117.

  • El método de newton (explicación didáctica).

Dence, T., 1997. Cubics, chaos and Newton's method. The Mathematical Gazette, 81(492), pp.403-408.

  • Método del gradiente (presentación moderna).

Courant, R., 1943. Variational methods for the solution of problems of equilibrium and vibrations.

  • Bandidos multibrazos (artículo original).

Gittins, J.C., 1979. Bandit processes and dynamic allocation indices. Journal of the Royal Statistical Society Series B: Statistical Methodology, 41(2), pp.148-164.

  • Vectorización Td-idf.

Salton, G. and Buckley, C., 1988. Term-weighting approaches in automatic text retrieval. Information processing & management, 24(5), pp.513-523.

  • Algoritmo Baum–Welch para Hidden Markov Models.

Jelinek, F., Bahl, L. and Mercer, R., 1975. Design of a linguistic statistical decoder for the recognition of continuous speech. IEEE Transactions on Information Theory, 21(3), pp.250-256.

  • Métodos variacionales (artículo original).

Jordan, M.I., Ghahramani, Z., Jaakkola, T.S. and Saul, L.K., 1999. An introduction to variational methods for graphical models. Machine learning, 37, pp.183-233.

  • Bosques aleatorios (artículo orginal).

Breiman, L., 2001. Random forests. Machine learning, 45, pp.5-32.

  • Medida de Kullback-Leibler (artículo original).

Kullback, S. and Leibler, R.A., 1951. On information and sufficiency. The annals of mathematical statistics, 22(1), pp.79-86.

  • Teorema de Bayes (artículo original).

Bayes, T., 1763. LII. An essay towards solving a problem in the doctrine of chances. By the late Rev. Mr. Bayes, FRS communicated by Mr. Price, in a letter to John Canton, AMFR S. Philosophical transactions of the Royal Society of London, (53), pp.370-418.

  • Series de tiempo y ARMA (Box–Jenkins).

Anderson, O.D., 1977. The Box-Jenkins approach to time series analysis. RAIRO-Operations Research, 11(1), pp.3-29.

  • Primera presentación del dilema varianza/sesgo.

Geman, S., Bienenstock, E. and Doursat, R., 1992. Neural networks and the bias/variance dilemma. Neural computation, 4(1), pp.1-58.

  • Fisher discriminant analysis (artículo original).

Fisher, R.A., 1936. The use of multiple measurements in taxonomic problems. Annals of eugenics, 7(2), pp.179-188.

¿Dónde aprender ciencia de datos?

No alt text provided for this image