ML心法:在高速发展领域中驾驭与界限管理
驾驭快速发展的机器学习(ML)领域带来了独特的挑战,通常要求从业者调整其方法和思维模式。源自丰富经验的见解强调了若干关键原则,这些原则能在此动态领域中促进更有效、更可持续的发展。
一个关键方面是建立灵活的边界。ML领域以新研究论文、突破和趋势的不断涌现为特征。虽然渴望了解所有进展是自然的,但试图做到这一点往往会导致信息过载和肤浅的理解。人工智能领域的杰出人物,包括诺贝尔奖得主杰弗里·辛顿、德米斯·哈萨比斯和约翰·詹珀,通过深入研究特定领域而非追逐每一个新潮流,取得了他们的重大贡献。同样,物理学家理查德·费曼特意专注于他深感兴趣的领域,以产出“真正好的物理学”。这些边界并非僵硬的藩篱,而是充当“护栏”,引导从业者在选定的重点领域内进行深入探索,同时仍允许发现相关的相邻领域。例如,在像持续学习这样的专业领域中,新出版物的巨大数量要求采取过滤方法,使研究人员能够专注于其核心领域,而不会被生成式AI或大型语言模型等其他庞大子领域中不相关的进展所淹没。
另一个实际考量围绕着研究代码。机器学习开发涉及不同类型的代码:为健壮、长期系统设计的生产级代码,以及研究代码。后者有不同的目的;其主要目标是促进假设检验和快速迭代。与生产代码不同,研究代码不需要广泛的抽象、深度的模块化或为长期维护做准备。虽然可读性、基本文档和良好的结构是有益的,特别是为了将来自我参考,但完美并非必需。过度设计研究代码会消耗宝贵的时间,这些时间本可以更好地用于实验和推进到下一个项目。如果代码有效地达到了其目的——即实现测试和迭代——那么通常保持现状并继续前进就足够了。
最后,有效参与ML文献需要广泛而深入地阅读的策略。arXiv等预印本服务器的出现极大地改变了学术交流,使研究更易于获取并加速了其传播。例如,计算机科学提交量的爆炸式增长意味着有前所未有的海量材料可用。然而,试图消化所有内容可能会导致知之甚少。格里戈里·佩雷尔曼对庞加莱猜想的证明,最初以一份不起眼的arXiv上传形式分享,凸显了专注、深刻的工作所能带来的深度和意义。对于ML实践者来说,最有效的方法是选择一个核心重点领域并在其中进行广泛阅读,辅以偶尔对相邻领域的探索。例如,一位专注于持续学习的研究人员可能还会探索领域适应、测试时适应和优化方法等相关领域。这种更广泛的阅读提供了新的视角和想法,而核心领域的坚实基础则提供了必要的背景,以辨别哪些真正有用以及如何应用。最终,深刻的见解往往并非源于摄取更多信息,而是源于清晰地辨别联系,这是一项通过深入参与特定领域而培养的技能。