台积IT组织5年三次大调整,要靠平台工程让DevOps创新再加速

5年前,台积宣布要在美国设立先进芯片厂后,积极展开了全球化的布局,但是,当时旧有的扩张模式,无法满足全球扩厂步调,因此,2020这一年,也是台积启动数字转型的元年。

台积IT数字转型第一年的目标,聚焦三大重心,一方面创建内部的云计算软件开发平台,集成DevOps流程和工具,来支持上千名工程师的开发工作。当时,多数应用程序已转移到云原生惯用的Kubernetes环境,也开始改用微服务架构,来设计台积自己的软件系统。台积基础架构团队逐渐通过软件定义方式,将数据中心转型成私有云,也持续导入5G、IoT制造、AIOps等技术来推动基础架构持续创新。

隔年,2021年2月,台积电副总经理暨首席信息官林宏达上任,带领台积IT的数字转型进入全新的第二阶段。他从一家软件科技公司的角度,重新思考,如何用软件打造一座半导体芯片厂,甚至帮助整个供应链和生态圈持续扩大规模。这就是台积IT支持台积全球化布局的核心技术原则。他用“跑在程序代码上的芯片厂”概念(Fab Runs On Code)这句话形容IT对台积的重要性。

台积过去构建新厂,同时会构建一座机房,配备一组IT人力运维。林宏达来了之后,将过去惯用的项目开发模式,转变为产品模式,也全面拥抱DevOps和云原生,更在2021年5月,展开第一次的IT组织改造,将数千人规模的台积IT重组为四大处。

技术系统集成处(TSID)人数最多,负责智能制造相关系统。第二大部门是负责基础架构的资讯构建暨通信服务处(ICSD),另外还有负责AI和研发平台和8英寸芯片自动化的智慧应用集成处(AAID),第四个是企业系统集成处(BSID),负责内部数字商务相关系统。

2022年,台积IT数字转型进入第三年,也再度进行组织调整,依产品来规划不同的开发团队,像在数字商务组织下,细分出CRM、PLM、SCM、FML(ERP)和HCM等工程团队,每个工程团队中都有前后端工程师和DBA。

台积IT第二次组织调整,还成立了产品管理部门,从产品管理、项目管理、用户体验到预算管控等,每个工程团队也配置了产品经理。另外还有一个负责基础服务和设施的平台团队,打造一些数字商务需要的共享服务或中台。

2025年初,台积IT展开第三次组织调整,从4个处级单位,一口气扩编增加到6个处级单位,设立了2个新部门。

台积IT2025组织分工,今年新设立了平台工程处(简称PLED)和数字卓越与创新处(DEID)。(图片来源/台湾集成电路制造股份有限公司)

先前设立的四个处级部门,包括了资讯构建及通信服务处(Infrastructure and Communication Services Division,简称ICSD),负责构建和管理IT技术架构,如云计算服务、网络及资讯安全。技术系统集成处(Technology System Integration Division,简称TSID)主要聚焦芯片制造,负责智能制造、机台生产力和12英寸芯片厂的制程自动化,来打造高效率的制造系统和环境。智能应用系统集成处(AI Application & Integration Division,简称AAID)主要负责开发AI应用和研发部门平台,也负责工程数据分析和8英寸芯片厂的自动化,这个团队是台积技术突破和创新的重要助力。企业系统集成处(Business System Integration Division,简称BSID),负责开发和管理内部各种数字商务系统,包括ERP、SCM、人力资源、财务运筹系统的开发、运维和集成。

台积IT今年初新设立了平台工程处(Platform Engineering Division,简称PLED)。原本台积就有一个打造数字商务系统共享基础服务和设施的平台团队,现在进一步成立一个处级部门,更凸显台积IT对开发团队所需平台的重视程度。

平台工程处作为IT基础架构服务和三个应用开发团队(AAID、TSID、BSID)之间的桥梁,提供了一套服务平台、共享函数库、SRE工具、DevOps环境等,来提高开发团队的效率。最后一个新部门,数字卓越与创新处(Digital Excellence & Innovation Division,简称DEID),负责推动数字转型和培养数字公民,协助应对变革带来的挑战。

台积的IT产品开发团队主要集中在台湾,北中南都有办公室,在海外各国的工厂端,则是配备了Side IT人员(驻厂IT人员),负责当地第一线系统的产品服务,也协助各工厂导入新系统、版本升级等当地IT工作。台积IT目前有超过3千位的IT开发人员,打造了上千套的应用系统,来服务超过5万名的各业务部门用户。这些开发人员现在遇到了什么样的挑战?为何台积需要新设立一个专门服务内部IT团队的平台部门。

为何台积需要设立服务内部IT的平台工程部门?因为这是提高DevOps生产力,兼顾合规和安全的关键。(图片来源/台湾集成电路制造股份有限公司)

台积全球布局横跨三大洲,这么多系统如何标准化,让全球工厂都能有效使用?许多老旧系统需要淘汰或改写,有庞大的IT现代化工作,但为了支持不断增长的业务需求,得同时开发许多新一代应用。IT产业过去十年出现了许多技术变革,从云原生物科技术、AI到大数据,开发部门也得跟进。

为了改进制程,半导体生产过程搜集了海量数据,来协助各种即时决策和事后分析。越来越多的数据和工作流程是台积的创新基础,可以找到很多AI应用场景和机会,但需要在严谨的安全和合规环境下开发。

台积IT平台部门的任务是,提供DevOps团队,一个可靠,易用的平台,让开发人员可以更有效率打造和运维软件。长期愿景是让DevOps团队可以快速找到合适的工具来创新和协作,也要将交付高品质软件的阻力降到最小。

台积平台团队主管将开发者的问题和痛点区分成三大类,要采取系统性的方法来解决,第一类是开发者如何开发和交付软件的痛点,包括了开发者完整开发体验,涵盖构建、交付、CI/CD等流程的挑战等。其次如何运维软件的痛点,像是提供一套媲美公有云的私云,让开发团队更容易善用。最后一项是开发团队彼此如何协作的痛点。

台积DevOps常见的共同挑战,由平台工程团队负责解决。(图片来源/台湾集成电路制造股份有限公司)

为了解决这三大挑战,PLED会提供一系列的开发范本、自助式的服务目录、自助式的资源配置界面、成熟且容易理解的监控与报表机制等,也会提供一套开发指南,架构设计参考,并且在系统端内置更多更聪明的防呆设计,让开发团队不容易犯错,甚至提供一系列的执行阶段检查。

像是台积自己用开源K8s项目来构建的大规模K8s集群,也有一套自助式的大数据平台,以及一套完整的可观察性平台,这些都是PLED平台团队负责的任务。

平台团队和AP团队是共同分担责任的模式,所打造的功能,需要AP团队使用,才能创造出商业价值,平台团队会将平台视为一个产品来发展,持续优化各种平台服务,托管服务,知识分享和协作机制,来加速开发团队的创新,也会积极用AI来强化平台的能力,让AP团队更有效地运用AI。这是台积平台团队对自家开发人员的承诺。


(科技责编:拓荒牛 )