在这个制药4.0时代,借助最新的可用技术堆栈,每个人都在尝试在其历史过程数据上实施机器学习和人工智能模型。 数字化技术的激增和快速采用,使行业能够以多种方式和维度进行思考,但也要求我们回顾我们的数字化战略和方法,最终决定结果。
这种滚滚而来的技术浪潮已经提出了自己的需求,而这种需求现在有时正成为许多行业从自己的渴望数据中获取见解的主要障碍。 它还要求对组织结构进行颠覆性变革,对现有管理进行变革,更换、恢复和殖民熟悉新技术的群体。 但在某个地方,这种过于激进的改变却迫使我们重新思考——我们是否错过了什么? 也许是领域知识、物理学?
所有这些奇特的 ML/AI 模型(python 包)让我们的生活变得如此轻松,即使是技术知识最少的新手也可以将这些模型应用到数据上,而不需要太多的领域要求。 但是,我们在领域部分错过了太多。 为了解决这个问题并确定我们的 ML/AI 模型的预测,使实施团队能够做出更准确的预测,“混合模型”来拯救我们。 这些模型是一个简单的 Python 脚本,就像任何其他基于 Python 的 ML/AI 模型一样,但具有在其之上添加领域知识的额外灵活性。
当谈到生物制药行业时,将推论限制在物理学的细节范围内是最重要的。 物理学确保预测和处方与制药和生命科学公司观察到的高度受限环境的可变性程度保持一致。 让我们更深入地了解基于物理的模型如何帮助进行可靠和高保真度的预测。
总的来说,Physics Informed ML/AI 模型是 ML/AI 模型、基于物理的模型(ODE/PDE 集)和合适的优化器的组合。 这个概念源于我们假设的事实,即机器学习模型可以从历史数据中学习行为/模式和趋势,而物理模型带来了领域限制,最后优化器扩展了弥合它们之间差距的能力。 请参考下图进行详细了解。
让我们尝试用一个非常简单的例子来理解这一点;
所考虑的系统是长度单位为米的线性一维金属棒。 使用以下公式可以轻松识别任意给定时间的温度分布
基于物理的一维非稳态热平衡方程。
以下是一组基于物理的控制方程,它们将充当我们的数据驱动模型的约束:-
温度是时域和空间域的函数:T(t, x)
为了求解这个方程,我们需要 1 个初始条件和 2 个边界条件,如下所述;
初始条件:
T(0, x) = 25 C
边界条件:
T(t, 0) = 100 C
dT(t, L)/dt = 0
注意:此分析可以针对非常复杂的系统和 2D 以及 3D 几何形状进行扩展。 为了便于理解这个概念,我们使用一维示例。 包括时间在内的附加维度的数量相当于解决 ML/AI 问题时使用的特征数量。
此时,您可能会认为我们可以使用任何开源 ODE 求解器轻松求解该方程。 是的,你是对的,但想象一下这样一种情况,你正在处理大量耦合的 ODE/PDE,并且方程中的大多数常数都是未知的。 是啊,现在这已经成为一项艰巨的任务了? 您可能需要文献调查和专家知识来估计这些未知参数的值。 此外,还有一项挑战。 尽管在这种情况下,您拥有完善的物理原理,但这仍然是现实生活场景的近似值。 实际上,ODE 的结果与实际数据之间总会存在偏差。
因此,现在假设我们有棒上 10 个等距位置的实际温度历史数据,以及每 1 分钟的时间间隔。
数据看起来像这样:
该棒的挑战在于,我们不知道一段时间内温度在长度维度上的表现如何。 此外,我们不知道杆的材料属性“alpha”。 我们可以用历史数据来估计吗? 这看起来像 Excel 中的曲线拟合任务,但它在求解线性、指数方面存在局限性,并具有一些更多的附加行为。 现实生活中的问题/动态是高度非线性/复杂的,无法使用 Excel 来解决。
使用 Seeq Datalab 的基于线性回归的混合模型快照
为了应对这一挑战,我们将使用“基于物理的机器学习/人工智能”来估计 alpha 值并预测任何给定时间和位置的棒的温度。 该模型将使工程师能够超越 CFD 模型,虽然 CFD 模型非常有用,但有时当必须处理复杂的几何形状和网格划分或必须对其进行更长时间的模拟从而增加计算任务时,就会变得具有挑战性。 基于物理的 ML/AI 模型的另一个好处是,与传统的数据驱动模型相比,它需要的数据量更少。 下面是基于物理的 ML/AI 模型的片段,它可以用作解决无法获得足够数据的复杂系统的方法,或者从数据中学习还需要学习物理知识以增强、可靠和可靠的复杂系统。 调和的准确性。
作者,
ParthPrasoon Sinha
首席工程师 - 分析
Tridiagonal Solutions