首页 >> 人物 >> 原始数据不是微服务

原始数据不是微服务

2024-01-11 人物

别设计力直觉上存在着差异性。这是因为技师们的任务是较慢公开发表新系统,因而建筑工程制作团队的驱动程固定式并不才可要目的是正因如此、分离非议点以及强化适应性,旋公共服务的结构设计要能是备有一种特别设计某一特定用户体验的基本功能,其主要特点在于可系统设计性。而资料的目的在于背书决策制定,其主要适可不性是相符度。这种相符度显然以可系统设计性的方固定式在(例如,用作自然语言处理假设)被用到,也显然以解的方固定式在被用到(例如,用作看看一些不可或缺的缺陷)。

许多中小企业并未以惊人的速度快开始抽取大量的资料,并将原始历史记录倾倒到资料湖畔中的,以供资料技师后续重新整理。资料技术开发者所造成了的缺陷在于,他们所缺少的资料欠缺明确的拥有者,底层意思模糊不清。当源系统保持一致时,很少有人只能认知变动的情况,也不会预见在此之后“相符度”可不该是什么。在资料可不用领域,我们的主要缺陷是信任的缺失。

毫无疑问,相符度的来源可不该是一个明确管理权、管理机构得当且在语义上有意义的资料股票,它只能直观地总结想像世界的实体或暴力事件在标识符中的的表现。

在传统的本地资料仓库中的,经验丰富的资料驱动程固定式师负责在集中的环境中的定义相符度的来源。虽然这种方固定式在显然比较较慢且外表有些小巧,但它确实借助于了资料生态环境的主要要能。聪明且勤奋的资料私人机构们保证着一个整合层,以保证河口购买者只能可靠地用到一组经过验证、许多人称许的资料集。

在旋公共服务的驱动程固定式中的,由于每个制作团队都单独地管理机构着自己的资料产品,这就造成了了资料的重复使用和不一致。而且,我们还欠缺统一的法则来约束各个旋公共服务中的资料定义的方固定式在,以及当资料愈演愈烈变动时只能通知河口购买者。

以 Convoy 一些公司为例,该一些公司有一个名为 shipment_margin 的给定这两项,该给定这两项是通过将公共服务收入减去公共服务效益来算借助于受益。然而,各不相同的制作团队对于哪些效益与其特定的收入流相关,都会有各不相同的解读。他们都会根据自己的认知添加维度、调整 SQL 键入中的的 CASE 表达固定式、重命名字段,并将结果资料推送到在此之后假设中的。然而,这些资料被再度次用到时不一定显然基于全然各不相同的假设。

对于资料购买者来感叹,这无疑是一种再一。他们不一定不会分辨哪些资料是稳定密切合作的,哪些资料是还处于物理阶段性的。除非深入探寻底层键入,否则很难区隔有着不尽相同地名的字段或表密切关连的区别,这造成了的测试师无才可花费大量的短时间和中上游技术开发者顺利完成对话,得以认知资料的真正意思以及如何用到,而这无疑加大了他们的管理机构工作难度。

算借助于佣金时,我可不该并不才可要哪个?

这种方固定式在不非常少使资料的获取只不过愈来愈为困难,也使缺陷的相符度降低。此外,它还显著增高了花费。云的测试资料库的单价假设主要基于键入系统设计的制订系统设计过程中的所消耗的算借助于资源量。由于适当于的键入无才可愈来愈多的资源,它们将造成了每次键入的效益增高和总的计费增高。在欠缺集中的化管理机构的意味著,各制作团队才可两人决定,如何才能最短时间内算借助于一组不尽相同的给定。尽管对于单个的测试师来感叹,花费显然却是比较于,但在整个一些公司中的,对大资料集顺利完成数千次重复使用算借助于时,花费就都会只不过极其昂贵。

在以旋公共服务为定位的环境中的,每个少用的显然表或维度表都都会只不过诱发大部分,尝试顺利完成跨的组织的比较都会只不过困难。为了在技术开发阶段性逐步更高渐进速度快,资料的相符度就被忽视掉了,然而讽刺的是,这反而使的测试层的速度快大幅下降。

从根本上来感叹,资料的最根本准则就是相符度。根据用例,我们从愈来愈直观的资料中的获得的投资回报显然极小(例如,临时通报),或者十分大(例如,经过监管的都会计直接)。制作团队无才可有着适应性,根据才可求将定向资料集裂解为愈来愈相符的资料集。然而,在旋公共服务的世界里,我们只不过全然放弃了资料的一致性,接纳每个制作团队都在单独的环境中的运行的显然。

大多数资料都没那么有用

这带借助于了旋公共服务定位新方法的另一个主要缺陷:在资料湖畔中的的大部分资料符合来说却是那么有用。

特地考虑示例的 JSON 资料转储实例:

交易系统资料(其填充在一处定义不明确的 blob 中的)显然对资料的测试和自然语言处理至关不可或缺,也显然毫无商业价值。资料中的某些部分显然在未曾来有着效用,或者部分基本的不可或缺资料显然在未曾来都会夺去商业价值。

资料商业价值随短时间变动这一理念,在逻辑学上与旋公共服务的角色有着显著差异性。旋公共服务驱动程固定式是针对当前才可求订制协作的,而不都会为了未曾来显然借助于现的才可求而结构设计。如果为了某种潜在的未曾来才可求来结构设计一个旋公共服务,大多数技师都会对你感叹:

"等到有了具体的可不用桥段的时候,再度来提问。"

据 Forrester 的研究资料显示,“在所有的中小企业中的,平均有 60% 至 73% 的资料未曾被用作的测试”。这表明,在一个资料湖畔中的,最多有四分之三的资料没有人被理论上借助于。

然而缺陷并未曾南南西此。一个资料节点被用到,却是一定反之亦然它有着商业价值。例如,假设数家打车公共服务平台的软件包技师创设了一个名为 vehicle_metadata 的资料库。其发借助于的一个暴力事件的表述较为做作,显然造成了读者不能认知。经过修改后:这个资料库中的,驾驶车辆的传感器记录车速,一旦检测到速度快显著增高,就都会一连串一个暴力事件。可不用程序将车速与列车运行顺利完成比对,算借助于借助于两者的差值。如果驾驶的速度快显著超过列车运行,可不用程序将向驾驶发借助于无视,告诫他们显然因为不安全的驾驶行为而受到罚。

一些公司的一位产品经理假设每次行驶的平均速度快显然是一个有用的基本特征,用作他们正在协作的预见司机严重事故均值的自然语言处理假设。这个资料可以为了让认知一些公司可不为司机投保的额度,以及算借助于每个司机无才可支付的额度。资料科学家将这个基本特征引入他们的训练集,并用到新资料训练假设,的测试结果。然而,经过几天的物理后,制作团队得借助于结论,每次行驶的平均速度快却是能理论上预见严重事故愈演愈烈的均值,因此他们决定舍弃这个基本特征,以降低频谱和为了将。

在此例中的,产品经理提议了一个假设,资料科学家顺利完成了一个物理,将资料作为一项适可不性改属生产厂环境——然而由于资料商业价值缺失,这个适可不性净利落地移借助于了。如果没有人其他资料用到桥段的才可求,那么软件包建筑工程制作团队是否是仍无才可协作资料旋公共服务、保证 API 和管理机构 schema 变迁,非常少可不对自家制作团队用到的资料点?几乎所有的人(相比之下 100 %的技师)都都会看看“无才可如此”。

大部分中小企业都有数百上千个曾经有过实用商业价值,但现今已多余武之地的分布固定式仪表盘。资料混乱状态无序,以至于不会明确区隔哪些缺陷并未化解,哪些缺陷仍然存在。由于转向面向旋公共服务的资料策略不会化解这个缺陷(符合来说考虑到之前的看法,这愈来愈显然使缺陷恶化),因此复制的数量将短短时间以指数级膨胀,还无才可额外增高建筑工程制作团队保证这些多余的中上游焊的效益。从资料管理机构角度来看,这种方固定式在不会借助于适配,对于建筑工程速度快来感叹也是蹂躏的。

旋公共服务迈进的主要目的是更高技术开发和协同作战的速度快。然而,当每个驱动程固定式都放到符合的管理机构下,都会助长什么制约呢?显然的结果有两个:A)建筑工程制作团队公开发表标识符的速度快都会大大降低,或者愈来愈显然的是 B)建筑工程制作团队将停止向资料制作团队备有许多人注意的访问环境的资料。

最极其不可或缺的一点是:在资料湖畔或传统的“资料仓库”中的,大部分资料符合来说是多余的。在资料确实有着商业价值之前就对其顺利完成管理机构,对于资料生产厂者来感叹承诺过分苛刻。只有当考虑到资料股票有着商业价值时,生产厂者才可不被承诺承担管理权。管理权的不作为可不从保证基本资料流通过单纯的资料保单保持连贯性开始,然后可以适配到愈来愈适当于的保单,如其业务特别设计的个人身份接收者( PII )或资料安全约束。另外,管理权不必根据用例逐步强化。

资料技术开发的可持续

软件包技术开发可持续(Software Development LifeCycle)是一个指导软件包可不用技术开发的规范化系统设计过程。它涵盖了从才可求抽取、考虑到工程项目要能与规格,软件包协同作战到生产厂环境并为客户服务创造其业务商业价值的多个阶段性。

在过去的 30 年中的,软件包技术开发可持续个人经历了多次提高效率,受益了极多技术开发基本功能的背书。我们可以将软件包技术开发可持续分为两个层次:近战层和策略性层。近战层主要包含协作软件包的具体管理机构工作程序与技术,如系统结构设计、版本控制、互助、短短时间内嵌/短短时间交货(CI/CD)、配置管理机构、云协同作战等,这是对“如何制订”缺陷的正确性。而策略性层则非议与技术无关的要能与任务,深入探究我们为何要以特定方固定式在协作软件包。

都有列举了策略性目标的软件包技术开发可持续的主要步骤:

根据客户服务的缺陷顺利完成才可求辨认。

制定用户故事和才可求的测试。

创设包含系统结构设计和驱动程固定式的CE。

撰写意味着CE的标识符。

将标识符协同作战至技术开发环境顺利完成测试者和质量控制。

协同作战标识符到生产厂环境供客户服务用到。

监控和保证标识符,前提客户服务体验稳定。

这个程序中的的几个极其不可或缺步骤许多人我们特别非议。首先,软件包才可意味着特定要能,即它无才可根据特定的驱动程固定式结构设计,以借助于特定的运行结果。其次,质量前提和飞行测试者,其本质只无才可顺利完成一次。一旦标识符验证、协同作战顺利完成,我们其本质不希望在未曾来对其顺利完成重大突破的修改,除非借助于现意外的边境地区情况。之前,此程序转变成一个自给自足的循环,一名技师可以单独顺利完成所有步骤,不无才可额外的为了让(当然,如果和产品经理与客户服务顺利完成过对话也有很不大为了让!)。

之前,我们将两人关乎资料技术开发的可持续:

首先,提议一个关于其业务的缺陷。

然后,认知已有的资料,了解其来源以及所隐含的意思。

接着,协作一个能正确性该缺陷的键入标识符。

在此基础上,评量该缺陷的答案是否是有着也就是说可不用商业价值。

如果答案是负责任的,那么可不该将键入协同作战到生产厂环境中的。

之前,评量键入是否是无才可顺利完成资料质量控制和管理机构。

若无才可,那么就协作一个健壮的资料假设,并在整个资料流直接中的制订资料质量检查及预警系统(这里无才可中上游拥有者的参与)。

之前,随着新资料的产生或基本资料的改变,我们无才可短短时间评量并重构键入。

此刻,你显然并未察觉到,这两种可持续密切关连存在着显著的差异性。软件包技术开发可持续(SDL)旨在生产厂借助于特定目的的软件包,而资料建筑工程愈来愈注重于探寻和继续借助于已有资料,以适可不在此之后桥段。我们抽取到的资料始终在变动中的,而且人们普遍预见资料借助于都会随着短时间加快而社都会的其发展,有时这种社都会的其发展甚至都会十分严重。由此,资料技术开发并非自成一体,河口制作团队与中上游生产厂者密切关连无才可紧密地互助。

总结归纳如下:正如文章开篇所述了,旋公共服务的结构设计目的在于备有适应性、速度快、单独性以及耐用性。而资料技术开发可持续包括资料的找到、复用、紧密耦合以及短短时间的变动和变迁。因此,旋公共服务框架和资料技术开发的才可求构成了不兼容的关连。

八角形钉子放不进方形的孔中的

与软件包比较于,资料存在着很多独有之处,这使得旋公共服务在意味着的测试和资料产品的才可求上都有所再一。

资料无才可一个密切合作的来源,而旋公共服务的直觉是解耦和单独。

资料的商业价值却是均等:将所有资料封装为旋公共服务的效益更为高昂,因为技师无才可负责那些显然没有人用的用例,或者显然随着短时间推移而夺去商业价值的资料。

这与资料股票的适可不性转变成了冲突,即资料的商业价值都会随着用例的变动而增减。

资料制作团队十分重视资料的找到以及为在此之后用例继续借助于资料,这使得资料制作团队不必紧密缺少中上游的资料源。然而,旋公共服务的建立目的在于消除缺少,这与上述管理机构工作程序相悖。

如果我们并不才可要不采用旋公共服务,那么可不该如何顺利完成系统设计呢?传统的资料库管理机构新方法却是能意味着制作团队较慢交货产品的才可求,因此,我们不必寻求一种只能与旋公共服务相容,同时又能背书适当的资料技术开发程序的化解方案。从最前提的准则借助于发,首先考虑到理想环境中的可不借助于的要能,然后反向思考可背书此类新方法的技术和的组织方固定式在,这是至关不可或缺的一步。

资料制作团队可不符合对 来自生产厂环境的原始资料 顺利完成渐进和物理的权限,限制可不降到最低。

建筑工程制作团队不可不非常少借助于于对原型结构设计或物理目的,而被容许承担直接管理权。

一旦河口考虑到了合理的可不用桥段,资料购买者可不有能够将资料股票"强化"到愈来愈高的质量最高级别。

这种强化可不将资料股票游戏内为想像来源。未曾来任何的强化都可不该修改想像来源的股票,而非创设多个版本。

由想像来源产生的资料前提从生产厂级直接分离借助于来,以替代原型环境中的的相可不原始资料。

当这些强化愈演愈烈时,资料生产厂者可不了解其缺少性的变动,并认识到向后不兼容的变动,愈来愈显然对资料缺少者产生的制约。

资料生产厂者可不有一种方固定式在来处理暴力事件变愈来愈通知,如管理机构公开发表感叹明和声明已弃用的字段,以适可不他们的公共服务随短时间的社都会的其发展。

如果资料股票对购买者不再度有商业价值,那么不可不再度承诺资料生产厂者继续将其作为产品保证下去。

资料治理可不在前提时根据用例逐步加入,而非过早制订。

毫无疑问,旋公共服务和资料几何体不一定被当作再次的看来解方案,然而它们如敏捷技术开发一般,代表着看来的后期的组织假设。绝大部分一些公司实践中的中的,不会符合按照敏捷宣言来系统设计,而是并不才可要制订那些能让渐进公开发表标识符只不过极度简便的技术,其中的旋公共服务就是一例。

同理,对于资料的生产厂者和购买者而言,他们前提在资料技术开发可持续的各个阶段性,即时地顺利完成互助,再次以得益于的资料产品和根据无才可备有的资料报价来超借助于管理机构工作的高峰。

在我再一公开发表的下篇文章中的,我将关乎,一个背书在倡议生态环境中的,制订资料技术开发可持续的驱动程固定式,可不如何协作,以及它如何与资料报价、可观察性、资料第一版以及渐进固定式治理接口相结合。

资料保单为定位的驱动程固定式实例

旋公共服务是为软件包技术开发者结构设计的,而不是资料。如果中小企业仍然退到老旧的新方法,坚持用不适当的基本功能去化解缺陷,那么他们在研究人脑可不用领域的计划显然不会按照预期顺利完成。资料技师们无才可主动争取肯定和背书,为了让首席技术官认知资料技术开发的角色差异性以及其相可不的才可求。如果你能成功做到这一点,那么化解当前造成了的缺陷将只不过轻而易举。

对于软件包建筑工程和资料建筑工程密切关连的差异性以及旋公共服务驱动程固定式对资料建筑工程实践中的的制约,你有何看法?

胃酸过多能吃金奥康吗
经常拉肚子怎么回事
呼吸机治疗打鼾没有效果怎么办
心肺复苏模拟人模型
反酸烧心吃什么药
TAG:数据
友情链接