凌晨三点，一个电话打给了周总——服务响应的”生死时速”

2026/05/09 Leave a comment

“周总，出事了。”

凌晨三点，周总被电话叫醒。

电话是XX医院护理部陈护士长发来的，声音很急，带着哭腔：”我们护士站，突然批量出现’医嘱无法执行’，几十个护士等着用药，病人家属都围过来了。有病人等着急救，系统不响应，我们在用手写…”

周总立刻清醒了。

这是XX医院HIS系统上线后第四个月，第一次出现大规模的在线故障。

他一边穿衣服，一边打电话给小张（项目经理）、小刘（运维负责人）、小李（DBA）。

“一级响应，所有人半小时到医院。带上笔记本电脑、备份U盘、应急工具。”

半小时后，三人都到了医院信息科。

李主任已经在了，脸色很难看，在走廊里来回踱步。

“什么情况？”周总问。

“大约半小时前，开始有护士报错：’医嘱执行失败，系统错误’。起初是个别现象，我们以为是网络问题。但不到十分钟，半个医院的护士站都报错。现在门诊、住院的药房系统也受影响，没法发药。”

周总和团队冲进机房。

1. 紧急排查：从”症状”到”根因”

小刘开始查日志。

日志显示：”医嘱执行”这个接口的错误率，从0%飙升到了87%。错误信息是”数据库连接超时”。

但数据库连接池正常（使用率60%），CPU使用率正常（45%），网络也正常（延迟1ms）。

“不是连接不上数据库，”小刘说，”是某个查询特别慢，把连接占住了。”

“哪个查询？”

“”获取待执行医嘱列表”这个接口。平时这个接口300毫秒，现在有的请求要15秒。”

小刘调出那条SQL：

“`sql
SELECT o.order_id, p.patient_name, d.drug_name, o.status
FROM orders o
JOIN patients p ON o.patient_id = p.patient_id
JOIN drugs d ON o.drug_id = d.drug_id
WHERE o.status = ‘待执行’
AND o.created_time >= DATE_SUB(NOW(), INTERVAL 1 DAY)
ORDER BY o.priority DESC, o.created_time ASC;
“`

“为什么突然变慢？”周总问。

小吴查了一下：”这个SQL，最近一次代码变更是一周前，加了ORDER BY o.priority。但上周压测通过了啊。”

“数据量现在多大？”

“orders表，加上四月份的数据，现在有230万行。’待执行’状态的，大概15万行。”

老周看执行计划：

– o.status 有索引（status_idx）

– o.createdtime 有索引（createdtime_idx）

– 但ORDER BY o.priority没有索引

– MySQL选择用status_idx，扫描15万行，然后排序15万行

这就是问题所在——“文件排序”（filesort）导致性能雪崩。

小吴说：”上周压测时，数据量只有50万，’待执行’只有3万，排序很快。现在量大了三倍，排序变慢10倍。”

周总：”加个组合索引：(status, priority, created_time)，能不能解决？”

小吴：”可以，但需要锁表。online DDL也要10分钟，现在能用吗？”

现在门诊还在运行，锁表会雪上加霜。

2. 紧急处理：降级、扩容、加索引，三管齐下

老周决定三管齐下：

第一步：功能降级

– 临时关闭”优先级排序”，按created_time排序就够了

– 改SQL，去掉ORDER BY priority

– 热更新配置，不需要重启

– 5分钟完成

效果：查询时间从15秒降到2秒，但还不够（正常应该<500毫秒）

第二步：扩大连接池（临时）

– 连接池从50扩大到100

– 防止其他功能因为等待连接而卡住

– 效果：其他接口恢复正常

第三步：热加索引

– 给orders表加组合索引：idxstatusprioritytime (status, priority, createdtime)

– 使用MySQL的ALGORITHM=INPLACE, LOCK=NONE在线加索引

– 预计时间：15分钟

– 期间性能会有轻微下降

小吴开始执行。

但加索引到一半，出事了。

3. 危机升级：磁盘空间不足

数据库日志报错：”磁盘空间不足，无法创建索引”。

小李查磁盘空间：

– C盘（系统盘）：剩余5%

– D盘（数据盘）：剩余3%

– 日志文件占用空间，从三个月前的50GB，增长到了160GB

“日志为什么占这么大？”老周问。

信息科老陈说：”系统日志级别设为了DEBUG，每条SQL都记录。平时没事，但上线后bug多，日志量大增。我们还没来得及调整。”

而且，自动日志清理任务，上周执行失败了——因为没人检查执行结果。

老周明白了：这不是单一原因，是系统性的运维意识薄弱。

几个环节：

– 日志级别不合理（DEBUG级别太细，应该WARN或ERROR）

– 没有监控磁盘增长（告警阈值设为5%，等发现时已经太晚）

– 自动清理任务失败了没人管（有执行，没验证）

三个小问题，叠加在一起，造成了大故障。

老周当机立断：

1. 临时删除最占空间的三个非核心索引（历史遗留，很少用）

2. 清理一周前的日志文件（压缩备份后删除）

3. 调整日志级别为WARN

4. 加索引继续

折腾了40分钟，腾出30GB空间。

索引终于加完。

效果立竿见影：

– 那个查询从2秒降到80毫秒

– 系统错误率从87%降到0%

早上四点三十分，系统恢复。

护士们终于能正常开医嘱、发药了。

4. 根因分析：一个”小疏忽”引发的大事故

事后，周总主持了深度复盘。

参与的包括软佳团队、信息科、护理部代表。

周总先问了一个问题：”这次故障，直接原因是SQL慢。但SQL为什么慢？”

小吴：”因为数据量大了，排序开销大。”

“数据量大是突然发生的吗？”

“不是，是按月增长的，四月份增加了30%。”

“那为什么我们没有提前预警？”

没人说话。

周总自己回答：

1. 没有容量规划——不知道数据增长趋势，不知道索引会失效

2. 没有性能回归测试——上周改代码时没测这个查询在新数据量下的表现

3. 没有监控磁盘空间——告警阈值5%太低，应该20%就预警

4. 没有自动任务验证——日志清理任务失败没人发现

5. 没有紧急响应预案——遇到磁盘满不知道优先做什么

“这不是技术问题，是运维管理问题。”

5. “救火”后，我们做了三件事：从”被动响应”到”主动预防”

周总回到公司，没睡觉，而是组织了一次”售后复盘会”。

他做了三件事：

① 建立”预防性运维”清单

软佳为客户提供的”月度健康检查”清单，增加了五项：

– 检查磁盘空间增长趋势（提前发现数据膨胀）

– 检查自动任务执行日志（确保任务没silently失败）

– 检查日志文件大小和级别（适时调整，避免占满磁盘）

– 检查慢查询日志（及时优化，防止雪崩）

– 检查缓存命中率（防止缓存失效导致穿透）

② 推出”健康巡检”服务

每月一次上门，免费为医院做系统健康检查。

检查清单包括上面那五条，再加上：

– 备份有效性验证（备份能否恢复）

– 安全补丁状态（操作系统、数据库、中间件）

– 性能基准测试（对比上月，看是否退化）

巡检后给一份报告，列出风险和建议。

“这个服务，目前免费。”周总对李主任说，”但半年后，如果你们觉得有价值，我们可以签年度服务协议，一年18万。”

李主任点头：”你们想得挺周到。”

③ 为所有客户做一次”紧急响应演练”

模拟各种故障场景：

– 磁盘满

– 数据库死锁

– 网络中断

– 应用OOM

– Redis宕机

演练工程师的响应流程：

1. 告警确认（5分钟内）

2. 快速定位（15分钟内）

3. 临时解决（30分钟内）

4. 根因分析（4小时内）

5. 整改（24小时内）

评估：响应时间、解决效率、沟通质量。

周总说：”这次凌晨故障，暴露了我们应急流程的问题。人员到场时间是30分钟，太长。下一次，我们要做到15分钟内响应核心故障。”

6. “售后服务”才是真正的营销：最好的销售是解决危机

三个月后，周总正在给另一家医院（ZZ医院）做巡检。

这家医院的情况，比XX医院还糟糕：

– 日志文件300GB，占满了C盘

– 数据库有137个未使用的索引，拖慢写入

– 有一个批量任务（每晚跑），每天凌晨跑5小时，但业务不知道它在跑什么

– 磁盘监控是摆设，告警一直没处理

周总边检查，边对信息科主任说：”你们这系统，就像一个从不保养的汽车，勉强能开，但随时可能抛锚。”

主任苦笑：”我们这不是不知道要保养吗？”

周总帮他制定了年度运维计划：

– 每月健康巡检

– 每季度性能调优

– 每年架构评审

– 每半年灾难演练

“签个服务协议吧。”周总说，”我们帮你们把系统养好，你们能安心用。”

主任问：”多少钱？”

“一年18万。”

主任心里一算：请一个专职DBA，一年工资都不止这个数。还有监控工具、巡检成本…

“签。”

7. 售后服务的”心法”：从”成本中心”到”利润中心”

周总后来在一次行业会议上，分享了他的”售后服务经”：

“很多人觉得，售出产品，销售就结束了。但我觉得，售出产品，销售才刚开始。”

“产品就像种子，售后就是浇水、施肥、除虫。没有好的售后，再好的种子也长不好。”

“而售后，是最好的营销。”

为什么？

因为客户在遇到问题时，最能感受到你的价值。

产品一帆风顺时，客户觉得”这系统还行”；但出问题时，你响应快、解决得好，客户会觉得”这公司靠谱”。

(“一次成功的应急响应，胜过十次销售拜访”)。

XX医院那次凌晨故障，我们到场半小时，解决问题两小时。事后，他们信息科主动给我们介绍了一家新客户。为什么？因为他们 seeing 了我们的责任心和专业能力。

所以，售后服务不是成本，是投资。

而且，这个投资的回报率，非常高——一个满意的老客户，会带来新客户；一个不满意的客户，会带走一片客户。

软佳后来成立了”客户成功部”，不再是简单的”售后技术支持”，而是”客户成功经理”制。

每个客户，配一名成功经理，职责：

– 定期巡检

– 主动优化

– 健康度评估

– 需求收集

– 续约推进

成功经理的KPI，不是”处理了多少工单”，而是：

– 客户健康度评分

– 系统可用率

– 故障次数趋势（下降）

– 客户NPS

– 续约率

这个部门，成了公司增长最快的部门——不是因为签了多少新单，而是老客户续约率从75%提升到了92%。

“很多公司，把售后当成本中心。”周总说，”我们把它当利润中心。”

解释：一次成功的售后，带来口碑，带来新客户，新客户的第一年收入，就是售后部门的”贡献”。老客户续约，也很大程度取决于售后体验。

所以售后部门创造的”间接价值”，远超其人力成本。

8. 凌晨电话，是信任的信号

陈护士长后来给周总发了条短信：

“周总，那天凌晨不好意思，打扰你们了。但说真的，你们来得很快，解决得很快。护士们都说，软佳的人，靠谱。”

周总把这条短信，贴到了客户成功部的墙上。

他说：”这条短信，比任何销售合同都有价值。因为它是客户在情绪最焦虑的时候，发给我们的——这种时候的信任，是最真的。”

9. 售后服务的”三个层次”

周总把客户关系，分为三个层次：

第一层：交易关系

– 你给我钱，我给产品

– 履约即结束

– 容易替代（谁便宜选谁）

第二层：服务关系

– 有问题，响应快

– 有需求，能满足

– 有感情，但不多

– 不太容易被替代

第三层：伙伴关系

– 主动发现客户问题（巡检发现问题，不等客户报）

– 帮客户规划未来（需求 roadmap）

– 为客户的失败感到难过，为客户的 success 感到高兴

– 很难被替代——因为客户觉得你”懂”他

软佳在向第三层努力。

而华通，还在第一层——赵某每次来，就是”我们有个新功能，您要不要看看？”

10. 售后响应”黄金一小时”原则

周总后来制定了一个”售后响应标准”：

一级告警（业务中断）：

– 响应时间：5分钟内确认

– 支持人员到场：15分钟内（同城）

– 临时解决：30分钟内

– 根因分析：4小时内

– 根治方案：24小时内

二级告警（性能严重下降）：

– 响应时间：15分钟内确认

– 临时解决：2小时内

– 根因分析：24小时内

三级告警（功能异常，但不影响核心业务）：

– 响应时间：1小时内确认

– 解决时间：24小时内

“我们卖的不是软件，是’7×24小时安心’。”周总说。

客户买的是功能，但期待的是服务保障。

互动话题

你有遇到过”超出预期”的售后服务吗？是什么让你觉得”值了”？

> 基于真实医院场景改编，人物均为化名

立即免费试用门诊系统：https://app.kmhis.com/
International Version：https://app.kmhis.com/multi/
了解软佳门诊管理系统详情：https://www.kmhis.com/outpatient-management-system.html

手机扫码试用患者预约。请勿输入个人真实信息（点击图片可查看原图）

支持8种语言：简体中文、繁体中文、香港中文、English、藏文、泰文、老挝语、越南语

说真的。这类问题我见过太多了。每次看到医院同事为选型头疼。我就想，要是早点有人把这些经验分享出来就好了。毕竟。选择不对。后面全是麻烦。选择对了。省心省力。还能提升整个机构的运行效率。希望这篇能帮到正在纠结的你。

你如果有具体需求。也可以去 www.kmhis.com 看看。那里有更详细的技术方案和案例。

从纸质到屏幕：一位老医生的”数字拐杖”

2026/05/08 Leave a comment

“赵主任，今天又有3位患者投诉，说您写处方他们看不懂，药师也打电话来确认了3次。”

江西南昌XX区第二医院的内科门诊外走廊，早8点45分，医务科长李主任快步追上刚看完一位患者的赵主任。49岁的赵主任是医院的内科骨干，干了25年，患者口碑好，诊断准，但有个”老毛病”：字迹潦草得像草书，他的处方药房药师常打电话来问，甚至需要患者自己辨认。

“我这不是忙吗？一个接一个，下午还有手术，哪有时间慢慢写工整字？”赵主任边走边反驳，手里还捏着半杯没喝完的浓茶。

但问题远不止手写处方。每天上午7点50分，赵主任准时到诊室，打开病历本，一天的工作流程就这样开始：

1. 纸质病历本，患者自述，他边问边快速记录（平均每位患者3-5分钟）

2. 开处方，手写，药房能否看清全凭运气

3. 开检查申请，手写单子，患者或家属送到检验科，经常丢失或送错科室

4. 查看历史病历，要翻一摞病历本，费时费力，紧急时根本找不到

“赵主任，上午已经4个患者说拿错药了，幸亏药师多问了一句。”护士长追过来，语气里带着抱怨，”您要是用电脑开处方，哪会有这些事？”

赵主任没说话，回到诊室，把厚厚一摞病历本”啪”地摔在桌上。他42岁开始戴老花镜，现在近視+老花，写小字时眼镜要滑到鼻尖。诊室墙上的白板写着”今日预约：48人”，实际到诊可能超过60——这工作量，手写确实成了瓶颈。

午休时，他在医生休息区抽烟，对老同事说：”如果有个系统，能让我在一个屏幕上搞定所有——开病历、开处方、下检查、看历史——该多好。我不用写那么多字，患者也能得到更准确的用药。”

但转头他又说：”我这岁数，学电脑？算了吧，等退休了再说。新技术是你们年轻人的。”

转折发生在一次”患者闹事”事件。

一位患者拿着赵主任的处方去药房，药师看了半天说：”这个字迹，是阿莫西林还是阿奇霉素？您自己也没底啊？”患者怒了，在大厅吵起来。

雖然后来确认是阿莫西林，但事件被拍下视频，传到院内大群。院长震怒：”赵主任，你是业务骨干，但手写处方问题必须解决。否则，停诊。”

医务科长李主任趁机提议：”我们不是正在选型新系统吗？软佳门诊管理系统的医生工作站，可以让赵主任先试用。”

赵主任心里一百个不愿意。但院长下了死命令，他只能硬着头皮上。

软佳的培训工程师小周，27岁，年轻人，干事利落。他来到赵主任诊室，打开平板电脑，说：”赵主任，我保证3天让您会用，1周让您离不开。”

“吹牛。”赵主任心里想。

小周没强求，而是先观察赵主任一天的工作流程，记录每一个痛点：

– 病历书写：手写慢，字迹潦草，格式不一

– 处方：手写，容易出错，药房看不清要打电话确认

– 检查申请：手写单子，送检慢，紧急程度不标注

– 查看历史：翻纸质病历，费时费力

– 多语言：偶有外籍患者，沟通困难，需要翻译

“赵主任，您最头疼哪个？”小周问。

“都头疼！但最怕的是药房打电话来问处方，患者在后面排长队，前面卡住了，后面全堵。”赵主任说。

小周笑了：”这个好办。”

软佳的医生工作站，核心是”一体化”——病历、处方、检查申请、历史查看全在一个界面。

小周花了两天时间，手把手教赵主任：

第一天：电子病历

系统预设了内科常用的病历模板（发热、咳嗽、高血压、糖尿病等）。赵主任接诊时：

1. 扫码患者就诊码（或手动选择）

2. 系统自动加载该患者的历史病历（既往诊断、用药、过敏史）

3. 选择”发热待查”模板，系统自动填入标准化的现病史、体格检查部分

4. 赵主任补充自己的专业判断，5-8分钟完成一份结构化的电子病历

“模板是死的，您可以修改。”小周说，”但至少框架有了，不会漏项。”

赵主任试着用了两次。第一天笨拙，第二天顺畅。”比我手写快，而且字迹清晰，药房、检验科都能看懂。”他承认。

第二天：电子处方

这是赵主任最关心的。

系统开处方时：

– 自动显示该患者的过敏药物（红色警示）

– 配伍禁忌检查（如开具钾剂+ACEI类，系统弹出警告）

– 剂量校验（根据年龄、体重自动调整儿童/老人剂量）

– 库存检查（药品库存不足时灰色显示）

赵主任为一位咳嗽患者开具”阿莫西林胶囊 0.5g × 21粒”，系统提示：”该患者青霉素过敏史（红色），是否确认？”他查看档案，确实有，立即改为”阿奇霉素”。

处方保存后，一键发送到药房。药房药师小冯的屏幕立即弹出新处方，开始准备。

“原来手写再送，至少5分钟；现在1秒。”赵主任惊讶。

第三天：检查申请

软佳内置330+检查申请模板。赵主任要申请”血常规+CRP”，只需：

1. 点击”检验申请”

2. 选择模板（系统已预设好项目组合）

3. 添加备注（如”急查”）

4. 提交，检验科实时收到

过去要手写单子，再由患者或家属送至检验科，现在”秒级到达”。

第四天：多语言使用

这天，赵主任接诊了一位”Headache, dizziness”的外籍患者（英文）。

赵主任不擅长英文，但这个患者系统自动识别为英文界面。赵主任用中文输入主诉和诊断，系统自动生成英文版病历和处方给患者。药房收到处方也能看懂。

“这系统还能当翻译？”赵主任惊奇。

小周解释：”软佳国际版支持8种语言。医生用中文开，患者可以看英文/泰文/越南文。对我们和外籍患者都方便。”

赵主任点了个头。他们门诊虽然外籍患者不多，但有总比没有好。

一周试用下来，赵主任的工作效率变化明显：

– 病历书写时间：从15分钟 → 6分钟（-60%）

– 处方开具+送达：从5分钟 → 1分钟（-80%）

– 检查申请送达：从10分钟（手写+传递） → 即时

– 查看历史病历：从翻找5-10分钟 → 10秒

– 药房问询电话：从每天5-8次 → 0-1次

更重要的是，患者投诉”看不懂处方”归零。

赵主任在试用总结会上说：”我本来以为这系统是给我们年轻人用的，我这岁数学不会。但现在我明白了：不是年龄问题，是工具问题。

“系统不是来替代我的临床判断，是来帮我减少机械劳动。我现在有更多时间要和患者聊病情，而不是低头写字。”

院长在总结会上算了一笔账：

“我们门诊12个医生，假设每人每天节省1.5小时在文书工作上，一年就是12×5天×52周×1.5 = 4680小时。

“这4680小时，可以多看多少患者？按每患者15分钟算，就是18720次额外就诊。按人均门诊费150元算，就是280万元增收。

“而软佳系统一年才1898元。这个ROI，没法更划算。”

财务刘科长补充：”另外，手写处方的错误率下降、药房效率提升、患者满意度上升，这些隐性收益更大。”

试用期结束后，全院医生都切换到了软佳。

起初，有几位老医生抵触。赵主任成了”形象大使”，他现身说法：

“我以前也排斥，觉得一把年纪学不会。但现在我明白了，不是学不会，是没人教到位。软佳的小周教了3天，我就能上手了。

“现在我开病历、开处方、下检查，全部在一个界面，不用切来切去。患者信息自动带出来，不用翻病历。药房实时收到处方，患者不用等。

“这系统，比我以前想象的强太多了。”

现在，赵主任诊室的墙上贴着一张软佳医生工作站的流程图。他没事就看看，巩固记忆。他说：”人老了，记忆力不行，但工具用熟了，就成了身体的延伸。”

一次行业交流会上，有同行问：”你们医院医生工作站用下来，感觉怎么样？”

赵主任说：”没觉得有什么特别的，因为它已经像空气一样自然了。这也许是最好的评价——当你不需要思考工具的存在，你才能专注于真正重要的事：患者。”

回想那个被科长警告”再写不好处方就停诊”的下午，赵主任感慨：拒绝改变，往往是因为恐惧——恐惧学不会、恐惧被取代、恐惧不确定性。

但真正用了之后才发现，工具不是对手，是盟友。

一个好的医生工作站，不会让医生变得更简单，而是让医生更专注于医疗本身。

声明：本文基于真实医院场景改编，人物均为化名，数据为试点统计，实际效果因医生使用习惯、机构流程、患者量而异。

核心金句：

“最好的工具，是让人忘记工具的存在。”

“技术不是替代医生，是释放医生的时间。”

“从纸质到屏幕，变的不是媒介，是医生与患者的距离。”

互动话题：

您的门诊医生目前使用什么系统？最大的痛点是什么？

如果医生工作站能让门诊效率提升30%，对您的医院意味着什么？

您认为电子病历最大的优势是什么？病历质量、效率还是数据价值？

手机扫码试用患者预约。请勿输入个人真实信息（点击图片可查看原图）

支持8种语言：简体中文、繁体中文、香港中文、English、藏文、泰文、老挝语、越南语

你如果有具体需求。也可以去 www.kmhis.com 看看。那里有更详细的技术方案和案例。

除夕夜，我们升级了XX医院的HIS系统

2026/05/02 Leave a comment

“今年除夕，你们必须完成HIS系统从V3.0到V4.0的升级。”

信息科李主任发来这个消息时，老周正在看春节值班表。窗外飘着雪花，办公室里只剩下他一个人。明天就是除夕，大部分同事已经提前请假回家过年了。

老周是昆明软佳的运维负责人，负责XX医院的HIS系统运维。V4.0版本开发了半年，投入了15个开发人员，新功能很多：病历模板云端共享、手术排程智能优化、药品库存预警、移动查房、患者画像、智能分诊…但最关键的，是架构升级——从单体应用变成微服务，理论上更稳定，扩展性更好。

但老周知道，这套系统已经运行了五年，数据量庞大，业务逻辑复杂。数据库里存着三百万患者的完整病历，七年的门诊记录，五年的住院档案，总数据量超过2TB。XX医院是省内最大的三甲医院，日均门诊量一万五千人次，住院病人四千多人，高峰时段并发用户超过2000。任何一点差错，都可能造成医疗事故，甚至引发医疗纠纷，导致医院声誉受损。

“为什么非要除夕？”老周回问。

“因为那天下午后门诊就停了，初二才开诊。”李主任说，”我们有三天窗口期。而且，除夕夜全院最安静，没手术，没急诊高峰，病人少，业务量最低。”

老周沉默了。

说的有道理，但他更知道：除夕夜，工程师们都在家过年，谁愿意加班？ 而且，越是”安静”的时候，越容易麻痹大意。平时医院人来人往，任何异常都能及时发现；除夕夜如果出问题，可能到初二上班才暴露，那会已经酿成事故，影响初三的学术会议——院长要在会议上展示新系统，给医院”长脸”。

“能不能预约年初三？”老周问。

“不行，初三有学术会议，院领导和外宾都在。系统要展示新功能，我们要在全同行面前亮相。”

老周明白了：这不是单纯的技术问题，是政治任务，是面子工程。院长要在学术会议上展示HIS系统升级成果，给医院加分，给信息科长脸。

2. 升级前的”恐吓式”测试

老周带着团队，先做了一件事：模拟灾难。

他们在测试环境，把V4.0版本部署上去，然后人为制造各种故障场景，看系统能否扛住。

测试环境的数据量是生产环境的10%（200GB），但架构完全一致。

– 场景一：数据库突然断电

模拟数据库服务器宕机，看应用能否优雅降级。结果：所有功能全部不可用，微服务全部报错。因为所有服务都依赖数据库，而数据库挂了后，服务注册中心（Nacos）也挂了（它也依赖数据库），微服务之间互相找不到，整个系统雪崩。

– 场景二：网络突然中断

拔掉其中一台应用服务器的网线。结果：那台服务器上的所有请求失败，但没有自动迁移到其他服务器。负载均衡器虽然检测到服务器不可用，但需要30秒才能剔除，这期间用户请求都会失败，体验极差。

– 场景三：某个微服务突然崩溃

手动kill掉”医嘱管理”服务。结果：所有依赖这个服务的上游功能（如病历书写、护理记录、检查申请）全部报错。熔断器（Hystrix）配置了，但阈值设得太高——需要100次错误才触发，而在这之前，上游已经堆积了大量错误，线程池被打满。

– 场景四：磁盘突然写满

模拟日志磁盘爆满。结果：系统开始抛出大量IOException，但错误没有统一处理，用户看到的是”系统异常”，而不是”服务器繁忙，请稍后重试”。没有降级策略。

– 场景五：GC停顿

模拟Full GC，暂停30秒。结果：所有请求超时，用户感觉”卡住了”。

老周的头大了。

这些都不是V3.0时代会遇到的问题——V3.0是单体应用，数据库不挂，系统就不挂。现在V4.0拆成十几个微服务，一个环节出问题，可能影响一片功能。微服务的复杂性，远超预期。

3. 我们制定了三套”保底方案”

老周给李主任打了个电话：”直接升级风险太大。我建议分三步走，每一步都有回退方案，确保业务绝对不中断。”

第一步：增量上线，不是全量切换

– 先在门诊药房试点，只对药房人员开放新系统，其他科室继续用旧系统

– 试点稳定三天后，再扩大范围到门诊收费、住院收费

– 最后全员上线

“这样可以控制风险范围，即使药房出问题，也只是局部影响，不影响整个医院。”

第二步：数据双写，随时能回退

– 春节期间，新旧系统并行运行

– 所有新业务数据，同时写入新旧两个数据库

– 如果新系统出问题，一秒回退到旧系统，数据不丢

“数据一致性怎么保证？”李主任问。

“我们在应用层做双写，用一个事务同时写两个库。如果其中一个写失败，整个事务回滚。而且我们会做定时对账（每半小时一次），发现不一致立即修复。双写最多保持一周，等新系统稳定了，就切换单写。”

第三步：除夕不升级，只做”预演”

– 除夕当天，我们不碰生产环境

– 在测试环境，完整演练一遍升级流程和回滚流程

– 如果演练顺利，年初二晚上做真实升级

“为什么不在除夕升级？”

“因为除夕全员都在家，万一出事，人手不足。年初二大家已经收假，可以应对突发情况。”

李主任沉默了很久，思考这个方案的利弊。

“如果年初二升级失败，初三学术会议展示什么？”

“展示我们之前双写的旧系统数据。新系统没上线，但升级计划已经在执行中，可以汇报进度，说明我们在扎实推进。”老周说。

李主任终于同意了：”行，就按你说的来。但年初二必须成功，不然院长会发飙，我们大家都不好过。”

4. 那个熬了三天的夜晚

年初二晚上八点，升级正式开始。

老周团队八个人，加上信息科三个人，全部在现场。机房温度有点低，但每个人都精神高度紧张，手里拿着对讲机，随时沟通。

升级步骤详细到分钟，印在每个人的手里：

1. 数据库备份（预计30分钟）：全量备份 + 校验和比对

2. 部署V4.0新服务（预计60分钟）：13个微服务逐个启动、初始化、健康检查

3. 数据迁移（历史数据从旧表结构迁移到新表结构，预计120分钟）：涉及2176张表，2.3TB数据

4. 配置切换（DNS、负载均衡切到新服务，预计15分钟）

5. 功能验证（各科室核心功能验证，预计60分钟）：挂号、收费、住院登记、医嘱、药房…

计划总时长：285分钟，也就是四个半小时。

看起来时间很充裕。

但老周知道，计划赶不上变化。他们准备了”升级失败回滚预案”，如果任何一步出问题，60分钟内必须回滚，否则数据不一致，回滚会更麻烦。回滚本身也需要时间。

第一步：数据库备份。顺利。

虽然备份速度比预期慢10%（用了45分钟），因为数据量比预想大20%，但还是在计划内完成，并校验了checksum，无错误。

第二步：部署V4.0新服务。顺利但有波折。

微服务启动时，有2个服务启动失败：配置管理服务（config-server）因为端口6380被占用（旧系统有个监控进程），注册中心（nacos）因为数据库连接字符串写错了（少了个分号）。修改后重试，总共花了75分钟，比计划多15分钟。

第三步：数据迁移——这是最关键的一步，也是风险最大的。

历史数据有七年的门诊数据、五年的住院数据， Tablespace 超过 2TB。迁移工具data-migrator是公司自己开发的Java程序，还没在这么大的数据集上验证过。

“开始迁移。”

进度条：0.1%…0.2%…

时间一分一秒过去，大家都盯着屏幕，不敢说话。

一百分钟后，进度条卡在37%。

“停一下。”老周心里一紧。

运维工程师小王脸色很难看：”迁移速度变慢了，从每分钟1%降到每分钟0.1%。可能遇到数据热点，或者某张表有锁，或者磁盘IO达到瓶颈。”

“什么表？”

“医嘱表，数据量最大的表，四亿多条记录，占总数据量的60%。现在卡在这一步，因为医嘱表有外键约束，其他表都在等它完成。”

老周拳头捏紧了，指甲嵌进肉里。

37%的数据已经迁过去了，如果中断，回滚要删除这些数据，很麻烦；如果不回滚，继续迁，但速度这么慢（0.1%/分钟，意味着还需要6天），到天亮也迁不完，初二肯定上不了线。

“能不能跳过医嘱表，先迁其他表？”

“不行，医嘱表被其他几十个表外键约束。如果医嘱表没迁移成功，其他表迁了也联不起来，数据是断的，对账都对不上。”

会议室里，气氛凝重。已经凌晨一点，窗外偶尔传来鞭炮声——有人在提前过年。

已经是凌晨一点。

老周看向大家，眼神坚定：”还有什么想法？不论多大胆，说出来。”

5. 最后的办法：物理复制

小王，这个26岁的年轻工程师，说了一个大胆的想法：”我们不做逻辑迁移了，用物理复制。”

“什么意思？”

“我们不通过工具逐条迁移数据，而是直接把旧数据库的 MDF/LDF 文件拷贝到新数据库服务器，在新库上直接做 schema 转换。”

这相当于把旧数据库的”硬盘”直接物理搬到新数据库，然后在新数据库上修改表结构，适应V4.0的 schema。

因为只是修改表结构（加字段、改索引），不移动数据行，速度会快很多——复制2.3TB文件，通过内网万兆光纤，只需要30分钟；schema转换再花1小时。总共2小时搞定。

但风险是：

– 物理复制过程中，如果旧库还有数据写入（虽然升级期间已经通知停业务，但万一有漏网的终端还在连接），数据会不一致。

– 新旧数据库的字符集、排序规则必须完全一致，否则会乱码。

– 复制后需要重新统计信息，否则查询性能会下降，相当于”数据迁移了，但查询更慢了”。

“赌一把。”老周说。现在没有其他选择，时间不等人。

他们先命令所有终端停止连接数据库，确保业务完全停止——这一点至关重要，确保了物理复制的ACID。

然后，停止旧数据库服务，用Robocopy工具拷贝数据文件，保留所有权限和属性。

拷贝花了20分钟（2.3TB通过内网万兆，速度比预想快）。

接着，在新数据库上运行 schema 转换脚本，把旧表结构改造成新表结构。这个过程要极其小心：不能丢失数据，要处理字段类型变化（如VARCHAR长度变化）、新增字段默认值、索引重建…

30分钟搞定。

接着，启动新数据库，验证数据一致性。

比对脚本跑了一个小时，结果是：一致性 99.99%，有少量数据不一致（约0.01%，约230万条记录中的23条），但都是升级期间产生的”残留”数据（停业务后最后几分钟的操作，有的写一半，有的锁未释放），我们可以从binlog里补回来。

老周看了看表：凌晨三点四十分。

“继续！”他的声音沙哑，但坚定。

6. 天亮前的最后一道坎

数据迁移完成，已经是早上六点，天蒙蒙亮。

下面就是配置切换， cutover 到新系统。

但就在这时，医务科刘主任打来电话，语气焦急：”有几个科室反映，他们电脑登录新系统特别慢，要半分多钟。医生在急着开医嘱，病人等在排队，护士站骂人了。”

老周心里一沉。

“是不是网络问题？”

“不是网络，是新系统启动后，有些服务初始化慢。特别是’患者基本信息查询’这个服务， cold start 要一分钟。很多医生在开机后第一次查询，要等很久，他们没耐心。”

老周突然想到：”我们不是有双写吗？让这些科室的人先用旧系统，我们调优新系统。”

但问题是，有些功能V4.0才有，旧系统用不了，医生会抱怨新功能不能用。

“能不能手动调整那些慢服务的超时时间，先让他们能登录？”

小王试了一下，调整了JVM堆内存（从2G加到4G）和线程池参数（从50加到100），登录时间从50秒降到了15秒。

“先这样，赶不上初一，初二能上线就不错了。”老周安慰自己，但心里知道，用户体验不能一直这样凑合。

7. 大年初二，系统上线了

上午十点，老周带着运维团队，在医院信息科”坐镇”。

李主任也在，脸色紧张。他身后站着医务科、护理部、财务科的人，都在等消息。

各科室开始有人陆续上班，系统正式开放使用。

第一个问题是在十点二十分钟出现的：收费处小张打不开收费界面，提示”服务不可用”。

运维立即排查：是”收费服务”这个微服务挂了，因为内存溢出（OOM），JVM heap 满了。

分析堆 dump，发现是某个收费记录的数据量异常大（超过10万条明细），导致内存泄漏。

临时方案：重启服务，并设置单笔交易明细上限为1000条，超过则提示”数据过多，请分批处理”。

十一点，药房反映，药品库存数量不对，有些药显示有库存，实际药架上没药。

查日志：数据迁移时，有一批药房的库存流水没迁全——因为那条记录的状态字段是NULL，迁移脚本跳过了NULL值。

紧急从旧库补数据，手动执行SQL，花了20分钟。

十二点，住院处反映，有病人出院结算时，总金额多了一块二毛钱。

查对账系统：有一笔三毛钱的二维码支付手续费，V3.0没算进总金额，V4.0算了（新功能自动计算）。

热修复：在结算时，如果金额与旧系统差异<1元，自动以旧系统为准。

下午三点，所有问题基本解决，系统运行平稳。

老周给李主任发了消息：”系统基本稳定，可以对外宣称升级完成了。”

李主任回复：”好。但学术会议还有半小时开始，院长要展示新功能，你们那边准备好了吗？”

老周深吸一口气，在微信群里发了消息：”所有工程师，保持手机畅通，随时待命。系统暂时稳定，但别掉以轻心。”

8. 为什么升级总是这么惊险？

升级完成后第三天，老周写了长篇复盘报告，发给公司管理层和XX医院信息科。

他发现，这次升级之所以这么惊险，不是因为技术难度大，而是因为：

1. 想一次性完成：没有采用渐进式上线，而是”一夜切换”。如果分阶段（先药房、再收费、后住院），问题可以早发现早解决，不会最后搞”大杂烩”。

2. 数据迁移工具没经过大数据验证：37%的迁移速度就已经暴露出性能问题，说明工具在TB级数据上表现不佳，应该用更成熟的方案（如物理复制）。

3. 冷启动问题没预判到：新服务启动慢，影响用户体验，特别是首次查询。应该有预热机制（提前启动，加载缓存）。

4. 测试环境数据量不到生产环境十分之一：所以没遇到真实场景的性能瓶颈和脏数据问题。测试应该用生产数据的脱敏副本。

5. 应急预案不够细：虽然准备了回滚方案，但执行时发现很多细节没考虑到（如回滚后的数据一致性验证）。

改进措施（老周在报告中详细列出）：

1. 未来升级，必须先灰度发布，小范围验证（如先上10%流量，观察24小时）

2. 数据迁移工具，必须在与生产环境同量级的数据集上测试（至少1TB），并准备物理复制作为备选方案

3. 服务预热机制：在切换前2小时，提前启动新服务，完成JIT编译和缓存预热

4. 升级期间，必须有物理备份，随时能回滚到上一秒状态

5. 建立”升级检查清单”，逐项打勾，不跳过任何步骤

6. 每个微服务都要有熔断、降级、超时配置，不能依赖”默认值”

7. 升级窗口期要预留buffer，计划6小时的任务，给10小时

9. 事后，李主任说了一句话

一周后，李主任请老周吃饭，地点在医院食堂的小包间，没叫外人。

“这次升级，虽然出了不少问题，但总体是成功的。”李主任说，”最重要的是，我们没有因为升级导致病人看病受阻。初三学术会议，院长展示了新系统，效果很好。院长说：’你们的信息科，能打硬仗。'”

老周松了口气。

“但我有个问题，”李主任又说，露出苦笑，”下次升级，能不能别选春节？我们科的人也要过年，连续三天熬夜，身体受不了。”

老周笑了：”下次，我建议选五一或十一，窗口期更长，我们也有更多时间做灰度验证，不用赶工期。”

李主任点头：”这个提议，下次班子会我会提。顺便，你们那套’双写+对账’方案，效果不错，数据零丢失。我们想把它固化下来，以后日常也跑，作为实时备份。”

“可以，我们会写成功能模块，纳入标准产品。”

10. 稳定压倒一切

老周后来在部门内部分享会上，反复强调，把这起事件作为反面教材和成长案例：

“系统升级最大的风险，不是技术问题，是时间压力。

时间一紧，人就容易慌，容易漏步骤，容易不走检查清单。

但系统升级，最怕的就是’赶’。

宁可慢一点，稳一点，分阶段上，也不要一次性能完成但风险不可控。

稳定压倒一切。业务连续性，比面子、比会议、比展示，都重要得多。

这次除夕升级，教训是深刻的。我们学到了：

– 不要相信’理论上’，一定要测试验证，尤其是灾难恢复测试

– 不要跳过检查清单，每一步都要有记录、有责任人、有回滚方案

– 要有回滚预案，而且回滚方案本身也要测试过

– 时间缓冲要给足，计划再乘以1.5的系数

– 升级不是IT部门的事，是全院的事，业务部门要参与演练

工程是严谨的科学，不是冲刺。冲刺得来的成功，往往是隐患的开始。”

互动话题

你经历过最惊险的一次系统升级是什么情况？有什么经验教训？

> 基于真实医院场景改编，人物均为化名

手机扫码试用患者预约。请勿输入个人真实信息（点击图片可查看原图）

支持8种语言：简体中文、繁体中文、香港中文、English、藏文、泰文、老挝语、越南语

你如果有具体需求。也可以去 www.kmhis.com 看看。那里有更详细的技术方案和案例。

昆明软佳科技有限公司 – 昆明HIS系统

Tag: 精准营销触达

从纸质到屏幕：一位老医生的”数字拐杖”