系统卡顿引发的患者冲突：一场发生在贵州县医院的性能战争

2026/05/16 Leave a comment

上午10点43分，贵州贵阳XX县医院门诊大厅的空气凝固了。收费窗口前排起的长龙突然爆发出一阵争吵。

“我排了20分钟队，你们系统又卡了？！”一位50多岁的中年男子把病历本拍在窗口台上，脖子上的青筋都暴了出来。

收费员小王额头冒汗，手指在键盘上狂敲，屏幕上那个旋转的”加载中”圆圈转得让人心慌。”张师傅，不是我不收钱，是系统转圈圈转不出来。”

“我过敏史、医保卡都递进去了！现在让我重填？”患者的妻子也急了，声音尖利，”你们这效率，我们来来回回跑几趟？”

周围排队的人面面相觑，随即抱怨声四起。导诊台三个护士跑过来调解，但情绪像病毒一样传染。诊室3区，一位患者因为病历打不开，在里面和医生大声争执；药房取药窗口，药师扯着嗓子喊：”6号处方系统里看不到！刚开的！”

信息科值班员小马，27岁，软佳科技驻场在这家医院的实施工程师，此刻正躲在后台机房盯着服务器监控屏幕。他的后背已经被冷汗浸透——过去一个月，类似投诉已经13起。三天前院长下了最后通牒：”小马，再出一次大面积卡顿，系统停用，重新选型。”

小马深吸一口气，调取实时监控。硬件配置完全够：Dell PowerEdge R740，32G内存，SSD硬盘，千兆内网。但为什么每到高峰期（9-11点、14-16点）就卡顿？他打开慢查询日志，三个核心功能的响应时间触目惊心：

– 医生打开患者历史病历：平均4.2秒

– 药品下拉列表加载：平均3秒

– 收费结算：平均2.8秒

“4秒才能看历史病历，一个医生每天要看50+患者，单这一项就多花3分钟+，乘以门诊量300+……”小马在笔记本上快速计算，”这还不算用户重复操作的次数。一个高峰期，系统消耗的无效等待时间，至少是200人·小时。”

他想起主任的话：”县医院接诊量不大，日门诊量也就300多人，系统怎么就这么慢？”但300人不假，每个操作慢3秒，叠加起来就是灾难。高峰期100人同时在线，每秒并发请求30+，系统就像塞车的城市道路，每辆车都在等红绿灯。

小马拿起手机，给软佳总部技术团队发了紧急消息：”XX县医院，情况危急，需要深度性能剖析支援， ASAP。”

小马是软佳科技驻场到这家医院的实施工程师，27岁，贵州本地人。去年大学毕业进了软佳，这是他负责的第4个项目。前3个项目都比较顺利，但这家县医院的问题，让他连续两周没睡好。

“小马，到底能不能解决？”院长在技术协调会上直接问，”我们县医院接诊量不大，日门诊量也就300多人，系统怎么就这么慢？”

小马不敢打包票，但他知道，软佳的技术团队在昆明随时可以支援。

过去两周，小马已经做了初步排查。他用监控工具抓取了高峰期的系统数据，发现瓶颈集中在数据库和软件代码层面，而非硬件。

“院长，我现在要做一个深度诊断，可能需要1-2周时间。期间系统可能会有些调整，但我们会错峰进行，不影响门诊。”小马说。

院长点头：”给你时间，但要见效。”

小马的通知单发出去后，软佳总部技术团队派来了两位顾问：数据库专家老林和架构师老周。

三人碰头的第一天，老林就说：”我们先做一次完整的性能剖析，找出慢的原因。”

他们从三个维度入手：

第一，病历查询慢。

医生打开患者历史病历时，系统要查询 patientmedicalrecord 表。这条SQL很简单：

“`sql
SELECT * FROM patient_medical_record
WHERE patient_id = ?
ORDER BY visit_date DESC
“`

但执行一次要4.2秒。为什么？老林分析执行计划，发现字段 patient_id 没有索引，每次查询都是全表扫描。更糟糕的是，有些患者就诊次数多（>50次），一查就是几万条记录，越查越慢。

第二，药品加载慢。

医生写病历时，要选择药品。药品下拉列表有3000+条记录，每次打开都从数据库全量查询。而且没有缓存，哪怕上午刚查过，下午再开又要重新查一次。耗时3秒。

“医生等3秒没什么，但一天开100张处方，就是300秒，5分钟浪费在等药品列表上。”老周说。

第三，收费结算慢。

缴费时，系统要遍历所有处方项目，计算总额。并发高时（早高峰），多个收费窗口同时操作，数据库连接池很快耗尽，后续请求开始排队。平均响应2.8秒，收费窗口前就开始堵人。

“还有，”小马补充，”系统老问题很多。比如患者基本信息，没有做缓存；比如报表查询，是直接从生产库读；比如权限验证，每次请求都查数据库…”

老林总结：”典型的’能用就行’架构，没考虑性能。”

诊断完成，下一步是优化方案。

老林负责数据库层面：

1. 给 patientmedicalrecord 表加索引，按 patientid 和 visitdate 建立复合索引

2. 病历查询改为分页，每次只取最近20条

3. 高频率查询的表（药品、患者）建立查询缓存

老周负责架构层面：

1. 医生开处方时，实时计算费用明细并缓存，缴费时直接读取

2. 患者基本信息、药品字典加载到内存缓存（Redis），每次优先从缓存读

3. 报表类查询从只读备库走，不影响主库

小马负责实施：

1. 先在测试环境验证效果

2. 选择低峰期（下午1-3点）逐次上线

3. 监控每项优化的影响

4. 准备回滚方案

“我们分三步走，”老周说，”第一周做SQL索引和第二级缓存；第二周做架构调整；第三周观察效果，再做微调。”

实施过程并非一帆风顺。

第一天加索引，系统短暂卡顿了几分钟。有医生反映”病历打不开”，小马紧急回滚，发现是索引重建时锁表导致的。他调整方案：改用在线加索引工具，避免锁表。

第二天上缓存，出现了一个 bug：药品列表缓存更新不及时，新添加的药品在医生端看不到。药房主任投诉：”今天新到的阿莫西林，我怎么在系统里找不到？”

小马赶紧排查：缓存过期时间设成1小时，新药品需要等1小时才能在所有终端同步。他改为”主动刷新+短过期”：添加药品时，系统主动清除相关缓存，下次查询时重建。

第三天调整收费计算逻辑，又出幺蛾子：有个患者的费用明细算错了，多收了20元。原因是缓存的数据格式和计算逻辑不一致。老林加班到凌晨2点，修复了数据转换的 bug。

小马总结了：”性能优化就像做手术，不能急，要一步步来。每动一刀，都要看病人反应。”

两周后，所有优化上线完成。小马在门诊大厅贴出告示：欢迎大家对系统速度进行”找茬”，发现问题及时反馈。

第三天，他拿到了第一组正式数据：

指标	优化前	优化后	提升幅度
病历查询P95响应时间	4.2秒	0.3秒	-93%
药品列表加载	3.0秒	0.1秒	-97%
收费结算响应	2.8秒	0.6秒	-79%
高峰期并发支持	50用户	200用户	+300%
系统慢投诉（月均）	12起	1起	-92%

院长在科室大会上展示这组数据时，全场的目光从怀疑转为惊讶。

“上周我说了，如果系统再卡就停用。”院长说，”今天我要说的是，不仅不停用，还要推广经验。咱们县医院的优化效果，可以作为系统在基层应用的典型案例。”

“最关键的是，”院长顿了顿，”患者投诉’系统慢’这几天几乎没了。收费窗口、药房、诊室，各个部门都反映流程顺畅了。”

一位老医生站起来说：”以前打开病历要等好几秒，现在点下去结果就出来了。这个感受最直接。”

小马坐在角落，松了一口气。

价格问题，院长在总结会上主动提了。

“这次优化是软佳的工程师免费做的，包含在服务里。”院长说，”但我想算一笔账：如果我们县医院一年需要这样的深度优化2次，每次单独请外部团队，费用大概在5-8万元。而我们软佳系统的年费是多少？

“1898元。

“你说便宜不便宜？这1898元，不仅是买一套系统，还包括持续的技术支持、性能优化、安全保障。换做是你们，这笔账怎么算？”

台下有人开始点头。

一位来自邻县的参会代表问：”你们这个系统，会不会用久了又变慢？”

小马回答：”软佳每周都会发布优化补丁，发现问题48小时内响应。而且我们有性能监控平台，可以提前发现潜在问题，主动优化。这不是一次性工程，是持续服务。”

那位邻县代表记了下来。

三个月后，小马回访这家县医院，发现系统依然流畅。他询问IT管理员小陈：”最近还有投诉说慢吗？”

小陈笑了：”上个月只有1起，是因为那位患者用的旧手机，浏览器卡顿。系统本身一点问题没有。”

更让小马欣慰的是，医院信息科的态度变了。过去他们只管”系统能用就行”，现在开始主动关注性能指标，每周看监控报表，发现异常立即上报。

“你们的教育起作用了。”小陈说，”现在我们知道，性能不是玄学，是可以量化和优化的。”

小马想起那个凌晨3点被投诉电话惊醒的自己。那时他以为，系统卡顿是个无解难题——硬件条件有限，用户量增长，慢是必然。

但这次经历让他明白：性能问题往往不是资源不足，而是设计粗糙。很多所谓的”硬件不够”，其实是”软件不巧”。

软佳的定位不是卖一套软件，而是提供持续进化的服务。每一次投诉都是改进的机会，每一次慢查询都是优化的信号。

回昆明总部汇报时，老林对小马说：”你在县医院的这个案例，可以写成一篇技术博客，发到内部知识库。”

小马想了想，写下了三句话，后来成为软佳技术文化的核心：

“系统卡顿不是患者太多，是代码太懒。”

“每一个慢查询背后，都有一个等待的患者。”

“性能优化不是奢侈品，是门诊系统的生命线。”

声明：本文基于真实医院场景改编，人物均为化名，数据为试点统计，实际效果因机构规模、硬件配置、使用习惯而异。

核心金句：

“系统卡顿不是患者太多，是代码太懒。”

“每一个慢查询背后，都有一个等待的患者。”

“性能优化不是奢侈品，是门诊系统的生命线。”

互动话题：

您的门诊系统是否遇到过性能瓶颈？是如何定位和解决的？

如果系统响应速度提升一倍，对您的医护人员和患者意味着什么？

在系统选型时，您是否把性能指标作为核心评估项？

立即免费试用门诊系统：https://app.kmhis.com/
International Version：https://app.kmhis.com/multi/
了解软佳门诊管理系统详情：https://www.kmhis.com/outpatient-management-system.html

手机扫码试用患者预约。请勿输入个人真实信息（点击图片可查看原图）

支持8种语言：简体中文、繁体中文、香港中文、English、藏文、泰文、老挝语、越南语

说真的。这类问题我见过太多了。每次看到医院同事为选型头疼。我就想，要是早点有人把这些经验分享出来就好了。毕竟。选择不对。后面全是麻烦。选择对了。省心省力。还能提升整个机构的运行效率。希望这篇能帮到正在纠结的你。

你如果有具体需求。也可以去 www.kmhis.com 看看。那里有更详细的技术方案和案例。

“服务器到不了货”——一次差点搞砸的系统部署，及实施团队的极限应变

2026/05/16 Leave a comment

“服务器还没到？”

信息科李主任的声音，让项目经理小张头皮发麻。

距离V4.0系统在XX医院正式上线，还有10天。

部署清单上，第一批要进场的设备：

– 数据库服务器 2台（高端，双路CPU）

– 应用服务器 3台（中端）

– 存储设备 1台（全闪存阵列）

– 网络交换机 1台

这些都还没到货。

供应商说：因为芯片短缺，交货期延迟三周。

“有没有替代方案？”李主任问。

“暂时没有。”小张硬着头皮说。原计划是全新硬件，软硬一体方案。

李主任摔了电话。

1. 部署方案被颠覆：从”搭新房子”变成”旧房改造”

小张连夜找周总商量。

周总也急了：”我们是软硬件一体方案，服务器都是定制配置，换其他品牌不行吗？”

“客户已经指定品牌了，合同里写了’原厂设备’。”

“那能不能先用云服务器过渡？”

“医院不允许数据上云，安全合规过不了。”

两人面面相觑。

原计划：

“`
新硬件到货 → 上架 → 装系统 → 装软件 → 测试 → 数据迁移 → 上线
“`

现在，第一步就卡住了。

周总说：”别慌，我们还有B计划。”

“什么B计划？”

“用现有设备升级——把V3.0的老服务器，扩容后跑V4.0。”

小张眼睛一亮。

但随即又摇头：”老服务器是五年前的配置，跑V4.0会不会太慢？而且，V3.0还在跑，不能停。”

“那就做虚拟化——老物理机上架虚拟化平台，再开虚拟机跑V4.0。”

“有风险…”

“但有总比没有强。”

2. 从”新建数据中心”到”旧房改造”：风险的维度

方案变了。

原来的”新建数据中心”变成”旧房改造”。

小张带着团队，做了三天的技术评估，结论是：

可以运行，但有风险：

1. 老硬件性能不足（CPU是五年前的E5-2620，V4.0推荐配置是E5-2680），V4.0是微服务，组件多，资源消耗大，预计性能打七折

2. V3.0还在跑，不能停机，迁移时要”热迁”或双跑——两个系统同时运行，隔离要求高

3. 老系统的数据迁移复杂，新旧系统数据结构差异大（V4.0重构了数据模型）

4. 老硬件稳定性堪忧（硬盘用了五年，有免保期，但随时可能坏），万一上线后崩了…

小张的评估报告里写：

> 建议：如果两周内新硬件到不了，再考虑此方案。否则建议延期。

但两周后新硬件也到不了——全球芯片短缺至少持续三个月。

周总拍板：”干。”

3. 部署前，我们做了”预演”：仿真环境的生死测试

小张知道，这次部署，无路可退。

他做了一件 normally 不会做的事：在全仿真环境，完整演练一遍部署流程。

仿真环境，是用VMware搭的，配置尽量接近生产环境（虽然实际生产是老硬件）。

演练的内容：

1. 硬件上架（模拟）

2. 安装虚拟化平台（VMware ESXi 6.7）

3. 创建虚拟机网络（隔离V3.0和V4.0）

4. 部署V4.0所有微服务（18个）

5. 数据迁移（从V3.0到V4.0）

6. 验证业务功能

7. 切换流量

演练了三遍，发现一堆问题：

问题1：虚拟机网络配置错误

– V3.0和V4.0的虚拟网络，应该完全隔离（不同VLAN，无路由）

– 但配置时，有一个vSwitch连错了，导致两个虚拟网络互通

– 如果真这么部署，V4.0流量会冲击V3.0，导致老系统崩溃

问题2：数据迁移脚本性能不足

– 测试数据只有1/10（80万 vs 800万）

– 迁移100万条记录要30分钟

– 生产环境有800万条，要4小时

– 但业务窗口只有2小时（深夜到凌晨）

– 需要优化

问题3：回滚方案缺失

– 如果迁移一半失败，怎么回滚？

– 不能简单删V4.0数据库，因为V3.0还在跑，数据可能不一致

– 要有”双向数据同步”机制——迁移失败后，能回到V3.0状态

问题太多，小张头皮发麻。

第三遍演练，加了回滚。

4. 真正的部署日：如履薄冰的72小时

部署日，周五晚上。

小张带着四个工程师， arrive 信息科机房。

李主任也在，盯着看。

第一步：物理检查。

– 确认老服务器状态正常（5年没关机，但昨天剛做了硬件诊断，OK）

– 确认网络连通

– 确认UPS供电正常（电压稳定）

第二步：安装虚拟化平台。

– 在每台服务器上装ESXi（旧版本）

– 配置vCenter统一管理

– 创建资源池：一半给V3.0（不能动），一半给V4.0（新建）

– 这一步花了两个小时。服务器老旧，安装速度比预期慢。

第三步：网络隔离。

– 创建两个vSwitch，一个连V3.0虚拟机，一个连V4.0虚拟机

– 两个vSwitch之间不通，防火墙策略确认

– 发现：有一个端口组配置错了，导致V4.0的某个管理网卡能ping通V3.0——危险，修正。

第四步：部署V4.0微服务。

– 有20多个微服务，每个都要部署、配置、启动

– 用Ansible自动化部署，但老服务器性能差，Ansible执行慢

– 遇到一个服务启动失败：MySQL连接超时。因为数据库还没迁完，但应用已经起来在连数据库。

“能不能调整启动顺序，先起数据库，后起应用？”工程师问。

“调整，数据库服务设为’启动后30秒再启动应用’。”

第五步：数据迁移。

这是最关键、风险最大的一步。

开始迁移。

前两个模块（用户、权限）顺利。

第三个模块（门诊挂号），出现数据冲突：

– V3.0有一个挂号记录，患者ID为12345，就诊ID为abc

– V4.0里，患者ID变了（新的患者表主键重新生成，使用UUID），但V3.0数据里还是老ID（自增整数）

– 迁移时，映射关系找不到

“停。”小张喊。

问题出在”患者ID映射表”——这个表在迁移过程中生成，但因为某个中间步骤数据量大（800万条），内存不足，没生成全。

部分患者，在新库里的ID映射丢失了。

“现场生成映射。”小吴说。

他写了一个脚本，根据姓名、身份证号、就诊日期，去V3.0里查，生成映射关系。

又花了40分钟。

此时已是凌晨四点。

5. 凌晨五点的抉择：强行”双跑”

迁移到早上五点，进度85%。

还剩核心模块：医嘱、住院登记、收费。

但时间只剩一小时了——七点门诊要开始。

小吴说：”来不及了。”

小张知道，来不及了。

他做了个冒险的决定：强行切换，不迁完。

“把医嘱、住院、收费模块的迁移，放到上线后做渐进式迁移。”

意思是：上线时，这几个模块用V3.0的数据，但V4.0的服务也起来，V3.0和V4.0并行运行，V4.0慢慢接数据。

这是个”双跑”方案，风险高，但没别的选择。

他给李主任打电话：”李主任，我们方案有变。核心模块不能一次性迁完，要分两天。但门诊可以先开V4.0，不影响。”

李主任语气很冲：”你敢在上线日不迁完？”

“迁不完硬迁，数据错了更麻烦。”小张说，”双跑是唯一选择。”

李主任沉默几秒：”出问题你负责。”

七点，门诊开始。

小张紧张地盯着监控。

挂号正常（V4.0）、医生开医嘱正常（V3.0）、护士执行正常（V3.0）——V3.0和V4.0在共存。

“这也能行？”李主任惊了。

“临时方案，风险是数据不一致。但至少门诊没堵。”

6. 上线后48小时：在”拆炸弹”

小张知道，双跑方案是把达摩克利斯之剑悬在头上。

V3.0和V4.0的数据，必须尽快合并，不能长期双跑。

但合并不简单：有些数据在V4.0产生（如挂号），有些在V3.0产生（如医嘱），要保证合并后不丢、不错。

小张团队用了48小时，做”渐进式整合”：

– 第一天，把V4.0已经有的数据，合并回V3.0（作为备份）

– 第二天，所有新产生的业务，强制使用V4.0，V3.0只读

– 第三天，停V3.0，全部切到V4.0

每一步都有验证。

周一早上，全部完成。

系统终于”单飞”了。

李主任问小张：”这次部署，虽然惊险，但最后成功了。关键是什么？”

7. 小张的复盘：没有完美的计划，但有充分的预案

小张说：”没有完美的计划，但有充分的预案。”

– 我们有B计划（旧硬件升级），不然第一天就卡死

– 我们有仿真演练，不然网络配置会错

– 我们有回滚预案，不然迁移一半失败就完了

– 我们有”双跑”应急方案，不然上线日就崩了

“但最关键的，是敢于’不完美’上线。”

“什么意思？”

“我们原计划是100%数据迁完再切换。但时间不允许，我们选择了85%+双跑方案。”

“虽然不完美，但业务没受影响——门诊能挂号，医生能开医嘱，药房能发药。”

“如果死磕100%完美，可能拖到下午才能上线，影响更大。”

有时候，接受”可用但不完美”，比追求”完美但不可用”，更重要。

8. 周总的总结：系统稳定性是”冗余”堆出来的

老周后来总结这次部署：

– 硬件不靠谱（老服务器），就用软件方案补（虚拟化、双跑）

– 时间不够（10天），就用策略补（分阶段上线）

– 数据不一致风险，就用验证补（每步验证）

– 人员紧张，就用预案补（演练）

(“系统稳定性，不是’设计出来’的，是’冗余出来的”)。

冗余不仅是硬件冗余，更是方案冗余、时间冗余、人力冗余。

没有B计划的部署，是赌博。

有B计划，哪怕B计划看起来不完美，也能保底。

9. 这次部署的”五个教训”

老周把这次经历写成案例，给公司所有实施人员培训：

教训一：永远要有B计划

– 硬件不靠谱，怎么办？

– 时间不够，怎么办？

– 人员生病，怎么办？

教训二：仿真演练不能省

– 这次发现的问题，如果在生产环境才发现，就是灾难

– 演练不是”走过场”，是”找问题”

– 演练一遍不够，要演练三遍

教训三：接受”不完美”的上线

– 不是所有功能一次搞定

– 分阶段上线，保证核心业务先跑

– “可用”优先于”完美”

教训四：回滚方案必须提前测试

– 不能光有计划，要演练回滚

– 回滚失败比不迁更糟

教训五：客户沟通要透明

– 小张一开始没告诉李主任”85%方案”，差点被骂

– 后来说明了，李主任理解了

– 透明能降低客户焦虑

10. 给所有实施人员的建议：预案做到极致

最后，老周说：

“实施工作，本质上是在’不确定性中寻找确定性’。”

– 时间不确定（会不会延迟？）

– 资源不确定（人手够不够？）

– 客户态度不确定（验收会不会卡？）

– 环境不确定（网络通不通？）

我们能做的，就是把确定性做到极致：

– 预案做全

– 演练做实

– 沟通做透

– 方案做细

“这次部署，我们准备了一份70页的部署手册，但只用上了20页。那50页是’可能用不上’的预案。”

“但真出事时，那50页，救了我们。”

互动话题

你经历过最惊险的一次系统部署/上线是什么情况？最后是怎么挺过来的？

> 基于真实医院场景改编，人物均为化名