Add version-2.7 docs

2026-05-05 04:33:18 +00:00 · 2023-06-05 10:54:11 -07:00
parent ae741d3b8b
commit 754bfdcab5
868 changed files with 136645 additions and 0 deletions
@@ -0,0 +1,84 @@
+---
+title: 在 vSphere 环境中安装 Rancher
+---
+
+本指南概述了在 vSphere 环境中在 RKE Kubernetes 集群上安装 Rancher 的参考架构，以及 VMware 记录的标准 vSphere 最佳实践。
+
+
+<figcaption>解决方案概述</figcaption>
+
+![解决方案概述](/img/rancher-on-prem-vsphere.svg)
+
+## 1. 负载均衡器注意事项
+
+你需要使用一个负载均衡器将流量转发到 RKE 节点上的 Rancher 工作负载。
+
+### 利用容错和高可用性
+
+请充分利用具有继承高可用功能的外部（硬件或软件）负载均衡器（如：F5、NSX-T、Keepalived 等）。
+
+### 备份负载均衡器配置
+
+在灾难恢复时，可用的负载均衡器配置可以加快恢复过程。
+
+### 配置健康检查
+
+让负载均衡器在健康检查失败时自动将节点标记为不可用。例如，NGINX 可以通过以下配置来实现这一功能：
+
+`max_fails=3 fail_timeout=5s`
+
+### 利用外部负载均衡器
+
+避免在管理集群内使用软件负载均衡器。
+
+### 安全访问 Rancher
+
+将防火墙/ACL 规则配置为只允许 Rancher 访问。
+
+## 2. 虚拟机注意事项
+
+### 根据 Rancher 文档确定虚拟机的大小
+
+请参阅[安装要求](../../../pages-for-subheaders/installation-requirements.md)。
+
+### 利用虚拟机模板来构建环境
+
+为了保证跨环境部署的虚拟机的一致性，你可以考虑使用虚拟机模板形式的黄金镜像（golden image）。你可以使用 Packer 来实现，从而增加更多自定义选项。
+
+### 利用 DRS 反亲和规则（可能的话）在 ESXi 主机上分离 Rancher 集群节点
+
+这样可以确保节点虚拟机分布在多台 ESXi 主机上，从而防止主机级别的单点故障。
+
+### 利用 DRS 反亲和规则（可能的话）在 Datastore 上分离 Rancher 集群节点
+
+这样可以确保节点虚拟机分布在多个 Datastore 上，从而防止 Datastore 级别的单点故障。
+
+### 为 Kubernetes 配置合适的虚拟机
+
+在部署节点时，请遵循 K8s 和 etcd 的最佳实践，其中包括禁用 swap，检查集群中的所有主机之间是否有良好的网络连接，为每个节点使用唯一的主机名、MAC 地址和 `product_uuids`。
+
+## 3. 网络注意事项
+
+### 利用 ETCD 节点之间的低延迟和高带宽连接
+
+尽可能在单个数据中心内部署 etcd 成员，来避免延迟开销并减少网络分区的可能性。大多数情况下，1Gb 的连接就足够了。对于大型集群，10Gb 的连接可以缩短恢复备份所需的时间。
+
+### 为虚拟机提供固定的 IP 地址
+
+你可以为使用的所有节点都配置一个静态 IP。如果使用 DHCP，则每个节点都应该有一个 DHCP 预留，以确保节点分配到相同的 IP 地址。
+
+## 4. 存储注意事项
+
+### 在 ETCD 节点上使用 SSD 磁盘
+
+ETCD 对写入延迟非常敏感。因此，你可以尽量使用 SSD 磁盘来提高写入性能。
+
+## 5. 备份和灾难恢复
+
+### 定期备份管理集群
+
+Rancher 将数据存储在它所在的 Kubernetes 集群的 ETCD datastore 中。与其它 Kubernetes 集群一样，你需要对该集群进行频繁且经过测试的备份。
+
+### 备份 Rancher 集群节点虚拟机
+
+将 Rancher 管理节点的虚拟机纳入标准的虚拟机备份策略中。
@@ -0,0 +1,39 @@
+---
+title: Rancher 部署策略
+---
+
+本文提供 Rancher 实例的两种部署策略，用于管理下游 Kubernetes 集群。每种策略都有优缺点。请按照你的实际情况选择最适合的部署策略：
+
+* [中心辐射型策略](#中心辐射型策略)
+* [区域型策略](#区域型策略)
+
+## 中心辐射型策略
+---
+
+在中心辐射型部署中，一个 Rancher 实例就可以管理遍布全球的 Kubernetes 集群。Rancher 实例运行在高可用 Kubernetes 集群上，并且会受延迟影响。
+
+### 优点
+
+* 可以通过一个 controlplane 界面查看所有区域和环境。
+* Kubernetes 不需要 Rancher 进行操作，并且可以容忍与 Rancher 实例断开连接。
+
+### 缺点
+
+* 受限于网络延迟。
+* 如果 Rancher 出现故障，在恢复之前不可以在全球范围内创建新服务。但是每个 Kubernetes 集群都可以继续单独管理。
+
+## 区域型策略
+---
+在区域型部署模型中，Rancher 实例部署在靠近下游 Kubernetes 集群的位置。
+
+### 优点
+
+* 如果某个区域的 Rancher 实例出现故障，其他区域内的 Rancher 功能仍然可以保持正常。
+* Rancher 和下游集群之间的网络延迟大大降低，提高了 Rancher 的性能。
+* 你可以在每个区域内独立升级 Rancher。
+
+### 缺点
+
+* 管理多个 Rancher 安装的开销较大。
+* 需要在多个界面中查看不同区域的 Kubernetes 集群。
+* 在 Rancher 中部署多集群应用时，需要在每个 Rancher Server 中重复部署步骤。
@@ -0,0 +1,36 @@
+---
+title: Rancher 运行技巧
+---
+
+本指南适用于使用 Rancher 管理下游 Kubernetes 集群的用例。高可用设置可以防止 Rancher Server 不可用时无法访问下游集群。
+
+高可用 Rancher 安装指将 Rancher 安装到至少有三个节点的 Kubernetes 集群上，适用于所有生产环境以及重要的安装场景。在多个节点上运行多个 Rancher 实例能够实现单节点安装无法提供的高可用性。
+
+如果你在 vSphere 环境中安装 Rancher，请参见[最佳实践文档](on-premises-rancher-in-vsphere.md)。
+
+在设置高可用 Rancher 安装时，请考虑以下事项。
+
+### 在单独的集群上运行 Rancher
+不要在安装了 Rancher 的 Kubernetes 集群上运行其他工作负载或微服务。
+
+### 确保 Kubernetes 节点配置正确
+在部署节点时，请遵循 K8s 和 etcd 的最佳实践，其中包括禁用 swap，检查集群中的所有主机之间是否有良好的网络连接，为每个节点使用唯一的主机名、MAC 地址和 `product_uuids`，检查所需端口是否已经打开，并使用配置 SSD 的 etcd 进行部署。详情请参见 [kubernetes 官方文档](https://kubernetes.io/docs/setup/production-environment/tools/kubeadm/install-kubeadm/#before-you-begin)和 [etcd 性能操作指南](https://etcd.io/docs/v3.4/op-guide/performance/)。
+
+### 使用 RKE 时：备份状态文件（Statefile）
+RKE 将集群状态记录在一个名为 `cluster.rkestate` 的文件中，该文件对集群的恢复和/或通过 RKE 维护集群非常重要。由于这个文件包含证书材料，我们强烈建议在备份前对该文件进行加密。请在每次运行 `rke up` 后备份状态文件。
+
+### 在同一个数据中心运行集群中的所有节点
+为达到最佳性能，请在同一地理数据中心运行所有三个节点。如果你在云（如 AWS）上运行节点，请在不同的可用区（AZ）中运行这三个节点。例如，在 us-west-2a 中运行节点 1，在 us-west-2b 中运行节点 2，在 us-west-2c 中运行节点 3。
+
+### 保证开发和生产环境的相似性
+强烈建议为运行 Rancher 的 Kubernetes 集群配备 “staging” 或 “pre-production” 环境。这个环境的软件和硬件配置应该尽可能接近你的生产环境。
+
+### 监控集群以规划容量
+Rancher Server 的 Kubernetes 集群应该尽可能满足[系统和硬件要求](../../../pages-for-subheaders/installation-requirements.md)。越偏离系统和硬件要求，你可能面临的风险就越大。
+
+但是，已发布的要求已经考虑了各种工作负载类型，因此，基于指标来规划容量应该是扩展 Rancher 的最佳实践。
+
+你可以将 Rancher 集成业界领先的开源监控解决方案 Prometheus 以及能可视化 Prometheus 指标的 Grafana，来监控集群节点、Kubernetes 组件和软件部署的状态和过程。
+
+在集群中[启用监控](../../../pages-for-subheaders/monitoring-and-alerting.md)后，你可以通过设置告警通知，来了解集群容量的使用情况。你还可以使用 Prometheus 和 Grafana 监控框架，在你扩容时建立关键指标的基线。
+
@@ -0,0 +1,61 @@
+---
+title: Rancher 扩展技巧
+---
+
+本指南介绍了扩展 Rancher 时应该考虑的方法，以及这样做的难度。随着系统的增长，性能自然会降低，但我们可以采取一些措施来最大限度地减少 Rancher 的负载，并优化 Rancher 处理这些大型设置的能力。
+
+## 优化 Rancher 性能的技巧
+* 建议及时更新 Rancher 的补丁版本。在次要版本的整个生命周期中，我们都会进行性能改进和错误修复。你可以查看发行说明决定是否需要升级，但在大多数情况下，我们建议你使用最新版本。
+
+* 性能会受 Rancher 的基础设施和下游集群的基础设施之间的延迟影响（例如，地理距离）。如果用户需要遍布全球或分布在许多地区的集群/节点，最好使用多个 Rancher。
+
+* 请始终尝试逐渐扩大规模，同时监控和观察变化。通常情况下，性能问题越早解决越好，而且在其他问题出现之前更容易解决。
+
+## 最小化本地集群的负载
+扩展 Rancher 最大的瓶颈是本地 Kubernetes 集群中的资源增长。local 集群包含所有下游集群的信息。下游集群的许多操作将在 local 集群中创建新对象，并需要使用 local 集群中运行的处理程序进行计算。
+
+### 管理对象数量
+ETCD 最终会遇到存储的 Kubernetes 资源数量超过限制的问题。暂时没有这些数字的确切记录。根据内部观察，一旦单个资源类型的对象数量超过 60k（通常是 Rolebindings），就很有可能遇到性能问题。
+
+Rolebindings 是在 local 集群中创建的，是许多操作的结果。
+
+尝试减少 local 集群中的 rolebindings 时需要注意：
+* 仅在必要时将用户添加到集群和项目中
+* 删除不需要的集群和项目
+* 仅在必要时使用自定义角色
+* 在自定义角色中使用尽可能少的规则
+* 考虑给用户添加角色是否多余
+* 使用更少但更强大的集群可能更高效
+* 检查是否能通过创建新项目或新集群为你的用例减少 rolebindings。
+
+### 使用新版应用程序而不是旧版应用程序
+Rancher 使用了两个应用程序 kubernetes 资源，分别是 apps.projects.cattle.io 和 apps.cattle.cattle.io。旧版应用程序 apps.projects.cattle.io 最初是在 Cluster Manager 中引入的，现在已经过时。新版应用程序 apps.catalog.cattle.io 可在其各自集群的 Cluster Explorer 中找到。新版应用程序更受欢迎，因为它们位于下游集群中，而旧版应用程序位于 local 集群中。
+
+我们建议删除 Cluster Manager 中出现的应用程序，如有必要，可以为目标集群替换为 Cluster Explorer 中的应用程序，并仅在集群的 Cluster Explorer 中创建后续的应用程序。
+
+### 使用授权集群端点（ACE）
+Rancher 配置的 RKE1、RKE2 和 K3s 集群有一个 _授权集群端点_ 选项。启用后，会在为集群生成的 kubeconfigs 中添加一个上下文，该上下文使用一个直接到集群的端点，并绕过 Rancher。但是，仅启用此选项是不够的。Kubeconfig 的用户需要使用 `kubectl use-context <ace context name>` 才能开始使用它。
+
+如果不使用 ACE，所有 kubeconfig 请求都会先通过 Rancher 进行路由。
+
+### 实验功能：减少事件处理程序执行的选项
+Rancher 的大部分逻辑都发生在事件处理程序上。每当更新对象以及启动 Rancher 时，这些事件处理程序都会在对象上运行。此外，当缓存同步时，它们每 15 小时会运行一次。在缩放设置中，由于每个处理程序都会在每个适用对象上运行，因此运行这些计划会消耗巨大的性能。但是，你可以使用 `CATTLE_SYNC_ONLY_CHANGED_OBJECTS` 环境变量来禁用处理程序的这些计划执行。如果在大约 15 小时的间隔内看到资源分配峰值，则此设置可能有帮助。
+
+环境变量的值可以是以下选项的逗号分隔列表。这些值指的是控制器的类型（包含和运行处理程序的 struct）及其处理程序。如果将控制器类型添加到变量中，那么该组控制器将无法在重新同步缓存时运行其处理程序。
+
+* `mgmt` 指的是只运行在一个 Rancher 节点上的管理控制器。
+* `user` 指的是为每个集群运行的用户控制器。其中一些运行在与管理控制器相同的节点上，而其他则运行在下游集群中。该选项针对前者。
+* `scaled` 指的是在每个 Rancher 节点上运行的缩放控制器。由于缩放处理程序负责的关键功能，因此不建议设置。
+
+简而言之，如果你发现 CPU 使用率每 15 小时出现一次峰值，请将 `CATTLE_SYNC_ONLY_CHANGED_OBJECTS` 环境变量添加到你的 Rancher 部署中，其值为 `mgmt,user`。
+
+## Rancher 之外的优化
+影响性能的一个重要因素是 local 集群及其配置方式。该集群可能会在 Rancher 运行之前引入瓶颈。当 Rancher 节点出现资源占用过高的情况时，你可以使用 top 命令来判断是 Rancher 还是 Kubernetes 组件在超额消耗资源。
+
+### 保持使用最新版本的 Kubernetes
+与 Rancher 版本类似，我们建议让你的 kubernetes 集群保持使用最新版本。这将确保你的集群能包含可用的性能增强或错误修复。
+
+### 优化 ETCD
+[ETCD 性能](https://etcd.io/docs/v3.4/op-guide/performance/)的两个主要瓶颈是磁盘速度和网络速度。对任何一个进行优化都应该能提高性能。有关 ETCD 性能的信息，请参阅 [etcd 性能慢（性能测试和优化）](https://www.suse.com/support/kb/doc/?id=000020100)和[为大型安装调优 etcd](https://docs.ranchermanager.rancher.io/how-to-guides/advanced-user-guides/tune-etcd-for-large-installs)。有关磁盘的信息，你也可以参阅[我们的文档](https://docs.Ranchermanager.Rancher.io/v2.5/pages-for-subheaders/installation-requirements#disks)。
+
+理论上，ETCD 集群中的节点越多，由于复制要求 [source](https://etcd.io/docs/v3.3/faq)，它就会越慢。这可能与常见的缩放方法相悖。我们还可以推断，ETCD 的性能将受到节点间距离的反面影响，因为这将减慢网络通信。