监控Azure中的DaaS解决方案
监视Citrix部署可以为您带来以下几个好处:提高性能、提高可用性、降低成本、增强安全性并让用户满意。微软和Citrix都提供了一组核心工具和服务来帮助监控环境。本文概述了可用的工具以及针对Azure中Citrix部署的监控领域的建议。
微软工具和服务包括以下内容:Azure监视器、Azure顾问、Azure服务运行状况、Microsoft哨兵、Azure网络监视器和Azure支出。Citrix的工具和服务包括:Citrix Monitor、Citrix Analytics和Citrix Managed services。其中一些服务确实会产生额外费用,但大多数都包含在您的订阅中。
本文档提供了推荐工具的列表,并在其中确定要监视的关键元素的基线值。我们还建议对这些值进行配置,以帮助您在Azure中成功部署Citrix。
微软
本节介绍可用于监视Azure中的Citrix虚拟应用程序和桌面(CVAD)部署的Microsoft Azure工具和服务。
Azure监控
对于Citrix在Azure中的部署,Azure Monitor是最好的起点。Azure Monitor可帮助您改进Citrix部署的性能和可用性。Azure Monitor收集并分析从本地和Azure环境接收的遥测信息。使用Azure Monitor可以在用户需要在帮助台打开问题单之前对资源问题进行主动响应。Azure Monitor由六个不同的服务组成,可以相互使用来管理Citrix资源:
指标:在某个时间点表示Azure资源的特定方面的数值集合。
警报:应监视的条件集合,并充当触发器,在条件发生时启动相关操作。
日志:写入日志的数据集合,可通过Azure Metrics进行分析。
仪表板:监视资源上可用信息的可定制视图。
应用程序洞察:一项监视您的web应用程序并支持性能优化和故障排除的服务。
指标
Azure Metrics是Azure Monitor中最强大的工具,可用于跟踪Citrix资源的运行状况。术语“度量”表示有关资源的特定方面的信息,这些信息被提炼成数值。随着时间的推移跟踪度量标准,并以特定的间隔报告度量标准。例如,每30秒收集一次Citrix VDA主机上的活动会话数,并以实时图表的形式显示。
Azure Metrics允许跟踪和提醒每个Citrix资源的指标。Azure Metrics为Citrix虚拟机(vm)和底层虚拟机主机提供度量。Azure Metrics还能够添加诊断扩展,以便从客户机操作系统收集指标。度量几乎是实时提供的,并且可以通过度量资源管理器图表查看。Metrics Explorer图表可以比较来自不同资源的指标,并保存到仪表板中以监视环境。
若要监控Azure中的Citrix虚拟机资源,请确保通过虚拟机的诊断设置启用Guest OS指标。该设置自动执行以下操作:
每隔一分钟开启CPU、内存、磁盘和网络的性能计数器。
启用事件日志条目收集(警告级别及以上)。
提供收集自定义性能计数器和事件日志的选项。
客户操作系统指标在发送到Azure Monitor指标时保留93天。
对于Azure中的Citrix部署,建议使用以下附加设置:
启用“接收器> Azure监视器>将诊断数据发送到Azure监视器”设置。此设置允许使用自定义计数器来收集多维指标,并启用对Guest OS指标的警报。
在使用Citrix或Microsoft Support进行故障排除时启用崩溃转储设置。此设置将转储文件直接放在可以轻松检索它们的存储容器中。
收集指标是跟踪Citrix资源运行状况和性能的一种强大方法。Azure Metrics可以跟踪并提醒任何可用的Windows性能监视器计数器。指标是编排的基础,它使用规则在Azure中自动执行操作。
警报
在Azure中监视Citrix基础设施的主要目的是能够在用户受到不利影响之前主动响应问题。警报会在需要快速处理的情况下通知您或采取自动操作。尽管并非所有的中断都提供警告信号,但勤奋地使用警报可以防止大多数常见情况的发生。
警报条件可以基于Azure提供的一组预定义信号,也可以基于Guest OS指标。这些信号包括度量值(最常见的)、日志搜索结果、Azure Activity日志事件,甚至Azure平台的运行状况。您需要将警报设置为提供潜在问题的高级通知的级别,同时将需要采取行动的警报频率降至最低。警报规则是启用警报时必须满足的条件。然后,警报规则可以执行Action Group中定义的一组操作。可用的操作包括:
- 邮件通知、短信通知、推送通知、语音通知
- 触发自动化Runbook、Azure功能、逻辑应用程序、事件中心或Webhook
- 创建ITSM票证
警报的范围可以限定为特定的资源组、区域或资源类型。在为多个目标配置警报时,只能指定一个条件,并且所有目标都必须支持该条件。对于基于度量的条件,警报规则定义包括严重性级别以及自动解析警报的能力。一旦触发警报,当没有使用自动响应来处理警报条件时,需要确认警报。警报确实需要每月支付费用,Azure会在创建警报规则时显示接受的估计费用。
日志
有时,度量对于您想要监视的Citrix部署中的特定事件是不可用的。当度量不可用时,可以监视日志,查找指示事件发生的条目。Azure Monitor Logs可以接受来自Azure服务、虚拟机代理或使用Application Insights的应用程序的日志。需要一个Log Analytics工作空间,其中可以存储日志数据以供分析。然后可以对这些日志进行聚合和查询,以查找指示需要管理的条件的关键条目。可以通过仪表板或工作簿查看查询结果。
Azure Monitor Metrics仅限于数字数据。Azure Monitor Logs可以存储和分析不同的数据类型,这在某些情况下提供了优势。日志分析需要使用必须创建和维护的查询。这些查询是用Kusto查询语言(KQL)编写的,它与Azure Data Explorer使用的语言相同。
指示板
仪表板代表了一种可视化的方式,可以每天监控您的Citrix环境。仪表板由来自任意数量的画廊选择的磁贴组成。可能的磁贴包括度量图、安全图、用户信息、自动化或到任何资源或资源组的直接链接。可以创建专注于特定角色或资源集的自定义仪表板。每个指示板可以是共享的或私有的,每个门户用户最多可以拥有100个私有指示板和无限数量的共享指示板。
应用程序的见解
如果您的web应用程序托管在Azure中,并通过Citrix交付,请使用Application Insights来监控在流行的web平台上编写的应用程序。应用程序洞察可以使用软件开发工具包(SDK)或应用程序洞察代理与您的DevOps流程集成。然后,Application Insights将遥测提供的性能计数器和其他诊断信息结合起来。这些见解可以帮助诊断问题,并更深入地了解用户如何与应用程序交互。
Application Insights将收集到的信息传递给Azure Monitor。您可以使用Microsoft PowerBi或类似的工具来分析存储在Azure Monitor中的原始数据。insight可以监控的一些领域包括:
哪些页面最受欢迎,它们在一天中的什么时间加载。
哪些页面无法加载,以帮助您诊断资源问题。
从用户浏览器的角度加载web应用程序的性能。
发生的任何异常,无论是由服务器还是浏览器代码引起的。
您选择使用Insights SDK来测量的任何自定义事件或指标。
Application Insights控制台允许您在Citrix上管理web应用程序的性能,以提供更好的最终用户体验。
Azure顾问
Azure Advisor是一种在后台分析资源配置并提出建议以帮助改进Azure部署的服务。这些建议分为五类:成本、安全性、可靠性、卓越运营和性能。安全类别来自Microsoft Defender for Cloud。对于每个类别,Advisor列出了受影响的资源,并提供了如何改进资源配置的指导。您可以根据资源类型和订阅筛选推荐。
Azure Advisor支持配置警报,以监视Azure环境不符合最佳实践建议的情况。看到Azure Advisor提醒章节中给出的建议。
微软云卫士
Defender for Cloud是一项服务,它结合了Azure安全中心和Azure Defender中以前发现的功能。此服务持续评估您的Azure资源,并提供指示部署的安全状态的总成绩。Azure Advisor的安全建议直接来自Defender for Cloud。Defender for Cloud还提供了关于如何解决服务识别的任何问题的直接指导。这些建议来自Azure安全基准,这是一组由微软编写的针对Azure的指导方针。
具有增强安全特性的Defender for Cloud可以部署在混合配置中,以支持与其他云提供商一起进行内部部署。
对于Citrix部署,启用Defender For Cloud提供以下功能,以保护您的Citrix资源:
对从internet访问的资源进行风险评估,例如源IP地址和频率。
JIT (Just-in-time)虚拟机访问,限制端口对初始入站连接开放的时间。微软建议对所有跳箱或堡垒主机连接使用JIT。
自适应网络加固(ANH),对NSG (network Security Group)规则进行进一步加固。ANH使用机器学习算法、可信配置、威胁情报和其他因素提供建议。
无文件攻击检测,定期扫描运行的机器内存,寻找在内存中运行的恶意负载,以避免基于磁盘的检测软件。
与Microsoft Sentinel集成。
微软的哨兵
Microsoft Sentinel既是安全信息和事件管理(SIEM)系统,也是安全编排、自动化和响应(SOAR)系统。Sentinel是作为云原生服务设计和构建的。Sentinel使用复杂的人工智能,持续监控所有内容来源并寻找可疑活动。Sentinel为通过代理和数据连接器大规模收集和监视数据提供了一个中心位置。通过触发警报和对常见任务的自动响应来跟踪安全事件。Sentinel可以跨多个云和您的本地基础设施运行,使其成为混合Citrix环境的理想选择。
Content hub提供了一个简单的接口,可以为Sentinel启用开箱即用的预打包解决方案。这些包包含特定于其主题的分析规则、搜索查询、剧本、数据连接器和工作簿。对于Azure中的Citrix部署,建议使用以下内容集线器:
Azure防火墙有助于提高网络通信的安全性。
网络安全成熟度模型认证在您的环境中满足网络安全合规准则。
微软哨兵骗局防止一切威胁。
微软内部风险管理以帮助抵御内部威胁。
威胁分析响应管理和关联威胁活动。
数据连接器提供了一种将Sentinel与其他Azure服务和第三方系统连接起来的方法。这些连接器提供Sentinel分析潜在威胁的数据。对于Azure中的Citrix部署,建议使用以下数据连接器:
Azure Active Directory获取有关用户身份、登录、配置等的信息。
Azure Active Directory身份保护用于具有身份的安全警报。
Azure活动用于任何Azure资源活动。
Azure DDoS防护通过流日志和DDoS通知获取有关分布式拒绝服务攻击的信息。
Azure防火墙获取有关防火墙活动、网络规则和DNS代理的信息。
Azure密钥库获取有关Azure密钥库活动的信息。
Azure存储帐户有关博客、队列、表、文件和资源访问的Azure存储帐户活动的信息。
Citrix分析以获取Citrix Analytics收集的信息(请参阅Citrix Analytics部分)。
Citrix Web应用防火墙用于Citrix防火墙活动。
微软云卫士源自Defender的安全警报。
Microsoft Office 365对于任何Office活动,假设您的Office 365租户与您的Citrix部署中使用的租户相同。
威胁情报-的士十二用于识别和纠正潜在的威胁。
Windows防火墙用于在Citrix服务器上运行Windows Firewall服务产生的事件。
通过Azure监视器代理(AMA)的Windows安全事件查看Citrix服务器上Windows Security事件日志中的事件。
Microsoft Sentinel支持来自各种供应商的数据连接器。这些供应商包括安全、网络和应用程序供应商。考虑至少每年检查一次可用的数据连接器,以尽可能保持Sentinel的有效性。
Azure服务运行状况
Azure服务运行状况提供了一种简单的方法来监视托管Citrix部署的Azure基础架构。服务运行状况允许您监视服务问题、查看即将进行的计划维护以及跟踪运行状况和安全通知。您可以按订阅、区域和服务筛选活动问题和计划维护。任何具有广泛影响的问题都显示在Service issues刀片下。
使用运行状况警报,您可以监视自己的Azure资源的运行状况。使用运行状况警报配置影响资源的服务中断或计划维护的自动通知。看到Azure服务运行状况警报章节中给出的建议。
如果您有其他经常使用的服务,我们建议您也订阅这些服务。如果您正确地设置了警报,您将在任何中断发生时收到通知,并且计划的维护不会让您措手不及。
Azure网络观察者流量分析
虽然思杰在设计上是安全的,但用户仍然是一个薄弱环节,登录凭证可能会受到损害。在Azure中运行Citrix时,保护对应用程序和数据访问的最佳方法之一是监控网络流量。流量分析是通过分析网络流量为您提供相关信息。通过将原始流量日志与网络拓扑知识相结合,Traffic Analytics可以提供网络通信的全面视图。这些报告包括最活跃的主机或主机对、使用的顶级协议、阻塞流量、开放端口、非法网络和流量分布。
要使用流量分析,您的Citrix资源需要位于同时支持网络安全组(nsg)和日志分析工作区的区域中。您还需要在同一区域启用网络监视器。对于每个包含Citrix资源的网络安全组,创建一个NSG流量日志,并在创建时启用flow Logs Version 2和Traffic Analytics。为了遵守法规,请确保您的Log Analytics工作区与NSG流日志生成的国家/地区相同。
注意:至少要为您的Citrix云连接器、交付控制器、ADC设备和StoreFront服务器创建NSG流日志。
使用流量分析来识别恶意流量,主机点和繁忙主机。始终记住,客户端要访问一组特定的主机,因此有时正常流量可能出现在“频繁对话”列表中。地理地图可以用于可视化通信源,并快速识别意外的和可能的恶意流量源。查看通信流模式、打开的端口和阻塞的通信可以让您了解潜在的威胁或未受保护的攻击向量。
Azure成本管理
Azure成本管理和计费允许您配置警报,以便在达到成本限制时发出警告。花费提醒是管理Citrix资源的最佳方式。对于大型企业,启用预算、信用和配额警报可帮助您识别任何潜在的错误配置或滥用Azure资源。
预算警报:当使用量或金额达到基于先前建立的预算的预定义限制时,将发送警报。
信贷警报:当您的预付款(货币承诺)达到90%和100%时,系统会自动生成信用警报。
部门支出配额提醒:配额警报只能通过企业协议(EA)门户配置。触发后,当部门所有者的支出达到定义的百分比时,门户将向其发送电子邮件。
创建带有支出提醒的月度预算,可以在资源意外分配时提前通知您。意外支出的常见原因包括自动化错误、自动伸缩错误配置,甚至是受信任的内部人员的恶意意图。您越早意识到额外的成本,您就能越早解决问题。
Azure的基线指标和警报
一个好的监控环境的关键是知道什么是重要的监控和哪些项目需要立即关注。您不希望监视每个可用的指标,因为您最终会存储无用的信息。信息收集和存储是有成本的,所以要明智地使用它。在这里,我们提供了要监视的Metrics/Counters基线,并建议警报,这些警报可以作为监视Citrix环境的起点。您可以在此基线上进行构建,并包括您认为对您的环境有帮助的其他性能计数器或事件。
指标和警报阈值
对于Citrix部署,我们将主要关注Citrix虚拟机的Guest OS指标。糟糕的服务器性能指标通常表明用户即将遇到令人不快的问题,如果他们还没有遇到的话。例如,当用户会话的最大输入延迟达到预定义的延迟时,我们知道用户正在经历延迟。您可以将Action组配置为向Citrix管理员发送电子邮件,提醒他们注意服务器问题。通过将通知警报设置为在最大输入延迟接近一个已知不可接受的值时触发,管理员可以主动干预。
我们提供了要监视的性能计数器,以及在Citrix部署中使用这些计数器时发出警报的建议阈值。建议的警报阈值可能提供用户不满意的提前通知。调整数值和时间段以满足您的业务需求:
所有思杰服务器
以下是要监控部署中所有Citrix服务器的执行计数器列表:
处理器\ %处理器时间
这个计数器表示处理器不空闲的时间。
当平均值持续15分钟大于80%时发出警报。
使用任务管理器或Citrix Monitor确定占用CPU最多的进程,并确定CPU占用率高的原因。
如果所有进程都在消耗预期的CPU时间,那么是时候增加服务器或交付组的容量了。
系统\处理器队列长度
此计数器是处理器队列中等待处理的线程数。
当大于5*[核数]超过5分钟的间隔时发出警报。
使用任务管理器或Citrix Monitor确定哪些进程消耗了最多的CPU,并确定CPU使用的原因。
如果所有进程都在消耗预期的CPU时间,那么是时候增加服务器或交付组的容量了。
内存\可用字节数
此计数器是未分配给进程或缓存的内存量。
在5分钟的时间间隔内,当可用RAM数量低于总RAM的20%时发出警报。
使用任务管理器或Citrix Monitor确定哪些进程正在消耗内存。确定任何可能降低RAM消耗水平的配置更改。将此指标与内存页/秒和分页文件%使用率计数器一起使用。
如果所有进程都在消耗预期的内存量,那么是时候为服务器或交付组增加容量了。
内存\页面/秒
此计数器是每秒从磁盘交换到运行内存的页面数。
当每秒页面数持续超过10时发出警报。
使用任务管理器查找导致页面交换的应用程序。调查可能的替代配置。将此指标与内存可用字节数和分页文件\%使用计数器一起使用。
如果可能的话,增加主机可用的RAM数量。如果不能这样做,请尝试将应用程序隔离到一组专用服务器。
分页文件\ %的使用
此计数器是正在使用的当前页面文件的百分比。
当页面文件占用率超过80%,持续60分钟时发出告警。
使用任务管理器查找导致页面文件占用的应用程序。调查可能的替代配置。将此指标与内存可用字节和内存页面/秒计数器一起使用。
如果可能的话,增加主机可用的RAM数量。
LogicalDisk\%磁盘时间(_total)
此计数器表示逻辑磁盘不空闲的时间量。
当%磁盘时间超过90%且持续15分钟时发出告警。
使用任务管理器或Citrix Monitor查找导致高磁盘使用率的应用程序。调查可能导致高磁盘利用率的原因。将此指标与其他逻辑和物理磁盘指标一起使用。
如果所有活动看起来都很正常,请寻找一种方法将应用程序移动到具有更高性能磁盘子系统的磁盘上。
LogicalDisk\当前磁盘队列长度
此计数器表示等待逻辑磁盘处理的事务数。
当当前磁盘队列超过3个且持续15分钟时发出告警。
使用任务管理器或Citrix Monitor查找导致高磁盘使用率的应用程序。调查可能导致高磁盘利用率的原因。将此指标与其他逻辑和物理磁盘指标一起使用。
如果所有活动看起来都很正常,请寻找一种方法将应用程序移动到具有更高性能磁盘子系统的磁盘上。
PhysicalDisk\%磁盘时间(_total)
此计数器表示物理磁盘不空闲的时间量。
当%磁盘时间超过90%且持续15分钟时发出告警。
使用任务管理器或Citrix Monitor查找导致高磁盘使用率的应用程序。调查可能导致高磁盘利用率的原因。将此指标与其他逻辑和物理磁盘指标一起使用。
如果所有活动看起来都很正常,请寻找一种方法将应用程序移动到具有更高性能磁盘子系统的磁盘上。
PhysicalDisk\当前磁盘队列长度
此计数器表示等待物理磁盘处理的事务数。
当当前磁盘队列超过3个且持续15分钟时发出告警。
使用任务管理器或Citrix Monitor查找导致高磁盘使用率的应用程序。调查可能导致高磁盘利用率的原因。将此指标与其他逻辑和物理磁盘指标一起使用。
如果所有活动看起来都很正常,请寻找一种方法将应用程序移动到具有更高性能磁盘子系统的磁盘上。
网络接口\字节总数/秒
此计数器显示网络适配器为网络处理数据包的速率。
连续5分钟,每秒总字节数大于网卡速率的80%时发出告警。
使用任务管理器查找导致高网络使用率的应用程序,以调查可能导致高磁盘使用率的原因。将此指标与其他逻辑和物理磁盘指标一起使用。
如果所有活动看起来正常,请寻找增加网络带宽或增加交付组容量的方法。
用户每次会话的输入延迟\最大输入延迟
该指标以毫秒为单位提供会话的最大输入延迟。该指标测量用户提供鼠标或键盘输入和系统处理他们的输入之间的时间。
当会话的输入延迟在2分钟内大于1000ms时发出警报。
使用任务管理器或Citrix Monitor查找导致高CPU、磁盘或网络利用率的应用程序。
如果活动看起来正常,最好的方法是增加交付组的能力。
云连接器
除了针对所有Citrix服务器的计数器之外,还可以为您的Citrix云连接器启用以下自定义性能计数器。这些计数器监视云连接器中的关键故障:
Citrix高可用性服务\数据库事务错误/秒
该指标表示每秒数据库事务失败的数量。
这个数应该是0。
当计数器大于0时发出警报。
Citrix高可用性服务\租用枚举失败
此指标表示客户端失败枚举的数量。
这个数应该是0。
当计数器大于0时发出警报。
Citrix高可用性服务\租赁启动失败
该指标表示客户端失败启动的数量。
这个数应该是0。
当计数器大于0时发出警报。
思杰高可用性服务\注册拒绝/秒
此指标表示每秒拒绝的注册数。
这个数应该是0。
当计数器大于0时发出警报。
Citrix虚拟交付代理虚拟机
除了所有Citrix服务器的计数器之外,还可以为您的Citrix Virtual Delivery Agent主机启用以下自定义性能计数器。这些计数器监视关键故障:
ICA Session\Latency - Session的平均值
此指标以毫秒为单位提供用户会话的平均ICA延迟。
使用这个指标来监控用户体验,为了获得良好的用户体验,该值应该低于150ms,超过300ms就被认为是降级的。
如果您看到高延迟值,请考虑启用自适应传输以帮助减轻延迟的影响。
用户每次会话的输入延迟\最大输入延迟
该指标提供会话的最大输入延迟(以毫秒为单位)。该指标测量用户提供鼠标或键盘输入和系统处理他们的输入之间的时间。
使用这个指标来监控用户体验,该值应该低于500ms,低于150ms被认为是好的,超过1000ms被认为是不可接受的。
终端服务\活动会话
该指标提供了Citrix VDA主机上活动会话的数量。
监控多会话主机的此指标。
通过在图表上显示活跃用户数量,使用此指标与其他指标相关联。
CitrixPrinting\总作业失败
该指标表示在Citrix VDA主机上失败的打印作业总数,应该很低。
监视此指标,以查看Citrix主机上失败的打印作业数量。
过多失败的打印作业可能指向Citrix主机上安装的打印机驱动程序的问题。
为运行Citrix Profile Management的Citrix Virtual Delivery Agent虚拟机启用以下自定义性能计数器:
CitrixProfileManagement \登录时间
该指标表示用户登录事件完成的总时间(以秒为单位)。
监控该指标以了解用户登录体验。该指标包括将用户配置文件加载到用户会话所需的时间。
CitrixProfileManagement \下线时间
此指标表示用户注销事件完成的总时间(以秒为单位)。
监视此计数器以跟踪用户注销事件所花费的时间。该度量包括将用户数据写回概要文件位置所花费的时间。
citrixprofilmanagement \已处理的Logoff文件-大于5MB
该指标表示注销期间上传到用户配置文件存储的大于5MB的文件的数量。
监视此度量以确定启用大文件处理或文件夹重定向是否可以改善用户登录体验。
citrixprofilmanagement \已处理的登录文件-大于5MB
该指标表示在登录期间从用户配置文件存储中复制的大于5MB的文件数量。
监控此指标以确定是否需要启用配置文件流或大文件处理以减少登录时间。
在Citrix Virtual Delivery Agent虚拟机上启用应用程序日志收集功能。将以下配置设置为基线:
警告任何RDP许可错误。
注意这些安全警告。
事件ID 4625:帐户登录失败。
事件ID 4771: Kerberos预认证失败。
警告这些Citrix警告或错误消息。
事件ID 1001: Citrix桌面服务未能获得要注册的交付控制器列表。
事件ID 1017: Citrix桌面服务未能向任何交付控制器注册。
事件ID 1022: Citrix Desktop Service在最近5分钟内注册控制器失败。
事件ID 6013:系统正常运行时间,用于查找补丁后没有重新启动的Citrix服务器。
Citrix StoreFront服务器
除了所有Citrix服务器的计数器之外,还可以为您的Citrix StoreFront服务器启用以下自定义性能计数器。计数器监控不良性能:
ASP。净\请求排队
ASP在队列中等待处理的请求数。
当值明显超出基线规范时发出警报。根据环境建立基线。
ASP。净\请求被拒绝
由于请求队列已满而被拒绝的请求数。
当被拒绝的请求数大于1时发出警报。
Citrix联邦认证服务(FAS)服务器
除了针对所有Citrix服务器的计数器之外,还可以为您的Citrix Federated Authentication Service主机启用以下自定义性能计数器。这些指标监视与性能相关的问题:
Citrix联邦认证服务\高负载水平
该指标跟踪联邦身份验证服务每分钟接受的证书签名请求的数量。
跟踪这个指标,因为一旦达到High Load级别,桌面和应用程序就无法启动。
Azure ExpressRoute Metrics
如果您有到本地数据中心或对等网络的ExpressRoute连接,则应该监视该连接。您需要了解您的带宽需求,并了解有多少可计费的出口流量离开Azure。值得关注的关键指标如下:
- ExpressRoute电路\ BitsInPerSecond
这个指标是每秒进入Azure的比特数。这些数据是免费的。
将此度量用于ExpressRoute容量规划。
当它达到可用电路入口带宽的80%时,对该度量进行警报。
ExpressRoute电路\ BitsOutPerSecond
这个指标是每秒离开Azure的比特数。这些数据是可计费的。
将此度量用于ExpressRoute容量规划和数据出口预算。
当它达到可用电路出口带宽的80%时,对该度量进行警报。
ExpressRoute电路\ GlobalReachBitsInPerSecond
这个指标是每秒进入Azure到对等ExpressRoute电路的比特数(这些数据是免费的)。
将此度量用于ExpressRoute容量规划。
当它达到可用电路入口带宽的80%时,对该度量进行警报。
ExpressRoute电路\ GlobalReachBitsOutPerSecond
这个指标是每秒离开Azure到对等ExpressRoute电路的比特数(该数据是可计费的)。
将此度量用于ExpressRoute容量规划和数据出口预算。
当它达到可用电路出口带宽的80%时,对该度量进行警报。
ExpressRoute网关连接\BitsInPerSecond
这个指标是每秒进入Azure的特定连接到ExpressRoute电路的比特数(这些数据是免费的)。
当它达到连接电路入口带宽的80%时,对该度量进行警报。
ExpressRoute网关连接\BitsOutPerSecond
这个指标是每秒为一个到ExpressRoute电路的特定连接离开Azure的比特数(该数据是可计费的)。
当它达到连接出口带宽的80%时,就会发出警报。
ExpressRoute虚拟网络网关\PacketsPerSecond
该指标是通过ExpressRoute网关的入方向数据包的数量。
当它下降到足够低,表明它不再接收流量时,就会发出警报。
ExpressRoute虚拟网络网关\CPU利用率
该指标是网关实例的CPU利用率。
CPU占用率高,表示性能瓶颈。
当CPU利用率超过85%时对该指标发出警报。
Azure Advisor提醒
Azure advisor提供多达280个警报。本节提供在Azure Advisor中为您的Citrix环境配置的推荐警报。为方便起见,这些警报分为可靠性、成本、性能和卓越运营。每个警报都有一个简短的描述,包括为什么在Citrix环境中跟踪该警报很重要。其中一些警报也可以通过Azure策略强制执行。这些警报只需要配置一次,大约需要30分钟。
可靠性警报
在虚拟机上启用备份:当您的虚拟机未启用自动备份功能时,通知您。定期备份所有Citrix基础架构虚拟机。
为您的恢复服务库启用软删除:当您的Recovery Services保险库数据被设置为硬删除或永久删除而不是软删除时,通知您。使用软删除可以避免在意外删除的情况下丢失您的Recovery Services Citrix基础结构。
启用软删除以保护blob数据:当您的Blob Storage数据被设置为硬删除或永久删除而不是软删除时,会通知您。使用软删除可以避免在意外删除的情况下丢失Citrix应用程序或用户的任何博客存储数据。
为恢复服务保险库启用跨区域恢复:当您的恢复服务库未启用跨区域恢复时通知您,这意味着您无法在当前区域之外进行恢复。用于保护您的恢复服务Citrix基础设施,以便在主区域无法访问时使其在不同区域联机。
从基本网关移动到生产网关sku:当您的网关正在使用性能低于生产SKU的基本SKU时,通知您。始终为Citrix基础架构和用户使用生产网关sku,以提供最佳性能和最终用户体验。
启用双活网关,实现冗余:当您的网关没有设置双活容错时通知您。始终为容错的Citrix基础架构配置双活网关。
在虚拟网络中实现多个ExpressRoute电路,以实现跨场所弹性:当您的ExpressRoute电路没有设置为高可用性时通知您。始终为高可用性配置ExpressRoute电路,以便所有用户都可以使用您的Citrix基础架构。
- 使用ExpressRoute GlobalReach来改进您的灾难恢复设计:当您的ExpressRoute电路没有使用GlobalReach时通知您。始终为Global Reach配置ExpressRoute电路,以改进您的灾难恢复设计并使其更具弹性。
修复日志警报规则:在违反日志警报规则时通知您。如果您正在使用Log Alert规则来监视Citrix环境,那么您希望启用此警报,以便您知道规则何时被破坏,何时不能正确执行。
日志警报规则被禁用:当日志警报规则被禁用时,通知您。如果您正在使用Log Alert规则来监视Citrix环境,那么您希望启用此警报,以便您知道规则何时被禁用并且根本不运行。
成本警报
大小合适或关闭未充分利用的虚拟机:当虚拟机的机器实例类型没有被充分利用时,通知您,以便您可以选择更小、更便宜的虚拟机来满足您的业务需求。使用此警报可以降低Citrix基础架构的成本。
重新使用或删除空闲的虚拟网关:当您有空闲的虚拟网络网关时,通知您可以将其移除以降低成本。使用此警报可以降低网络基础结构的成本和复杂性。
删除提供商状态为Not Provisioned的ExpressRoute电路:当您的ExpressRoute电路没有完全配置时通知您。使用此告警清除不完整的ExpressRoute电路。
“管理磁盘”快照使用“标准存储”存储:当您使用更昂贵的存储来存储托管磁盘快照时,会通知您。使用此警报可以在存储磁盘快照时节省资金。
性能警报
通过部署更靠近用户位置的虚拟机来改善用户体验和连通性:当用户访问离用户较远的Citrix资源时,通知您。用于数据中心和站点位置,以便将用户放置在靠近其Citrix资源的位置。
将生产虚拟机与生产磁盘匹配,以保证性能一致:当您的生产虚拟机没有使用生产磁盘时,通知您。对于Citrix虚拟机,生产虚拟机必须使用生产磁盘。
考虑增加VPN网关SKU的大小来解决高CPU的问题:当您的VPN网关sku不适合您的使用时通知您。如果VPN用户较多,在访问Citrix资源时可能会受到VPN网关性能的影响,请启用此告警。
考虑增加VNet网关SKU的大小,以解决持续高CPU使用率的问题:当您的VNet网关sku不适合您的使用时通知您。如果在Citrix资源的VNet之间路由流量时,有很多可能受到影响的VNet网关,请启用此警报。
- 升级ExpressRoute电路带宽以适应您的带宽需求:当您的ExpressRoute电路带宽不适合您当前的使用时通知您。当您的Citrix基础设施中有一个或多个ExpressRoute电路时,请使用此警报。
- 启用“加速组网”功能,提高网络性能和时延:通知您何时虚拟机将受益于使用加速网络。使用此警报来识别哪些Citrix虚拟机需要启用加速网络。
卓越运作警报
使用Azure策略在Azure环境中启用某些策略。以下是验证Azure策略是否到位的警报列表:
在Azure策略中强制执行“在资源上添加或替换标记”:用于验证所有Citrix资源的标签是否正确。
在Azure策略中执行“允许的位置”:用于验证对Citrix资源的访问仅限于特定位置,以防止来自不受信任位置的恶意意图。
在Azure策略中强制执行“允许的虚拟机SKUS”:用于防止在环境成本参数之外创建虚拟机。此策略在防止使用昂贵的GPU实例进行比特币挖掘方面非常有用。
在Azure策略中强制执行“从资源组继承标记”:用于验证资源组中的任何资源是否也继承分配给该资源组的标签。此策略对于跟踪自动创建的Citrix资源非常有用。
启用流量分析以查看跨Azure资源的流量模式:当Azure资源未启用流量分析时通知您。用于保护Citrix资源的安全,防止通过Citrix主机访问的数据被无意或恶意访问。
在Network Performance Monitor上实现ExpressRoute Monitor,实现端到端监控:当ExpressRoute电路流量没有被用于保护Citrix资源时,通知您。此策略有助于识别和防止通过ExpressRoute连接对数据的意外或恶意访问。
将Azure Monitor添加到标记为生产的虚拟机(VM):当生产虚拟机没有启用Azure Monitor时通知您。用于识别未运行Azure Monitor的Citrix虚拟机。
磁盘与虚拟机绑定的时间超过30天:当磁盘未被活跃使用时通知您。可以通过移除未使用的磁盘来降低存储成本。
Azure服务运行状况警报
本节提供要配置的推荐服务运行状况警报。该列表标识了Citrix部署使用的关键服务。每个警报都有一个简短的描述,包括为什么跟踪此警报很重要。这些只需要配置一次,大约需要15分钟左右才能完成。我们建议为在Azure中运行的Citrix环境中最常用的以下服务订阅通知警报:
API管理:用于管理来自Citrix Cloud的Azure服务。
活动日志和警报:用于监控Citrix服务器的日志,并产生告警。
警报和指标:用于监控Citrix服务器指标并生成警报。
Azure Active Directory:用于对Citrix服务器、Azure门户和Citrix工作区的身份验证。
Azure监控:用于监控Azure中托管的Citrix资源。
Azure政策:用于保护对Azure资源的访问,并在整个Citrix环境中强制执行业务规则。
Azure私有链路:用于从Citrix部署内连接到Azure服务。
Azure哨兵:用于监控Azure中Citrix资源的安全性。
备份:用于在云中备份Citrix资源。
ExpressRoute:用于将本地资源与Azure中的Citrix部署连接起来。
关键库:用于管理保护Citrix服务器卷和用户静态数据安全的加密密钥。
日志分析:用于监视影响Citrix资源和需要警报的事件的日志。
微软Azure门户:用于管理运行Citrix部署的Azure资源。
网络基础设施:用于监控Citrix资源、本地数据中心和远程用户之间的通信。
网络观察家:用于监控Citrix和Azure资源之间的网络流量。
站点恢复:用于为您的Citrix部署提供高可用性和跨站点灾难恢复功能。
存储:用于托管云中所有Citrix资源的引导卷,并存储用户数据。
VPN网关\虚拟广域网:用于将用户和本地资源与Azure中的Citrix部署连接起来。
虚拟机:用于在Azure中托管Citrix工作负载。
虚拟网络:用于Azure云中托管的Citrix资源与远程用户以及本地数据中心之间的通信。
在配置这些服务警报时,请注意您的环境中应该包含的其他服务。
Citrix
本节介绍可用于监控Azure中的Citrix虚拟应用程序和桌面(CVAD)部署的Citrix工具和服务。
Citrix监控
Citrix Monitor是Citrix推荐的监控Citrix Cloud部署的工具。该工具由以下组件组成:
指示板:主显示屏,提供环境的实时概览。的指示板包括关键指标,如连接和机器故障、总会话、平均登录持续时间和Citrix VDA主机状态。所有的报告和图表都为已确定的问题提供了向下钻取的功能。
趋势:提供以下趋势信息:会话、故障、登录性能、负载评估、容量管理、机器使用情况、资源利用率和应用探测。
警报和警报策略:为预定义的Citrix警报策略设置警报的接口。
应用程序:控制台,用于管理应用程序和桌面探针,并审查应用程序分析。
趋势
历史数据仅保存最近90天的数据,可以通过Citrix Monitor的Trends部分查看。为您的Citrix部署监控的主要趋势如下:
连接失败连接失败可能指向特定Citrix VDA虚拟机或特定用户的问题。失败连接选项卡提供了由于以下常见问题导致的连接失败的信息:客户端连接错误、许可错误、不可用容量、机器故障或配置错误。单会话和多会话失败显示服务器启动失败、启动时挂起或未注册。
登录性能登录性能概述了用户登录所花费的时间,并将其分为以下几类:
代理的时间:这是Citrix代理客户端与Citrix VDA主机之间会话所需的时间。如果这个时间很长,问题在于Citrix基础设施,首先要验证云连接器和任何StoreFront服务器是否有足够的容量。
虚拟机开始时间:这是用户点击图标进入桌面和为他们启动虚拟机之间的时间。如果这个度量看起来太长,请考虑增加交付组的缓冲容量。
HDX连接时间:客户端与Citrix VDA主机建立HDX连接所需的时间。如果这个指标看起来很慢,请查看网络连接。检查报文没有过多丢包,网络带宽利用率在80%以下。
认证时间:远程会话完成认证所需的时间。如果这个时间很长,请研究使用哪些AD域控制器(dc)进行身份验证。验证您的站点和服务是否已配置,以便使用最近的dc进行身份验证,并且它们具有处理会话负载的计算能力。
GPO的时间:将组策略设置(包括Citrix策略)应用到会话所需的时间。如果度量太长,您可以通过点击“Detailed Drilldown”链接深入查看每个GPO的时间。查看正在应用的gpo的数量,要么合并gpo,要么找到以同步方式而不是异步方式应用gpo的第三方解决方案。
登录脚本时间:在Windows资源管理器启动之前执行任何登录脚本所需的时间。如果这个度量太长,请调查通过GPO应用的Logon脚本。寻找优化登录脚本的方法。
配置文件加载时间:交互会话开始前加载Windows用户配置文件所需的时间。重要的是要记住,如果您使用的是Citrix Profile Management,则加载时间包含在这个度量中。如果您正在使用依赖于Windows概要文件的另一个概要文件管理解决方案,则实际的概要文件加载时间包含在交互式会话度量中。为了减少加载时间,您可以使用启用了“大文件处理”特性的Citrix Profile Management,或者移动到流配置文件。
互动会话时间:加载Windows配置文件后授予用户键盘和鼠标控制权所需的时间。这个度量包括三个阶段:pre-userinit、userinit和shell。这一次包括第三方配置文件解决方案,这些解决方案在Windows配置文件加载之后和用户被授予桌面控制权之前运行。
资源利用率此图表提供了关键指标的视图,并将前24小时与当前指标进行了比较。当您看到登录时间过长或连接失败时,此图表有助于一目了然地确定性能瓶颈可能在哪里。如果您确定了机器的趋势,则可以使用Azure Monitor进行进一步调查。
Citrix Policy控制资源监控并默认启用它。默认情况下,Citrix进程监控策略是禁用的,因为它消耗额外的资源,但是它提供了进程的详细信息。
警报
与Azure警报类似,Citrix警报可以配置为通过电子邮件向您发送需要快速解决的重要指标的警报。为失败设置警报策略,以减少频繁检查站点度量标准所涉及的工作量。这样你就可以腾出时间来处理更重要的任务。使用高级许可,您可以在警告和关键级别设置值以接收电子邮件。在监控Azure中的Citrix部署时,建议使用以下警报:
网站政策
站点策略聚合所有交付组、用户和计算机的警报,并为站点范围的事件提供警告。这些警报非常有用,可以让您知道何时有任何站点资源落在基准区域之外。
连接失败率:过去一小时内连接失败的百分比。仔细检查此计数器的基线值后设置警报。当用户尝试连接时,所有环境都有一个自然发生的基本故障率,尽管0%是理想值。
连接失败计数:过去一小时内连接失败的次数。仔细检查此计数器的基线值后设置警报。所有环境都有一个基本故障计数,在用户尝试连接时自然出现,尽管0是理想值。
故障机器(单会话操作系统):单会话操作系统机器失败的数量。当此计数器的值大于1时设置警报。
故障机器(多会话操作系统):失败的多会话操作系统机器数量。当此计数器的值大于1时设置警报。
平均登录时间:用户在过去一小时内登录的平均时间。Citrix建议在平均登录时间超过45秒时发出警告。一个更好的指标可能是平均登录持续时间超过基准登录时间的125%。
交付组和多会话策略
这些指标在交付组、多会话或单会话机器级别聚合。当您需要关注一组特定的资源以验证它们是否按预期执行时,这些指标非常有用。例如,当您想要监视专用于管理人员的虚拟桌面的用户体验时。在这些情况下,您可能会对任何故障率或平均登录事件进行更严格的警报。
- 连接失败率:过去一小时内连接失败的百分比。仔细检查此计数器的基线值后设置警报。当用户尝试连接时,所有环境都有一个自然发生的基本故障率,尽管0%是理想值。
- 连接失败计数:过去一小时内连接失败的次数。仔细检查此计数器的基线值后设置警报。所有环境都有一个基本故障计数,在用户尝试连接时自然出现,尽管0是理想值。
ICA RTT(平均): ICA平均往返时间。Citrix建议在5个或更多的会话遇到300ms或更长时间的ICA RTT时设置警告警报。
平均登录时间:用户在过去一小时内登录的平均时间。Citrix建议在平均登录时间超过45秒时发出警告。一个更好的指标可能是平均登录持续时间超过基准登录时间的125%。
用户的政策
用户警报是唯一没有跨多个资源聚合的警报。由于它们没有聚合,因此当实际值超出可接受范围时,您可以对它们发出警报。
- ICA RTT: ICA/HDX往返时间,单位为毫秒。RTT延迟低于50毫秒被认为是理想的。通常,当RTT延迟超过100毫秒并持续一段时间后,用户体验就会开始下降。当ICA RTT值大于设置的阈值时触发告警。
应用程序
Citrix Monitor的“应用程序”部分提供了对已发布桌面和应用程序的运行状况和使用情况信息的深入了解。如果在机器上安装了Citrix Probe Agent并通过控制台进行配置,则会显示最近24小时的探测结果。Citrix Monitor显示探测结果以及任何其他应用程序故障和错误分析,为您提供环境运行状况的摘要视图。探测显示了启动过程中应用程序失败的阶段,例如身份验证、枚举或ICA文件下载。在排除应用程序启动问题时,此信息非常宝贵。使用应用程序监视允许您在问题变成中断之前主动解决问题。
Citrix分析
Citrix Analytics是一项基于云的服务,它汇集了从Citrix用户在设备、网络和应用程序中收集的数据。Citrix Analytics的唯一目的是确定关系和趋势,从而产生可操作的见解。分析依赖于内置的机器学习(ML)算法来发现可能表明Citrix用户问题的行为异常。Citrix Analytics与包括微软在内的第三方提供商合作,收集用于分析的数据,并提供以下服务:
Citrix安全分析:关注用户和应用程序行为,主要寻找内部威胁或恶意行为。
Citrix性能分析:注重用户体验。性能分析使用来自虚拟应用程序和桌面的数据,根据定义用户体验的关键因素生成用户体验评分。
Citrix Analytics for Usage:重点介绍如何使用您的Citrix基础架构。使用分析通过时间轴摘要视图为微应用程序和SaaS/Web应用程序提供核心见解。
Citrix Analytics与以下产品集成,提供全面的视图:
Citrix虚拟应用程序和桌面
Citrix应用交付控制器(NetScaler)
思杰安全工作区访问(访问控制)
Citrix网关
Citrix内容协作
Citrix端点管理
思杰安全浏览器
微软图形安全
微软活动目录
所收集的任何数据将保留13个月或396天,或保留至订阅终止后90天。
数据可以集成到任何支持Kafka主题或基于logstash的数据连接器(如Microsoft Sentinel)的SIEM服务中。数据也可以导出为逗号分隔值(comma-separated value, CSV)格式,以便在其他系统上分析。
Citrix Analytics可通过您的Citrix Cloud帐户访问。完成设置和配置后,您就可以访问由Citrix Analytics编译的仪表板,这些仪表板提供信息和建议。
指示板 | 提供的信息 | Citrix分析服务 |
---|---|---|
用户 | 用户行为模式 | 安全 |
用户访问 | 风险领域的总结和入口/出口数据量 | 安全 |
应用程序访问 | 用户访问的域名、URL、应用汇总 | 安全 |
分享链接 | 总结了组织共享链接模式 | 安全 |
访问保证 | CVAD用户的登录和访问详细信息的摘要 | 安全 |
报告 | 使用可用指标创建自定义报表 | 安全 |
用户体验 | 总结关键的网站性能指标 | 性能 |
基础设施 | 站点虚拟机的状态和运行状况摘要 | 性能 |
内容合作 | 内容协作服务的基本使用数据摘要 | 使用 |
Microapps | Citrix工作空间服务的基本用法摘要 | 使用 |
SaaS和Web应用 | 通过安全工作区访问服务访问web应用程序和SaaS应用程序的基本用法摘要 | 使用 |
Citrix Analytics-Security为用户提供这些报告、风险评估分数和指标、共享链接和IP地址位置。可以创建自定义风险指标以及自定义策略,以细化用于风险评估的条件。您可以启用一个名为“请求终端用户响应”的功能,该功能在观察到异常活动时立即向用户发出警报。监视列表是另一个功能,它允许您监视代表潜在威胁或更高风险的特定用户。您每周都会收到Citrix Analytics-Security的电子邮件,其中包含重要的风险指标和已识别的用户。
思杰管理服务
如果您没有直接监控Citrix基础设施的资源,您可以向Citrix Managed services团队购买这些服务。聘请思杰管理服务团队监控您的思杰基础设施,您将获得以下好处:
通过电子邮件或短信全天候监控您的Citrix基础设施。
设置带有为您的环境定制的微调阈值的自动警报。
由思杰专家远程优化的稳定可靠的环境(无需办公空间)。
可以自由地处理其他更重要的任务。
降低聘请顾问到现场的成本。
直接访问思杰工程部。
Citrix管理服务团队使用Citrix工具套件100%远程工作,以配置远程监控和警报。诊断数据被发送到Citrix团队进行处理。Citrix团队检查计数器、日志和事件,以查找需要修复的趋势或模式。您将收到实时警报和重要事件的月度摘要报告。
结论
讨论包括Microsoft和Citrix提供的最流行的工具和服务,用于管理您在Azure中的Citrix部署。下面是一些在使用这些工具时需要考虑的一般建议和实践。
通过Azure monitor可以更轻松地跟踪虚拟机和网络的性能监视器指标。Azure Monitor指标比Citrix Monitor中可用的指标更细粒度。对性能指标使用Azure Monitor,因为您可以更好地控制所收集的指标。
根据您的业务需求,将监视数据保留时间设置为尽可能短的时间。大多数监测数据只在短时间内有用。通过不长期存储监控数据来节省成本。创建一个自动化作业来清理存储帐户中的陈旧数据。
Azure包括指标、日志、服务中断、计划维护、每月成本和安全性警报。使用警报可以拯救生命。我们已经针对针对您的Citrix部署创建的警报提出了大量建议。您只需要实现在您的环境中最有意义的那些。通过短信和电子邮件发送关键警报,以确保迅速采取行动。在你的日历上设置一个提醒,每个季度去更新提醒通知列表。
监控和提醒指标需要每月支付费用。明智地选择要跟踪的指标。如果您不打算在警报触发时采取行动,那么请考虑是否仍然需要保留该度量。
为Citrix资源组设置自定义仪表板,并启用指向关键服务(如Sentinel、服务运行状况、流量分析、Advisor)的链接。包括仪表板图表,显示您的ExpressRoute或VPN连接,您的云连接器和Citrix VDA主机的性能。将仪表板的访问权限限制为只有那些需要该信息的个人,以防止任何敏感信息无意中到达非预期的受众。
对问题进行故障排除时,请查看多个数据源,以帮助将症状与根本原因关联起来。例如,如果平均登录持续时间很长,您可以查看Azure中的指标,以确定存在资源约束的位置。
启用流量分析和NSG日志是查看流量是否来自意外位置的最佳方式。使用这些信息可以简化网络通信。使用这些信息创建阻止来自这些意外位置的入站流量的Azure策略。