Google Vertex AI monitoring & observability

Metric name	Metric key	Description	Unit
Accelerator duty cycle	cloud.gcp.aiplatform_googleapis_com.prediction.online.deployment_resource_pool.accelerator.duty_cycle	-	Percent
Accelerator memory usage	cloud.gcp.aiplatform_googleapis_com.prediction.online.deployment_resource_pool.accelerator.memory.bytes_used	-	Byte
CPU utilization	cloud.gcp.aiplatform_googleapis_com.prediction.online.deployment_resource_pool.cpu.utilization	-	Percent
Memory usage	cloud.gcp.aiplatform_googleapis_com.prediction.online.deployment_resource_pool.memory.bytes_used	-	Byte
Network bytes received	cloud.gcp.aiplatform_googleapis_com.prediction.online.deployment_resource_pool.network.received_bytes_count	-	Byte
Network bytes sent	cloud.gcp.aiplatform_googleapis_com.prediction.online.deployment_resource_pool.network.sent_bytes_count	-	Byte
Replica count	cloud.gcp.aiplatform_googleapis_com.prediction.online.deployment_resource_pool.replicas	-	Count
Replica target	cloud.gcp.aiplatform_googleapis_com.prediction.online.deployment_resource_pool.target_replicas	-	Count
Accelerator duty cycle	cloud.gcp.aiplatform_googleapis_com.prediction.online.accelerator.duty_cycle	-	Percent
Accelerator memory usage	cloud.gcp.aiplatform_googleapis_com.prediction.online.accelerator.memory.bytes_used	-	Byte
CPU utilization	cloud.gcp.aiplatform_googleapis_com.prediction.online.cpu.utilization	-	Percent
Number of online prediction errors	cloud.gcp.aiplatform_googleapis_com.prediction.online.error_count	-	Count
Memory usage	cloud.gcp.aiplatform_googleapis_com.prediction.online.memory.bytes_used	-	Byte
Network bytes received	cloud.gcp.aiplatform_googleapis_com.prediction.online.network.received_bytes_count	-	Byte
Network bytes sent	cloud.gcp.aiplatform_googleapis_com.prediction.online.network.sent_bytes_count	-	Byte
Number of online predictions	cloud.gcp.aiplatform_googleapis_com.prediction.online.prediction_count	-	Count
Prediction latencies	cloud.gcp.aiplatform_googleapis_com.prediction.online.prediction_latencies	-	MilliSecond
Private endpoint prediction latencies	cloud.gcp.aiplatform_googleapis_com.prediction.online.private.prediction_latencies	-	MilliSecond
Private endpoint response count	cloud.gcp.aiplatform_googleapis_com.prediction.online.private.response_count	-	Count
Replica count	cloud.gcp.aiplatform_googleapis_com.prediction.online.replicas	-	Count
Response count	cloud.gcp.aiplatform_googleapis_com.prediction.online.response_count	-	Count
Replica target	cloud.gcp.aiplatform_googleapis_com.prediction.online.target_replicas	-	Count
Executing PipelineJobs	cloud.gcp.aiplatform_googleapis_com.executing_vertexai_pipeline_jobs	-	Count
Executing PipelineTasks	cloud.gcp.aiplatform_googleapis_com.executing_vertexai_pipeline_tasks	-	Count
Generate content requests per minute per project per base model	cloud.gcp.aiplatform_googleapis_com.generate_content_requests_per_minute_per_project_per_base_model	-	Count
Online prediction dedicated requests per base model version	cloud.gcp.aiplatform_googleapis_com.online_prediction_dedicated_requests_per_base_model_version	-	Count
Online prediction dedicated tokens per minute per base model version	cloud.gcp.aiplatform_googleapis_com.online_prediction_dedicated_tokens_per_base_model_version	-	Count
Online prediction requests per base model	cloud.gcp.aiplatform_googleapis_com.online_prediction_requests_per_base_model	-	Count
Online prediction tokens per minute per base model	cloud.gcp.aiplatform_googleapis_com.online_prediction_tokens_per_minute_per_base_model	-	Count
Generate content requests per minute per project per base model quota exceeded error	cloud.gcp.aiplatform_googleapis_com.quota.generate_content_requests_per_minute_per_project_per_base_model.exceeded	-	Count
Generate content requests per minute per project per base model quota limit	cloud.gcp.aiplatform_googleapis_com.quota.generate_content_requests_per_minute_per_project_per_base_model.limit	-	Count
Generate content requests per minute per project per base model quota usage	cloud.gcp.aiplatform_googleapis_com.quota.generate_content_requests_per_minute_per_project_per_base_model.usage	-	Count
Online prediction dedicated requests per base model version quota exceeded error	cloud.gcp.aiplatform_googleapis_com.quota.online_prediction_dedicated_requests_per_base_model_version.exceeded	-	Count
Online prediction dedicated requests per base model version quota limit	cloud.gcp.aiplatform_googleapis_com.quota.online_prediction_dedicated_requests_per_base_model_version.limit	-	Count
Online prediction dedicated requests per base model version quota usage	cloud.gcp.aiplatform_googleapis_com.quota.online_prediction_dedicated_requests_per_base_model_version.usage	-	Count
Online prediction dedicated tokens per minute per base model version quota exceeded error	cloud.gcp.aiplatform_googleapis_com.quota.online_prediction_dedicated_tokens_per_base_model_version.exceeded	-	Count
Online prediction dedicated tokens per minute per base model version quota limit	cloud.gcp.aiplatform_googleapis_com.quota.online_prediction_dedicated_tokens_per_base_model_version.limit	-	Count
Online prediction dedicated tokens per minute per base model version quota usage	cloud.gcp.aiplatform_googleapis_com.quota.online_prediction_dedicated_tokens_per_base_model_version.usage	-	Count
Online prediction requests per base model quota exceeded	cloud.gcp.aiplatform_googleapis_com.quota.online_prediction_requests_per_base_model.exceeded	-	Count
Online prediction requests per base model quota limit	cloud.gcp.aiplatform_googleapis_com.quota.online_prediction_requests_per_base_model.limit	-	Count
Online prediction requests per base model quota usage	cloud.gcp.aiplatform_googleapis_com.quota.online_prediction_requests_per_base_model.usage	-	Count
Online prediction tokens per minute per base model quota exceeded	cloud.gcp.aiplatform_googleapis_com.quota.online_prediction_tokens_per_minute_per_base_model.exceeded	-	Count
Online prediction tokens per minute per base model quota limit	cloud.gcp.aiplatform_googleapis_com.quota.online_prediction_tokens_per_minute_per_base_model.limit	-	Count
Online prediction tokens per minute per base model quota usage	cloud.gcp.aiplatform_googleapis_com.quota.online_prediction_tokens_per_minute_per_base_model.usage	-	Count
Character count	cloud.gcp.aiplatform_googleapis_com.publisher.online_serving.character_count	-	Count
Characters	cloud.gcp.aiplatform_googleapis_com.publisher.online_serving.characters	-	Count
Character Throughput	cloud.gcp.aiplatform_googleapis_com.publisher.online_serving.consumed_throughput.count	-	Count
First token latencies	cloud.gcp.aiplatform_googleapis_com.publisher.online_serving.first_token_latencies	-	MilliSecond
Model invocation count	cloud.gcp.aiplatform_googleapis_com.publisher.online_serving.model_invocation_count	-	Count
Model invocation latencies	cloud.gcp.aiplatform_googleapis_com.publisher.online_serving.model_invocation_latencies	-	MilliSecond
Token count	cloud.gcp.aiplatform_googleapis_com.publisher.online_serving.token_count	-	Count
Tokens	cloud.gcp.aiplatform_googleapis_com.publisher.online_serving.tokens	-	Count

Metric name	Metric key	Description	Unit
PipelineJob duration	cloud.gcp.aiplatform_googleapis_com.pipelinejob.duration	-	Second
Completed PipelineTasks	cloud.gcp.aiplatform_googleapis_com.pipelinejob.task_completed_count	-	Count

Metric name	Metric key	Description	Unit
Request count	cloud.gcp.visionai_googleapis_com.platform.connected_service.request_count	-	Count
Request latencies	cloud.gcp.visionai_googleapis_com.platform.connected_service.request_latencies	-	MilliSecond
Prediction count	cloud.gcp.visionai_googleapis_com.platform.custom_model.predict_count	-	Count
Prediction latencies	cloud.gcp.visionai_googleapis_com.platform.custom_model.predict_latencies	-	MilliSecond
Uptime	cloud.gcp.visionai_googleapis_com.platform.instance.uptime	-	MilliSecond
Received bytes	cloud.gcp.visionai_googleapis_com.stream.network.received_bytes_count	-	Byte
Received packets	cloud.gcp.visionai_googleapis_com.stream.network.received_packets_count	-	Count
Sent bytes	cloud.gcp.visionai_googleapis_com.stream.network.sent_bytes_count	-	Byte
Sent packets	cloud.gcp.visionai_googleapis_com.stream.network.sent_packets_count	-	Count

Metric name	Metric key	Description	Unit
Datapoint count	cloud.gcp.aiplatform_googleapis_com.matching_engine.stream_update.datapoint_count	-	Count
Stream update latencies	cloud.gcp.aiplatform_googleapis_com.matching_engine.stream_update.latencies	-	MilliSecond
Request count	cloud.gcp.aiplatform_googleapis_com.matching_engine.stream_update.request_count	-	Count
CPU request utilization	cloud.gcp.aiplatform_googleapis_com.matching_engine.cpu.request_utilization	-	Percent
Current replicas	cloud.gcp.aiplatform_googleapis_com.matching_engine.current_replicas	-	Count
Current shards	cloud.gcp.aiplatform_googleapis_com.matching_engine.current_shards	-	Count
Memory usage	cloud.gcp.aiplatform_googleapis_com.matching_engine.memory.used_bytes	-	Byte
Request latency	cloud.gcp.aiplatform_googleapis_com.matching_engine.query.latencies	-	MilliSecond
Request count	cloud.gcp.aiplatform_googleapis_com.matching_engine.query.request_count	-	Count

Metric name	Metric key	Description	Unit
Request count	cloud.gcp.aiplatform_googleapis_com.featureonlinestore.online_serving.request_count	-	Count
Response bytes count	cloud.gcp.aiplatform_googleapis_com.featureonlinestore.online_serving.serving_bytes_count	-	Count
Request latency	cloud.gcp.aiplatform_googleapis_com.featureonlinestore.online_serving.serving_latencies	-	MilliSecond
Running sycs	cloud.gcp.aiplatform_googleapis_com.featureonlinestore.running_sync	-	Count
Serving data ages	cloud.gcp.aiplatform_googleapis_com.featureonlinestore.serving_data_ages	-	Second
Serving data by synced time	cloud.gcp.aiplatform_googleapis_com.featureonlinestore.serving_data_by_sync_time	-	Count
CPU load	cloud.gcp.aiplatform_googleapis_com.featureonlinestore.storage.bigtable_cpu_load	-	Percent
CPU load (hottest node)	cloud.gcp.aiplatform_googleapis_com.featureonlinestore.storage.bigtable_cpu_load_hottest_node	-	Percent
Node count	cloud.gcp.aiplatform_googleapis_com.featureonlinestore.storage.bigtable_nodes	-	Count
Optimized node count	cloud.gcp.aiplatform_googleapis_com.featureonlinestore.storage.optimized_nodes	-	Count
Bytes stored	cloud.gcp.aiplatform_googleapis_com.featureonlinestore.storage.stored_bytes	-	Byte
CPU load	cloud.gcp.aiplatform_googleapis_com.featurestore.cpu_load	-	Percent
CPU load (hottest node)	cloud.gcp.aiplatform_googleapis_com.featurestore.cpu_load_hottest_node	-	Percent
Node count	cloud.gcp.aiplatform_googleapis_com.featurestore.node_count	-	Count
Entities updated on the Featurestore online storage	cloud.gcp.aiplatform_googleapis_com.featurestore.online_entities_updated	-	Byte
Latencies	cloud.gcp.aiplatform_googleapis_com.featurestore.online_serving.latencies	-	MilliSecond
Request size	cloud.gcp.aiplatform_googleapis_com.featurestore.online_serving.request_bytes_count	-	Byte
Serving count	cloud.gcp.aiplatform_googleapis_com.featurestore.online_serving.request_count	-	Count
Response size	cloud.gcp.aiplatform_googleapis_com.featurestore.online_serving.response_size	-	Byte
Billable bytes	cloud.gcp.aiplatform_googleapis_com.featurestore.storage.billable_processed_bytes	-	Byte
Bytes stored	cloud.gcp.aiplatform_googleapis_com.featurestore.storage.stored_bytes	-	Byte
Offline storage write for streaming write	cloud.gcp.aiplatform_googleapis_com.featurestore.streaming_write.offline_processed_count	-	Count
Streaming write to offline storage delay time	cloud.gcp.aiplatform_googleapis_com.featurestore.streaming_write.offline_write_delays	-	Second