如果您在 BigQuery 数据传输任务中使用了通配符存储对象名称(例如 gs://my_bucket//logs/),则会出现无法识别的问题。此外,BigQuery 数据传输还无法将多个通配符组合在一起(例如 gs://my_bucket//*/logs/)。
要解决此问题,您可以使用 Cloud Storage 的 API 或命令行工具来列出该存储桶中的所有对象。然后,您可以使用所获取的对象名称列表来创建 BigQuery 数据传输任务。下面是使用 Python API 进行此操作的示例代码:
import google.auth
from google.cloud import storage, bigquery_datatransfer_v1
# 设置 Google Cloud 项目 ID 和认证凭据
project_id = "your-project-id"
credentials, _ = google.auth.default()
# 获取 Cloud Storage 存储桶中的所有对象
bucket_name = "my-bucket-name"
storage_client = storage.Client(project=project_id, credentials=credentials)
blobs = storage_client.list_blobs(bucket_name)
# 创建 BigQuery 数据传输任务
dataset_id = "my-dataset-id"
transfer_config = bigquery_datatransfer_v1.types.TransferConfig(
destination_dataset_id=dataset_id,
display_name="My transfer config",
data_source_id="google_cloud_storage",
params={
"source_objects": [],
"destination_table_name_template": "my_table_{}",
"file_format": "CSV",
},
)
# 添加 Cloud Storage 存储桶中的对象名称到参数
for blob in blobs:
transfer_config.params["source_objects"].append(blob.name)
# 创建数据传输客户端并提交任务
client = bigquery_datatransfer_v1.DataTransferServiceClient(credentials=credentials)
response = client.create_transfer_config(parent=f"projects/{project_id}", transfer_config=transfer_config)
print(response)