AWSGlue无法在VPC中访问数据库。 _编程开发

AWSGlue无法在VPC中访问数据库。

创始人

2024-09-25 17:02:54

0次

如果您的AWS Glue Job需要连接到VPC中的数据库，则需要根据以下步骤设置AWS Glue VPC：

在AWS Glue中创建一个新的安全组，并将该安全组绑定到AWS Glue的虚拟私有云（VPC）中。
确保您的数据库位于VPC中，并具有适当的网络访问控制列表（ACL）配置。
在AWS Glue Job中指定VPC安全组、子网和指定运行作业所需的IAM角色。

下面是一个使用PySpark连接到位于VPC中的PostgreSQL数据库的示例：

from pyspark.context import SparkContext
from awsglue.context import GlueContext
from awsglue.dynamicframe import DynamicFrame
from awsglue.job import Job
from pyspark.sql import SQLContext

sc = SparkContext()
glueContext = GlueContext(sc)
spark = glueContext.spark_session
sqlContext = SQLContext(sc)

jdbcHostName = "db-instance-name.foo.us-west-2.rds.amazonaws.com"
jdbcPort = 5432
jdbcDatabase = "my-database"
userName = "my-user-name"
password = "my-password"
jdbcUrl = "jdbc:postgresql://%s:%s/%s?user=%s&password=%s" % (jdbcHostName, jdbcPort, jdbcDatabase, userName, password)

connectionProperties = {
   "user" : userName,
   "password" : password,
   "driver" : "org.postgresql.Driver"
}

# Reading data from PostgreSQL database using JDBC driver
df = spark.read.jdbc(url=jdbcUrl, table="(SELECT * FROM my_table LIMIT 100) as tmp", properties=connectionProperties)

# Converting data into DynamicFrame
dynamicFrame = DynamicFrame.fromDF(df, glueContext, "my_dynamic_frame")

# Creating the dynamic frame as a table in AWS Glue Data catalog
glueContext.write_dynamic_frame.from_options(
   frame = dynamicFrame,
   connection_type = "catalog",
   connection_options = {
      "catalogDatabase" : jdbcDatabase,
      "catalogTableName" : "my_table"
   }
)

注意，在上述示例中需要将jdbcHostName、jdbcDatabase、userName和password替换为您自己的数据库信息。同时，需要确保AWS Glue Job的IAM角色具有连接到RDS实例的权限。

上一篇：AWSGlue无法使用cx_oracle连接Oracle数据库

下一篇：AWSGlue写入Snowflake表时出错。

AWSGlue无法在VPC中访问数据库。

相关内容

热门资讯