跳转到主要内容

标签(标签)

资源精选(342) Go开发(108) Go语言(103) Go(99) angular(82) LLM(75) 大语言模型(63) 人工智能(53) 前端开发(50) LangChain(43) golang(43) 机器学习(39) Go工程师(38) Go程序员(38) Go开发者(36) React(33) Go基础(29) Python(24) Vue(22) Web开发(20) Web技术(19) 精选资源(19) 深度学习(19) Java(18) ChatGTP(17) Cookie(16) android(16) 前端框架(13) JavaScript(13) Next.js(12) 安卓(11) typescript(10) 资料精选(10) NLP(10) 第三方Cookie(9) Redwoodjs(9) LLMOps(9) Go语言中级开发(9) 自然语言处理(9) 聊天机器人(9) PostgreSQL(9) 区块链(9) mlops(9) 安全(9) 全栈开发(8) ChatGPT(8) OpenAI(8) Linux(8) AI(8) GraphQL(8) iOS(8) 软件架构(7) Go语言高级开发(7) AWS(7) C++(7) 数据科学(7) whisper(6) Prisma(6) 隐私保护(6) RAG(6) JSON(6) DevOps(6) 数据可视化(6) wasm(6) 计算机视觉(6) 算法(6) Rust(6) 微服务(6) 隐私沙盒(5) FedCM(5) 语音识别(5) Angular开发(5) 快速应用开发(5) 提示工程(5) Agent(5) LLaMA(5) 低代码开发(5) Go测试(5) gorm(5) REST API(5) 推荐系统(5) WebAssembly(5) GameDev(5) CMS(5) CSS(5) machine-learning(5) 机器人(5) 游戏开发(5) Blockchain(5) Web安全(5) Kotlin(5) 低代码平台(5) 机器学习资源(5) Go资源(5) Nodejs(5) PHP(5) Swift(5) 智能体(4) devin(4) Blitz(4) javascript框架(4) Redwood(4) GDPR(4) 生成式人工智能(4) Angular16(4) Alpaca(4) SAML(4) JWT(4) JSON处理(4) Go并发(4) kafka(4) 移动开发(4) 移动应用(4) security(4) 隐私(4) spring-boot(4) 物联网(4) nextjs(4) 网络安全(4) API(4) Ruby(4) 信息安全(4) flutter(4) 专家智能体(3) Chrome(3) CHIPS(3) 3PC(3) SSE(3) 人工智能软件工程师(3) LLM Agent(3) Remix(3) Ubuntu(3) GPT4All(3) 软件开发(3) 问答系统(3) 开发工具(3) 最佳实践(3) RxJS(3) SSR(3) Node.js(3) Dolly(3) 移动应用开发(3) 编程语言(3) 低代码(3) IAM(3) Web框架(3) CORS(3) 基准测试(3) Go语言数据库开发(3) Oauth2(3) 并发(3) 主题(3) Theme(3) earth(3) nginx(3) 软件工程(3) azure(3) keycloak(3) 生产力工具(3) gpt3(3) 工作流(3) C(3) jupyter(3) 认证(3) prometheus(3) GAN(3) Spring(3) 逆向工程(3) 应用安全(3) Docker(3) Django(3) R(3) .NET(3) 大数据(3) Hacking(3) 渗透测试(3) C++资源(3) Mac(3) 微信小程序(3) Python资源(3) JHipster(3) 大型语言模型(2) 语言模型(2) 可穿戴设备(2) JDK(2) SQL(2) Apache(2) Hashicorp Vault(2) Spring Cloud Vault(2) Go语言Web开发(2) Go测试工程师(2) WebSocket(2) 容器化(2) AES(2) 加密(2) 输入验证(2) ORM(2) Fiber(2) Postgres(2) Gorilla Mux(2) Go数据库开发(2) 模块(2) 泛型(2) 指针(2) HTTP(2) PostgreSQL开发(2) Vault(2) K8s(2) Spring boot(2) R语言(2) 深度学习资源(2) 半监督学习(2) semi-supervised-learning(2) architecture(2) 普罗米修斯(2) 嵌入模型(2) productivity(2) 编码(2) Qt(2) 前端(2) Rust语言(2) NeRF(2) 神经辐射场(2) 元宇宙(2) CPP(2) 数据分析(2) spark(2) 流处理(2) Ionic(2) 人体姿势估计(2) human-pose-estimation(2) 视频处理(2) deep-learning(2) kotlin语言(2) kotlin开发(2) burp(2) Chatbot(2) npm(2) quantum(2) OCR(2) 游戏(2) game(2) 内容管理系统(2) MySQL(2) python-books(2) pentest(2) opengl(2) IDE(2) 漏洞赏金(2) Web(2) 知识图谱(2) PyTorch(2) 数据库(2) reverse-engineering(2) 数据工程(2) swift开发(2) rest(2) robotics(2) ios-animation(2) 知识蒸馏(2) 安卓开发(2) nestjs(2) solidity(2) 爬虫(2) 面试(2) 容器(2) C++精选(2) 人工智能资源(2) Machine Learning(2) 备忘单(2) 编程书籍(2) angular资源(2) 速查表(2) cheatsheets(2) SecOps(2) mlops资源(2) R资源(2) DDD(2) 架构设计模式(2) 量化(2) Hacking资源(2) 强化学习(2) flask(2) 设计(2) 性能(2) Sysadmin(2) 系统管理员(2) Java资源(2) 机器学习精选(2) android资源(2) android-UI(2) Mac资源(2) iOS资源(2) Vue资源(2) flutter资源(2) JavaScript精选(2) JavaScript资源(2) Rust开发(2) deeplearning(2) RAD(2)

数据建模主要由人类专家进行,包括拥有专业知识和技能的数据架构师、数据建模者和分析师。然而,人工智能的最新进展,特别是在自然语言处理(NLP)和大型语言模型(LLM)方面,引发了人们对其对该领域潜在影响的讨论。作为一名数据爱好者,这让我思考我能在多大程度上突破这些新的人工智能功能的界限,尤其是使用ChatGPT。我决定进行一系列实验来探索各种可能性。

在我实验的最初阶段,我的重点将是手动执行任务和流程,而不是依赖自动化。通过采用这种实践方法,我的目标是全面了解与主题相关的概念、方法和挑战。此外,它将使我能够收集有价值的见解和反馈,这些见解和反馈可以指导未来关于自动化的决策。通过这项手动工作,我的目标是获得可用于评估集成自动化的实用性和优势的知识和经验。

如果你是数据建模领域的新手,我邀请你阅读我关于数据建模在人工智能时代的重要性的另一篇文章。你可以在以下链接找到:数据建模在AI时代的重要性

入门:

获取ChatGPT登录。

访问chat.OpenAi.com,注册一个带有电子邮件地址的帐户或谷歌或微软帐户。您必须创建一个OpenAI网站帐户才能登录并访问ChatGPT。这是一张令人惊叹的截图中的“聊天GPT登录终极指南”。

获取所需的数据。

我将使用这个Kaggle开放数据集提供的数据,如果你打算继续,你需要将数据下载到你的本地机器上。人力资源案例研究需要以下CSV/数据集。CSV

先进的快速工程。

我们将首先创建精心制作的提示,并利用ChatGPT分析上一步下载的样本数据。这一分析将使我们能够提取数据中存在的重要概念。然后,我们可以构建我们的概念、逻辑和物理数据模型。

Sample data from “HR Case Study”Sample data from “HR Case Study”

Sample data from “HR Case Study”

精心制作的提示

well-crafted prompts with Sample data

well-crafted prompts with Sample data

results of well-crafted prompts with Sample data

results of well-crafted prompts with Sample data

我能够利用上面的信息对这些概念进行直观的可视化。

Conceptual Data Model as a results of well-crafted prompts with Sample data

Conceptual Data Model as a result of well-crafted prompts with Sample data

随后,我请求chatgpt生成一个逻辑模型;然而,它未能将距离和位置作为概念来识别。因此,我不得不明确指示它将这两个概念合并为一个逻辑实体,并将距离视为一个属性。

Conceptual Data Model as a result of well-crafted prompts (explicit this time round) with Sample data

尽管产生了令人满意的结果,但GPT忽略了一个小细节:基数。我不得不把它作为我精心制作的提示的一部分,ChatGPT自我救赎了。

result from a well-crafted prompt requesting cardinality

result from a well-crafted prompt requesting cardinality

我再一次成功地将这些概念清晰简洁地形象化了。

visual Logical Data Model as a result of well-crafted prompts (explicit this time round)

visual Logical Data Model as a result of well-crafted prompts (explicit this time round)

考虑到它适用于分析,我决定使用维度模型作为物理数据模型。此外,我是使用维度模型的坚定支持者。为了简化数据分析,我要求在我的维度中包含更改跟踪。此外,我特别要求为评级维度实现SCD Type 4,因为与其他维度相比,它有可能发生更频繁的变化。最后,我表示希望随时了解银行假期的情况。

physical (dimensional) Data Model as a result of well-crafted promptsPhysical (dimensional) Data Model as a result of well-crafted promptsphysical (Fact) Data Model as a result of well-crafted promptsPhysical (Fact) Data Model as a result of well-crafted prompts我再一次成功地将维度数据模型可视化。我请求GPT生成脚本,用于创建以SQL Server作为目标数据库的模型。GPT再一次成功地交付了所需的结果。

-- Create Dimension Tables
CREATE TABLE dim_Employee (
    EmployeeID INT PRIMARY KEY,
    Name VARCHAR(100),
    Gender VARCHAR(10),
    Age INT,
    TenureInCompany DECIMAL(5, 2),
    ValidFrom DATE,
    ValidTo DATE,
    CurrentFlag BIT
);

CREATE TABLE dim_Department (
    DepartmentID INT PRIMARY KEY,
    Department VARCHAR(100),
    ValidFrom DATE,
    ValidTo DATE,
    CurrentFlag BIT
);

CREATE TABLE dim_Salary (
    SalaryID INT PRIMARY KEY,
    AnnualSalary DECIMAL(10, 2),
    ValidFrom DATE,
    ValidTo DATE,
    CurrentFlag BIT
);

CREATE TABLE dim_Location (
    LocationID INT PRIMARY KEY,
    Location VARCHAR(100),
    ValidFrom DATE,
    ValidTo DATE,
    CurrentFlag BIT
);

CREATE TABLE dim_Rating (
    RatingID INT PRIMARY KEY,
    Rating VARCHAR(100),
    ValidFrom DATE,
    ValidTo DATE,
    CurrentFlag BIT,
    EffectiveDate DATE
);

CREATE TABLE dim_Date (
    DateKey INT PRIMARY KEY,
    [Date] DATE,
    [Day] INT,
    [Month] INT,
    [Year] INT,
    IsBankHoliday BIT
);

-- Create Fact Table
CREATE TABLE Fact_Employee (
    EmployeeID INT,
    DepartmentID INT,
    SalaryID INT,
    LocationID INT,
    RatingID INT,
    DistanceToOffice DECIMAL(10, 2),
    ValidFrom DATE,
    ValidTo DATE
);

-- Add foreign key constraints
ALTER TABLE Fact_Employee
ADD CONSTRAINT FK_Fact_Employee_dim_Employee FOREIGN KEY (EmployeeID)
    REFERENCES dim_Employee (EmployeeID);

ALTER TABLE Fact_Employee
ADD CONSTRAINT FK_Fact_Employee_dim_Department FOREIGN KEY (DepartmentID)
    REFERENCES dim_Department (DepartmentID);

ALTER TABLE Fact_Employee
ADD CONSTRAINT FK_Fact_Employee_dim_Salary FOREIGN KEY (SalaryID)
    REFERENCES dim_Salary (SalaryID);

ALTER TABLE Fact_Employee
ADD CONSTRAINT FK_Fact_Employee_dim_Location FOREIGN KEY (LocationID)
    REFERENCES dim_Location (LocationID);

ALTER TABLE Fact_Employee
ADD CONSTRAINT FK_Fact_Employee_dim_Rating FOREIGN KEY (RatingID)
    REFERENCES dim_Rating (RatingID);

结论

最后,我对ChatGPT的表现感到惊喜。这超出了我的预期。通过少量的数据,ChatGPT对数据以及一切是如何连接的表现出了非凡的理解。我能够创建一个概念数据模型,一个解释数据概念的逻辑数据模型,甚至是我选择的物理数据模型。在有限的信息中看到如此高水平的理解是很有趣的。 在接下来的实验阶段(第2部分:接下来的标题),我将创建实际的物理数据模型。我将用电子表格中的数据填充模型,也许可以开始探索自动化(ETL)。

文章链接