跳转到主要内容

标签(标签)

资源精选(342) Go开发(108) Go语言(103) Go(99) angular(83) LLM(78) 大语言模型(63) 人工智能(53) 前端开发(50) LangChain(43) golang(43) 机器学习(39) Go工程师(38) Go程序员(38) Go开发者(36) React(34) Go基础(29) Python(24) Vue(23) Web开发(20) Web技术(19) 精选资源(19) 深度学习(19) Java(18) ChatGTP(17) Cookie(16) android(16) 前端框架(13) JavaScript(13) Next.js(12) 安卓(11) 聊天机器人(10) typescript(10) 资料精选(10) NLP(10) 第三方Cookie(9) Redwoodjs(9) ChatGPT(9) LLMOps(9) Go语言中级开发(9) 自然语言处理(9) PostgreSQL(9) 区块链(9) mlops(9) 安全(9) 全栈开发(8) OpenAI(8) Linux(8) AI(8) GraphQL(8) iOS(8) 软件架构(7) RAG(7) Go语言高级开发(7) AWS(7) C++(7) 数据科学(7) 智能体(6) whisper(6) Prisma(6) 隐私保护(6) JSON(6) DevOps(6) 数据可视化(6) wasm(6) 计算机视觉(6) 算法(6) Rust(6) 微服务(6) 隐私沙盒(5) FedCM(5) 语音识别(5) Angular开发(5) 快速应用开发(5) 提示工程(5) Agent(5) LLaMA(5) 低代码开发(5) Go测试(5) gorm(5) REST API(5) kafka(5) 推荐系统(5) WebAssembly(5) GameDev(5) CMS(5) CSS(5) machine-learning(5) 机器人(5) 游戏开发(5) Blockchain(5) Web安全(5) nextjs(5) Kotlin(5) 低代码平台(5) 机器学习资源(5) Go资源(5) Nodejs(5) PHP(5) Swift(5) devin(4) Blitz(4) javascript框架(4) Redwood(4) GDPR(4) 生成式人工智能(4) Angular16(4) Alpaca(4) 编程语言(4) SAML(4) JWT(4) JSON处理(4) Go并发(4) 移动开发(4) 移动应用(4) security(4) 隐私(4) spring-boot(4) 物联网(4) 网络安全(4) API(4) Ruby(4) 信息安全(4) flutter(4) RAG架构(3) 专家智能体(3) Chrome(3) CHIPS(3) 3PC(3) SSE(3) 人工智能软件工程师(3) LLM Agent(3) Remix(3) Ubuntu(3) GPT4All(3) 软件开发(3) 问答系统(3) 开发工具(3) 最佳实践(3) RxJS(3) SSR(3) Node.js(3) Dolly(3) 移动应用开发(3) 低代码(3) IAM(3) Web框架(3) CORS(3) 基准测试(3) Go语言数据库开发(3) Oauth2(3) 并发(3) 主题(3) Theme(3) earth(3) nginx(3) 软件工程(3) azure(3) keycloak(3) 生产力工具(3) gpt3(3) 工作流(3) C(3) jupyter(3) 认证(3) prometheus(3) GAN(3) Spring(3) 逆向工程(3) 应用安全(3) Docker(3) Django(3) R(3) .NET(3) 大数据(3) Hacking(3) 渗透测试(3) C++资源(3) Mac(3) 微信小程序(3) Python资源(3) JHipster(3) 语言模型(2) 可穿戴设备(2) JDK(2) SQL(2) Apache(2) Hashicorp Vault(2) Spring Cloud Vault(2) Go语言Web开发(2) Go测试工程师(2) WebSocket(2) 容器化(2) AES(2) 加密(2) 输入验证(2) ORM(2) Fiber(2) Postgres(2) Gorilla Mux(2) Go数据库开发(2) 模块(2) 泛型(2) 指针(2) HTTP(2) PostgreSQL开发(2) Vault(2) K8s(2) Spring boot(2) R语言(2) 深度学习资源(2) 半监督学习(2) semi-supervised-learning(2) architecture(2) 普罗米修斯(2) 嵌入模型(2) productivity(2) 编码(2) Qt(2) 前端(2) Rust语言(2) NeRF(2) 神经辐射场(2) 元宇宙(2) CPP(2) 数据分析(2) spark(2) 流处理(2) Ionic(2) 人体姿势估计(2) human-pose-estimation(2) 视频处理(2) deep-learning(2) kotlin语言(2) kotlin开发(2) burp(2) Chatbot(2) npm(2) quantum(2) OCR(2) 游戏(2) game(2) 内容管理系统(2) MySQL(2) python-books(2) pentest(2) opengl(2) IDE(2) 漏洞赏金(2) Web(2) 知识图谱(2) PyTorch(2) 数据库(2) reverse-engineering(2) 数据工程(2) swift开发(2) rest(2) robotics(2) ios-animation(2) 知识蒸馏(2) 安卓开发(2) nestjs(2) solidity(2) 爬虫(2) 面试(2) 容器(2) C++精选(2) 人工智能资源(2) Machine Learning(2) 备忘单(2) 编程书籍(2) angular资源(2) 速查表(2) cheatsheets(2) SecOps(2) mlops资源(2) R资源(2) DDD(2) 架构设计模式(2) 量化(2) Hacking资源(2) 强化学习(2) flask(2) 设计(2) 性能(2) Sysadmin(2) 系统管理员(2) Java资源(2) 机器学习精选(2) android资源(2) android-UI(2) Mac资源(2) iOS资源(2) Vue资源(2) flutter资源(2) JavaScript精选(2) JavaScript资源(2) Rust开发(2) deeplearning(2) RAD(2)
Body

数据科学是一个跨学科领域,它使用科学方法、过程、算法和系统从嘈杂的结构化和非结构化数据中提取知识和见解,[1][2] 并将数据中的知识应用于广泛的应用领域。数据科学与数据挖掘、机器学习和大数据有关。

数据科学是一个“统一统计、数据分析、信息学及其相关方法的概念”,以便用数据“理解和分析实际现象”。 [3]它使用来自数学、统计学、计算机科学、信息科学和领域知识背景下的许多领域的技术和理论。 [4]然而,数据科学不同于计算机科学和信息科学。图灵奖获得者 Jim Gray 将数据科学想象为科学的“第四范式”(经验、理论、计算,现在是数据驱动的),并断言“由于信息技术的影响,科学的一切都在发生变化”和数据泛滥.[5][6]

数据科学家是创建编程代码并将其与统计知识相结合以从数据中获得洞察力的人。 [7]

基础


数据科学是一个跨学科领域,专注于从典型的大型数据集中提取知识,并将这些数据中的知识和见解应用于解决广泛应用领域中的问题。 [8]该领域包括为分析准备数据、制定数据科学问题、分析数据、开发数据驱动的解决方案以及展示研究结果以告知广泛应用领域的高级决策。因此,它融合了计算机科学、统计学、信息科学、数学、数据可视化、信息可视化、数据声化、数据集成、图形设计、复杂系统、通信和商业方面的技能。 [9][10]统计学家 Nathan Yau 借鉴 Ben Fry,还将数据科学与人机交互联系起来:用户应该能够直观地控制和探索数据。[11][12] 2015 年,美国统计协会将数据库管理、统计和机器学习以及分布式和并行系统确定为三个新兴的基础专业社区。 [13]

与统计的关系


许多统计学家,包括 Nate Silver,都认为数据科学不是一个新领域,而是统计学的另一个名称。 [14]其他人则认为,数据科学不同于统计学,因为它关注的是数字数据特有的问题和技术。 [15] Vasant Dhar 写道,统计学强调定量数据和描述。相比之下,数据科学处理定量和定性数据(例如图像),并强调预测和行动。 [16]哥伦比亚大学的 Andrew Gelman 将统计描述为数据科学的非必要部分。 [17]

斯坦福大学教授大卫·多诺霍写道,数据科学与统计学的区别在于数据集的大小或计算的使用,许多研究生项目误导性地将他们的分析和统计培训宣传为数据科学项目的本质。他将数据科学描述为从传统统计学发展而来的应用领域。 [18]

总之,数据科学因此可以被描述为统计学的一个应用分支

词源


早期使用


1962 年,John Tukey 描述了一个他称之为“数据分析”的领域,它类似于现代数据科学。 [18] 1985 年,C. F. Jeff Wu 在北京给中国科学院的一次演讲中,首次使用“数据科学”一词作为统计学的替代名称。 [19]后来,参加蒙彼利埃第二大学 1992 年统计研讨会的与会者承认出现了一门新学科,该学科侧重于各种来源和形式的数据,将统计和数据分析的既定概念和原则与计算相结合。[20][21]

“数据科学”一词可以追溯到 1974 年,当时 Peter Naur 提出将其作为计算机科学的替代名称。 [22] 1996 年,国际船级社联合会成为第一个专门将数据科学作为主题的会议。 [22]然而,定义仍在不断变化。 1985 年在北京中科院的演讲之后,1997 年 C. F. Jeff Wu 再次建议统计学应该更名为数据科学。他推断,一个新名称将有助于统计数据摆脱不准确的刻板印象,例如与会计同义,或仅限于描述数据。 [23] 1998 年,Hayashi Chikio 认为数据科学是一个新的跨学科概念,具有三个方面:数据设计、收集和分析。 [21]

在 1990 年代,在数据集(越来越大)中寻找模式过程的流行术语包括“知识发现”和“数据挖掘”。[24][22]

现代用法


数据科学作为一门独立学科的现代概念有时归因于 William S. Cleveland。 [25]在 2001 年的一篇论文中,他主张将统计学从理论扩展到技术领域;因为这会显着改变该领域,所以需要一个新名称。 [24] “数据科学”在接下来的几年里得到了更广泛的应用:2002 年,科学技术数据委员会推出了数据科学期刊。 2003 年,哥伦比亚大学创办了《数据科学杂志》。 [24] 2014 年,美国统计协会的统计学习和数据挖掘部门更名为统计学习和数据科学部门,反映了数据科学的日益普及。 [26]

“数据科学家”的职称已于 2008 年归属于 DJ Patil 和 Jeff Hammerbacher。 [27]尽管国家科学委员会在其 2005 年的报告“长寿的数字数据收集:21 世纪的研究和教育”中使用了它,但它泛指管理数字数据收集中的任何关键角色。 [28]

关于数据科学的定义仍然没有达成共识,被一些人认为是一个流行词。 [29]大数据是一个相关的营销术语。 [30]数据科学家负责将大数据分解为可用信息,并创建帮助公司和组织确定最佳运营的软件和算法。 [31]