原文:KDNuggets
协议:CC BY-NC-SA 4.0
原文:
comments
照片由 Jo Szczepanska 提供,来源于 Unsplash
作为一名有志的数据科学家,你一定听过“做数据科学项目”的建议不下千次。
1. 谷歌网络安全证书 - 快速进入网络安全领域的职业生涯。
2. 谷歌数据分析专业证书 - 提升你的数据分析技能
3. 谷歌 IT 支持专业证书 - 支持你的组织进行 IT 相关工作
数据科学项目不仅是极好的学习体验,它们还能帮助你在众多希望进入数据科学领域的热爱者中脱颖而出。
然而,并非所有的数据科学项目都有助于提升你的简历。实际上,在你的作品集中列出错误的项目可能会适得其反。
在这篇文章中,我将带你深入了解那些在简历中必不可少的项目。
我还将为每个项目提供示例数据集以供实验,并附上相关的教程帮助你完成项目。
技能 1:数据收集
照片由 James Harrison 提供,来源于 Unsplash
数据收集和预处理是数据科学家必备的重要技能之一。
在我的数据科学工作中,大部分工作涉及在 Python 中进行数据收集和清理。在理解业务需求后,我们需要获取互联网中的相关数据。
这可以通过使用 API 或网络抓取工具来完成。一旦完成,数据需要被清理并存储到数据框中,以便作为输入提供给机器学习模型。
这是数据科学家工作中最耗时的部分。
我建议通过完成以下项目来展示你在数据收集和预处理方面的技能:
网络抓取 — 食品评论网站
教程: Zomato Web Scraping with BeautifulSoup
语言:Python
从食品配送网站抓取评论是一个有趣且实际的项目,可以为你的简历增添亮点。
简单地构建一个网络爬虫,收集该网站所有网页上的评论信息,并将其存储在数据框中。
如果你想进一步拓展这个项目,可以使用收集的数据构建情感分析模型,并对这些评论进行分类,判断哪些是积极的,哪些是消极的。
下次你想找点吃的时,选择一个评论整体评价最好的餐厅。
网络爬虫 — 在线课程网站
教程:用 Python 在 8 分钟内构建一个网络爬虫
语言:Python
想要在 2021 年找到最佳的在线课程吗?在数百个数据科学课程中挑选一个既实惠又高评价的课程确实很困难。
你可以通过抓取一个在线课程网站,并将所有结果存储到数据框中来实现这一点。
将这个项目进一步拓展,你还可以围绕价格和评级等变量创建可视化,寻找既实惠又优质的课程。
你还可以创建一个情感分析模型,得出每个在线课程的整体情感。然后,你可以选择情感总体评价最高的课程。
奖励
创建一些项目,使用 API 或其他外部工具收集数据。这些技能通常在你开始工作时非常有用。
大多数依赖第三方数据的公司通常会购买 API 访问权限,你需要借助这些外部工具进行数据收集。
一个你可以做的示例项目:使用 Twitter API 收集与特定标签相关的数据,并将数据存储在数据框中。
技能 2:探索性数据分析
图片来源:Luke Chesser拍摄,来自Unsplash
在收集和存储数据之后,你需要对数据框中的所有变量进行分析。
你需要观察每个变量的分布情况,了解它们之间的关系。你还必须能够利用可用的数据回答问题。
作为数据科学家,你会经常做这些工作,甚至比预测建模还要多。
以下是一些 EDA 项目想法:
识别心脏病的风险因素
数据集:Framingham Heart Study
教程:Framingham Heart Study: 决策树
语言:Python 或 R
这个数据集包含了如胆固醇、年龄、糖尿病和家族病史等预测因子,用于预测患者心脏病的发生。
你可以使用 Python 或 R 来分析数据集中存在的关系,并回答以下问题:
- 糖尿病患者是否更容易在年轻时发展心脏病?
- 是否存在某个特定的人口群体比其他群体更容易患心脏病?
- 频繁锻炼是否能降低患心脏病的风险?
- 吸烟者是否比非吸烟者更容易发展心脏病?
能够借助可用数据回答这些问题是数据科学家必备的重要技能。
这个项目不仅会帮助你提升作为分析师的技能,还能展示你从大数据集中提取见解的能力。
世界幸福报告
数据集:世界幸福报告
教程:世界幸福报告 EDA
语言:Python
世界幸福报告追踪六个因素来衡量全球幸福感——预期寿命、经济状况、社会支持、腐败缺失、自由和慷慨。
在对这个数据集进行分析时,你可以回答以下问题:
- 世界上哪个国家最幸福?
- 哪些因素对一个国家的幸福感最为重要?
- 整体幸福感是在增加还是减少?
再次强调,这个项目将有助于提升你作为分析师的技能。我在大多数成功的数据分析师身上看到的一个特质是好奇心。
数据科学家和分析师总是在寻找影响因素。
他们总是试图寻找变量之间的关系,并不断提出问题。
如果你是一个有志成为数据科学家的人,做这样的项目将帮助你培养分析思维。
技能 3:数据可视化
由 Lukas Blazek 在 Unsplash 提供的照片
当你开始担任数据科学家时,你的客户和利益相关者通常会是非技术人员。
你需要将你的见解分解并向非技术观众展示结果。
最好的方式是以可视化的形式进行展示。
展示一个互动仪表板将有助于你更好地传达你的见解,因为图表一目了然。
因此,许多公司将数据可视化列为数据科学相关职位的必备技能。
这里有一些你可以在作品集中展示的数据可视化项目,以展示你的数据可视化技能:
构建一个 Covid-19 仪表板
数据集:约翰斯·霍普金斯大学 Covid-19 数据库
教程:使用 Python 和 Tableau 构建 Covid-19 仪表板
语言:Python
您首先需要使用 Python 对上述数据集进行预处理。然后,您可以使用 Tableau 创建一个互动的 Covid-19 仪表板。
Tableau 是最受欢迎的数据可视化工具之一,是大多数入门级数据科学职位的前提条件。
使用 Tableau 构建一个仪表板并在您的作品集中展示将帮助您脱颖而出,因为这展示了您使用该工具的熟练程度。
构建 IMDb 电影数据集仪表板
数据集:IMDb 顶级评分电影
教程:使用 Tableau 探索 IMDb 前 250
您可以用 IMDb 数据集进行实验,并使用 Tableau 创建一个互动的电影仪表板。
如上所述,展示您构建的 Tableau 仪表板可以帮助您的作品集脱颖而出。
Tableau 的另一个好处是,您可以将您的可视化结果上传到 Tableau Public,并与任何想要使用您仪表板的人分享链接。
这意味着潜在的雇主可以与您的仪表板互动,这会引发他们的兴趣。一旦他们对您的项目感兴趣并且能够实际操作最终产品,您就离获得工作更近了一步。
如果您想开始使用 Tableau,您可以访问我的教程 这里。
技能 4:机器学习
图片由 Kevin Ku 提供,来源于 Unsplash
最后,您需要展示能够体现您机器学习熟练度的项目。
我建议做两种项目——有监督和无监督的机器学习项目。
食品评论中的情感分析
数据集:亚马逊美食评论数据集
教程:Python 情感分析入门指南
语言:Python
情感分析是机器学习中非常重要的一个方面。企业经常使用它来评估客户对其产品的整体反应。
客户通常在社交媒体和客户反馈论坛上讨论产品。这些数据可以被收集和分析,以了解不同的人如何对不同的营销策略做出反应。
基于所进行的情感分析,公司可以对其产品进行不同的定位或更改目标受众。
我建议在你的作品集中展示一个情感分析项目,因为几乎所有企业都有社交媒体存在,并且需要评估客户反馈。
预期寿命预测
数据集:预期寿命数据集
教程:预期寿命回归
语言:Python
在这个项目中,你将预测一个人的预期寿命,基于教育水平、婴儿死亡数、酒精消费和成人死亡率等变量。
我上面列出的情感分析项目是一个分类问题,这也是我将回归问题加入列表的原因。
在简历上展示多样化的项目以展示你在不同领域的专业知识是非常重要的。
乳腺癌分析
数据集:乳腺癌数据集
教程:乳腺癌数据集的聚类分析
语言:Python
在这个项目中,你将使用 K-means 聚类算法来检测乳腺癌的存在,基于目标属性。
K-means 聚类是一种无监督学习技术。
在你的作品集中展示聚类项目是重要的,因为大多数现实世界的数据都是未标注的。
即使是公司收集的大型数据集通常也没有训练标签。作为数据科学家,你可能需要使用无监督学习技术自己进行标注。
结论
你需要展示包括数据收集、分析、可视化和机器学习在内的多种技能的项目。
在线课程不足以让你在所有这些领域获得技能。然而,你可以找到几乎所有你想做的项目的教程。
你只需要具备基本的 Python 知识,就可以跟随这些教程。
一旦你把所有代码弄得妥当,并且能够正确跟进,你就可以复制解决方案,并独立开展各种不同的项目。
请记住,如果你是数据科学领域的初学者,没有相关学位或硕士学位,那么展示项目在你的作品集中是非常重要的。
作品集项目是向潜在雇主展示你技能的最佳方式之一,尤其是为了获得你在这一领域的第一个入门级工作。
了解我如何获得我的第一个数据科学实习点击这里。
迟早,那些获胜的人是那些相信自己能做到的人 — 保罗·图尔尼耶
简介: Natassha Selvaraj (LinkedIn) 我目前正在攻读计算机科学学位,主修数据科学。我对机器学习领域充满兴趣,并且在这个领域完成了各种项目。我还喜欢解决问题和编程,这也是我每天都会做的事情。
原文。已获许可转载。
相关内容:
- 重建我的 7 个 Python 项目
- 你的投资组合中最好的数据科学项目
- 数据科学初学者的投资组合指南
更多相关话题
- 建立一个稳固的数据团队
- 使用管道编写干净的 Python 代码
- 成为一名优秀数据科学家所需的 5 项关键技能
- 每个初学者数据科学家应掌握的 6 种预测模型
- 2021 年最佳 ETL 工具
- 学习数据科学统计学的顶级资源
原文:
评论
由 ActiveWizards 提供
1. 谷歌网络安全证书 - 快速通道进入网络安全职业生涯。
2. 谷歌数据分析专业证书 - 提升您的数据分析技能
3. 谷歌 IT 支持专业证书 - 支持您的组织在 IT 领域
能源行业正在不断发展,更多重要的发明和创新尚待出现。能源的使用一直涉及农业、制造业、交通等其他行业。因此,这些行业往往会增加其每日能源消耗量。能源在新技术应用和新能源源开发方面似乎需求量很大。
能源行业和公用事业的快速发展直接影响社会发展。人们现在面临智能能源管理和消费、可再生能源的应用以及环境保护的挑战。智能技术在解决这些问题中发挥着至关重要的作用。在本文中,我们将深入探讨能源和公用事业行业中最生动的数据科学应用案例。
失败概率建模
失败概率建模在能源行业中占有一席之地。机器学习算法在失败预测中的效率无可置疑。
概率建模的积极应用有助于提高性能,预测功能中的偶发故障,从而降低维护成本。能源公司投入大量资金用于设备的维护和正常运行。操作中的意外故障会导致可观的财务损失。此外,对于依赖这些公司作为能源来源的人来说,情况变得至关重要。因此,能源供应商的整体可靠性和形象可能会受到影响。
失败概率模型应用的结果是公司决策过程中的一个重要部分。它为公司管理层提供了一个绝妙的机会,使其能够领先一步。
停电检测和预测
尽管能源行业的公司做出了努力,但停电仍然发生,导致大量人群无电可用。在这方面,人们往往将停电视为电网的失败。然而,停电是一种预防措施,是自动保护系统运作的结果。
过去几年,能源系统工程师使用的是静态算法和模型,而非实时解决方案。如今,众多能源和公用事业公司正积极升级其系统,以改善停电检测和预测。现代智能停电通信系统能够:
- 预测天气条件对电网的影响
- 预测近期资产价值对电网的影响
- 通过智能电表事件检测可能的停电。
- 检测指定区域的停电情况。
- 实时过滤停电输入并识别停电类型。
- 对停电的确认和相关事项的沟通。
停电检测和预测始于识别正确的指标和阈值。每一次停电事件都应仔细分析以确定根本原因。只有在此之后,预测算法才能应用于建模未来停电的可能性。应用智能能源停电生态系统可以提供准确的实时停电状态,以改善总体客户体验和满意度。
动态能源管理
动态能源管理系统属于管理负荷的创新方法。这种管理方法涵盖了所有传统的能源管理原则,包括需求、分布式能源资源和需求侧管理,并且还涉及到现代能源挑战,如节能、临时负荷和需求减少。因此,智能能源管理系统已经发展出结合智能终端设备、分布式能源资源以及先进控制和通信的能力。
大数据分析在这里发挥着重要作用,因为它为智能电网中的动态管理系统提供了支持。这在很大程度上有助于优化供电商和消费者之间的能源流动。能源管理系统的效率,反过来,又取决于负荷预测和可再生能源资源。
动态能源管理组件通常包括智能能源终端设备、智能分布式能源资源、先进控制系统和集成通信架构。
动态能源管理系统处理通过实际方法和解决方案获得的大量数据。应用大数据分析帮助对这些数据进行性能评估,并提供智能能源管理建议。
智能电网安全与盗窃检测
能源盗窃可能被视为最昂贵的盗窃类型之一。因此,能源公司付出了巨大努力来防止这种情况。能源盗窃在智能电网中经常通过直接接入分配电缆来发生。
为了预测和防止能源盗窃以及由此产生的资金损失,大型能源公司和企业监控能源流,以便立即对一些可疑情况作出反应。为此,公司所有者倾向于转向先进计量基础设施,这些基础设施能够报告能源使用情况并进行远程控制。
智能电网安全解决方案正在获得极高的关注。这些解决方案可能基于行为,因此它们会不断跟踪用户的行为,以检测黑客并披露其意图。
预防性设备维护
预防性设备维护依赖于对设备在正常运行条件下的当前状态和性能水平的监控。这种监控旨在通过根据特定指标预测可能的故障发生,来防止设备故障。
为了最大限度地回报投资,并在其效率的巅峰期使用复杂的机器和设备,从事能源分配和公用事业的公司已经应用了几十年的预防性设备维护。智能数据解决方案、传感器和跟踪器用于收集定义的指标,处理和分析数据。根据输出,智能系统会发出能源中断、机制运作不良的警报,并敦促人们做出正确且及时的决策。
需求响应管理
在不断寻找可再生能源来源和有效使用能源的条件下,智能能源管理正处于其受欢迎的巅峰。成功的能源管理的关键在于需求和供应之间的平衡。高需求和低需求都会给能源供应商和消费者带来很多问题和成本。
因此,需求响应是一种经过时间验证的有效策略。具体的实时管理应用和解决方案可以监控能源使用的指标,确定活动高峰,并根据当前需求率调整能源流量。此外,还存在鼓励消费者在特定时间使用能源并节省资金的响应管理程序。这样,消费者有机会转向更好的定价计划,而供应商则有机会在能源供应中实现理想的平衡。
实时客户计费
企业希望改善客户服务和提高客户满意度,这一点并不奇怪。能源和公用事业公司也不例外。它们致力于提高服务提供过程、账单和支付操作的透明度,改善质量,消除延误、误解或争议问题。公司使用一整套应用程序和软件来管理众多客户、账单、支付和开票。客户也有机会监控交易情况。
运营管理软件实时跟踪运营活动和交易,并在账单、支付、预付和后付服务以及通信服务方面采取即时行动。
提高运营效率
效率的本质是指在比以前更短的时间内完成特定任务。现代生活的快速节奏和日常事务使人们希望在所有方面提高效率。
能源和公用事业公司使用智能数据应用程序和软件来检测值得优化的问题、操作和功能。实时监控提供有关时间、活动率和某些操作状态的数据。这些数据与外部因素结合处理,以确定平均效率。数据科学在这里用于各种情况的建模和在不同情况下效率的预测。
优化资产性能
能源供应中所有可能的故障或延误、计划外的服务中断或复杂情况都会导致低效。通过对性能和资产的监控,可以防止或至少控制这种低效。
实时数据关于资产健康状况、供应和需求分析有助于提高资产性能。数据驱动和业务分析工具及软件用于监控条件、成本和性能,以及定义评分方法和关键优先领域。数据驱动和业务分析工具及软件还用于提升资产的可靠性、容量和可用性,并最小化成本。你拥有的数据越多,就能越好地管理资产。
增强客户体验
对于能源和公用事业公司来说,有两个优先工作的维度直接与整体品牌声誉相关。这两个维度是运营卓越和客户体验,它们本质上是相互依赖的。智能技术的快速发展和智能家居的日益普及为用户提供了新的机会。由于这一事实,客户在选择公司或服务时变得更加挑剔。因此,对高质量服务的需求也在增加。
所有公司都在尽力满足客户的需求和愿望。首先,应应用多种沟通渠道。全渠道为公司提供了宝贵的洞察,以便进一步处理。通过准确的分析,公司可以有效揭示客户的人口统计数据、行为和情感。因此,他们可以量身定制个性化的推荐、建议和服务。
结论
能源和公用事业公司面临着不断的压力,要求提供高质量的服务,不出现延迟和故障,并且全天候以合理的价格提供服务。人们在日常生活和工作中依赖能源来源。由于技术的快速发展和改进,该行业每天面临新的机会和挑战。
机器学习算法、分析模型和大数据解决方案帮助公司管理和有效利用其资源,控制能源流,调节电网,优化工作,并避免可能花费大量成本的错误。
实时和预测分析以及数据科学解决方案的使用需要重大投资和面对挑战的准备、学习和引入新的复杂操作。然而,数据科学在能源和公用事业领域的应用带来了诸多好处。
ActiveWizards 是一个专注于数据项目(大数据、数据科学、机器学习、数据可视化)的数据科学家和工程师团队。核心专业领域包括数据科学(研究、机器学习算法、可视化和工程)、数据可视化(d3.js、Tableau 等)、大数据工程(Hadoop、Spark、Kafka、Cassandra、HBase、MongoDB 等)以及数据密集型 Web 应用开发(RESTful API、Flask、Django、Meteor)。
原文。经授权转载。
相关:
- 金融领域数据科学的七大应用案例
- 经理数据科学入门
- 顶级 6 个 Python NLP 库的比较
更多相关内容
- 利用数据科学使清洁能源更公平
- NoSQL 数据库及其应用案例
- AI 和 LLM 应用中的向量数据库
- 企业中的机器学习:应用案例和挑战
- DALLE-3 的 5 个应用案例
- 为什么 TinyML 案例越来越受欢迎?
原文:
评论
由ActiveWizards提供
随着时间的推移,数据科学已经证明了其高价值和高效率。数据科学家们在日常生活中不断找到实施大数据解决方案的新方法。如今,数据是成功公司所需的燃料。
1. 谷歌网络安全证书 - 快速进入网络安全职业生涯。
2. 谷歌数据分析专业证书 - 提升你的数据分析技能
3. 谷歌 IT 支持专业证书 - 支持你组织的 IT 需求
电信公司也不例外。由于这些情况,它们不能不使用数据科学。在电信行业,数据科学应用被广泛用于优化运营、最大化利润、建立有效的市场营销和商业战略、可视化数据、执行数据传输以及许多其他案例。电信行业公司关键活动与数据传输、交换和导入密切相关。各种通信渠道中传递的数据量每分钟都在增加。因此,旧的技术和方法已不再适用。
在这篇文章中,我们尝试呈现电信领域最相关和高效的数据科学应用案例。
欺诈检测
电信行业由于每天吸引几乎最多的用户,是一个广泛的欺诈活动领域。电信领域最普遍的欺诈案例包括非法访问、授权、盗窃或虚假资料、克隆、行为欺诈等。欺诈对公司与用户之间建立的关系有直接影响。
因此,欺诈检测系统、工具和技术得到了广泛应用。通过将无监督的机器学习算法应用于大量的客户和运营商数据,以发现正常流量的特征,可以防止欺诈。这些算法定义了异常情况,并通过数据可视化技术将其作为实时警报呈现给分析师。这种技术的效率非常高,因为它能提供几乎实时的响应来应对可疑活动。
预测分析
电信公司应用预测分析来获取有价值的见解,以便变得更快、更好,并做出数据驱动的决策。了解客户的偏好和需求可以更好地理解客户。预测分析利用历史数据来构建预测。数据的质量越高,历史越长,预测的准确性也越高。
让我们考虑几个在电信行业中预测分析的应用案例。
客户细分
电信公司的成功关键在于市场细分并根据每个群体定制内容。这个黄金法则适用于各种业务领域。谈到电信,有四种主要的细分方案:客户价值细分、客户行为细分、客户生命周期细分和客户迁移细分。
高级定位可以预测需求、偏好以及客户对电信服务和产品的反应。这使得业务规划和定位得以提升。
客户流失预防
获取客户是一项具有挑战性的任务。保持客户的参与也需要付出很多努力。准确诊断客户的行为并启用警报可以突出那些面临流失风险的客户。智能数据平台可以汇集客户交易数据和实时通信流的数据,从而揭示客户对服务的感受。这使得可以立即解决与满意度相关的问题和防止客户流失。
终身价值预测
客户倾向于寻找更好和更便宜的服务,因此,电信公司需要衡量、管理和预测客户终身价值(CLV)。未能预测这一价值可能会导致利润损失。
客户终身价值是客户未来所有利润和收入的折现值。CLV 模型集中于客户的购买行为、活动、所使用的服务和平均客户价值。智能解决方案处理实时洞察,区分盈利、接近盈利和不盈利的客户群体,从而预测未来的现金流。
网络管理与优化
电信公司往往将客户参与过程和内部渠道视为操作顺利进行的保证。网络管理与优化提供了在操作中定义评分点的机会,以识别这些复杂情况的根本原因。查看历史数据并预测可能的未来问题或相反的有利情景对电信提供商来说是一个巨大的好处。
产品开发
产品开发是一个复杂的过程,从概念开发阶段到持续的生命周期管理和维护,都需要控制和深思熟虑的管理。要确保产品的高质量性能,符合客户的要求,就必须应用智能数据解决方案。数据驱动的产品开发过程不仅应考虑客户需求,还应考虑数字分析实施的结果、内部反馈和市场情报。
推荐引擎
推荐引擎存在于我们数字生活的各个领域。电信领域也在其中。忽视有关客户偏好的大量数据集将成为电信行业的重大损失。未来需求的预测变得可能,这得益于数据的可用性。
推荐引擎是一组智能算法,描绘客户行为,并对产品或服务的未来需求进行预测。这里最受欢迎的方法是协同过滤和基于内容的过滤。
协同过滤依赖于对用户行为或偏好的数据分析,通过与其他用户的相似性预测他们可能喜欢什么。模型的关键假设是具有相似个人资料的人可能有类似的需求并做出类似的选择。
基于内容的过滤方法利用客户个人资料与客户选择的项目之间的属性关系。因此,算法推荐与之前购买的商品和服务相似的项目。
客户情感分析
由于互联网服务作用的增加,电信领域处于不断变化之中。对于每个电信公司来说,这可能被视为一个广阔的领域,用于了解和理解客户。
客户情感分析是一组用于信息处理的方法。这种分析可以评估客户对服务或产品的积极或消极反应。对汇总数据的分析还可以揭示近期趋势,并实时应对客户的问题。客户情感分析在很大程度上依赖于文本分析技术。现代工具从各种社交媒体来源收集反馈,进行分析,并提供直接响应机制的机会。
实时分析
电信行业因其多年处理大量数据流的经验而闻名。由于互联网的快速发展以及 3G、4G 甚至 5G 连接的不断演变,电信公司面临着不断变化的客户需求的挑战。用户变得越来越挑剔,流量每天都在增加。
实时流分析可以处理这个任务。现代流分析解决方案专门用于持续摄取、分析和关联来自多个来源的数据,并在实时模式下生成响应行动。实时分析结合了与客户档案、网络、位置、流量和使用相关的数据,以创建产品或服务的 360 度用户中心视图。它还捕捉和分析客户之间的互动和沟通。
价格优化
电信领域属于高度竞争的行业。尽可能多地获取订阅者仍然是一个关键目标。由于近年来用户数量增长极快,定价成为了一种限制拥堵和同时增加收入的工具。
动态定价方法致力于映射生命周期价值、关税、渠道,以计算设备、渠道和定价计划交叉点的价格弹性,并将这些数据结合起来。基于这些见解,可以定义定价、促销和未来收入之间的相互依赖关系。
结论
电信行业因积极使用机器学习和数据科学而得到了推动。这一步骤只是为了更好的发展。许多方面和问题变得更容易解决、控制,甚至防止发生。
电信领域不得不采用现代技术和方法,以保持相关性并在全球市场严峻的环境下不失去地位。电信公司运营着庞大的通信网络和基础设施,数据流动十分密集。利用数据科学算法、方法论和工具处理和分析这些数据具有实际应用。因此,我们尝试明确几个这些应用案例,并展示可以获得的实际好处。
ActiveWizards 是一个专注于数据项目(大数据、数据科学、机器学习、数据可视化)的数据科学家和工程师团队。核心专长领域包括数据科学(研究、机器学习算法、可视化和工程)、数据可视化(d3.js、Tableau 等)、大数据工程(Hadoop、Spark、Kafka、Cassandra、HBase、MongoDB 等)和数据密集型 Web 应用开发(RESTful APIs、Flask、Django、Meteor)。
原文。经许可转载。
相关:
- 金融领域数据科学的前 7 个应用案例
- 管理者数据科学入门
- 前 6 大 Python NLP 库比较
更多相关内容
- 企业中的机器学习:使用案例与挑战
- NoSQL 数据库及其使用案例
- DALLE-3 的 5 个使用案例
- 向量数据库在 AI 和 LLM 使用案例中的应用
- 为什么 TinyML 案例变得越来越受欢迎?
- KDnuggets™ 新闻 22:n06,2 月 9 日:数据科学编程……
原文:
7. 数据科学 – 埃因霍温理工大学 – (观看次数: 58K)
类别:广告
1. 谷歌网络安全证书 - 快速开启网络安全职业生涯。
2. 谷歌数据分析专业证书 - 提升你的数据分析能力
3. 谷歌 IT 支持专业证书 - 支持组织的 IT 需求
埃因霍温理工大学对其数据科学新课程的戏剧性广告。广告风格具有电影感,使用计算机图形模仿科幻动作片,类似于《少数派报告》和《盗梦空间》,通过使用 Oculus Rift 和多点触控界面等技术实现。以下是他们的本科和硕士课程链接。
8. 工作中的数据科学家一天 – (观看次数: 57K)
类别:教育
RCRtv 探索了德州普莱诺 AT&T Foundry 中数据科学家的一天。
该视频采访了资深数据科学家卡尔提克·拉贾戈帕兰,回答了以下问题:数据科学的定义、背景、如何保持前沿、采用的工具以及对有志于成为数据科学家的人的一些最终建议。
9. 数据科学家与数据分析师的区别、角色和资格 – (观看次数: 47K)
类别:教育
Bigdata Simplified 的一段屏幕录制视频,讲述数据科学家和数据分析师之间的区别。视频强调了数据的生成方式、价值以及如何释放其力量,最后介绍了数据分析师和数据科学家的不同特点。
10. 数据科学的未来 – 数据科学@斯坦福 – (观看次数: 37K)
类别:教育
斯坦福大学医学与遗传学副教授尤安·阿什利、斯坦福大学化学教授维贾伊·潘德、斯坦福大学工程与电气工程教授赫克托·加西亚-莫利纳以及斯坦福大学校长约翰·亨内西,他们共同举办了一场长达近 26 分钟的有趣数据科学会议。他们试图解决的问题包括:这个新兴学科有多真实?它带来了哪些机会和挑战?斯坦福大学如何在研究和教育中培养数据科学?
观察:
最近,我有机会与不同的数据科学初创公司进行交流。他们的问题是:如何接触他们的客户,即商业人士、风险投资等。
所以,在这一点上,我将我的观点翻译成几个问题:
- 是否可以仅仅通过提及数据科学来讨论数据科学?最受欢迎的前十名视频显然不是面向技术文盲观众的,而是那些已经对这个领域有兴趣的人。我的想法是:我们为何不将讨论转向一些更热门的话题,如政策制定、城市规划、安全、健康、艺术和隐私?
- 与其专注于“说服”那些非数据驱动型的公司去采纳数据驱动的文化,从而聘请数据科学家,我们为什么不先专注于将数据科学传达给大众呢?
无论多么困难,在互联网上,甚至在训练营中,他们都在强调数据科学中讲故事的重要性,我觉得沟通在这个领域中是一个大问题。我不仅仅是在谈论可视化和报告。这些都是过时的、混乱的,并且常常是自我指涉的。我意识到我可能听起来很直接,甚至有点苛刻,但推动我如此坦诚的是希望让数据科学向世界开放的真实愿望。一个关键的绩效参数应该是有多少技术文盲的人能够了解并熟悉这个领域。数据科学可能不是万灵药,但它可以改变世界。
作为这一思考的直接结果,我决定检索和分析 2014 年第一批 500 个观看量最多的视频的文本元数据,这些视频的标题中包含“数据科学”和/或“数据科学家”这两个词。收集完所有的元数据后,我将所有标签、描述和标题拼接成一个词袋。我然后使用了来自 gensim Python 框架的 word2vec。分析很简单,但结果很有趣。
元数据中的 30725 个词汇中,大多数与“业务”(工作、职业、管理、行业等)、“教育”(大学、课程、学习、教程、编程等)和“数据科学工具和技术”(机器学习、算法等)相关。像“未来”和“社会”这样的词汇仅占总数的 0.13%。与“未来”最相似的词汇再次与“业务”(工作、职业、信息、产品、首席)相关。“新闻学”、“进步”、“政治”、“心理学”在与数据科学视频相关的术语中不到 0.016%。这也是一个似乎不以“名人”为导向的领域。Dr. DJ Patil 是唯一一个“突出”的影响者:占总词汇的 0.1%。
从这非常简单的分析中可能得出的结论是:
- 数据科学是一个集中的话题。那些已经了解它的人会寻找它,特别是教程和教育用途。其他人则不会。
- 目前的数据科学(从沟通的角度来看)严格与职业/业务相关。
- 显然缺乏将数据科学重新框定为“热门话题”。
我和一位高级数据科学家讨论的一个话题是关于解释数据科学在商业中的可靠性。我喜欢他的话,“科学应该让我们想起伽利略的实验科学方法。在这个领域,我们进行大量的实验。这一点真的很难解释。”
我们也应该在沟通方面进行实验。
个人简介:Marco Nasuto是一名数据科学家、航空航天工程师和电影制片人。目前在丹麦工作。
相关:
- YouTube 上的十大机器学习视频
- YouTube 上最受欢迎的数据挖掘视频
- YouTube 上最受欢迎的大数据视频
更多相关主题
- 成为伟大的数据科学家需要的 5 项关键技能
- 每个初学者数据科学家应该掌握的 6 种预测模型
- 2021 年最佳 ETL 工具
- 学习数据科学统计的顶级资源
- 停止学习数据科学以寻找目标,并寻找目标来…
- 建立一个强大的数据团队
原文:
评论
作者:Andrea Laura, freelance writer
1. Google Cybersecurity Certificate - 快速进入网络安全职业道路。
2. Google Data Analytics Professional Certificate - 提升您的数据分析技能
3. Google IT Support Professional Certificate - 支持您的组织进行 IT
数据科学是今天 IT 行业中最成熟的研究和实践领域之一,至今已经有近十年的光辉岁月。没错,它已经被证明在多个行业领域中是一项福音。从顶尖的方法论到市场分析,这项技术主要包括从数据中获取有价值的洞察。
然后对获取的数据进行处理,数据分析师进一步分析信息以找出模式,然后基于分析的信息预测用户行为。这就是数据可视化工具发挥作用的部分。
在本文中,我们将讨论一些数据科学家需要尝试的最佳数据可视化工具,以使过程顺利进行,同时获得有价值的结果。
什么是数据可视化?
数据可视化基本上是将分析后的数据以视觉形式呈现,即图表、图像。这些可视化使人们通过视觉更容易理解分析的趋势。
数据可视化在分析大型数据集时非常重要。当数据科学家分析复杂的数据集时,他们还需要理解收集到的洞察。数据可视化将通过图表和图形使他们更容易理解。
数据科学家需要使用的最佳数据可视化工具
现在,雇用一名 Android 开发者或 iOS 开发者在一定程度上取决于他们使用的工具和技术。对于全球的企业来说,使用这些工具可以帮助获得业务洞察并保持竞争优势。大多数顶尖的 iOS 和Android 移动应用开发公司正在使用这些工具来分析从移动应用中提取的数据集,以帮助业务增长和维持客户基础。
以下是 2020 年每个数据科学家必须使用的一些最佳数据可视化工具:
1. Tableau
这是一款交互式数据可视化软件。该工具用于行业中的有效数据分析和数据可视化。它具有拖放界面,这一功能使其能够轻松快速地执行任务。
该软件不强制用户编写代码。该软件兼容许多数据源。虽然工具稍贵,但它是像亚马逊这样的顶级公司最受欢迎的选择。QlikView 是 Tableau 的最大竞争对手,因其独特的拖放功能而广泛使用。
Tableau 的主要特点:
- Tableau 被称为最简单的数据可视化商业智能工具。
- 数据科学家无需在此工具中编写自定义代码。
- 该工具还支持实时协作和数据混合。
2. D3
D3.js 是一个 Javascript 库,用于在网页浏览器中生成交互式数据可视化。它是进行数据可视化的最有效平台。该工具最初于 2011 年 2 月 18 日发布,并在 8 月成为正式版本。
它支持 HTML、CSS 和 SVG。开发人员可以将数据呈现为创意图片和图形。它是一个非常灵活的平台,允许创建不同图表的变化。
D3 的主要特点:
- 该数据可视化工具提供强大的 SVG 操作功能。
- D3 集成了多种方法和工具用于数据处理。
- 数据科学家可以轻松地将数据映射到 SVG 属性。
3. QlikView
QlikView 是一款类似于 Tableau 的软件,但在商业用途前需要付费。它是一个将数据转化为有用信息的商业智能平台。
该软件有助于改进数据可视化过程。该工具受到经验丰富的数据科学家青睐,用于分析大规模数据。QlikView 在 100 个国家使用,并拥有一个非常强大的社区。
QlikView 的主要特点:
- 该工具与广泛的数据源(如 EC2、Impala、HP Vertica 等)集成。
- 在数据分析方面,它非常快速。
- 该数据可视化工具易于部署和配置。
4. Microsoft Power BI
这是一套业务分析工具,可以简化数据,立即准备和分析。由于它可以轻松与微软工具集成且完全免费使用和下载,它是最受欢迎的工具。
该工具适用于移动端和桌面端版本。因此,如果企业使用微软工具,这对他们来说将是一个巨大的好处。
Microsoft Power BI 的主要特点:
- 在多个数据中心生成交互式数据可视化。
- 它提供企业数据分析和自助服务于一个平台。
- 即使是非数据科学家也能轻松创建机器学习模型。
5. Datawrapper
该工具对非技术用户来说是一个福音,是最用户友好的可视化工具。要创建可视化,您需要具备编码等技术技能,但在这个应用程序中,您不需要具备任何技术技能。
该应用程序最适合希望在数据可视化领域起步的初学者。这款应用程序是数据科学家最友好的工具。该工具在媒体组织中广泛使用,因为这些组织需要通过统计和图表展示所有内容。该工具之所以如此受欢迎,是因为它具有简单易用的界面。
Datawrapper 的主要特点:
- 它为用户提供了嵌入代码,并且还提供了导出图表的能力
- 可以一次选择多种地图类型和图表
- 安装此工具无需高级编码知识
6. E Charts
接下来,我们列出的最佳数据可视化工具是 E Charts,这是一款由百度专家团队开发的企业级图表数据可视化工具。E Charts 可以被称为一个纯 JavaScript 图表库,它在各种平台上运行流畅,并且与大多数浏览器兼容。
E Charts 的主要特点:
- 具有多维数据分析功能
- 所有尺寸的设备均可用图表
- 提供了一个用于快速构建基于网页的可视化的框架。
- 这些工具完全免费使用
7. Plotly
Plotly 实现了更复杂和精细的可视化。它与以分析为导向的编程语言(如 Python、Matlab 和 R)集成。
其构建在 JavaScript 的开源 d3.Js 可视化库之上,但该商业包(具有潜在的非商业许可证)在用户友好性和支持层面上增加了更多功能,并内置了对包括 Salesforce 在内的 API 的支持。
Plotly 的主要特点:
- 提供内置权限和与 SAML 的集成
- 数据可视化工具的部署超快且简单
- 提供快速探索和原型制作的用户访问权限
8. Sisense
Sisense 提供了完整的分析解决方案。其可视化功能提供了一种简单的拖放选项,可以轻松支持复杂的图形、图表和互动可视化。
该工具允许将记录积累在易于访问的仓库中,并可以在仪表板上即时保存。
仪表板可以在各个组之间共享,确保即使是非技术人员也能找到解决他们问题的方案。
Sisense 的主要特点:
- 为用户提供各种工具以在可视环境中理解收集的数据
- 您可以一次直接连接到多个数据源
- 利用此工具,数据科学家可以将各种地图和图表结合在一起
9. FusionCharts
FusionCharts 基于 JavaScript 绘图。这款可视化工具已经稳固地确立了市场领先者的地位。
它可以生成 90 种独特的图表类型,并与各种系统和框架集成,提供显著的灵活性。
FusionCharts 可以从零开始创建任何类型的可视化,这也是它的独特功能之一。客户还可以选择从一系列“实时”示例模板中进行选择。
FusionCharts 的主要特点:
- 它提供了信息丰富的工具提示来帮助用户。
- 该工具确保用户可以理解不同的功能。
- 你可以相互比较不同数据点的值。
10. HighCharts
和 FusionCharts 一样,这也需要用于商业用途的许可证,尽管可以在试用、非商业或非公开用途下自由使用。
其网站声称,该工具被世界上 100 大机构中的 72 家使用,并且在需要快速、灵活的解决方案时,经常被选择,且在投入使用之前对专业统计可视化培训的需求最低。
HighCharts 的主要特点:
- 该数据可视化工具为用户提供了良好的兼容性。
- HighCharts 是最广泛使用的数据分析工具之一。
- 该工具方便地将互动图表添加到高级应用程序中。
最后的话
在这篇文章中,我们遇到了一些很棒的记录可视化工具列表。在选择工具之前,建议您花些时间探索各种潜在选项。
通过试用版进行体验,向供应商请求演示,并将该工具与同类型的竞争工具进行比较。将供应商提供的功能和定价计划与您的公司和任务需求进行匹配。
此外,还有数据货币化工具,用于从大数据商业模型中获取商业洞察。数据将在未来几年推动经济。因此,企业使用各种工具来分析大数据集,为用户提供个性化体验。
我们强烈建议每个人都应该学习 Tableau 软件,如果他们想成为真正的数据科学家,然后可以根据业务需求进一步调整。
传记:安德里亚·劳拉 是一位非常有创意的作家和活跃的贡献者,喜欢分享各种主题的有用新闻或更新,为读者带来精彩的信息。作为爱好者的安德里亚已经写出了许多有趣的话题和信息,吸引读者探索她的写作。她的内容出现在许多主流网站和博客上。
相关:
- Plotnine: Python 版 ggplot2 替代品
- 学习和实践数据科学的前 9 款移动应用
- 如何在 Python(和 R)中可视化数据
更多相关主题
- 每个数据科学家都应了解的三个 R 库(即使你使用 Python)
- 成功的数据科学家的 5 个特征
- 学习数据科学统计的顶级资源
- 停止学习数据科学以寻找目的并找到目的以…
- 是什么使 Python 成为初创公司的理想编程语言
- 一桩 90 亿美元的 AI 失败,分析
原文:
在过去的几个月里,我们查看了多个顶级 Github 仓库集合,例如:
- Github 上前 10 个机器学习项目
- Github 上的前 10 个深度学习项目
- Github 上前 10 个数据可视化项目
- Github 上前 10 个数据科学资源
- Github 上前 10 个 IPython Notebook 教程(适用于数据科学和机器学习)
1. Google 网络安全证书 - 快速进入网络安全职业的快车道。
2. Google 数据分析专业证书 - 提升你的数据分析能力
3. Google IT 支持专业证书 - 支持你的组织的 IT
本文将有所不同,因为我们将重点关注 Github 提供的顶级开放数据集仓库。本文的灵感来源于 Github 开放数据展示,虽然这个展示不错,但规模并不大。理想情况下,我想列出 Github 上的顶级开放数据集;然而,这有点复杂,因为搜索“开放数据”或其任何变体都会在一个专门用于分享开源项目及其数据的网站上遇到困难。
我决定选择这个展示中的那些没有明确注明过时的资源,并添加 3 个额外的、数据集数量最多的仓库,通过简单搜索找到的最高星级仓库,对它们进行排名,并在此展示。我们在 KDnuggets 发现数据集是许多读者最渴望的 数据科学难题的一部分,希望这批新的数据集(至少从我们的角度来看是新的)对一些读者有所帮助。
我们目前正在进行最新的年度 KDnuggets 分析软件调查,因此去年具体的百分比可能会有所变化,但我们知道,在过去 12 个月里,73%的数据科学家使用了开源工具。虽然这个数字反映的是软件,而不是数据,但很容易推测,开源数据在数据科学及相关数据导向学科中被广泛依赖,用于研究、实践和生产,原因众多。
所以这些就是截至撰写时星标数最高的开源数据集仓库。
1. Awesome Public Datasets
星标:14137,Forks:1573
由Xiaming (Sammy) Chen 提供,这似乎是 Github 上公认的开源数据集集合的领头羊。这个经过整理的列表按生物学、体育、博物馆和自然语言等主题进行组织,并且包括了数百个数据集。大多数是免费的,但列表顶部有免责声明表明有些数据集不是免费的。Xiaming 还指出了另外两个带有awesome标签的仓库列表,包含更多的数据集;然而,由于这些列表包含各种其他大数据/机器学习/数据科学的链接,尽管它们的星标数很高,但不会被包含在下面的列表中。可以自行探索这些列表……显而易见。
2. OpenAddresses
星标:529,Forks:510
这是OpenAddresses.io的官方仓库,一个免费的全球地址收集项目。为什么要收集地址?
街道地址数据是关键基础设施。街道名称、门牌号和邮政编码,与地理坐标结合时,是将数字世界与实体地点连接起来的枢纽。正因为它们的连接作用,免费的开放地址是公民和商业创新的火箭燃料。
3. Congress Legislators
星标:417,Forks:187
这个仓库的描述总结如下:
美国国会成员,1789 年至今,YAML 格式,以及委员会、总统和副总统。
4. Open Exoplanet Catalogue
星标:300,Forks:88
这是一个关于我们太阳系外所有已知发现的行星的目录。该数据库通常会在新发现后的 24 小时内更新,这意味着它几乎是最新的;考虑到该仓库上次更新是在 20 天前,这在这方面是令人鼓舞的。README 还指向了这个仓库,如果你对数据的简单 CSV 格式感兴趣,可以查看。
5. CitySDK
星数:274,Forks 数:92
CitySDK 被描述为一个“[u]ser-friendly [J]avascript SDK for US Census Bureau data”,还包括若干示例,详细说明了如何将数据与其他开放数据集集成。它自称是一个“工具箱”供公民黑客使用,具有经纬度和邮政编码转换功能,以及模块化架构,使得与其他数据服务的集成变得简单。使用 API 创建你自己的自定义数据集。
6. openFDA
星数:236,Forks 数:53
openFDA 是 FDA 的一个项目,旨在通过 API、原始数据、使用示例和文档向研究人员和开发者提供 FDA 公共数据集。数据不适用于临床用途,任何数据结果的具体有效性都不能保证。尽管有这些免责声明,但毫无疑问,数据对于对该领域感兴趣的人来说是很好的实践。
7. 食品检查评估
星数:100,Forks 数:44
如果“芝加哥食品检查评估”这个名字还没有让你明白,那么你可以期待这个仓库的内容:
这个仓库包含生成对芝加哥食品机构关键违规行为预测的代码。它还包含对这些预测效果的评估结果。
8. GSA 数据
星数:92,Forks 数:40
这包含由总务管理局发布的各种数据,该机构负责管理联邦机构的基本运作(办公室、供应等)。具体来说,它包含了超过 5000 个.gov域名及其数据。
9. 美国国会选区
星数:82,Forks 数:21
来自仓库的 README:
历史及当前的美国国会选区作为 GeoJSON,版本化存储在 Git 中
10. CERN 开放数据门户
星数:79,Forks 数:34
这是CERN 开放数据门户的源代码,描述为“一个访问通过 CERN 研究产生的数据的不断增长的入口”。
相关:
- GitHub 上的精彩公共数据集
- 调查推荐系统的 9 个必备数据集
- 5 个你不能再忽视的机器学习项目
相关主题更多信息
- GitHub Copilot 开源替代方案
- 开放助手:探索开放和协作的可能性……
- 数据科学项目的 GitHub 替代方案 Top 5
- 如何从巨大的数据集中正确选择样本以进行机器学习
- 为数据集选择合适的聚类算法
- 如何为机器学习创建数据集
原文:
本文由 10 个 Github 代码库组成,这些代码库部分或全部由 IPython(Jupyter)笔记本构成,重点传授数据科学和机器学习概念。它们涵盖了从基础 Python 材料到 TensorFlow 和 Theano 的深度学习,并在中间有很多内容。
哦,它们都是 Python 相关的。Jupyter 现在支持多种语言,但这个列表是老派的,完全是 IPython Notebook 风格的材料。
1. Google 网络安全证书 - 快速进入网络安全职业的快车道。
2. Google 数据分析专业证书 - 提升你的数据分析技能
3. Google IT 支持专业证书 - 支持你的组织的 IT
以下是 10 个有用的 IPython Notebook Github 代码库,按无特定顺序排列:
示例数据科学笔记本
用于数据分析和机器学习项目的教学材料、代码和数据的代码库
这个热身笔记本来自博士后研究员Randall Olson,他使用常见的 Python 生态系统数据分析/机器学习/数据科学堆栈来处理Iris 数据集。虽然它只是一个笔记本,但这是一个很好的起点,因为它激发了你对所有分析工具的兴趣,包括可视化。它还帮助你专注于用数据讲故事。
Python 机器学习书籍
"Python 机器学习"书籍的代码库和信息资源
这是由Sebastian Raschka编写的精彩书籍《用 Python 进行机器学习》的配套代码。我不常推荐许多材料,但我强烈推荐这本书。这个代码库也很棒,是一个极好的资源。然而,建议你还是买一本自己的书,以全面理解代码库的内容,并充分融入 Python 生态系统中的机器学习。
学习数据科学
自主学习数据科学的开放内容。
这是一个笔记本和数据集的集合,主要由尼廷·博尔万卡整理,涵盖了 4 个算法主题:线性回归、逻辑回归、随机森林和 k 均值聚类。这些看似简单的教程,尽管对于新手来说可能最有用。
Scikit-learn 教程
我关于 scikit-learn 教程的资料。
这个由杰克·范德普拉斯创建的仓库,旨在通过几种不同的机器学习算法来教授Scikit-learn。其中涉及到的有趣话题包括验证、高斯混合模型的密度估计和主成分分析(PCA)的降维;你还会学到 k 均值、回归和分类等标准算法,放心。该资料最适合机器学习的初学者,或者有一定理解但希望掌握 Scikit-learn 的人。
机器学习
机器学习算法的 Python 代码示例和文档。
亚伦·马西诺分享了一系列非常详细、非常技术性的机器学习 IPython Notebook 学习资源。这个简单标题的仓库中的笔记本受到了安德鲁·恩的《机器学习》课程(斯坦福大学,Coursera)、汤姆·米切尔的课程(卡内基梅隆大学)以及克里斯托弗·M·比肖普的《模式识别与机器学习》的启发。
研究计算聚会
与 2013 年秋季聚会相关的幻灯片、代码及其他信息。
来自 UC Boulder 研究计算组的这个较旧的笔记本集合(来自 2013 年秋季)涵盖了广泛的材料,显然专注于使用 Linux 命令行进行数据管理。涵盖了许多常用库、shell 编程和 Linux 命令行基础,至少实现了一篇当时的论文。它似乎还涉及了一些 Kaggle 竞赛,所以你会在这个集合中获得一些多样的内容。
Theano 教程
一组关于神经网络的教程,使用 Theano。
博士生科林·拉费尔编写了这套使用 Theano 的深度学习教程。它包含两个笔记本:一个通用的 Theano 神经网络教程和一个关于反向传播的概述。这是一个很好的入门资源,用于开始学习深度学习和 Theano。
IPython Theano 教程
一组以 ipynb 格式呈现的教程,展示了如何在 Theano 中完成各种任务。
这是 Colin Raffel 的入门 Theano 笔记本的一个很好的后续。詹姆斯·伯格斯特拉通过这个项目带我们深入了解神经网络架构,涵盖了更多的 Theano 练习。它包括一些入门级 Python 材料,以及更高级的主题如自编码器。它还链接到一些相关材料。
IPython 笔记本
一系列涵盖各种主题的 IPython 笔记本
这是由约翰·维滕纳尔整理的一个丰富的混合项目,其中包括 Ng 的 Coursera 课程练习的 Python 实现、Udacity 的 TensorFlow 导向深度学习课程练习和 Spark edX 课程练习。机器学习、深度学习和大数据处理框架:这就是“数据科学”的本质了,各位。
ISLR Python
《统计学习导论》(James, Witten, Hastie, Tibshirani, 2013):Python 代码
这是一个由乔尔迪·沃门霍文主办的伟大项目,旨在将 James、Witten、Hastie 和 Tibshirani(2013)所著《应用于 R 的统计学习入门》一书中的概念实现到 Python 中(正如你可能已经猜到的那样,这本书在 R 中有实际练习)。这本书以 PDF 格式免费提供,这使得这个仓库对那些希望学习的人来说更具吸引力。
相关内容:
- Scikit-learn 和 Python 栈教程:介绍,分类器实现
- 掌握 Python 机器学习的 7 个步骤
- 理解深度学习的 7 个步骤
更多相关内容
- 水银概述:创建数据科学投资组合和……
- 数据科学家的 10 个 Jupyter Notebook 技巧和窍门
- Jupyter Notebook 上的 5 个免费数据科学项目模板
- 金融中的 Python:在 Jupyter Notebook 中实时数据流
- 如何在 Jupyter Notebook 上设置 Julia
- Jupyter Notebook 魔法方法备忘单
原文:
图片来源:编辑
在不断发展的技术领域,数据科学家和分析师的角色已成为每个组织寻找数据驱动的决策见解的关键。Kaggle 作为一个将数据科学家和机器学习工程师爱好者聚集在一起的平台,成为提高数据科学和机器学习技能的核心平台。随着我们迈入 2024 年,对熟练的数据科学家的需求持续显著上升,使得在这一动态领域加速你的职业发展成为一个绝佳时机。
1. Google 网络安全证书 - 快速进入网络安全职业道路。
2. Google 数据分析专业证书 - 提升你的数据分析技能
3. Google IT 支持专业证书 - 支持你组织的 IT
因此,在本文中,你将了解从简单到高级的 2024 年十大 Kaggle 机器学习项目,这些项目可以帮助你获得解决数据科学问题的实际经验。通过实施这些项目,你将获得涵盖数据科学各个方面的全面学习体验,从数据预处理和探索性数据分析到机器学习模型部署。
一起探索数据科学的激动人心的世界,将你的技能提升到 2024 年的新高度。
想法: 在这个项目中,你需要创建一个模型来使用 MNIST 数据集分类手写数字。这个项目是图像分类的基础介绍,通常被认为是深度学习新手的起点。
数据集: MNIST 数据集包含手写数字(0-9)的灰度图像。
图片来自 ResearchGate
技术: 使用如 TensorFlow 或 PyTorch 的框架进行卷积神经网络(CNN)应用。
实施流程: 首先,你必须对图像数据进行预处理,设计 CNN 架构,训练模型,并使用准确率和混淆矩阵等指标评估其性能。
Kaggle 项目链接:
想法: 在这个项目中,你需要创建一个机器学习模型,根据客户过去的购买行为对客户进行分段,以便当相同的客户再次出现时,系统可以推荐过去的商品来增加销售。通过利用客户分段,组织可以针对所有客户进行有针对性的营销和个性化服务。
数据集: 由于这是一个无监督学习问题,因此不需要标签,你可以使用包含客户交易数据的数据集、在线零售数据集或任何与电子商务相关的数据集,如来自 Amazon、Flipkart 等。
技术: 使用来自无监督机器学习算法类别的不同聚类算法,如 K-means 或层次聚类(可以是分裂型或聚合型),来根据客户行为进行分段。
实施流程: 首先,你需要处理交易数据,包括数据可视化,然后应用不同的聚类算法,基于模型形成的其他聚类可视化客户分段,分析每个分段的特征以获取营销洞察,然后使用不同的指标进行评估,如轮廓系数等。
Kaggle 项目链接:
想法: 在这个项目中,你需要开发一个机器学习模型,帮助识别从不同社交媒体应用中收集的真实和虚假新闻文章之间的区别,使用自然语言处理技术。这个项目涉及文本预处理、特征提取和分类。
数据集: 使用包含标记新闻文章的数据集,例如 Kaggle 上的“假新闻数据集”。
图片来源于 Kaggle
技术: 自然语言处理库如 NLTK 或 spaCy 以及机器学习算法如朴素贝叶斯或深度学习模型。
实现流程: 你将对文本数据进行分词和清理,提取相关特征,训练分类模型,并使用精度、召回率和 F1 分数等指标评估其性能。
Kaggle 项目链接:
想法: 在这个项目中,你必须建立一个推荐系统,该系统根据用户过去的观看记录自动向他们推荐电影或网络剧。Netflix 和 Amazon Prime 等推荐系统在流媒体中广泛使用,以提升用户体验。
数据集: 常用数据集包括 MovieLens 或 IMDb,它们包含用户评分和电影信息。
技术: 协同过滤算法、矩阵分解和推荐系统框架如 Surprise 或 LightFM。
实现 流程: 你将探索用户与物品的互动,建立推荐算法,使用均方绝对误差等指标评估其性能,并对模型进行微调以获得更好的预测结果。
Kaggle 项目链接:
想法: 股票行为有些随机,但通过使用机器学习,你可以通过捕捉数据中的方差来预测近似的股票价格。该项目涉及时间序列分析和预测,以建模多个行业(如银行、汽车等)的不同股票价格的动态。
图片来自Devpost
数据集: 你需要股票的历史价格,包括开盘价、最高价、最低价、收盘价、成交量等,以不同时间框架的形式,包括每日价格或逐分钟价格及交易量。
技术: 你可以使用不同的技术来分析时间序列模型,如自相关函数和预测模型,包括自回归综合滑动平均(ARIMA)、长短期记忆(LSTM)网络等。
实施流程: 首先,你需要处理时间序列数据,包括其分解,如周期性、季节性、随机性等,然后选择合适的预测模型进行训练,最后使用均方误差、平均绝对误差或均方根误差等指标评估模型的性能。
Kaggle 项目链接:
想法: 在这个项目中,你需要开发一个能够识别口语中不同情感类型的模型,例如愤怒、快乐、疯狂等,这涉及到处理从不同人那里采集的音频数据,并应用机器学习技术进行情感分类。
图片来自Kaggle
数据集: 使用带标签的音频片段数据集,例如包含情感语音记录的“RAVDESS”数据集。
技术: 用于特征提取的信号处理技术和用于音频分析的深度学习模型。
实施 流程: 你需要从音频数据中提取特征,设计用于情感识别的神经网络,训练模型,并使用准确率和混淆矩阵等指标评估其性能。
Kaggle 项目链接:
想法😗* 在这个项目中,你需要开发一个机器学习模型来检测欺诈性信用卡交易,这对金融机构来说至关重要,以增强安全性,保护用户免受欺诈活动,并使各种交易环境变得非常便捷。
图片来源于 ResearchGate
数据集😗* 由于这是一个监督学习问题,你需要收集包含标记的欺诈和非欺诈交易的信用卡交易数据集。
技术😗* 异常检测算法、分类模型如随机森林或支持向量机,以及用于实现的机器学习框架。
实施流程😗* 首先,你需要对交易数据进行预处理,训练一个欺诈检测模型,调整参数以优化性能,并使用分类评估指标如精确度、召回率和 ROC-AUC 来评估模型。
Kaggle 项目链接:
想法😗* 在这个项目中,你必须实现一个深度学习模型,该模型能够根据用户在测试环境中提供的输入图像识别并分类狗的品种。通过探索这个经典的图像分类任务,你将学习深度学习中的一种著名架构,即卷积神经网络(CNN),以及它们在实际问题中的应用。
数据集😗* 由于这是一个监督学习问题,数据集将包含各种狗品种的标记图像。实现这个任务的一个热门选择是"斯坦福狗数据集",它在 Kaggle 上免费提供。
图片来源于 Medium
技术😗* 根据你的专业知识,可以使用 Python 库和框架如 TensorFlow 或 PyTorch 来实现这个图像分类任务。
实施 流程😗* 首先,你需要对图像进行预处理,设计一个包含不同层的卷积神经网络(CNN)架构,训练模型,并使用评估指标如准确率和混淆矩阵来评估模型的性能。
Kaggle 项目链接:
想法: 在这个项目中,你将学习使用 Gradio 部署机器学习模型的实际操作。这种用户友好的库可以几乎不需要代码即可实现模型部署。这个项目强调通过一个简单的界面使机器学习模型在实时生产环境中可用。
数据集: 基于问题描述,从图像分类到自然语言处理任务,你可以选择相应的数据集,并根据不同因素(如预测延迟和准确率等)选择算法,然后进行部署。
技术: 使用 Gradio 进行部署,同时使用模型开发所需的库(例如,TensorFlow,PyTorch)。
实现流程: 首先,训练一个模型,然后保存权重,这些是帮助进行预测的可学习参数,最后将这些权重与 Gradio 集成,以创建一个简单的用户界面,并部署该模型以进行交互式预测。
Kaggle 项目链接:
想法: 在这个项目中,你必须构建一个系统,以从输入图像中识别地标,就像在今天的世界中,你可以使用 Google Lens 来完成相同的任务。这种系统对包括图像检索、增强现实和地理定位服务等不同应用都非常有益。这个项目的主要目标是实现良好的准确率,以便从多样化的图像集中识别地标。
数据集: 数据集包含全球各地的地标图像,以便在大数据集上进行训练,使其在实际环境中进行测试时表现更佳。
技术: 你可以从卷积神经网络架构开始,或使用一些预训练模型,如 Resnet、InceptionNet 或 EfficientNet,以提高训练模型的准确性。
实现流程: 首先,你需要预处理数据,包括从图像中提取特征(以像素形式),然后进行数据增强,例如调整大小和图像归一化。之后,你需要将数据分为训练集和测试集,并根据数据集对模型进行微调。最后,在多样化的图像上测试该模型,并使用评估指标评估其性能。
Kaggle 项目链接:
总之,探索前 10 个 Kaggle 机器学习项目非常棒。从揭开犬种的神秘面纱和使用 Gradio 部署机器学习模型,到打击假新闻和预测股市价格,每个项目都在数据科学这个多样化的领域中提供了独特的特点。这些项目帮助获得了在解决现实世界挑战中的宝贵见解。
记住,成为 2024 年的数据科学家不仅仅是掌握算法或框架——更是要解决复杂问题、理解多样化的数据集,并不断适应技术的演变。继续探索,保持好奇,让这些项目中的见解指引你在数据科学领域做出有影响力的贡献。祝你在动态而不断扩展的数据科学领域的持续探索之旅一切顺利!
Aryan Garg 是一名电气工程专业的本科生,目前在大四。他对网页开发和机器学习领域感兴趣,并且已经在这方面做了很多探索,渴望在这些方向上继续努力。
更多相关话题
- 2024 年找到工作的 5 个数据分析师项目
- 在 Kaggle 竞赛中获胜的 4 个技巧以及你为什么应该开始
- 7 个免费 Kaggle 微课程,适合数据科学初学者
- 最全面的 Kaggle 解决方案和创意列表
- Kaggle 竞赛对现实世界问题有用吗?
- 深入了解 Kaggle 的 AI 报告 2023 – 了解最新热点
原文:
评论
作者 Mojeed Abisiga,数据科学家与机器学习工程师。
1. 谷歌网络安全证书 - 快速进入网络安全职业轨道。
2. 谷歌数据分析专业证书 - 提升您的数据分析水平
3. 谷歌 IT 支持专业证书 - 支持您的组织 IT 需求
数据科学无疑是 21 世纪“最性感”的职业路径,由具备强烈智力好奇心和技术专长的人组成,从大量数据中挖掘有价值的见解。这帮助公司通过提高生产力、解锁更好的决策洞察和利润增长等方式增值。
数据科学家的旅程充满了曲折和变化,这些都会塑造你。然而,真正塑造你的不是这些曲折和变化,而是你如何应对它们。许多挑战可以通过在开始旅程之前或在成功的数据科学家之路上操作前,了解合适的工具包来预防或最小化。
本文提供了你所需的关键信息,以便你可以高效利用时间,并智能地规划数据科学职业道路。因此,提供了一个帮助你找到数据科学迷宫出路的指南。
顶级 ✔️ 10 数据科学网站
- Analytics Vidhya
- Kaggle
- Coursera
- Udacity
- Datacamp
- EdX
- Udemy
- KDNuggets
- R-bloggers
- Khan Academy
顶级 ✔️ 10 数据科学技能
- 概率与统计
- 线性代数
- Python
- R
- SQL
- Tableau/Power BI
- AWS/Azure
- Spark
- Excel
- DevOps
顶级 ✔️ 10 数据科学算法
- 线性回归
- 逻辑回归
- K 均值聚类
- PCA
- 支持向量机
- 决策树
- 随机森林
- 梯度提升机器
- 朴素贝叶斯分类器
- 人工神经网络
顶级 ✔️ 10 数据科学角色
- 数据科学家
- 决策者
- 分析师
- ETL 工程师
- 机器学习工程师
- 数据工程师
- 分析经理
- Tableau 开发者
- 研究员
- BI 分析师
顶级 ✔️ 10 LinkedIn 数据科学专家
- Bernard Marr
- DJ Patil
- Francesca Lazzeri, PhD
- Carla Gentry
- Dennis R. Mortensen
- Andrew Ng
- Gregory Piatetsky-Shapiro
- Tom Davenport
- Randy Lao️
- NABIH IBRAHIM BAWAZIR
顶级 ✔️ 10 个 Python 库用于数据科学
- Pandas
- Numpy
- Scikit-Learn
- Keras
- PyTorch
- LightGBM
- Matplotlib
- SciPy
- Theano
- TensorFlow
顶级 ✔️ 10 个数据科学行业
- 技术
- 金融
- 零售
- 电信
- 医疗与制药
- 制造业
- 汽车
- 网络安全
- 能源
- 工具
顶级 ✔️ 10 个 LinkedIn 上值得关注的数据科学相关标签
- #创新
- #技术
- #大数据
- #商业智能
- #分析
- #数据挖掘
- #数据
- #人工智能
- #机器学习
- #数据科学
顶级 ✔️ 10 个 LinkedIn 数据科学小组
- 大数据与分析
- 高级分析与数据科学
- 大数据、分析、商业智能与可视化专家社区
- 数据科学、大数据、机器学习、人工智能专业人士 | DataScience.US
- 数据挖掘、统计学、大数据、数据可视化和数据科学
- 研究方法与数据科学
- 大数据、分析、物联网(IoT)与区块链
- 大数据|人工智能|机器学习|预测分析|数据挖掘|数据科学
- IBM 大数据与分析
- 高级分析、预测建模与统计分析专业人士小组
顶级 ✔️ 10 个免费数据集来源用于数据科学项目
- Kaggle
- UCI 机器学习库
- Google 自定义数据集搜索
- 政府
- Quandl
- VisualData
- GitHub
- 世界
- Google Cloud 公共数据集
祝你在成为顶尖数据科学专家的旅程中好运。没有什么是不可能的,相信自己!
参考资料
简介: Mojeed Abisiga 是一名数据科学家和机器学习工程师,拥有丰富的经验,成功将基于机器学习的解决方案应用于现实世界问题,并利用他在工具和技术方面的专长,从大量数据中发现模式和挖掘洞察,帮助企业推动增长、做出有价值的决策,并在数据旅程中获得竞争优势。他目前在 KPMG 尼日利亚的数据与分析部门担任数据科学家和 RPA 专家,构建了多个跨越不同领域和行业(如电信、银行、人力资源和快速消费品)的企业级智能自动化、商业智能和机器学习模型。
相关:
- 2020 年 5 项必须掌握的数据科学技能
- 数据科学家最受欢迎的技术技能
- 哪些数据科学技能是核心技能,哪些是热点/新兴技能?
更多相关话题
- 成为优秀数据科学家所需的 5 项关键技能
- 每位初学者数据科学家应掌握的 6 种预测模型
- 2021 年最佳 ETL 工具
- 学习数据科学统计的顶级资源
- 停止学习数据科学以寻找目标,并寻找目标去…
- 过滤 Python 列表的 5 种方法
原文:
I. 介绍
对机器学习算法的研究在《哈佛商业评论》文章称数据科学家为“21 世纪最性感的职业”之后,获得了极大的关注。因此,为了帮助那些刚入门机器学习领域的人,我们决定重新编排我们极受欢迎的金牌博客机器学习工程师需要了解的 10 种算法——尽管这篇文章面向的是初学者。
机器学习算法是能够从数据中学习并通过经验改进的算法,无需人工干预。学习任务可能包括学习将输入映射到输出的函数,学习无标记数据中的隐藏结构;或者是‘基于实例的学习’,在这种学习中,通过将新的实例(行)与存储在内存中的训练数据实例进行比较,为新的实例生成类别标签。‘基于实例的学习’不会从特定实例中创建抽象。
II. 机器学习算法的类型
机器学习算法有 3 种类型:
1. 监督学习:
监督学习可以解释为:使用标记的训练数据来学习从输入变量(X)到输出变量(Y)的映射函数。
Y = f (X)
监督学习问题可以分为两类:
a. 分类:预测给定样本的结果,其中输出变量以类别的形式出现。例子包括性别(男性和女性)、健康状况(生病和健康)。
b. 回归:预测给定样本的结果,其中输出变量以实际值的形式出现。例子包括表示降雨量、人的身高的实际值标签。
我们在本博客中讨论的前 5 种算法——线性回归、逻辑回归、CART、朴素贝叶斯、KNN 是监督学习的例子。
集成学习是一种监督学习。它指的是将多个不同的弱机器学习模型的预测结果结合起来,以对新的样本进行预测。我们讨论的算法 9-10——使用随机森林的袋装方法、使用 XGBoost 的提升方法就是集成技术的例子。
2. 无监督学习:
无监督学习问题只有输入变量(X),但没有相应的输出变量。它使用未标记的训练数据来建模数据的潜在结构。
无监督学习问题可以分为两类:
a. 关联:发现集合中项的共现概率。这在市场篮子分析中被广泛使用。例如:如果一个顾客购买了面包,他有 80%的可能性也会购买鸡蛋。
b. 聚类:将样本分组,使得同一簇内的对象彼此之间的相似度高于与其他簇中的对象之间的相似度。
c. 降维:顾名思义,降维意味着减少数据集中的变量数量,同时确保重要信息仍然被传达。降维可以通过特征提取方法和特征选择方法来完成。特征选择从原始变量中选择一个子集。特征提取则将数据从高维空间转换到低维空间。例如:PCA 算法是一种特征提取方法。
我们在这里讨论的算法 6-8 - Apriori、K-means、PCA 是无监督学习的例子。
3. 强化学习:
强化学习是一种机器学习算法,它允许智能体根据当前状态决定最佳的下一步行动,通过学习能够最大化奖励的行为。
强化算法通常通过试错法学习最佳行动。它们通常用于机器人技术——机器人可以通过在碰到障碍物后获得负反馈来学习避免碰撞;以及视频游戏——在游戏中通过试错法可以揭示能够提升玩家奖励的特定动作。智能体可以使用这些奖励来了解游戏的最佳状态并选择下一步行动。
III. 量化机器学习算法的受欢迎程度
调查论文如这些已经量化了 10 种最受欢迎的数据挖掘算法。然而,这些列表是主观的,正如引用的论文所示,参与者的样本量非常狭窄,主要是数据挖掘的高级从业者。受访者包括 ACM KDD 创新奖和 IEEE ICDM 研究贡献奖的获奖者;KDD-06、ICDM’06 和 SDM’06 的程序委员会成员;以及 ICDM’06 的 145 名与会者。
本博客中的前 10 种算法旨在为初学者提供帮助,主要是我在孟买大学计算机工程本科阶段从‘数据仓储与挖掘’(DWM)课程中学到的。这门课程是了解机器学习算法领域的绝佳入门。最后两种算法(集成方法)是根据它们在Kaggle 竞赛中获胜的普遍性特别列出的。希望你喜欢这篇文章!
IV. 监督学习算法
1. 线性回归
在机器学习中,我们有一组输入变量(x),用于确定输出变量(y)。输入变量和输出变量之间存在一种关系。机器学习的目标是量化这种关系。
图 1:线性回归表示为形式为 y = a + bx 的直线。来源 在线性回归中,输入变量(x)和输出变量(y)之间的关系被表示为形式为 y = a + bx 的方程。因此,线性回归的目标是找出系数 a 和 b 的值。这里,a 是截距,b 是直线的斜率。
图 1 显示了数据集中 x 和 y 值的散点图。目标是拟合一条与大多数点最接近的直线。这将减少数据点的 y 值与直线之间的距离(“误差”)。
2. 逻辑回归
线性回归预测的是连续值(如降雨量,以 cm 为单位),而逻辑回归预测的是离散值(如学生是否及格),这是在应用转换函数后得到的。
逻辑回归最适合于二分类问题(数据集中 y = 0 或 1,其中 1 表示默认类别。例如:在预测事件是否发生时,事件发生被分类为 1。在预测一个人是否会生病时,生病的情况被标记为 1)。它以其使用的转换函数命名,即逻辑函数 h(x)= 1/ (1 + e^x),这是一个 S 形曲线。
在逻辑回归中,输出是默认类别的概率(与线性回归直接产生输出不同)。由于它是概率,输出范围在 0-1 之间。输出(y 值)是通过对 x 值进行对数转换,使用逻辑函数 h(x)= 1/ (1 + e^ -x) 得到的。然后应用阈值将这个概率强制转换为二分类。
图 2:逻辑回归用于判断肿瘤是恶性还是良性。如果概率 h(x)>= 0.5,则分类为恶性。来源 在图 2 中,为了判断肿瘤是否恶性,默认变量为 y=1(肿瘤=恶性);x 变量可以是肿瘤的测量值,比如肿瘤的大小。如图所示,逻辑函数将数据集中各种实例的 x 值转换到 0 到 1 的范围内。如果概率超过 0.5 的阈值(由水平线表示),则将肿瘤分类为恶性。
逻辑回归方程 P(x) = e ^ (b0 +b1x) / (1 + e^(b0 + b1x)) 可以转换为 ln(p(x) / 1-p(x)) = b0 + b1x*。
逻辑回归的目标是利用训练数据来寻找系数 b0 和 b1 的值,以最小化预测结果与实际结果之间的误差。这些系数使用最大似然估计技术来估算。
3. CART
分类与回归树(CART)是一种决策树的实现,还有其他如 ID3、C4.5。
非终端节点是根节点和内部节点。终端节点是叶子节点。每个非终端节点代表一个输入变量(x)及其在该变量上的分裂点;叶子节点代表输出变量(y)。模型的使用方法是:沿着树的分裂路径走到一个叶子节点,并输出该叶子节点上的值。
图 3 中的决策树根据一个人的年龄和婚姻状况来分类其是否会购买跑车或小型货车。如果该人超过 30 岁且未婚,我们按以下方式走树:‘超过 30 岁?’ -> 是 -> ‘已婚?’ -> 否。因此,模型输出的是跑车。
图 3:决策树的部分。 来源
4. 朴素贝叶斯
为了计算一个事件发生的概率,给定另一个事件已经发生,我们使用贝叶斯定理。为了计算某个变量值下的结果概率,即计算假设 h 为真的概率,给定我们的先验知识 d,我们使用贝叶斯定理如下:
P(h|d) = (P(d|h) * P(h)) / P(d)
where
- P(h|d) = 后验概率。给定数据 d,假设 h 为真的概率,其中 P(h|d) = P(d1|h) * P(d2|h) * … * P(dn|h) * P(d)
- P(d|h) = 似然性。给定假设 h 为真的情况下,数据 d 的概率。
- P(h) = 类别先验概率。假设 h 为真的概率(与数据无关)
- P(d) = 预测先验概率。数据的概率(与假设无关)
这个算法被称为‘naive’(朴素的),因为它假设所有变量相互独立,这在实际例子中是一个朴素的假设。
图 4:使用朴素贝叶斯预测‘play’的状态,变量为‘weather’。以图 4 为例,如果天气 = ‘sunny’,结果是什么?
为了确定结果是 play = ‘yes’ 还是 ‘no’,给定变量 weather = ‘sunny’,计算 P(yes|sunny) 和 P(no|sunny),并选择概率较高的结果。
-> P(yes|sunny) = (P(sunny|yes) * P(yes)) / P(sunny)
= (3/9 * 9/14) / (5/14)
= 0.60
-> P(no|sunny) = (P(sunny|no) * P(no)) / P(sunny)
= (2/5 * 5/14) / (5/14)
= 0.40
因此,如果天气 = ‘sunny’,结果是 play = ‘yes’。
5. KNN
K 最近邻算法使用整个数据集作为训练集,而不是将数据集拆分为训练集和测试集。
当需要为一个新的数据实例生成结果时,KNN 算法会遍历整个数据集,以找到与新实例最接近的 k 个实例,或者与新记录最相似的 k 个实例,然后输出结果的均值(对于回归问题)或众数(最频繁的类别,对于分类问题)。k 的值由用户指定。
实例之间的相似性通过欧氏距离和汉明距离等度量来计算。
1. Google 网络安全证书 - 快速进入网络安全职业轨道。
2. Google 数据分析专业证书 - 提升你的数据分析能力
3. Google IT 支持专业证书 - 支持你的组织 IT 部门
了解更多相关话题
- 建立一个扎实的数据团队
- 使用管道编写干净的 Python 代码
- 数据科学统计学习的最佳资源
- 停止学习数据科学去寻找目的,并找到目的去…
- 每位初学者数据科学家应掌握的 6 个预测模型
- 一个 90 亿美元的 AI 失败,深入分析
原文:
作者提供的图片
前十名榜单基于流行度、可用性和独特性。在这篇博客中,我们将学习 Hugging Face Spaces 上最佳的机器学习演示。 Spaces 允许你使用 Git 上传你的 Streamlit 应用、Gradio 演示和 HTML 应用。
1. Google 网络安全证书 - 快速进入网络安全职业的快车道。
2. Google 数据分析专业证书 - 提升你的数据分析能力
3. Google IT 支持专业证书 - 支持你的组织进行 IT 管理
这个 Pokémon 不存在 使用 ruDALL-E 模型生成插图,随机选择名称和属性。要收集稀有和独特的宝可梦,你需要输入你的名字并点击提交按钮。这个网页应用简单但非常受欢迎。
MAGMA(基于适配器的生成模型多模态增强)是一个视觉语言模型,用于描述或回答有关图像的问题。了解更多关于 MAGMA 的信息,请访问 arxiv.org。要使用 ML 演示,你需要提供一张图片并提出一个具体的问题。例如,“描述这张图片”。了解更多用例请点击 这里。
AnimeGANv2 是 Hugging Face Spaces 上最受欢迎的机器学习应用,拥有 515 个 ?。它还以难以置信的艺术风格快速生成结果。了解更多关于生成模型的内部工作,请点击 这里。要使用这个演示,你需要上传一张肖像,然后选择风格生成动漫风格的艺术作品。
当我在 Twitter 上看到 图像恢复与上色 演示时,我以为他们一定使用了一个完美的例子来展示输出。然而,当我在一张全新的照片上亲自尝试时,我被应用的简单性和强大功能所震撼。Gradio 演示要求你上传黑白和损坏的图像,它将返回一张上色的高质量照片。你还可以通过多种选项进行尝试,以获得更好的结果。
DiT 文档布局分析 演示使用了一个自监督预训练的文档图像变换器模型来预测 PDF 文档上的标签。例如,检测表格、文本、图像等。该演示需要一个 PDF 文档,其余的由强大的模型来突出显示文档的各个部分。
Chef Transformer 演示使用了 t5-recipe-generation 模型,根据厨师、食物风格和配料生成食谱。如果你饿了而食物选择有限,可以输入配料并获得美味食物的食谱。这是我最喜欢的应用程序,因为它在视觉上很吸引人且具有独特的使用场景。
ArcaneGAN 视频使用在 Arcane 动漫数据集上训练的风格化 U-Net,图像通过混合的 StyleGAN2 生成。了解更多关于模型实现的内容,请点击 这里。在这个 Gradio 演示中,你只需上传一个示例视频,让模型施展魔法。输出视频将呈现 Arcane 动漫风格。
瑞克与莫蒂聊天机器人使用了一个经过微调的 DialoGPT 版本,该模型在瑞克与莫蒂的对话数据集上进行了训练。聊天机器人功能是新的,它为你提供了增强的聊天体验。只需输入搞笑问题,继续对话,直到你觉得无聊为止。
OCR For Captcha 模型是在结合了 CNN 和 RNN 的基础上训练的,并具有一个用于实现 CTC 损失的终端层。要深入了解模型训练,查看 Keras 的 代码示例。该应用要求你上传一张验证码图片,并返回高度准确的字母数字文本。
Fastspeech2 TTS 使用了实时的最先进的语音合成架构,如 Tacotron-2、Melgan、Multiband-Melgan、FastSpeech 和基于 TensorFlow 的 FastSpeech2。如果你想体验自然的文本转语音效果,可以试着输入文本并感到惊艳。这个应用还允许你测试各种模型架构。我非常喜欢演讲者的自然声音。
当我被邀请参加 Spaces 的 beta 测试时,我曾持怀疑态度,但一个月内,Spaces 已超越了 Streamlit cloud、Heroku 和其他云部署平台。在易用性、集成性和更快推理方面,我爱上了 HuggingFace Spaces 以及社区成员提出的独特 Web 应用创意。在这篇博客中,我们覆盖了 HF Spaces 上的前十名机器学习演示,并了解了这些应用的工作原理。
请在评论区告诉我你心目中的前十名排名。
Abid Ali Awan (@1abidaliawan) 是一位认证的数据科学专业人士,热衷于构建机器学习模型。目前,他专注于内容创作,并撰写有关机器学习和数据科学技术的技术博客。Abid 拥有技术管理硕士学位和电信工程学士学位。他的愿景是使用图神经网络为正在与心理疾病斗争的学生构建 AI 产品。
更多相关主题
- 前 7 个基于扩散的应用及其演示
- 一个为客户数据建模开发 Hugging Face 的社区
- 在 5 分钟内使用 Hugging Face 和 Gradio 构建 AI 聊天机器人
- 如何使用 Hugging Face AutoTrain 微调 LLMs
- 如何用 Hugging Face AutoTrain 微调 Mistral AI 7B LLM
- Mistral 7B-V0.2:用 Hugging Face 微调 Mistral 的新开源 LLM
原文:
5. Pattern
用于 Python 的网络挖掘模块,提供抓取、自然语言处理、机器学习、网络分析和可视化的工具。
★ 3799, 598
Pattern是一个基于 Python 的网络挖掘工具包,源自安特卫普大学的计算语言学与心理语言学(CLiPS)研究中心。在此背景下,它提供了用于抓取、机器学习、自然语言处理、网络分析和可视化的工具。Pattern 还可以轻松从几个知名的网络服务中挖掘数据。该项目声称文档齐全,并包括大量示例和单元测试。
6. NuPIC (Numenta 智能计算平台)
一个受脑部启发的机器智能平台,基于皮层学习算法的生物学准确神经网络。
★ 3647, 987
NuPIC实现了层次时间记忆(HTM)机器学习算法。HTM 试图模拟新皮层的计算,重点在于存储和回忆空间和时间模式。NuPIC 非常适合与模式相关的异常检测。
7. Vowpal Wabbit
Vowpal Wabbit 是一个机器学习系统,通过在线学习、哈希、全局归约、减法、学习 2 搜索、主动学习和交互学习等技术推动机器学习的前沿。
★ 2949, 827
Vowpal Wabbit旨在快速建模大规模数据集,并支持并行学习。该项目最初在 Yahoo!启动,目前由微软研究院开发。Vowpal Wabbit 利用外存学习,并已被用于在 1000 个计算节点上在一小时内学习一个 TB 特征数据集。
8. aerosolve
为人类打造的机器学习包。
★ 2538, 245
aerosolve 试图与其他库不同,专注于提供用户友好的调试功能、用于训练的 Scala 代码、用于轻松图像排名的图像内容分析引擎,以及为用户提供灵活性和控制功能的特征转换语言。aerosolve 实现了基于 thrift 的特征表示,其中特征按逻辑分组,用于对整个特征组应用转换或促进组间的交互。
9. GoLearn
适用于 Go 的机器学习。
★ 2334, 215
GoLearn 是一个为 Go 开发的活跃的机器学习库。其目标是为 Go 开发人员提供一个功能全面、易于使用且可定制的包。GoLearn 实现了许多人熟悉的 Scikit-learn 的 fit/predict 接口,使更换估计器变得容易,并实现了像交叉验证和训练/测试拆分这样的“辅助函数”。
10. 黑客的机器学习代码
伴随《黑客的机器学习》一书的代码。
★ 2003, 1446
该库包含 O’Reilly 书籍《黑客的机器学习》的代码。所有库代码都是 R 语言编写的,依赖于众多 R 包,涵盖的主题包括分类、排序和回归等常见任务,以及主成分分析和多维尺度分析等统计程序。
- 根据 GitHub 搜索中“机器学习”查询的返回结果确定,按星标数量排序,截止至 2015 年 12 月 10 日下午 1:00 EST。
相关:
- 21 个机器学习项目
- 前 20 个 Python 机器学习开源项目
- 拓扑数据分析 - 开源实现
- 掌握 Python 机器学习的 7 个步骤
1. 谷歌网络安全证书 - 快速进入网络安全职业生涯。
2. 谷歌数据分析专业证书 - 提升你的数据分析技能
3. 谷歌 IT 支持专业证书 - 支持你所在的组织的 IT
更多相关话题
- 建立一个稳固的数据团队
- 使用管道编写干净的 Python 代码
- 数据科学学习统计的最佳资源
- 停止学习数据科学以寻找目标,并通过找到目标来……
- 每个初学者数据科学家应掌握的 6 种预测模型
- 一个 90 亿美元的 AI 失败,经过审视
原文:
如果你刚刚开始学习 R、RStudio 和机器学习,你可能已经知道,通过查看来自该领域经验丰富的人士的具体示例和工作流程是一个极好的激励方式。对于这篇文章,我们收集了一组包含动手示例的教育视频,展示如何实现一些最流行的机器学习算法。我们首先为你提供对机器学习和 R 语言的一般介绍和动机。你将能够跟随示例和演示,熟悉 R 中实施机器学习项目的语法和流程。请享受观看这一系列视频,并亲自尝试,通过这份精彩的总结和汇编来进行自己的实验和建模。
这些视频按观看次数排名,它们是一些知名的机器学习技术和概念的资源集合。需要注意的是,许多列出的视频属于不同的 YouTube 播放列表和由经验丰富的讲师和组织开发的课程,因此不要仅仅停留在这个列表中。订阅并关注这些视频的作者,以获取更多的视频资源来支持你的工作。
- 如何在 R 中构建文本挖掘、机器学习文档分类系统!(131k 观看),26 分钟。该视频将展示如何在不到 30 分钟内使用 R 从头构建一个机器学习文档分类系统。你将看到一个使用文本挖掘技术识别未标记的总统竞选演讲者的示例。它还涉及品牌管理、审计、欺诈检测、电子病历等应用。
- 使用 R 的主成分分析(115k 观看),11 分钟。此教程将引导你手动进行简单数据的主成分分析,你将熟悉 PCA 的基本原理和术语。
- R 中的 k 最近邻算法(60k 观看),15 分钟演示。该视频介绍了如何使用著名的鸢尾花数据集在 R 中实现 k-NN(k 最近邻)模型。该视频是有关 R、数据科学和机器学习的教程系列的一部分。
- 使用 R 进行聚类分析 - 一个示例(54k 观看),18 分钟。该教程视频演示了如何使用 R 进行聚类分析。它还包括数据标准化、使用树状图进行层次聚类以及非层次 k-means 聚类等概念。
- R 中的决策树分类(40k 次观看),20 分钟。这个视频将介绍 R 中的 rpart 库,用于构建分类决策树。视频提供了决策树的简要概述,并展示了使用模型进行可视化和预测的示例。
- 使用 R 的支持向量机(SVM)概述和演示(35k 次观看),17 分钟。这是一个关于使用 R 的支持向量机(SVM)的快速概述,通过一系列示例和演示来讲解。首先,它涵盖了 SVM 的基本概念和思想,然后转到实际示例。
- R 中的随机森林概述和演示(24k 次观看),17 分钟。这个视频简要概述了随机森林的基本概念和原理。通过一个示例,你将看到如何使用 R 的 randomForest 库自己实现这个算法。
- R 中的神经网络(19k 次观看),19 分钟。这个视频是 R 中神经网络的指南。你将看到如何使用 R 的 neuralnet 包来拟合、绘图和进行神经网络预测。
- 用于机器学习的 R 编程语言(14k 次观看),37 分钟。这个视频简要介绍了 R 和一个基本模型实现的演示示例。
- R 和 caret 的机器学习简介(9.8k 次观看),1 小时 40 分钟的演讲。来自 Data Science Dojo 的视频为你提供了 R 中 caret(Classification And REgression Training)包的一般介绍。视频将展示如何使用 caret 执行大多数项目中最流行的数据科学任务,并演示如何将 caret 纳入你的个人工作流程。
我们希望你喜欢观看这些视频,并希望它们能激励你构建自己的模型并进行预测。不要忘记观看完整的讲座和播放列表,以增强你的教程库。
相关:
- 金融中的十大机器学习视频
- YouTube 上的十大机器学习视频(更新版)
- YouTube 上的十大数据科学视频
1. Google 网络安全证书 - 快速进入网络安全职业生涯。
2. Google 数据分析专业证书 - 提升你的数据分析技能
3. Google IT 支持专业证书 - 支持你所在组织的 IT 事务
更多相关内容
- KDnuggets 新闻,6 月 22 日:主要的监督学习算法
- 每个机器学习工程师都应该掌握的 5 种机器学习技能
- KDnuggets 新闻,12 月 14 日:3 个免费的机器学习课程
- 学习数据科学、机器学习和深度学习的稳固计划
- 数据科学、数据可视化与机器学习的 38 个顶级 Python 库
- 5 个免费的机器学习课程
原文:
YouTube 上有很多关于机器学习的视频,但很难判断哪些值得观看,特别是每分钟都有 300 小时的视频被上传到 YouTube。我们为你带来了值得观看的最受欢迎的近期机器学习视频。这篇文章更新了 2015 年非常受欢迎的 YouTube 上的前 10 个机器学习视频的帖子。我们还增加了一些顶级相关的播放列表。
1. 谷歌网络安全证书 - 快速进入网络安全职业生涯。
2. 谷歌数据分析专业证书 - 提升你的数据分析水平
3. 谷歌 IT 支持专业证书 - 支持你的组织在 IT 方面
这里是截至 2017 年 5 月 3 日按观看次数排名的热门视频。
1. MarI/O - 视频游戏中的机器学习 (4.3M 次观看)
这个有趣的演示视频展示了机器学习如何应用于视频游戏。这是通过神经网络和遗传算法实现的。这个视频的精彩之处在于作者简明扼要地描述了神经网络如何实现给定的性能。我自己玩过《超级马里奥世界》,可以说游戏玩法非常令人印象深刻,不论是否学习过!
2. 机器学习(斯坦福) (1.4M 次观看)
这是斯坦福大学机器学习讲座系列的第一段视频(第 1 讲发布于 8 年前),由Andrew Ng讲授。这是自学机器学习基础的一个不错的起点。如果你对这个视频中的内容感兴趣,他的Coursera 课程也许会引起你的兴趣。
3. 谷歌深度学习解释!- 自学习 A.I. (1.3M 次观看)
由 ColdFusion(以前称为 Cold fusTion)上传的视频展示了“在轻松愉快的氛围中展现我们周围世界的前沿”;包括示例来源:为什么 AlphaGo 不是“专家系统”、 “深入 DeepMind”的自然视频、 “AlphaGo 与人工智能的未来”BBC 新闻之夜。
4. 遗传算法。学习跳过球. (1.05M 次观看)
这个动画时长不到 3 分钟,但展示了使用遗传算法和神经网络自动设计运动策略。学习简单的生物如何跳过球。
5. TensorFlow:开源机器学习 (957K views)
这个视频介绍了 TensorFlow。它是一个用于数值计算的数据流图开源软件库。最初由 Google Brain Team 的研究人员和工程师开发,属于 Google 的机器智能研究组织,旨在进行机器学习和深度神经网络研究。
6. Hello World - 机器学习食谱 #1 (574K views)
这个视频由 Google Developers 上传。只需六行 Python 代码即可编写你的第一个机器学习程序!在这一集中,我们将简要介绍机器学习是什么以及为什么它很重要。然后,我们将跟随一个监督学习的食谱(从示例中创建分类器的技术)并进行编码。
7. 加州理工学院机器学习 (504,870 views)
这个视频也是机器学习讲座系列的开始。这个系列由加州理工学院的 Yaser Abu-Mostafa 教授授课。这个系列还有一个 在线课程,它还有一本很好的配套教材。这是学习机器学习基础的另一种好方法。
8. 下一代神经网络 (468,321 views)
这次 Google Tech Talk 由 Geoffrey Hinton 主讲,涵盖了下一代神经网络。这是深度学习的良好介绍。虽然有几年时间,但仍然是对这一主题的很好的技术介绍。
9. 深度学习:来自大数据的智能 (451,046 views)
这个面板由斯坦福大学商学院主持,许多行业专业人士讨论深度学习的影响。这很有趣,因为它提供了许多观点和不同的理解方式。这是一个很好的视频,可以观看以获得多样化的意见。
10. 学习:支持向量机 (362,417 views)
这是麻省理工学院的一门课程的讲座(MIT 6.034 人工智能,2010 年秋季)。在这次讲座中,Patrick Winston(讲师)展示了支持向量机的一些数学细节。他使用拉格朗日乘数来最大化在某些约束下的街道宽度。如果需要,我们将向量转换到另一个空间,使用核函数。
顶级视频播放列表
1. 机器学习简介 (494 videos; 1,281,106 views in total)
这些视频是“机器学习入门”在线课程的一部分。该课程设计为帮助您和他人成为数据分析师的一部分计划;由Udacity上传。2. 机器学习(160 个视频;765,050 次观看)
这些视频从数学的角度讲解机器学习,适用于研究生或高级本科生水平。该播放列表由 mathematicalmonk 上传。
3. 讲座合集 | 斯坦福大学机器学习(20 个视频;730,896 次观看)
本课程(CS229)由安德鲁·吴教授讲授,提供了对机器学习和统计模式识别的广泛介绍。主题包括监督学习、无监督学习、学习理论、强化学习和自适应控制。还讨论了机器学习的最新应用,如机器人控制、数据挖掘、自动导航、生物信息学、语音识别以及文本和网络数据处理。
4. Python 机器学习(72 个视频;687,041 次观看)
这是一个 Python 编程教程合集,超越了基础知识。学习机器学习、金融、数据分析、机器人、网络开发、游戏开发等更多内容。
我们的播放列表:
在这里观看。相关帖子:YouTube 上的前 10 大机器学习视频,截至 2015 年 6 月。
更多相关主题
- 数据科学学习统计学的顶级资源
- 停止学习数据科学以寻找目标,并寻找目标……
- 成为优秀数据科学家所需的 5 项关键技能
- 每个初学者数据科学家应掌握的 6 种预测模型
- 一场 90 亿美元的 AI 失败,深度剖析
- 建立一个稳固的数据团队
原文:
作者:格兰特·马歇尔。
YouTube 上有很多关于机器学习的视频,但在有限的时间内可能很难判断哪些值得观看。这里筛选了按观看次数排序的最佳视频,以提供一些关于该主题的优秀视频内容。
如果你想以简单的方式将所有这些视频集中在一个地方,可以查看这个播放列表。视图数量截至 2015 年 6 月 21 日。
1. MarI/O - 用于视频游戏的机器学习(1,514,045 次观看)
这个有趣的演示视频展示了机器学习如何应用于视频游戏。这是通过神经网络和遗传算法实现的。这个视频特别出色的地方在于作者简明扼要地描述了神经网络如何实现所需的性能。即使我自己玩过《超级马里奥世界》,也能说游戏性非常令人印象深刻,无论是否学习过!
2. 机器学习(斯坦福)(761,843 次观看)
这是安德鲁·吴主讲的斯坦福机器学习讲座系列中的第一部视频。作为自学机器学习基础的起点非常合适。如果你对视频中的内容感兴趣,他的Coursera 课程也可能会引起你的兴趣。
3. 下一代神经网络(401,740 次观看)
乔弗里·辛顿的这场 Google 技术讲座涵盖了下一代神经网络。这是对深度学习的一个很好的介绍。虽然已有几年,但仍然是一个很好的技术入门。
4. 机器人技术与人工智能的未来(安德鲁·吴,斯坦福大学,STAN 2011)(233,875 次观看)
这个视频也是安德鲁·吴制作的。在这个视频中,安德鲁·吴不仅专注于机器学习,而是深入探讨了人工智能在机器人技术中的应用。如果你对这些话题感兴趣,可以观看这个视频。
5. 加州理工学院机器学习(233,703 次观看)
这个视频也是机器学习讲座系列的开始。该系列由加州理工学院的亚瑟·阿布-莫斯塔法教授主讲。这个系列还有一个在线课程,并且有一本很棒的配套教材。这是学习机器学习基础的另一种好方法。
6. 大脑、性别与机器学习(104,808 次观看)
这场 Google 技术讲座也是由 Geoffrey Hinton 主讲。这次讲座深入探讨了神经网络的主题。与其他讲座不同的是,它讨论了神经网络如何与生物神经元相互作用以及这些作用在算法中的表现。
7. 史诗 NHL 进球庆祝黑客攻击:色彩灯光秀与实时机器学习(103,166 次观看)
这个演示视频展示了一个系统,该系统利用机器学习基于比赛的音频流检测 NHL 进球。当检测到进球时,系统与客厅的硬件进行通信,创建一个灯光秀。这是将学习整合到生活空间中的一个极佳例子。
8. 我是传奇:用机器学习激活成功教程 Hearthstone - Defcon 22(92,820 次观看)
这个视频还展示了机器学习在视频游戏中的应用。在这个案例中,应用有些“恶意”。通过观察许多 Hearthstone(一个电子集换式卡牌游戏)之前的游戏,作者开发的系统学会了预测对手的手牌。这对于任何对机器学习在竞争应用中的兴趣者都是非常吸引人的。
9. 旧金山湾区视觉会议:无监督特征学习和深度学习(89,518 次观看)
这场由 Andrew Ng 主讲的 Google 技术讲座介绍了如何利用特征学习从未标记的数据中自动学习特征。这是一种节省时间的好方法,比传统的特征选择方法更有效。如果你对这种方法的理论基础感兴趣,这个视频提供了很好的解释。
10. 深度学习:来自大数据的智能(89,506 次观看)
这个由斯坦福大学商学院主办的讨论小组,聚集了许多行业专业人士讨论深度学习的影响。这很有趣,因为它提供了许多观点和不同的理解方式。观看这个视频可以获得多样的意见。
相关:
- YouTube 上观看最多的大数据视频
- 带结构的深度学习 – 预览
- 在机器学习中,更多数据还是更好的算法更好?
更多相关内容
- 提升机器学习技能的 15 个顶级 YouTube 频道
- KDnuggets 新闻 22:n16,4 月 20 日:学习的顶级 YouTube 频道……
- 学习数据科学的顶级 YouTube 频道
- 数据分析的前 7 个 YouTube 课程
- 数据科学初学者的前 6 个 YouTube 系列
- 学习 AI 的 6 个 YouTube 频道
原文:
图片来源:Digital Buggu
企业继续改造其运营,以提高生产力并提供难忘的消费者体验。这种数字化转型加快了互动、交易和决策的时间框架。此外,它生成了大量的数据,带来了对运营、客户和竞争的新见解。机器学习帮助公司利用这些数据获得竞争优势。ML(机器学习)模型可以在大量数据中检测模式,使其能够在比人类更大的规模上做出更快、更准确的决策。这使得人类和应用程序能够快速而智能地采取行动。
1. 谷歌网络安全证书 - 快速进入网络安全职业生涯。
2. 谷歌数据分析专业证书 - 提升您的数据分析技能
3. 谷歌 IT 支持专业证书 - 支持您组织的 IT
随着越来越多的企业尝试使用数据,他们意识到开发一个机器学习(ML)模型只是 ML 生命周期中的众多步骤之一。
机器学习生命周期包括为特定应用开发、部署和维护机器学习模型。典型的生命周期包括:
过程的第一步是确定实施机器学习模型的商业目标。例如,贷款公司可以将预测一定数量贷款申请的信用风险作为商业目标。
机器学习生命周期的下一个阶段是数据收集与准备,受定义的商业目标指导。这通常是开发过程中的最长阶段。
开发人员将根据机器学习模型的类型选择用于训练和测试的数据集。以信用风险为例。如果贷款人想从扫描的文档中获取信息,他们可以使用图像识别模型;对于数据分析,将是从贷款申请人那里收集的数值或文本数据片段。
数据收集后的关键阶段是注释“整理”。现代人工智能(AI)模型需要高度具体的数据分析和指令。注释有助于开发人员提高一致性和准确性,同时减少偏差,以避免在部署后发生故障。
构建过程是机器学习生命周期中最代码密集的环节。这个阶段主要由开发团队的程序员管理,他们将有效地设计和组装算法。
然而,开发人员必须在训练过程中不断检查情况。尽快检测训练数据中的潜在偏差是至关重要的。假设图像模型无法识别文档,导致其错误分类。在这种情况下,参数应指导模型关注图像中的模式而非像素。
模型在测试阶段应完全功能正常并按计划运行。训练过程中使用单独的验证数据集进行评估。目标是查看模型如何应对它从未见过的数据。
训练完成后,终于到了部署机器学习模型的时候。此时,开发团队已经尽力确保模型的最佳功能。该模型可以处理未经整理的低延迟用户数据,并被信任准确评估。
回到信用风险场景中,模型应能可靠地预测贷款违约者。开发人员应对模型能够满足贷款公司期望并正常运行感到满意。
部署后会跟踪模型的性能,以确保其随时间保持稳定。例如,如果用于贷款违约预测的机器学习模型未经过定期优化,它可能无法检测到新的违约类型。监控模型以发现和修复错误是至关重要的。监控中发现的任何关键结果都可以用来改善模型的性能。
如上所述,大规模管理整个生命周期是具有挑战性的。这些挑战与应用开发团队在创建和管理应用程序时面临的挑战相同。DevOps 是在应用程序开发周期中管理操作的行业标准。处理机器学习中的这些挑战,企业必须采取类似 DevOps 的方法来管理 ML 生命周期。这种技术被称为 MLOps。
MLOps 是机器学习 + 操作的缩写。它是一门新兴学科,要求结合数据科学、机器学习、DevOps 和软件开发中的最佳实践。它有助于减少数据科学家与 IT 操作团队之间的摩擦,以改善模型的开发、部署和管理。根据 Congnilytica,MLOps 解决方案的市场预计到 2025 年将增长近 40 亿美元。
数据科学家将大部分时间花在为训练准备和清理数据上。此外,训练好的模型需要测试其准确性和稳定性。
这就是 MLOps 工具发挥作用的地方。合适的工具可以帮助您从数据准备到市场准备产品的整个过程管理一切。为了节省您的时间,我整理了一份最佳企业和开源云平台及 管理机器学习生命周期的框架 的列表。
- Amazon SageMaker 提供机器学习操作 (MLOps) 解决方案,帮助用户自动化和标准化整个机器学习生命周期中的流程。
- 该平台使数据科学家和机器学习工程师能够通过训练、测试、故障排除、部署和治理机器学习模型来提高生产力。
- 它有助于将机器学习工作流与 CI/CD 管道集成,以减少生产时间。
- 通过优化的基础设施,训练时间可以从小时缩短到分钟。专用工具可以将团队生产力提高多达十倍。
- 它还支持领先的机器学习框架、工具包和编程语言,如 Jupyter、Tensorflow、PyTorch、mxnet、Python、R 等。
- 它具有用于策略管理和执行、基础设施安全、数据保护、授权、认证和监控的安全功能。
来源:亚马逊
- Azure 机器学习服务是一个基于云的数据科学和机器学习平台。
- 借助内置的治理、安全性和合规性,用户可以在任何地方运行机器学习工作负载。
- 快速创建用于分类、回归、时间序列预测、自然语言处理和计算机视觉任务的准确模型。
- 利用 Azure Synapse Analytics,用户可以通过 PySpark 执行交互式数据准备。
- 企业可以利用 Microsoft Power BI 及 Azure Synapse Analytics、Azure Cognitive Search、Azure Data Factory、Azure Data Lake、Azure Arc、Azure Security Centre 和 Azure Databricks 等服务来提升生产力。
来源:微软
3. Databricks MLflow
- 托管的 MLflow 建立在 MLflow 之上,MLflow 是由 Databricks 开发的开源平台。
- 它帮助用户以企业级的可靠性、安全性和规模管理完整的机器学习生命周期。
- MLFLOW 跟踪使用 Python、REST、R API 和 Java API 自动记录每次运行的参数、代码版本、指标和工件。
- 用户可以记录阶段转换,并在 CI/CD 管道中请求、审查和批准更改,以改善控制和治理。
- 通过访问控制和搜索查询,用户可以在工作区内创建、保护、组织、搜索和可视化实验。
- 通过 Apache Spark UDF 快速在 Databricks 上部署到本地机器或其他生产环境,例如 Microsoft Azure ML 和 Amazon SageMaker,并构建 Docker 镜像进行部署。
来源:Databricks
- TensorFlow Extended 是 Google 开发的生产规模机器学习平台。它提供了用于将机器学习集成到工作流中的共享库和框架。
- TensorFlow Extended 允许用户在各种平台上编排机器学习工作流程,包括 Apache、Beam 和 KubeFlow。
- TensorFlow 是提升 TFX 工作流程的高端设计,TensorFlow 帮助用户分析和验证机器学习数据。
- TensorFlow 模型分析提供了处理大量分布式数据的指标,并帮助用户评估 TensorFlow 模型。
- TensorFlow Metadata 提供了可以在数据分析过程中手动或自动生成的元数据,这在使用 TF 训练机器学习模型时非常有用。
来源:TensorFlow
- MLFlow 是一个开源项目,旨在为机器学习提供一种通用语言。
- 这是一个用于管理完整机器学习生命周期的框架
- 它为数据科学团队提供了端到端的解决方案
- 用户可以使用在 Amazon Web Services (AWS) 上运行的 Hadoop、Spark 或 Spark SQL 集群轻松管理生产环境或本地的模型。
- MLflow 提供了一组轻量级 API,可以与任何现有的机器学习应用程序或库(TensorFlow、PyTorch、XGBoost 等)结合使用。
来源:MLFlow
- Google Cloud ML Engine 是一个托管服务,使构建、训练和部署机器学习模型变得容易。
- 它提供了一个统一的接口用于训练、服务和监控 ML 模型。
- Bigquery 和云存储帮助用户准备和存储数据集。然后,他们可以使用内置功能为数据打标签。
- Cloud ML Engine 可以执行超参数调整,这会影响预测的准确性。
- 使用带有易用界面的 Auto ML 功能,用户可以无需编写任何代码即可完成任务。此外,用户可以使用 Google Colab 免费运行笔记本。
来源:Google
- DVC 是一个用 Python 编写的开源数据科学和机器学习工具。
- 它旨在使机器学习模型可共享和可重现。它处理大文件、数据集、机器学习模型、指标和代码。
- DVC 控制机器学习模型、数据集和中间文件,并将它们与代码连接。文件内容存储在 Amazon S3、Microsoft Azure Blob Storage、Google Cloud Storage、Aliyun OSS、SSH/SFTP、HDFS 等上。
- DVC 概述了在生产环境中协作、共享发现以及收集和运行完成模型的规则和流程。
- DVC 可以将 ML 步骤连接成 DAG(有向无环图),并运行整个管道端到端。
来源:DVC
- H2O Driverless AI 是一个基于云的机器学习平台,允许你通过简单的点击来构建、训练和部署机器学习模型。
- 它支持 R、Python 和 Scala 编程语言。
- Driverless AI 可以访问各种数据源,包括 Hadoop HDFS、Amazon S3 等。
- Driverless AI 会根据最相关的数据统计自动选择数据图,开发可视化,并提供基于最重要数据统计的统计显著数据图。
- Driverless AI 可以用于从数字照片中提取信息。它允许使用单独的照片和与其他数据类型结合的图像作为预测特征。
来源:H2O Driverless AI
- Kubeflow 是一个云原生的机器学习操作平台 - 管道、训练和部署。
- 它是 Cloud Native Computing Foundation (CNCF) 的一部分,包括 Kubernetes 和 Prometheus。
- 用户可以利用此工具构建自己的 MLOps 堆栈,使用 Google Cloud 或 Amazon Web Services (AWS) 等云提供商。
- Kubeflow Pipelines 是一个全面的解决方案,用于部署和管理端到端的 ML 工作流。
- 它还扩展了对 PyTorch、Apache MXNet、MPI、XGBoost、Chainer 等的支持。它还与 Istio、Ambassador(用于入口)和 Nuclio(用于管理数据科学管道)集成。
来源:Kubeflow
- Metaflow 是 Netflix 创建的一个基于 Python 的库,帮助数据科学家和工程师管理现实世界项目,提高生产力。
- 它提供了一个统一的 API 堆栈,这对于从原型到生产环境的数据科学项目的执行是必需的。
- 用户可以高效地训练、部署和管理 ML 模型;Metaflow 集成了基于 Python 的机器学习、Amazon SageMaker、深度学习和大数据库。
- Metaflow 包含一个图形用户界面,帮助用户将工作环境设计为有向无环图(D-A-G)。
- 它可以自动版本化和跟踪所有实验和数据。
来源:Metaflow
- Snowpark for Python 提供了一种简单的方法,让数据科学家可以对 Snowflake 数据仓库执行 DataFrame 风格的编程。
- 它可以建立完整的机器学习管道以定期运行。
- Snowpark 在机器学习生命周期的最后两个阶段(模型部署和监控)中扮演了重要角色。
- Snowpark 提供了一个易于使用的 API 用于在数据管道中查询和处理数据。
- 自引入以来,Snowpark 已经发展成最好的数据应用之一,使开发人员能够轻松构建复杂的数据管道。
- 凭借 Snowflake 对未来的愿景和可扩展的支持,该应用将成为解决未来几年复杂数据和机器学习问题的最佳选择。
每个企业都在向成为全面机器学习企业的方向发展。合适的工具可以帮助组织管理从数据准备到市场准备产品的所有环节。这些工具还可以帮助自动化重复的构建和部署任务,减少错误,以便你可以专注于更重要的任务,如研究。企业在选择 MLOps 工具时必须考虑团队规模、价格、安全性和支持,并更好地理解其可用性。
Saikiran Bellamkonda 是一名数字营销高手和技术营销作家。他运用自己深厚的知识和经验撰写关于 ML 和 AI 技术的文章。一个积极的学习者,寻求扩展自己的技术知识和写作技能,同时指导他人。
相关主题
- 机器学习生命周期
- 如何优化 SQL 查询以加快数据检索
- 如何优化 Dockerfile 指令以加快构建时间
- 5 个最佳端到端开源 MLOps 工具
- 有没有办法弥合 MLOps 工具差距?
- 通过获取网络安全硕士学位,做好应对威胁的准备…
版权声明:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若内容造成侵权、违法违规、事实不符,请将相关资料发送至xkadmin@xkablog.com进行投诉反馈,一经查实,立即处理!
转载请注明出处,原文链接:https://www.xkablog.com/bcyy/75449.html