2 篇博文含有标签「机器学习」

Crawlab AI: 借助大语言模型 (LLM) 打造智能爬虫

2024年2月1日 · 阅读需 6 分钟

软件工程师 & 开源爱好者

“如果我当年去问顾客他们想要什么，他们肯定会告诉我：一匹更快的马” -- 亨利•福特

前言

当我初入职场时，作为数据分析师的我，偶然体验到了网络爬虫（Web Crawler）自动化提取网页数据的能力，自此我一直对这个神奇的技术充满好奇。随着后来我不断钻研爬虫技术，逐渐了解到网络爬虫的核心技术，其中就包括网页解析（Parsing），即通过分析网页 HTML 结构而构建基于 XPath 或 CSS Selector 数据提取规则的过程。这个过程长期以来都需要人工介入，虽然对于爬虫工程师来说相对简单，但如果需要大规模抓取，这个过程是非常消耗时间的，而且随着网页结构变化会增加爬虫维护成本。本篇文章将介绍我开发的基于**大语言模型（LLM）**的智能爬虫产品：Crawlab AI。虽然它还处于早期开发阶段，但已经展现出强大的潜力，有望让数据从业者轻松获取数据。

实战数据科学: 如何利用 sklearn 轻松上榜 Kaggle 入门 NLP 竞赛

2023年6月3日 · 阅读需 7 分钟

马老师 Marvin

软件工程师 & 开源爱好者

引子

Kaggle 是一个面向数据科学家、机器学习工程师和数据分析师的在线社区和数据科学竞赛平台，上面有很多带有奖励的数据科学竞赛（Competition）以及数据集（Dataset）。Kaggle 社区在数据科学领域非常出名，很多互联网业界大厂也在上面发布有奖竞赛，竞赛金额从几万到百万美元不等。本文介绍的是最近参与的 Kaggle 一个入门 NLP 竞赛，没有现金奖励，但可以学习到 NLP 相关的机器学习知识。

Kaggle Competition

竞赛简介

这个数据科学竞赛是希望竞赛参与者通过给定 Twitter 上的一条推文（Tweet），来判断推文是否是关于一场真实的灾害（Disaster）。下图是某一条推文的情况，推文中有 "ABLAZE"（燃烧的）关键词，预示着该推文是说有房子燃起来了。

Disater Tweet

前言​

相关工作​

引子​

竞赛简介​

前言

相关工作

引子

竞赛简介