Magpie HTML - v0.2.4

Magpie HTML - Universal web content scraper for Node.js and browsers

Remarks

A modern TypeScript library for parsing web feeds (RSS, Atom, JSON Feed), extracting metadata, and scraping article content from HTML. Designed to be isomorphic, type-safe, and resilient to malformed data.

Key features:

Universal feed parser with automatic format detection
Comprehensive metadata extraction (SEO, OpenGraph, Schema.org, etc.)
Article content extraction with Mozilla Readability
Smart URL resolution (relative to absolute)
Content quality assessment
Full TypeScript support
Minimal runtime dependencies

Classes

Interfaces

HtmlToTextOptions
ContentExtractionOptions
ExtractedContent
ExtractionFailure
ContentQuality
FeedAuthor
FeedEnclosure
FeedItem
Feed
ParseResult
GatherOptions
Website
Article
AnalyticsMetadata
AssetsMetadata
PreloadResource
ConnectionHint
AlternateLink
AppLinks
CanonicalMetadata
CopyrightMetadata
DublinCoreMetadata
DiscoveredFeed
FeedDiscoveryMetadata
GeoPosition
GeoMetadata
AppleTouchIcon
MaskIcon
MSTile
IconsMetadata
LanguageMetadata
ExtractedLink
LinksExtractionOptions
LinksMetadata
MonetizationMetadata
NewsMetadata
OpenGraphArticle
OpenGraphVideo
OpenGraphAudio
OpenGraphImage
OpenGraphBook
OpenGraphProfile
OpenGraphMetadata
PaginationMetadata
RobotDirectives
RobotsMetadata
JsonLdBlock
SchemaOrgMetadata
SecurityMetadata
SEOMetadata
SitemapDiscoveryMetadata
SocialProfilesMetadata
TwitterAppPlatform
TwitterApp
TwitterPlayer
TwitterCardMetadata
VerificationMetadata
PluckInit
PluckResponse
SwoopInit
SwoopResult

Type Aliases

ExtractionErrorType
ContentResult
FeedFormat
SwoopWaitStrategy
HTMLDocument
DocumentInput

Magpie HTML - v0.2.4

Remarks

Classes

Interfaces

Type Aliases

Functions

Settings

On This Page