Interface ContentExtractionOptions

Options for content extraction.

interface ContentExtractionOptions {
    baseUrl?: string;
    charThreshold?: number;
    maxElemsToParse?: number;
    keepClasses?: boolean;
    classesToPreserve?: string[];
    disableJSONLD?: boolean;
    checkReadability?: boolean;
    debug?: boolean;
}

Index

Properties

baseUrl? charThreshold? maxElemsToParse? keepClasses? classesToPreserve? disableJSONLD? checkReadability? debug?

Properties

`Optional`baseUrl

baseUrl?: string

Base URL for resolving relative links and images. Highly recommended for proper link resolution.

`Optional`charThreshold

charThreshold?: number

Minimum character count for article content. Articles shorter than this are considered too short.

Default

`Optional`maxElemsToParse

maxElemsToParse?: number

Maximum number of elements to parse. Set to 0 for no limit.

Default

`Optional`keepClasses

keepClasses?: boolean

Whether to preserve CSS classes in extracted HTML.

Default

false

`Optional`classesToPreserve

classesToPreserve?: string[]

CSS classes to preserve when keepClasses is false.

`Optional`disableJSONLD

disableJSONLD?: boolean

Whether to skip JSON-LD parsing for metadata.

Default

false

`Optional`checkReadability

checkReadability?: boolean

Check if content is probably readerable before extraction. If true and content is not readerable, returns early with failure.

Default

false

`Optional`debug

debug?: boolean

Enable debug logging.

Default

false

Interface ContentExtractionOptions

Index

Properties

Properties

`Optional`baseUrl

`Optional`charThreshold

Default

`Optional`maxElemsToParse

Default

`Optional`keepClasses

Default

`Optional`classesToPreserve

`Optional`disableJSONLD

Default

`Optional`checkReadability

Default

`Optional`debug

Default

Settings

On This Page

Interface ContentExtractionOptions

Index

Properties

Properties

OptionalbaseUrl

OptionalcharThreshold

Default

OptionalmaxElemsToParse

Default

OptionalkeepClasses

Default

OptionalclassesToPreserve

OptionaldisableJSONLD

Default

OptionalcheckReadability

Default

Optionaldebug

Default

Settings

On This Page

`Optional`baseUrl

`Optional`charThreshold

`Optional`maxElemsToParse

`Optional`keepClasses

`Optional`classesToPreserve

`Optional`disableJSONLD

`Optional`checkReadability

`Optional`debug