TransformableRDD

Instance Constructors

new TransformableRDD(parent: RDD[String], fileType: FileType = ...)

Value Members

final def !=(arg0: AnyRef): Boolean

Definition Classes
AnyRef
final def !=(arg0: Any): Boolean

Definition Classes
Any
final def ##(): Int

Definition Classes
AnyRef → Any
def ++(other: RDD[String]): RDD[String]

Definition Classes
RDD
final def ==(arg0: AnyRef): Boolean

Definition Classes
AnyRef
final def ==(arg0: Any): Boolean

Definition Classes
Any
def addColumnsFrom(otherRDD: TransformableRDD): TransformableRDD

Zips the other TransformableRDD with this TransformableRDD and returns a new TransformableRDD with current file format.
Zips the other TransformableRDD with this TransformableRDD and returns a new TransformableRDD with current file format. Both the TransformableRDD must have same number of records
otherRDD
Other TransformableRDD from where the columns will be added to this TransformableRDD
returns
TransformableRDD
def aggregate[U](zeroValue: U)(seqOp: (U, String) ⇒ U, combOp: (U, U) ⇒ U)(implicit arg0: ClassTag[U]): U

Definition Classes
RDD
final def asInstanceOf[T0]: T0

Definition Classes
Any
def cache(): TransformableRDD.this.type

Definition Classes
RDD
def cartesian[U](other: RDD[U])(implicit arg0: ClassTag[U]): RDD[(String, U)]

Definition Classes
RDD
def checkpoint(): Unit

Definition Classes
RDD
def clearDependencies(): Unit

Attributes
protected
Definition Classes
RDD
def clone(): AnyRef

Attributes
protected[java.lang]
Definition Classes
AnyRef
Annotations
@throws( ... )
def clusters(columnIndex: Int, clusteringAlgorithm: ClusteringAlgorithm): Clusters

Returns Clusters that has all cluster of text of @columnIndex according to @algorithm
Returns Clusters that has all cluster of text of @columnIndex according to @algorithm
columnIndex
Column Index
clusteringAlgorithm
Algorithm to be used to form clusters
returns
Clusters
def coalesce(numPartitions: Int, shuffle: Boolean)(implicit ord: Ordering[String]): RDD[String]

Definition Classes
RDD
def collect[U](f: PartialFunction[String, U])(implicit arg0: ClassTag[U]): RDD[U]

Definition Classes
RDD
def collect(): Array[String]

Definition Classes
RDD
val columnLength: Int

Attributes
protected
Definition Classes
AbstractRDD
def compute(split: Partition, context: TaskContext): Iterator[String]

Definition Classes
AbstractRDD → RDD
Annotations
@DeveloperApi()
def context: SparkContext

Definition Classes
RDD
def count(): Long

Definition Classes
RDD
def countApprox(timeout: Long, confidence: Double): PartialResult[BoundedDouble]

Definition Classes
RDD
def countApproxDistinct(relativeSD: Double): Long

Definition Classes
RDD
def countApproxDistinct(p: Int, sp: Int): Long

Definition Classes
RDD
def countByValue()(implicit ord: Ordering[String]): Map[String, Long]

Definition Classes
RDD
def countByValueApprox(timeout: Long, confidence: Double)(implicit ord: Ordering[String]): PartialResult[Map[String, BoundedDouble]]

Definition Classes
RDD
def deduplicate(primaryKeyColumns: List[Int]): TransformableRDD

Returns a new TransformableRDD containing unique duplicate records of this TransformableRDD by considering the given columns as primary key.
Returns a new TransformableRDD containing unique duplicate records of this TransformableRDD by considering the given columns as primary key.
primaryKeyColumns
A list of integers specifying the columns that will be combined to create the primary key
returns
TransformableRDD A new TransformableRDD consisting unique duplicate records.
def deduplicate(): TransformableRDD

Returns a new TransformableRDD containing unique duplicate records of this TransformableRDD by considering all the columns as primary key.
Returns a new TransformableRDD containing unique duplicate records of this TransformableRDD by considering all the columns as primary key.
returns
TransformableRDD A new TransformableRDD consisting unique duplicate records.
final def dependencies: Seq[Dependency[_]]

Definition Classes
RDD
def distinct(): RDD[String]

Definition Classes
RDD
def distinct(numPartitions: Int)(implicit ord: Ordering[String]): RDD[String]

Definition Classes
RDD
def drop(columnIndex: Int, columnIndexes: Int*): TransformableRDD

Returns a new TransformableRDD by dropping the @columnIndex
Returns a new TransformableRDD by dropping the @columnIndex
columnIndex
The column that will be dropped.
returns
TransformableRDD
def duplicates(primaryKeyColumns: List[Int]): TransformableRDD

Returns a new TransformableRDD containing unique duplicate records of this TransformableRDD by considering the given columns as primary key.
Returns a new TransformableRDD containing unique duplicate records of this TransformableRDD by considering the given columns as primary key.
primaryKeyColumns
A list of integers specifying the columns that will be combined to create the primary key
returns
TransformableRDD A new TransformableRDD consisting unique duplicate records.
def duplicates(): TransformableRDD

Returns a new TransformableRDD containing duplicate records of this TransformableRDD by considering all the columns as primary key.
Returns a new TransformableRDD containing duplicate records of this TransformableRDD by considering all the columns as primary key.
returns
TransformableRDD A new TransformableRDD consisting unique duplicate records.
def duplicatesAt(columnIndex: Int): RDD[String]

Returns a new RDD containing the duplicate values at the specified column
Returns a new RDD containing the duplicate values at the specified column
columnIndex
Column where to look for duplicates
returns
RDD
final def eq(arg0: AnyRef): Boolean

Definition Classes
AnyRef
def equals(arg0: Any): Boolean

Definition Classes
AnyRef → Any
def filter(f: (String) ⇒ Boolean): RDD[String]

Definition Classes
RDD
def finalize(): Unit

Attributes
protected[java.lang]
Definition Classes
AnyRef
Annotations
@throws( classOf[java.lang.Throwable] )
def first(): String

Definition Classes
RDD
def firstParent[U](implicit arg0: ClassTag[U]): RDD[U]

Attributes
protected[org.apache.spark]
Definition Classes
RDD
def flag(symbol: String, markerPredicate: (RowRecord) ⇒ Boolean): TransformableRDD

Returns a new TransformableRDD that contains records flagged by @symbol based on the evaluation of @markerPredicate
Returns a new TransformableRDD that contains records flagged by @symbol based on the evaluation of @markerPredicate
symbol
Symbol that will be used to flag
markerPredicate
A matchInDictionary which will determine whether to flag a row or not
returns
TransformableRDD
def flatMap[U](f: (String) ⇒ TraversableOnce[U])(implicit arg0: ClassTag[U]): RDD[U]

Definition Classes
RDD
def fold(zeroValue: String)(op: (String, String) ⇒ String): String

Definition Classes
RDD
def foreach(f: (String) ⇒ Unit): Unit

Definition Classes
RDD
def foreachPartition(f: (Iterator[String]) ⇒ Unit): Unit

Definition Classes
RDD
def getCheckpointFile: Option[String]

Definition Classes
RDD
final def getClass(): Class[_]

Definition Classes
AnyRef → Any
def getDependencies: Seq[Dependency[_]]

Attributes
protected
Definition Classes
RDD
final def getNumPartitions: Int

Definition Classes
RDD
Annotations
@Since( "1.6.0" )
def getPartitions: Array[Partition]

Attributes
protected
Definition Classes
AbstractRDD → RDD
def getPreferredLocations(split: Partition): Seq[String]

Attributes
protected
Definition Classes
RDD
def getStorageLevel: StorageLevel

Definition Classes
RDD
def glom(): RDD[Array[String]]

Definition Classes
RDD
def groupBy[K](f: (String) ⇒ K, p: Partitioner)(implicit kt: ClassTag[K], ord: Ordering[K]): RDD[(K, Iterable[String])]

Definition Classes
RDD
def groupBy[K](f: (String) ⇒ K, numPartitions: Int)(implicit kt: ClassTag[K]): RDD[(K, Iterable[String])]

Definition Classes
RDD
def groupBy[K](f: (String) ⇒ K)(implicit kt: ClassTag[K]): RDD[(K, Iterable[String])]

Definition Classes
RDD
def hashCode(): Int

Definition Classes
AnyRef → Any
val id: Int

Definition Classes
RDD
def impute(columnIndex: Int, strategy: ImputationStrategy, missingHints: List[String]): TransformableRDD

Returns a new TransformableRDD by imputing missing values and @missingHints of the @columnIndex using the @strategy
Returns a new TransformableRDD by imputing missing values and @missingHints of the @columnIndex using the @strategy
columnIndex
Column Index
strategy
Imputation Strategy
missingHints
List of Strings that may mean empty
returns
TransformableRDD
def impute(column: Int, strategy: ImputationStrategy): TransformableRDD

Returns a new TransformableRDD by imputing missing values of the @columnIndex using the @strategy
Returns a new TransformableRDD by imputing missing values of the @columnIndex using the @strategy
column
Column index
strategy
Imputation strategy
returns
TransformableRDD
def inferType(columnIndex: Int): DataType

Returns inferred DataType of @columnIndex
Returns inferred DataType of @columnIndex
columnIndex
Column Index on which type will be infered
returns
DataType

Definition Classes
AbstractRDD
def intersection(other: RDD[String], numPartitions: Int): RDD[String]

Definition Classes
RDD
def intersection(other: RDD[String], partitioner: Partitioner)(implicit ord: Ordering[String]): RDD[String]

Definition Classes
RDD
def intersection(other: RDD[String]): RDD[String]

Definition Classes
RDD
def isCheckpointed: Boolean

Definition Classes
RDD
def isEmpty(): Boolean

Definition Classes
RDD
final def isInstanceOf[T0]: Boolean

Definition Classes
Any
def isTraceEnabled(): Boolean

Attributes
protected
Definition Classes
Logging
final def iterator(split: Partition, context: TaskContext): Iterator[String]

Definition Classes
RDD
def keyBy[K](f: (String) ⇒ K): RDD[(K, String)]

Definition Classes
RDD
def listFacets(columnIndexes: List[Int]): TextFacets

Returns a new TextFacet containing the facets of @columnIndexes
Returns a new TextFacet containing the facets of @columnIndexes
columnIndexes
List of column index
returns
TextFacets
def listFacets(columnIndex: Int): TextFacets

Returns a new TextFacet containing the cardinal values of @columnIndex
Returns a new TextFacet containing the cardinal values of @columnIndex
columnIndex
index of the column
returns
TextFacets
def localCheckpoint(): TransformableRDD.this.type

Definition Classes
RDD
def log: Logger

Attributes
protected
Definition Classes
Logging
def logDebug(msg: ⇒ String, throwable: Throwable): Unit

Attributes
protected
Definition Classes
Logging
def logDebug(msg: ⇒ String): Unit

Attributes
protected
Definition Classes
Logging
def logError(msg: ⇒ String, throwable: Throwable): Unit

Attributes
protected
Definition Classes
Logging
def logError(msg: ⇒ String): Unit

Attributes
protected
Definition Classes
Logging
def logInfo(msg: ⇒ String, throwable: Throwable): Unit

Attributes
protected
Definition Classes
Logging
def logInfo(msg: ⇒ String): Unit

Attributes
protected
Definition Classes
Logging
def logName: String

Attributes
protected
Definition Classes
Logging
def logTrace(msg: ⇒ String, throwable: Throwable): Unit

Attributes
protected
Definition Classes
Logging
def logTrace(msg: ⇒ String): Unit

Attributes
protected
Definition Classes
Logging
def logWarning(msg: ⇒ String, throwable: Throwable): Unit

Attributes
protected
Definition Classes
Logging
def logWarning(msg: ⇒ String): Unit

Attributes
protected
Definition Classes
Logging
def map[U](f: (String) ⇒ U)(implicit arg0: ClassTag[U]): RDD[U]

Definition Classes
RDD
def mapByFlag(symbol: String, symbolColumnIndex: Int, mapFunction: (String) ⇒ String): TransformableRDD

Returns a new TransformableRDD by applying the function on all rows marked as @flag
Returns a new TransformableRDD by applying the function on all rows marked as @flag
symbol
Symbol that has been used for flagging.
symbolColumnIndex
Symbol column index
mapFunction
map function
returns
TransformableRDD
def mapPartitions[U](f: (Iterator[String]) ⇒ Iterator[U], preservesPartitioning: Boolean)(implicit arg0: ClassTag[U]): RDD[U]

Definition Classes
RDD
def mapPartitionsWithIndex[U](f: (Int, Iterator[String]) ⇒ Iterator[U], preservesPartitioning: Boolean)(implicit arg0: ClassTag[U]): RDD[U]

Definition Classes
RDD
def max()(implicit ord: Ordering[String]): String

Definition Classes
RDD
def mergeColumns(columns: List[Int], separator: String = " ", retainColumns: Boolean = false): TransformableRDD

Returns a new TransformableRDD by merging 2 or more columns together
Returns a new TransformableRDD by merging 2 or more columns together
columns
List of columns to be merged
separator
Separator to be used to separate the merge value
retainColumns
false when you want to remove the column value at @column in the result TransformableRDD
returns
TransformableRDD
def min()(implicit ord: Ordering[String]): String

Definition Classes
RDD
def multiplyColumns(firstColumn: Int, secondColumn: Int): RDD[Double]

Returns a RDD of double which is a product of the values in @firstColumn and @secondColumn
Returns a RDD of double which is a product of the values in @firstColumn and @secondColumn
firstColumn
First Column Index
secondColumn
Second Column Index
returns
RDD[Double]
var name: String

Definition Classes
RDD
final def ne(arg0: AnyRef): Boolean

Definition Classes
AnyRef
def normalize(columnIndex: Int, normalizer: NormalizationStrategy): TransformableRDD

Returns a new TransformableRDD by normalizing values of the given column using different Normalizers
Returns a new TransformableRDD by normalizing values of the given column using different Normalizers
columnIndex
Column Index
normalizer
Normalization Strategy
returns
TransformableRDD
final def notify(): Unit

Definition Classes
AnyRef
final def notifyAll(): Unit

Definition Classes
AnyRef
def numberOfColumns(): Int

Returns number of column in this rdd
Returns number of column in this rdd
returns
int
def parent[U](j: Int)(implicit arg0: ClassTag[U]): RDD[U]

Attributes
protected[org.apache.spark]
Definition Classes
RDD
val partitioner: Option[Partitioner]

Definition Classes
RDD
final def partitions: Array[Partition]

Definition Classes
RDD
def persist(): TransformableRDD.this.type

Definition Classes
RDD
def persist(newLevel: StorageLevel): TransformableRDD.this.type

Definition Classes
RDD
def pipe(command: Seq[String], env: Map[String, String], printPipeContext: ((String) ⇒ Unit) ⇒ Unit, printRDDElement: (String, (String) ⇒ Unit) ⇒ Unit, separateWorkingDir: Boolean): RDD[String]

Definition Classes
RDD
def pipe(command: String, env: Map[String, String]): RDD[String]

Definition Classes
RDD
def pipe(command: String): RDD[String]

Definition Classes
RDD
def pivotByCount(pivotalColumn: Int, independentColumnIndexes: Seq[Int]): PivotTable[Integer]

Generates a PivotTable by pivoting data in the pivotalColumn
Generates a PivotTable by pivoting data in the pivotalColumn
pivotalColumn
Pivotal Column
independentColumnIndexes
Independent Column Indexes
returns
PivotTable
final def preferredLocations(split: Partition): Seq[String]

Definition Classes
RDD
def randomSplit(weights: Array[Double], seed: Long): Array[RDD[String]]

Definition Classes
RDD
def reduce(f: (String, String) ⇒ String): String

Definition Classes
RDD
def removeRows(predicate: (RowRecord) ⇒ Boolean): TransformableRDD

Returns a new TransformableRDD containing only the elements that satisfy the matchInDictionary.
Returns a new TransformableRDD containing only the elements that satisfy the matchInDictionary.
predicate
A matchInDictionary function, which gives bool value for every row.
returns
TransformableRDD
def repartition(numPartitions: Int)(implicit ord: Ordering[String]): RDD[String]

Definition Classes
RDD
def replaceValues(cluster: Cluster, newValue: String, columnIndex: Int): TransformableRDD

Returns a new TransformableRDD by replacing the @cluster's text with specified @newValue
Returns a new TransformableRDD by replacing the @cluster's text with specified @newValue
cluster
Cluster of similar values to be replaced
newValue
Value that will be used to replace all the cluster value
columnIndex
Column index
returns
TransformableRDD
def sample(withReplacement: Boolean, fraction: Double, seed: Long): RDD[String]

Definition Classes
RDD
def sampleColumnValues(columnIndex: Int): List[String]

Returns a List of some elements of @columnIndex
Returns a List of some elements of @columnIndex
columnIndex
column Index for the sample
returns
List[String]

Definition Classes
AbstractRDD
val sampleRecords: List[String]

Attributes
protected
Definition Classes
AbstractRDD
def saveAsObjectFile(path: String): Unit

Definition Classes
RDD
def saveAsTextFile(path: String, codec: Class[_ <: CompressionCodec]): Unit

Definition Classes
RDD
def saveAsTextFile(path: String): Unit

Definition Classes
RDD
def select(columnIndexes: List[Int]): TransformableRDD

Returns a new TransformableRDD containing values of @columnIndexes
Returns a new TransformableRDD containing values of @columnIndexes
columnIndexes
A number of integer values specifying the columns that will be used to create the new table
returns
TransformableRDD
def select(columnIndex: Int): RDD[String]

Returns a RDD of given column
Returns a RDD of given column
columnIndex
Column index
returns
RDD[String]

Definition Classes
AbstractRDD
def setName(_name: String): TransformableRDD.this.type

Definition Classes
RDD
def smooth(columnIndex: Int, smoothingMethod: SmoothingMethod): RDD[Double]

Returns a new RDD containing smoothed values of @columnIndex using @smoothingMethod
Returns a new RDD containing smoothed values of @columnIndex using @smoothingMethod
columnIndex
Column Index
smoothingMethod
Method that will be used for smoothing of the data
returns
RDD<Double>
def sortBy[K](f: (String) ⇒ K, ascending: Boolean, numPartitions: Int)(implicit ord: Ordering[K], ctag: ClassTag[K]): RDD[String]

Definition Classes
RDD
def sparkContext: SparkContext

Definition Classes
RDD
def splitByDelimiter(column: Int, delimiter: String, retainColumn: Boolean = false, maxSplit: Int = 1): TransformableRDD

Returns a new TransformableRDD by splitting the @column by the delimiter provided
Returns a new TransformableRDD by splitting the @column by the delimiter provided
column
Column index of the value to be split
delimiter
delimiter or regEx that will be used to split the value @column
retainColumn
false when you want to remove the column value at @column in the result TransformableRDD
maxSplit
Maximum number of split to be added to the result TransformableRDD
returns
TransformableRDD
def splitByFieldLength(column: Int, fieldLengths: List[Int], retainColumn: Boolean = false): TransformableRDD

Returns a TransformableRDD by splitting the @column according to the specified lengths
Returns a TransformableRDD by splitting the @column according to the specified lengths
column
Column index of the value to be split
fieldLengths
List of integers specifying the number of character each split value will contains
retainColumn
false when you want to remove the column value at @column in the result TransformableRDD
returns
TransformableRDD
def subtract(other: RDD[String], p: Partitioner)(implicit ord: Ordering[String]): RDD[String]

Definition Classes
RDD
def subtract(other: RDD[String], numPartitions: Int): RDD[String]

Definition Classes
RDD
def subtract(other: RDD[String]): RDD[String]

Definition Classes
RDD
final def synchronized[T0](arg0: ⇒ T0): T0

Definition Classes
AnyRef
def take(num: Int): Array[String]

Definition Classes
RDD
def takeOrdered(num: Int)(implicit ord: Ordering[String]): Array[String]

Definition Classes
RDD
def takeSample(withReplacement: Boolean, num: Int, seed: Long): Array[String]

Definition Classes
RDD
def toDebugString: String

Definition Classes
RDD
def toDoubleRDD(columnIndex: Int): RDD[Double]

Returns a double RDD of given column index
Returns a double RDD of given column index
columnIndex
Column index
returns
RDD[Double]

Definition Classes
AbstractRDD
def toJavaRDD(): JavaRDD[String]

Definition Classes
RDD
def toLocalIterator: Iterator[String]

Definition Classes
RDD
def toRDD: RDD[String]

Returns RDD
Returns RDD
returns
RDD[String]

Definition Classes
AbstractRDD
def toString(): String

Definition Classes
RDD → AnyRef → Any
def top(num: Int)(implicit ord: Ordering[String]): Array[String]

Definition Classes
RDD
def treeAggregate[U](zeroValue: U)(seqOp: (U, String) ⇒ U, combOp: (U, U) ⇒ U, depth: Int)(implicit arg0: ClassTag[U]): U

Definition Classes
RDD
def treeReduce(f: (String, String) ⇒ String, depth: Int): String

Definition Classes
RDD
def union(other: RDD[String]): RDD[String]

Definition Classes
RDD
def unique(columnIndex: Int): RDD[String]

Returns a new TransformableRDD containing the unique elements in the specified column
Returns a new TransformableRDD containing the unique elements in the specified column
columnIndex
Column Index
returns
RDD<String>
def unpersist(blocking: Boolean): TransformableRDD.this.type

Definition Classes
RDD
def validateColumnIndex(columnIndexes: List[Int]): Unit

Attributes
protected
Definition Classes
AbstractRDD
def validateColumnIndex(columnIndex: Int): Unit

Attributes
protected
Definition Classes
AbstractRDD
def validateNumericColumn(columnIndex: Int): Unit

Attributes
protected
Definition Classes
AbstractRDD
final def wait(): Unit

Definition Classes
AnyRef
Annotations
@throws( ... )
final def wait(arg0: Long, arg1: Int): Unit

Definition Classes
AnyRef
Annotations
@throws( ... )
final def wait(arg0: Long): Unit

Definition Classes
AnyRef
Annotations
@throws( ... )
def zip[U](other: RDD[U])(implicit arg0: ClassTag[U]): RDD[(String, U)]

Definition Classes
RDD
def zipPartitions[B, C, D, V](rdd2: RDD[B], rdd3: RDD[C], rdd4: RDD[D])(f: (Iterator[String], Iterator[B], Iterator[C], Iterator[D]) ⇒ Iterator[V])(implicit arg0: ClassTag[B], arg1: ClassTag[C], arg2: ClassTag[D], arg3: ClassTag[V]): RDD[V]

Definition Classes
RDD
def zipPartitions[B, C, D, V](rdd2: RDD[B], rdd3: RDD[C], rdd4: RDD[D], preservesPartitioning: Boolean)(f: (Iterator[String], Iterator[B], Iterator[C], Iterator[D]) ⇒ Iterator[V])(implicit arg0: ClassTag[B], arg1: ClassTag[C], arg2: ClassTag[D], arg3: ClassTag[V]): RDD[V]

Definition Classes
RDD
def zipPartitions[B, C, V](rdd2: RDD[B], rdd3: RDD[C])(f: (Iterator[String], Iterator[B], Iterator[C]) ⇒ Iterator[V])(implicit arg0: ClassTag[B], arg1: ClassTag[C], arg2: ClassTag[V]): RDD[V]

Definition Classes
RDD
def zipPartitions[B, C, V](rdd2: RDD[B], rdd3: RDD[C], preservesPartitioning: Boolean)(f: (Iterator[String], Iterator[B], Iterator[C]) ⇒ Iterator[V])(implicit arg0: ClassTag[B], arg1: ClassTag[C], arg2: ClassTag[V]): RDD[V]

Definition Classes
RDD
def zipPartitions[B, V](rdd2: RDD[B])(f: (Iterator[String], Iterator[B]) ⇒ Iterator[V])(implicit arg0: ClassTag[B], arg1: ClassTag[V]): RDD[V]

Definition Classes
RDD
def zipPartitions[B, V](rdd2: RDD[B], preservesPartitioning: Boolean)(f: (Iterator[String], Iterator[B]) ⇒ Iterator[V])(implicit arg0: ClassTag[B], arg1: ClassTag[V]): RDD[V]

Definition Classes
RDD
def zipWithIndex(): RDD[(String, Long)]

Definition Classes
RDD
def zipWithUniqueId(): RDD[(String, Long)]

Definition Classes
RDD

Deprecated Value Members

def filterWith[A](constructA: (Int) ⇒ A)(p: (String, A) ⇒ Boolean): RDD[String]

Definition Classes
RDD
Annotations
@deprecated
Deprecated
(Since version 1.0.0) use mapPartitionsWithIndex and filter
def flatMapWith[A, U](constructA: (Int) ⇒ A, preservesPartitioning: Boolean)(f: (String, A) ⇒ Seq[U])(implicit arg0: ClassTag[U]): RDD[U]

Definition Classes
RDD
Annotations
@deprecated
Deprecated
(Since version 1.0.0) use mapPartitionsWithIndex and flatMap
def foreachWith[A](constructA: (Int) ⇒ A)(f: (String, A) ⇒ Unit): Unit

Definition Classes
RDD
Annotations
@deprecated
Deprecated
(Since version 1.0.0) use mapPartitionsWithIndex and foreach
def mapPartitionsWithContext[U](f: (TaskContext, Iterator[String]) ⇒ Iterator[U], preservesPartitioning: Boolean)(implicit arg0: ClassTag[U]): RDD[U]

Definition Classes
RDD
Annotations
@DeveloperApi() @deprecated
Deprecated
(Since version 1.2.0) use TaskContext.get
def mapPartitionsWithSplit[U](f: (Int, Iterator[String]) ⇒ Iterator[U], preservesPartitioning: Boolean)(implicit arg0: ClassTag[U]): RDD[U]

Definition Classes
RDD
Annotations
@deprecated
Deprecated
(Since version 0.7.0) use mapPartitionsWithIndex
def mapWith[A, U](constructA: (Int) ⇒ A, preservesPartitioning: Boolean)(f: (String, A) ⇒ U)(implicit arg0: ClassTag[U]): RDD[U]

Definition Classes
RDD
Annotations
@deprecated
Deprecated
(Since version 1.0.0) use mapPartitionsWithIndex
def toArray(): Array[String]

Definition Classes
RDD
Annotations
@deprecated
Deprecated
(Since version 1.0.0) use collect

class TransformableRDD extends AbstractRDD

Instance Constructors

new TransformableRDD(parent: RDD[String], fileType: FileType = ...)

Value Members

final def !=(arg0: AnyRef): Boolean

final def !=(arg0: Any): Boolean

final def ##(): Int

def ++(other: RDD[String]): RDD[String]

final def ==(arg0: AnyRef): Boolean

final def ==(arg0: Any): Boolean

def addColumnsFrom(otherRDD: TransformableRDD): TransformableRDD

def aggregate[U](zeroValue: U)(seqOp: (U, String) ⇒ U, combOp: (U, U) ⇒ U)(implicit arg0: ClassTag[U]): U

final def asInstanceOf[T0]: T0

def cache(): TransformableRDD.this.type

def cartesian[U](other: RDD[U])(implicit arg0: ClassTag[U]): RDD[(String, U)]

def checkpoint(): Unit

def clearDependencies(): Unit

def clone(): AnyRef

def clusters(columnIndex: Int, clusteringAlgorithm: ClusteringAlgorithm): Clusters

def coalesce(numPartitions: Int, shuffle: Boolean)(implicit ord: Ordering[String]): RDD[String]

def collect[U](f: PartialFunction[String, U])(implicit arg0: ClassTag[U]): RDD[U]

def collect(): Array[String]

val columnLength: Int

def compute(split: Partition, context: TaskContext): Iterator[String]

def context: SparkContext

def count(): Long

def countApprox(timeout: Long, confidence: Double): PartialResult[BoundedDouble]

def countApproxDistinct(relativeSD: Double): Long

def countApproxDistinct(p: Int, sp: Int): Long

def countByValue()(implicit ord: Ordering[String]): Map[String, Long]

def countByValueApprox(timeout: Long, confidence: Double)(implicit ord: Ordering[String]): PartialResult[Map[String, BoundedDouble]]

def deduplicate(primaryKeyColumns: List[Int]): TransformableRDD

def deduplicate(): TransformableRDD

final def dependencies: Seq[Dependency[_]]

def distinct(): RDD[String]

def distinct(numPartitions: Int)(implicit ord: Ordering[String]): RDD[String]

def drop(columnIndex: Int, columnIndexes: Int*): TransformableRDD

def duplicates(primaryKeyColumns: List[Int]): TransformableRDD

def duplicates(): TransformableRDD

def duplicatesAt(columnIndex: Int): RDD[String]

final def eq(arg0: AnyRef): Boolean

def equals(arg0: Any): Boolean

def filter(f: (String) ⇒ Boolean): RDD[String]

def finalize(): Unit

def first(): String

def firstParent[U](implicit arg0: ClassTag[U]): RDD[U]

def flag(symbol: String, markerPredicate: (RowRecord) ⇒ Boolean): TransformableRDD

def flatMap[U](f: (String) ⇒ TraversableOnce[U])(implicit arg0: ClassTag[U]): RDD[U]

def fold(zeroValue: String)(op: (String, String) ⇒ String): String

def foreach(f: (String) ⇒ Unit): Unit

def foreachPartition(f: (Iterator[String]) ⇒ Unit): Unit

def getCheckpointFile: Option[String]

final def getClass(): Class[_]

def getDependencies: Seq[Dependency[_]]

final def getNumPartitions: Int

def getPartitions: Array[Partition]

def getPreferredLocations(split: Partition): Seq[String]

def getStorageLevel: StorageLevel

def glom(): RDD[Array[String]]

def groupBy[K](f: (String) ⇒ K, p: Partitioner)(implicit kt: ClassTag[K], ord: Ordering[K]): RDD[(K, Iterable[String])]

def groupBy[K](f: (String) ⇒ K, numPartitions: Int)(implicit kt: ClassTag[K]): RDD[(K, Iterable[String])]

def groupBy[K](f: (String) ⇒ K)(implicit kt: ClassTag[K]): RDD[(K, Iterable[String])]

def hashCode(): Int

val id: Int

def impute(columnIndex: Int, strategy: ImputationStrategy, missingHints: List[String]): TransformableRDD

def impute(column: Int, strategy: ImputationStrategy): TransformableRDD

def inferType(columnIndex: Int): DataType

def intersection(other: RDD[String], numPartitions: Int): RDD[String]

def intersection(other: RDD[String], partitioner: Partitioner)(implicit ord: Ordering[String]): RDD[String]

def intersection(other: RDD[String]): RDD[String]

def isCheckpointed: Boolean

def isEmpty(): Boolean

final def isInstanceOf[T0]: Boolean

def isTraceEnabled(): Boolean

final def iterator(split: Partition, context: TaskContext): Iterator[String]

def keyBy[K](f: (String) ⇒ K): RDD[(K, String)]

def listFacets(columnIndexes: List[Int]): TextFacets

def listFacets(columnIndex: Int): TextFacets

def localCheckpoint(): TransformableRDD.this.type